(记者 张苏慧)行业高质量数据集建设现场会日前在江苏省南京市召开。会上表明,截至9月底,全国已建设高质量数据集总体量超500PB;7个数据标注基地引进和培育标注企业362家,标注从业人员达8.5万人,带动数据标注相关产值163亿元;我国日均Token消耗量已突破40万亿,和2024年初相比,增长了约400多倍。
点击输入图片描述(最多30字)
(图片来源:摄图网)
高质量、多维度的数据集是支撑大模型训练、应用的关键基础。中国电信作为数字时代重要的建设者与赋能者,积极布局,全面推进高质量数据集建设,推动产业发展。
高质量数据是数字化发展的关键要素
在数字经济时代,数据已成为驱动各行业发展的核心生产要素。正如石油是工业时代的血液,高质量数据集对数字经济的战略价值不言而喻。它既是人工智能模型训练的“燃料”,更是模型能力跃升的基石,其质量直接决定着模型的性能。
中国信息通信研究院副院长魏亮对此作出生动阐释:“如果说数据是大模型的‘原油’,那么高质量数据集就是经过提炼的‘汽油’。原始数据需要通过系统性的‘精炼’过程,去除杂质、增强结构性,才能成为支撑大模型精准认知数据规律、灵活适配多元场景的‘优质能源’。”这一比喻揭示了数据价值转化的核心逻辑:海量原始数据必须经过“炼化”才能释放真正的赋能潜力。
当前,随着大模型参数规模呈指数级增长、多模态能力持续拓展,数据需求正经历从“量级积累”到“质量跃迁”的关键转变。模型训练亟需覆盖更广泛的知识图谱与更多元的应用场景,对数据的多样性和代表性提出了更高标准。
我国高质量数据集建设进入加速期
在人工智能产业发展浪潮中,高质量数据集建设已成为核心战略方向,从国家顶层设计到地方创新实践,各行各业都在积极探索。
2023年12月,国家数据局等17部门联合印发《“数据要素×”三年行动计划(2024—2026年)》,强化场景需求牵引,带动数据要素高质量供给、合规高效流通。2024年,政府工作报告提出开展“人工智能+”行动,从顶层设计层面规划人工智能技术与大模型数据集建设。同年,《关于促进数据产业高质量发展的指导意见》首次明确提出“高质量数据集”,将其作为人工智能与实体经济融合的核心载体,并提出开发行业数据集的具体要求。
随后一系列政策相继发布,《关于促进数据标注产业高质量发展的实施意见》《关于促进企业数据资源开发利用的意见》以及《国家数据基础设施建设指引》均提出建设行业“高质量数据集”。推进数据集高质量发展已成为行业共识。2025年2月,国家数据局组织27个部委召开高质量数据集建设工作启动会,全力推动高质量数据集建设高效赋能行业发展。
地方层面,各地立足区域特色,积极探索高质量数据集建设创新路径,形成了各具特色、协同发展的良好局面。例如,近年来,南京集聚了超3000家数据企业,国家数据局认定的16个高质量数据集建设行业领域,在南京实现了基本全覆盖。南京把高质量数据集建设当作撬动数据要素价值、服务人工智能产业的核心抓手,从产业集聚、应用落地到开放合作,形成了“政策引领、创新驱动、产业集聚、应用丰富、开放合作”的发展格局。
在国家数据局发布首批104个具有推广示范价值的高质量数据集典型案例,中国电信申报的“网络大模型高质量数据集”从663个案例中脱颖而出。
中国电信“网络大模型高质量数据集”以“5+2”云网知识体系为坚实基础,以组织、流程、运营和安全为四大支柱,确立了科学体系化的建设方法。通过深度整合通信领域多源复杂数据,打造了6TB大规模、高质量、多模态领域数据集,并构建数百个场景化知识库。统一建设的启明知识管理平台提供高效数据集加工工具、分钟级建库工具、精准数据增强服务及动态管理能力,知识增强服务检索量已突破千万次,准确率稳定在90%以上。
技术创新驱动数据赋能千行百业
中国电信充分发挥数据要素乘数效应,通过构建行业级高质量数据集,为千行百业提供“数据驱动+智能决策”的数字化解决方案。
在工业领域,格罗瑞与无锡电信携手布局 “高端纺织行业5G+高质量数据集” 建设。该项目将聚焦纺织生产全流程的5G专网部署与工业级数据集构建,通过采集设备运行、工艺参数、质量检测等核心数据,为企业打造 “数据驱动 + 智能决策” 的数字化底座。
在低空领域,深圳电信高质量数据集已在多个重点场景应用。其中,无人机血液运输的飞行全流程监控与风险预警能力显著增强,运输效率提升75%,相较陆运节省85%以上时间成本;在直升机气象调度与应急响应中,实现分钟级动态调度高效协同,显著降低年均应急处置成本;在非法飞行识别中,构建多模态识别与反制模型,实现对“黑飞”行为的实时感知与管控。同时,深圳电信通过场景驱动与反馈迭代,项目数据集不断扩展与优化,形成可持续运营的行业级数据底座。
此外,在数字要素培育方面,中国电信构建的“网络运行数据集”“智能客服数据集”等通讯行业专属数据集,有效助力行业企业降本增效;“社会街道视频数据集”“方言语音数据集”等成果,持续助力社会治理与城市安全建设;在服务国计民生方面,中国电信的医疗卫健数据集已落地北京某三甲医院智能问诊服务,分诊准确率超过90%;文化旅游数据集落地云南丽江,能够准确识别95%以上的旅客需求;农业农村数据集落地雄安新区的“雄小农”智能交互示范应用,帮助农民实现增收超15%。