以高质量数据“喂养”AI，提升模型智能成行业新焦点

发布时间： 2025-08-29 访问量：316

在人工智能领域，数据的质量正被视作决定模型“聪明”程度的关键。8月28日，一场以高质量数据集为主题的交流活动在贵阳举行。与会专家从学术界和企业界角度，就数据安全制度构建、技术防护手段升级与治理模式创新等议题展开讨论，为推动高质量数据集建设提供了思路与路径。

中国工程院院士吴世忠在发言中指出，我国在大模型训练方面拥有包括文献、方言、行业数据、民俗文化在内的多样化语料优势，资源总量位居国际前列。但他也强调，当前仍面临数据来源合规性与内容真实性等挑战。他提出应推进数据分级分类管理，强化脱敏公共数据的溯源能力，以保障大模型数据使用的安全可控。

中国移动数智化部副总经理陶涛则从实践角度指出，尽管数据是AI进化的重要基础，但目前仍存在私有数据开发利用不充分、质量差异大、相关技术尚未成熟等瓶颈。为支持高质量数据流动与运用，中国移动已建成集采集、传输、存储、计算与应用于一体的基础设施。目前每日采集数据量接近6PB，实时接入超2亿条/秒，涵盖50余类数据源。此外，公司还构建了覆盖全国的传输网络，以极高效率完成跨域数据调度——例如在5000公里距离传输1TB数据仅需两分钟。

活动同时公布了104个“高质量数据集典型案例”，覆盖农业、医疗、通信等多个垂直领域，显示出数据与行业深度融合的广泛前景。为进一步促进行业协作，中国信通院、中国移动等机构共同发起“高质量数据集领航计划”，旨在凝聚产业共识，构建开放生态，助推人工智能技术加速落地。

数据显示，截至2025年上半年，全国高质量数据集总量已突破3.5万个，累计交易额近40亿元。作为国家大数据综合试验区，贵州已发展200余家数据服务企业，发布金融、工业、医疗、商贸等领域的高质量数据集900余个，持续为AI训练提供优质“数据燃料”。