以高质量数据“喂养”AI,提升模型智能成行业新焦点
在人工智能领域,数据的质量正被视作决定模型“聪明”程度的关键。8月28日,一场以高质量数据集为主题的交流活动在贵阳举行。与会专家从学术界和企业界角度,就数据安全制度构建、技术防护手段升级与治理模式创新等议题展开讨论,为推动高质量数据集建设提供了思路与路径。
中国工程院院士吴世忠在发言中指出,我国在大模型训练方面拥有包括文献、方言、行业数据、民俗文化在内的多样化语料优势,资源总量位居国际前列。但他也强调,当前仍面临数据来源合规性与内容真实性等挑战。他提出应推进数据分级分类管理,强化脱敏公共数据的溯源能力,以保障大模型数据使用的安全可控。
中国移动数智化部副总经理陶涛则从实践角度指出,尽管数据是AI进化的重要基础,但目前仍存在私有数据开发利用不充分、质量差异大、相关技术尚未成熟等瓶颈。为支持高质量数据流动与运用,中国移动已建成集采集、传输、存储、计算与应用于一体的基础设施。目前每日采集数据量接近6PB,实时接入超2亿条/秒,涵盖50余类数据源。此外,公司还构建了覆盖全国的传输网络,以极高效率完成跨域数据调度——例如在5000公里距离传输1TB数据仅需两分钟。
活动同时公布了104个“高质量数据集典型案例”,覆盖农业、医疗、通信等多个垂直领域,显示出数据与行业深度融合的广泛前景。为进一步促进行业协作,中国信通院、中国移动等机构共同发起“高质量数据集领航计划”,旨在凝聚产业共识,构建开放生态,助推人工智能技术加速落地。
数据显示,截至2025年上半年,全国高质量数据集总量已突破3.5万个,累计交易额近40亿元。作为国家大数据综合试验区,贵州已发展200余家数据服务企业,发布金融、工业、医疗、商贸等领域的高质量数据集900余个,持续为AI训练提供优质“数据燃料”。
更多文章
-
沪上举行化学事故医学救援实战演练
一、实战复刻:协同联动筑牢救援闭环午后时分,一场模拟化学事故紧急医学救援的演习在沪正式拉开帷幕。场景设定为某化工企业生产区域发生有毒化学品泄漏,导致现场人员出现中毒症状。演习旨在检验本市应对此类突发事件时,各相关机构在预防、抢救、治疗等环节的衔接与处置水平。事故警报响起后,园区医疗站点率先行动,派出
-
山区药香漫科技 产学研共育致富苗
一、一线课堂:技术落地,药农易学深秋的渝东山区,薄雾轻笼,阵阵草药清香沁人心脾。近日,一支专注特色药材产业的科技服务队伍,相继深入多个区县的种植基地,围绕淫羊藿、山银花等作物,开展实地教学与技能传授,将一系列生态友好、高效益的栽培方法直接带到农户身边。在城口县的一处示范田里,当地种植户和合作社成员正
-
北大携手语料科技企业以海量语言数据库赋能智慧教育
1.不止于规模 专为中文语境定制的“学习资源库”这一获奖项目本质是一个聚焦语言习得的巨型资源集合,其独特之处在于深度整合了超过千亿级的词汇与语句,并特别汇集了数十亿份国内学习者产出的英文文本,实时记录各阶段学习轨迹。区别于广泛采集的通用资源,该库依据语言教学的专业逻辑进行了系统性构建。通过建立规范统一的
-
香港举办首届国际人工智能艺术节 科技融合艺术共探未来
香港首度迎来以“明日视界:虚实共生”为核心命题的国际人工智能艺术盛会,于会展中心正式启动。本次活动由紫荆文化集团推动,为期三日,力求构建亚洲领先的科技与艺术交汇平台,支持香港发展为国际科创与文化对话枢纽。众多来自全球的科学家、艺术家、企业及学术代表齐聚于此。香港特别行政区行政长官李家超以“集智显艺 融
-
科技着色长江岸,三峡红叶映红振兴路
一、成功破解“红不匀、红不久”困局长江三峡巫山段,每逢初冬,漫山红叶如霞似火。然而在过去,这绚丽的景色却受制于自然,呈现出颜色深浅不一、维持时间短暂的状况。重庆市林业科学研究院的专家冯大兰指出,作为景观主体的黄栌等树木,叶片变色深受气候与土壤条件影响,导致色彩斑驳、最佳观赏时间往往不足三十天,极大地
