首页>科技>资讯
高质量数据建设:三大瓶颈与三大趋势
人民政协网6月20日电 6月18-19日,由中国信通院、大数据技术标准推进委员会承办的2025数据智能大会在京召开。大会主论坛上,中国信通院云计算与大数据研究所所长何宝宏对《数据智能研究报告(2025年)》(以下简称《报告》)进行了发布并解读。
近年来,伴随生成式人工智能技术的突破,人工智能成为数据要素价值释放的关键途径和有效手段。大数据产业与人工智能产业间的关系也从单向赋能转化为深度融合,数据智能产业应运而生。数智协同,共同形成改变物理世界格局、重塑数字世界秩序的核心力量。
《报告》显示,2024年至今,数据智能产业剧烈变革,取得系列突破——从政策角度来看,我国密集出台一系列政策,开展“人工智能+”行动,推动高质量数据集建设,加速数据智能技术与各行业的深度融合,为数据智能产业注入了强劲动力;从技术角度看,DeepSeek的横空出世颠覆了 “高算力和高投入是发展人工智能唯一途径”的固有认知,引领从业者进入以算法和模型架构优化为主,同时高度重视数据质量与规模、理性提高算力的新时期;从应用角度看,智能体的出现进一步降低了数据智能技术的应用门槛,推动了数据智能技术在更多领域的落地,加速了千行百业的数智化转型。
《报告》同时显示,随着产业和技术的持续发展,数据智能产业数据、算法、应用、安全四大核心领域相辅相成、紧密协作,构筑了数据智能产业的完整链条。其中:数据是数据智能产业的基石;算法是数据智能产业的引擎;应用是数据智能产业的牵引;安全是数据智能产业的保障。
值得一提的是,高质量数据建设过程中面临缺乏落地实践方法论、技术能力存在短板及数据流通机制不完善这三大瓶颈,也在某种程度上
《报告》显示,当前,业界在高质量数据集建设方面面临实践方法论缺失问题。举例来说,行业大模型的数据需求呈现出极强的多样性,不同行业、部门对模型场景数据的需求千差万别,涵盖了从分析、决策到生成等多种任务需求,同时涉及预训练、微调、反馈强化学习等不同阶段。这一复杂过程需要对来自多个数据源、多种数据类型的数据融合对齐,极大地增加了数据处理和治理的复杂度,而目前在这一领域缺乏成熟的实践方法论进行有效指导。
而数据采集、清洗、处理和质量评估阶段,存在的问题同样不容小觑。由于不同系统、应用和平台产生的数据格式各异,
聚焦数据流通环节,《报告》认为,目前的数据流通机制并不完善。比较明显的是在企业数据层面,行业高价值数据多掌握在平台型企业或产业龙头企业中,出于数据安全、商业竞争、责任规避等原因,数据资产往往被封闭运营,极少以结构化、标准化形式向外部提供,而一些尝试对外提供数据资源的企业也普遍面临定价机制不清、数据使用授权不规范、数据变现路径模糊等障碍,进一步削弱数据流通积极性。在当前政策积极引导的背景下,企业应尽快补齐机制短板,加强数据流通底座和相关技术工具研发,推动数据可信汇聚与使用。
当数字经济步入深水区,高质量数据建设被提上日程。《报告》提出,面对日益丰富的海量数据和复杂的应用场景,仅追求数据数量与规模已无法满足智能化决策和业务精细化管理的需求,提升数据质量、数据价值已成为企业和政府部门工作的重心。当前和未来一段时间,高质量数据建设呈现三大趋势:首先是数据集建设运营方法论逐步成熟,高质量数据集的建设与运营将更加系统化、规范化和高效化,为模型训练及数据智能应用开发提供坚实基础;其次,多模态数据处理技术将加速创新,例如在智能驾驶领域,多模态技术将助力车辆更精准地感知路况并做出快速反应;再次,多方参与将形成协同生态,随着数据定价、数据权属、收益分配等机制的完善和生态内共识规则的不断明确,企业将获得更清晰的运营指引和更有力的激励机制,将推动企业高质量数据集持续运营,从而更好赋能数据要素市场发展。 (崔吕萍)
编辑:马嘉悦