前言
高质量数据是提升模型应用效能、增强模型泛化能力、保障模型稳定可信的关键基础,是发展以大模型为代表的人工智能技术的重要支撑。为加速新质生产力赋能新型工业化,推动人工智能大模型技术进步,更好地发挥数据要素价值,中国工业互联网研究院联合香港科技大学,在进行深入调研和充分交流的基础上,共同构建面向制造业场景的人工智能语料数据质量评估体系。
(一)评价体系
针对工业语料的特点,在通用数据质量评价标准的6个指标的基础上(GB/T 36344-2018),提出专业性、通用性、稠密性、均衡性、安全合规性、全面性、可回溯性、可解释性等8个工业语料指标,形成面向工业语料的质量评价体系。
专业性等新增工业语料测评方法如下:专业性指数据蕴含面向特定工业行业领域的有效信息,可用于解决专业领域问题,具体表现为数据内容与所在领域的知识体系和业务流程高度匹配,具备清晰、准确、深入的行业专业知识特征。测试中,专业性分采用百分制,基于采样数据是否为行业专业语料的比例进行计算,核心目的是评估预料中非相关性数据的比例。
通用性指数据具有跨部门、跨企业、跨场景的广泛适用性,能够为不同业务决策提供有效支撑,具有较强的可迁移性。测试中,将通用性分为三个等级:企业级,集团级和行业级、通用级。企业级为企业自制数据和语料,仅适用特定单一企业,如自制设备操作手册等;集团级适用于企业集团内部或具有紧密合作关系的关联企业,但不具备全行业范围内的通用性;行业级为通用数据,适用于行业内通用的设备和工艺,如行业工业知识等;通用级为跨行业通用语料,如热力学、传热学、电磁学等跨行业语料。
稠密性指数据内容高度集中且重复率低,数据记录的条目密度和信息价值密度较高,单位数据所含的信息量丰富且多样化。测试中,基于随机采样后数据词嵌入的余弦相似度计算,根据相似度估算数据的重复比率。
均衡性指数据采集在时间、空间、类别等各个维度上分布均匀,不存在明显偏差或不平衡现象。数据的均衡性确保了模型训练和评估过程中数据覆盖全面、客观,避免因数据偏斜而导致的决策失误或预测偏差,提高模型泛化性能和决策结果的可靠性。测试中重点对数据的采集时间、设备来源等进行考察。
安全合规性指数据中应避免涉及危化品制造、毒品制作工艺、违规操作指导、个人企业隐私等敏感、危险、隐私信息,对于工业领域,应明确界定敏感内容边界,对可能存在安全隐患的数据进行及时标注和严格管控。安全合规性的要求可防止因数据安全问题引发的事故或违法风险。
全面性指测试内容覆盖是否全面,对于面向行业的通用类知识语料数据,全面性指是否可覆盖该行业学科知识和生产制造各环节。对于面向特定场景的数据集,暂不进行全面性测试。测试中,采用百分制,对数据覆盖的全面性进行评估。
可回溯性指是否包含数据的来源,数据是否能够追溯到其来源、生成过程、以及任何中间转换步骤。对于问题诊断、数据审计和合规性至关重要。测试中,检查数据是否标注来源、转换等。
可解释性指数据是否易于被用户理解和准确解释,体现为数据的含义、数字、单位是否清晰明确,便于用户直观把握数据所表达的信息和价值。具备良好可解释性的数据应具备明确的定义、规范的表示方法,以确保数据使用者能够快速准确地理解数据的内涵与边界,从而避免因数据模糊或歧义带来的误解或决策偏差。测试中,通过专家对采样数据进行理解,评价其可解释性,每条语料使用是否表述清楚进行评价,然后采用百分制进行汇总评分。
面向制造业场景的人工智能语料数据质量评估体系是一套全面覆盖数据集指标体系、评测工具及评测实施方案的综合性测评体系,目的是通过科学、系统的方法,对数据集的质量进行客观、公正的评测,确保数据集的数据质量,为大模型研发提供可靠的数据集支持。促进数据要素的流通和利用,推动技术创新和服务升级,共同应对大模型时代对数据集质量的挑战。
(二)工作计划
下一步,中国工业互联网研究院结合人工智能技术发展趋势和行业高质量数据集建设需求持续完善人工智能数据集评估体系,开展数据集测评,诚邀各位行业专家共同参与。
(三)致 谢
本测评体系是在与中车研究院有限公司、山东省计算中心(国家超级计算济南中心)等企业一道进行深入调研和充分交流的基础上完成的,在此谨向给予大力支持和协助的各企业及专家表示衷心感谢。
(四)联系方式
李老师:18519316049
邱老师:18823660419