多模态AI大模型民爆行业安全监控场景应用测评情况报告-中国工业互联网研究院

为贯彻落实党中央国务院关于促进人工智能发展的决策部署，中国工业互联网研究院联合香港科技大学，深入研究人工智能大模型在工业领域的应用性能、技术架构、标准体系，在此基础上，形成系列研究报告。

结合工业企业大模型应用情况调研，本报告在原有工业知识问答准确性测评的基础上，新增多模态大模型在民爆行业安全监控场景的应用测评，构建民爆行业应用测试数据集，对国内外具有代表性的大模型进行测试，供业界进行参考。

图片11111.png

多模态大模型是最重要的人工智能的前沿发展方向之一，指的是将文本、图像、视频、音频等多模态信息联合起来进行训练的模型。民爆行业指从事民用爆破器材的科研、生产、销售、储运、爆破工程设计、施工服务、质量检测、进出口等经济活动的企业总称。安全监控是多模态大模型在民爆行业应用的主要场景，包括防护装备监测、行为监测、事故监测、区域安全监测、危险车辆监测等细分场景。

图片212222.png

测评流程上，首先，根据企业调研研判典型应用场景；第二，基于工业语料库构建，选取细分场景图片，形成场景测试集合；第三，人工进行测试集验证，形成提示词和评分标准；第四，基于测试集对模型进行测试，结合大模型评分标准使用高性能大模型分析，产出判分结果。

图片33333.png

总体来看，多模态大模型在民爆行业安监场景的应用能力相对成熟，综合能力为83分，最优模型综合能力超90分。对比国内外，国外大模型在行为监测、事故监测、危险车辆监测细分场景稍具领先优势，对于防护装备监测和区域安全监测等领域，国内外水平接近。从应用场景的细分能力看，危险车辆监测、事故监测、行为监测等领域大模型准确度较高，具备一定应用成熟度。

场景测评一：防护装备监测

防护装备监测场景是民爆行业中对作业人员的防护装备穿戴情况进行监测的关键环节，确保操作人员按照要求穿戴安全帽、工作服等必要的防护装备，以下是大模型回答对比情况，详细结果见图1。

领先大模型回答：

图片中显示了两名工人在作业现场进行铲土工作。他们身穿红色防护服，其中一人戴着蓝色安全帽，另一人戴着红色安全帽。两人都佩戴了手套，且站在一个看似采石场或矿场的地方。在这张图片中，没有发现有人员未佩戴安全帽的现象。两名工人都正确佩戴了安全帽。

落后大模型回答：

图片中显示了两名工人正在进行挖掘工作。他们都穿着红色的安全服，手持铁锹。背景是岩石和一些散落的白色袋子。然而，在图片的右下角，有一名工人没有戴安全帽。

本场景测评发现：

（1）对于防护装备监测场景，GPT-4o、文心一言、星火处于领先地位。

（2）国内外最高分为83分，说明该场景应用的准确度有待提升。

（3）国际平均成绩高于国内，国内大模型在该领域需加强训练和数据集积累。

图片444444.png

图1 防护装备监测

场景测评二：行为监测

行为监测场景是对民爆行业作业人员和库管人员行为进行全面监测的重要手段，包含对操作手机、抽烟、睡觉、人员倒地、在岗离岗等行为的检测，以下是大模型回答对比情况，详细结果见图2。

领先大模型回答：

图片中有一名戴着黄色安全帽的工人。他穿着深色的工作服，站在一台设备旁边。设备上有一个明显的“禁止吸烟”标志。工人右手拿着一根香烟，左手正要点燃香烟。从图片中可以明确看到，工人正在点燃香烟。根据图片中的“禁止吸烟”标志，可以判断这是一个不允许吸烟的区域。然而，工人并未遵守规定，有抽烟的行为。

落后大模型回答：

这张图片显示了一个戴着黄色安全帽、穿着深色工作服的男性正在点燃一支香烟。他站在一些工业设备旁边，背景中有一个禁止吸烟的标志。从图片中无法直接判断该男子是否在抽烟，因为他的嘴边并没有香烟。

本场景测评发现：

（1）对于人员作业行为监测，前三名分别为GPT-4o、Gemini、GLM4。

（2）国内外顶尖模型在行为监测场景得分接近100分，具有较高的应用潜力；

（3）国外多模态大模型在行为监测场景处于领先地位，平均得分接近100分，国内平均得分为86分，与国外存在一定的差距。

蓝信+图片_0880c6e3041083eddb03.png

图2 行为监测

场景测评三：事故监测

事故监测场景用于监测和预警民爆作业现场和存储仓库中的各种事故，如火灾、爆炸、设备损坏等安全事故，以下是大模型回答对比情况，详细结果见图3。

领先大模型回答：

这张图片显示了一个大型的工业或商业建筑内部，可能是一个仓库或存储设施。从图片中可以看到，天花板上有大量的烟雾，这表明可能发生了火灾。地面上散落着许多白色的袋子和其他物品，可能是被火灾影响的货物。此外，还可以看到一些机械设备，如叉车和传送带。根据图片中的信息，我们可以推断出这是一个发生火灾的仓库。

落后大模型回答：

图片中显示了一个库存仓库的场景，仓库内堆放着大量白色的袋装物品和其他杂物。在仓库的远处可以看到一些亮光，并伴有一些烟雾，黑烟布满了仓库的上方。亮光和烟雾可能是由于灯光或其他原因造成的。在这张图片中，没有发生火灾。仓库内的亮光和烟雾可能只是由于灯光照射或其他正常操作产生的，并不是火灾。

本场景测评发现：

（1）对于事故监测场景，GPT-4o表现最优，国内的文心一言、Yi-VL位列其后；

（2）国内外顶尖模型在行为监测场景得分在90分左右，顶尖模型在该场景的应用成熟度较高；

（3）国外大模型平均得分为88分，国内大模型平均得分为80分，国内外大模型存在一定的差距。

图片66666.png

图3 事故监测

场景测评四：区域安全监测

区域安全监测场景是监控特定区域内的安全状况，确保区域内的人员、环境处于正常状态，例如识别未经授权的人员进入限制区域等，以下是大模型回答对比情况，详细结果见图4。

领先大模型回答：

图片中显示了一个作业现场的受控区域。现场有多个大型设备部件，地面上划分了多个作业区域。几名工人身穿橙色防护服和安全帽，正在进行施工或检查工作。现场的设备和工具整齐摆放，一些区域用安全锥和警戒线隔离开来。在这张图片中，发现该受控区域存在人员入侵的现象。尽管人员穿戴了适当的防护装备，但该区域内不应有任何人员出现。

落后大模型回答：

这张图片展示了一个施工现场的监控画面。现场被划分为不同的区域，每个区域都设有明确的标记和隔离措施，例如围栏和警示标志。图像中心部分，有一个圆形的结构，这个结构似乎是一个大型管道或设备的一部分。地面上散布着各种工具和材料，表明建设工作正在积极进行。此外，还可以看到一台挖掘机和其他几辆工程车辆停放在一旁。从图片中没有明显的人员入侵迹象。

本场景测评发现：

（1）对于区域安全监测场景，Gemini、星火、混元在场景中表现最好，GPT-4o和其他国产模型表现相当。

（2）国内外模型最高得分为90分，顶尖模型在该场景的应用成熟度较高。

（3）国外大模型平均得分为85分，国内大模型平均得分为82分，国内模型有待提升。

图4区域安全监测.jpg

图4 区域安全监测

场景测评五：危险车辆监测

危险车辆监测场景是对进入或在内行驶的车辆进行监控，以确保车辆遵守规定的行驶路线、速度限制和停放要求，如存储仓库是否有违规车辆进入等，以下是大模型回答对比情况，详细结果见图5。

领先大模型回答：

这张图片显示了一个看起来像是仓库外部的区域。画面中心是一个宽阔的、沥青铺成的道路，两边有停车位，其中部分停有摩托车。画面左侧有一排仓库大门，门上方有遮阳棚。整个场景在阳光照射下，显示出清晰的阴影，说明拍摄时间可能是在一天中阳光较为强烈的时刻。从这张截图中信息判断，没有电动车进入该区域。

落后大模型回答：

这张图片显示了一个宽阔的水泥道路，道路两侧是建筑物。在左侧的建筑前有一排围栏，而在右侧则堆放着一些箱子和其他物品。阳光从画面的上方照射下来，形成了明暗对比。图片中右侧靠近围栏的停放着1辆电动车。根据图片信息判断，有电动车进入该区域。

本场景测评发现：

（1）对于危险车辆监测场景，GPT-4o和Gemini位于前两名，紧随其后的是通义千问、星火、Yi-VL和混元。

（2）国外大模型平均得分接近满分，应用成熟度较高。

（3）国内大模型最高得分为90分，国内平均水平为87分，与国外存在较大差距。

图片8888.png

图5 危险车辆监测

总体评价

（1）场景能力方面，多模态大模型在民爆行业安全监控场景平均准确度得分在83分以上，最优模型准确度得分超过90分，顶尖模型具有较大的应用潜力；

（2）国内外模型对比方面，国外大模型在行为监测、事故监测、危险车辆监测细分场景具备一定优势；国内大模型在区域安全监测场景的能力与国际接近。

（3）价格方面，大模型的采购成本和部署成本往往高于传统CV模型，但大模型可以由一个模型支持多个应用场景，新增场景只需改变提示词，因此维护成本更低，边际效益高。

后续规划

1.基础应用能力研究

紧跟多模态大模型的基础应用能力和发展态势，扩展大模型基础应用能力测评维度。

2.行业应用场景挖掘

加强重点行业场景的应用需求调研，研判大模型在工业领域已用和潜在应用场景。

3.测评体系构建

完善工业语料库，优化测评工具，构建不同场景大模型应用测评能力。

4.丰富指数体系

从国家、行业、场景应用、模型等维度不断丰富中国AI大模型应用指数。

5.应用试点推广

聚焦十大工业重点行业，定期遴选大模型应用试点进行推广。

图片99999.png

图片100000.png

图片11.png