黄世泽（中凯科技股份首席技术官）受邀参加在“2024全球开发者先锋大会”上做视觉大模型在轨道交通应用主题报告

中凯科技股份

3月23-24日，“2024全球开发者先锋大会”（GDC）在上海徐汇盛大开幕。大会由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导，由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展（集团）有限公司、开放原子开源基金会主办。以“模速空间——开发者的模力之源”为主题，促进全球范围内最尖端技术、最热门议题和最先锋人才的深入交流与对话，以上海模速空间创新生态社区为抓手，不断优化生态环境，引导全球顶尖人才向上海汇聚，助推上海成为高科技产业高地[1]。作为国内人工智能发展高地，上海将支持通用大模型和垂直大模型的研发，推动大模型在金融、教育、医疗等典型领域的垂直应用。

主会场摄影图像

陈杰副市长致辞

大会期间，同济大学交通运输工程学院黄世泽副教授（中凯科技股份首席技术官）受邀参加全球开发者先锋大会数字城轨论坛“轨交大模型与可靠性工程”。

主题报告

参与讨论

论坛合照

黄世泽副教授（中凯科技股份首席技术官）在会议上发表演讲“视觉大模型及其在轨道交通弓网视频处理中的应用”，介绍了团队长期从事的轨道交通智能运维相关研究，以及将视觉大模型应用在轨道交通智能运维的相关工作，包括将Segment Anything Model（SAM)[2]应用于弓网支撑装置的分割，将Recognize Anything Model（RAM)[3]应用于列车运行环境的感知,以及对视觉大模型本质安全的探究。充分利用视觉大模型的优势，从已有的视频资源中挖掘大量有效信息并进行整合，在不需额外标注的情况下提取场景的语义信息，以辅助轨道交通智能运维工作。

Part.1/ 成功将SAM应用于弓网支撑装置分割

1. 成功将SAM应用于弓网支撑装置分割

根据《高速铁路接触网运行检修规则》，接触网零部件故障可能不会直接引起接触网跳闸等，但却导致接触网系统整体可靠性下降，增加事故隐患，这些零部件及设备的技术状态直接关乎高速铁路接触网的运行安全。弓网支撑装置分割效果会直接影响基于计算机视觉的零部件状态监测的检测效果，从复杂多变的背景中准确提取弓网支撑装置是后续零部件状态监测的重要基础。

弓网支撑装置分割任务存在像素级数据标注工作量大、背景复杂多变、天气情况多样、弓网几何结构多样的问题，针对存在的难点，团队提出基于SAM实现对车载视频的全景分割方法，实验表明基于SAM模型的半监督弓网支撑装置分割方法效果较好，分割示例如下：

图：基于SAM的弓网支撑装置分割效果

Part.2/ 探索RAM对列车运行环境的感知效果

列车运行环境感知依赖于传感器收集数据信息并分析，以实现状态监测和故障诊断，但存在大量“同质化”传感器，同时，受制于成本、空间的限制，难以布设新传感器。海量弓网视频的信息有待发掘，基于弓网视频实现列车运行环境感知可以充分利用现有资源，在不耗费额外资源的前提下实现对于环境的感知。传统深度学习方法采用人工构建的分类样本集作为训练数据，耗时耗力，并且难以穷尽所有分类与识别环境细节。

基础模型RAM拥有“识别一切”能力，无需人工标注，可以高精度识别任何常见类别。基于RAM的识别结果，通过分析标签时序图特征整体可以感知列车全过程运行环境，感知结果与列车实际运行环境吻合度较高，示例如下：

图：列车运行环境感知示例

未来，团队将继续探究视觉大模型在环境感知方面的应用，研究大模型在不同的视觉语义理解场景中的应用，并为轨道交通领域的多模态融合感知提供研究基础。

Part.3/ 探究视觉大模型的本质安全威胁

团队聚焦列车行驶环境感知场景下的对抗样本攻防问题，围绕列车（有轨电车）行驶环境感知对抗样本攻防目标，障碍物检测、轨行区识别以及交警指挥行为姿态估计场景，解决对抗样本攻击下列车行驶环境可信感知科学问题。针对SAM模型，团队提出具有提示间迁移性的对抗攻击方法，攻击效果如下：

研究表明，SAM等视觉大模型与其他深度学习方法一样，存在对抗样本风险，对此，团队也将聚焦大模型安全性，考虑对抗样本对于大模型的风险，同步实现对抗样本防御，为平稳度过技术迭代升级时期提供支撑。

Part.4/ 展望

新一代模型最强的能力是生成，例如，Sora可以生成具有多个角色、包含特定运动的复杂场景。这对于稀缺样本生成扩充、提供感知算法测试场景、自动构建数字孪生场景均提供了潜在有力的工具。

图：生成模型的用途场景展望

会议结束后，中车、卡斯柯等企业围绕上述研究的落地展开了进一步交流。未来，探究大模型在轨道交通领域智能运维的应用与发展，将是团队继续追寻的目标，期待各位专家的指导。

中凯科技致力于智能监控管理平台的研发，实现企业管理的数字化，用数据为企业赋能，全面提升企业管理水平。

同济大学和浙江中凯20余年持续合作，未来将探索视觉大模型引入到中凯的监控管理平台。

继续滑动看下一个