近期,计算机视觉领域最具权威性的国际顶级学术会议之一ICCV2025正式放榜,如视首席科学家潘慈辉及其团队科研成果《EDM: Efficient Deep Feature Matching》被接收并入选为Highlight论文。该论文聚焦高效的半稠密图像特征匹配方向,提出突破性解决方案。
ICCV(国际计算机视觉大会)与CVPR(计算机视觉与模式识别会议)、ECCV(欧洲计算机视觉会议)一同被视为计算机视觉领域的三大顶会,在全球范围内有着极高的学术地位和行业影响力。数据显示,今年ICCV共收到11239份有效投稿,最终接受2698篇论文,录用率仅为24%。
本次入选ICCV 2025,是如视的科研成果继CVPR 2023、CVPR 2022后又一次入选国际顶会,代表着如视在视觉匹配这一重要的图像处理研究内容上达到了国际前沿水平,也彰显了如视将技术创新和产业应用相结合的硬实力。
ICCV2025
打破技术瓶颈,填补学术空白
尽管基于深度学习的特征匹配方法近年取得显著精度提升,但主流研究长期受限于将匹配视为底层任务的传统认知,手工设计的特征描述以及当前主流的神经网络的架构设计局限在浅且宽的范式,导致深层语义信息捕获不足且计算效率低下。
针对现有瓶颈,如视做出以下的研究突破:
更深更强的特征提取
突破传统认知,采用深层网络捕捉高级语义信息,通过创新的 “相关性注入模块”,将深层特征的全局关联高效融入局部特征,兼顾精度与效率。
亚像素定位新范式
用轻量的、基于轴的双向回归头来估计亚像素级的细粒度匹配,避免了过往计算繁重的特征上采样和热力图定位特征点的问题。
匹配选择策略创新
为粗匹配和细匹配阶段都设计了新的匹配选择策略,在提升匹配精度的同时大幅优化计算效率。
和当前主流方法的精度和效率对比图
如视团队的研究成果,填补了真正高效的半稠密匹配器缺失这一学术空白,自研了目前最高效且性能非常有竞争力的半稠密匹配器,拥有广泛的应用前景。
流程图
如视产品的技术落地
作为基础视觉工具,这项特征匹配技术已在如视产品中得到应用,大幅提升了图像拼接的精度和效率。
例如,在多点位采集时,伽罗华可以凭借精准的特征匹配能力,确保空间关键点位的记录更精准,减少数据偏差;针对搭载多镜头的庞加莱通过校准不同镜头拍摄图像的特征关联,保障了多镜头画面在色彩、视角和空间坐标上的一致性,从源头避免因图像不一致导致的误差;同时,轻量版本的EDM技术支持端侧实现高效的位姿拼接,让设备在采集过程中能实时、流畅地完成空间数据的整合。在使用云台采集、手机拍全景图拼接时,系统的鲁棒性更佳,即使在复杂环境下也能实现流畅拼接。
与 LoFTR 和 EfficientLoFTR 相比,如视的方法在存在大视角变化和重复语义的场景中表现出更强的鲁棒性
再比如在博物馆的场景中,EDM通过精准的视觉变换算法实现自然的素材对齐,让高清细节照片与整体空间环境完美融合,仿佛原生生长在场景中,既保留细节清晰度,又不破坏空间的整体透视逻辑,使得用户在线观展体验更加自然。
更广阔的产业应用
从更广泛的产业实际应用出发,如视的这项成果可以通用于任何涉及到图像匹配的视觉任务。
在AR导航、自动驾驶、机器人视觉导航等空间智能领域,这项技术的价值也同样显著:通过实时匹配环境特征与预设数据,让 AR 虚拟信息精准叠加在真实场景上;辅助自动驾驶车辆迅速感知路况位置;让机器人能够在复杂环境中精确规划路径.....从底层提升各类空间交互任务的精度与可靠性。
技术的进步永不止步,荣登学界顶会是如视在此方向上长期积累的结果。如视将在空间数智化领域不断拓界,持续深耕技术研究与产业落地的闭环,为行业贡献更多前沿创新成果。