Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 

AddressCLIP:只需一张照片,精准定位街道地址

2024-09-15

2024 年 9 月 15 日,中科院自动化所与阿里云合作推出了街景定位大模型 AddressCLIP。该模型基于 CLIP 构建,只需一张照片即可实现街道级精度的定位。通过分析照片中的细节,模型能够给出具体的拍摄位置,并列举附近的多个候选地址。相关论文《AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization》已入选顶会 ECCV2024。

AddressCLIP 模型的核心在于其技术架构和数据集构建。该模型通过图像 – 文本对齐和图像 – 地理匹配两大关键技术,实现了街景定位。

  • 图像 – 文本对齐技术利用对比学习,将图像与地址和场景描述进行对齐。这一过程通过大量的图像和文本数据进行训练,使模型能够理解图像中的细节并将其与相应的地址信息匹配。- 图像 – 地理匹配技术通过流形学习约束图像特征与空间距离,使得模型能够在特征空间中定位图像。
    为了验证模型的有效性,研究团队构建了三个不同规模的数据集,分别来自匹兹堡和旧金山。这些数据集涵盖了多种城市环境和拍摄角度,为模型的训练和测试提供了丰富的样本。实验结果表明,AddressCLIP 在这些数据集上的表现优于现有的代表性迁移学习方法。

在模型训练方面,研究人员采用了端到端的训练框架,避免了传统两阶段方法中地理坐标预测和地址转换的复杂过程。通过直接对图像和地址进行对齐,AddressCLIP 不仅提高了定位精度,还减少了计算资源的消耗。

推理过程中,AddressCLIP 能够通过给定候选地址集的形式进行推理。模型将图像与各种地址的对齐,推理所用的候选文本可以是十分灵活与多样的形式,而非一定要按照训练集的书写规则。

AddressCLIP 的实际应用场景包括城市管理和规划、社交媒体和新闻报道等。例如,在城市巡查中,工作人员只需拍摄照片,模型即可自动识别并提供详细的地址信息。在社交媒体和新闻报道中,记者和用户可以通过上传照片,快速获取拍摄地点的详细地址信息。

与其他多模态模型相比,AddressCLIP 在图像地址定位任务中表现出色。传统的两阶段方法需要先预测地理坐标,再将其转换为可读的地址信息,而 AddressCLIP 通过端到端的框架,直接对图像和地址进行对齐,避免了中间步骤的误差累积。

AI 日报

查看全部日报

  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!
  • 千觉机器人完成千万融资!加速多模态触觉技术落地
  • 智能驾驶新进展!地平线吕鹏专业解析,市场定位有何玄机?

©2025 毫河风报 沪ICP备18012441号-5