2024 年 9 月 15 日,中科院自动化所与阿里云合作推出了街景定位大模型 AddressCLIP。该模型基于 CLIP 构建,只需一张照片即可实现街道级精度的定位。通过分析照片中的细节,模型能够给出具体的拍摄位置,并列举附近的多个候选地址。相关论文《AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization》已入选顶会 ECCV2024。
AddressCLIP 模型的核心在于其技术架构和数据集构建。该模型通过图像 – 文本对齐和图像 – 地理匹配两大关键技术,实现了街景定位。
- 图像 – 文本对齐技术利用对比学习,将图像与地址和场景描述进行对齐。这一过程通过大量的图像和文本数据进行训练,使模型能够理解图像中的细节并将其与相应的地址信息匹配。- 图像 – 地理匹配技术通过流形学习约束图像特征与空间距离,使得模型能够在特征空间中定位图像。
为了验证模型的有效性,研究团队构建了三个不同规模的数据集,分别来自匹兹堡和旧金山。这些数据集涵盖了多种城市环境和拍摄角度,为模型的训练和测试提供了丰富的样本。实验结果表明,AddressCLIP 在这些数据集上的表现优于现有的代表性迁移学习方法。
在模型训练方面,研究人员采用了端到端的训练框架,避免了传统两阶段方法中地理坐标预测和地址转换的复杂过程。通过直接对图像和地址进行对齐,AddressCLIP 不仅提高了定位精度,还减少了计算资源的消耗。
推理过程中,AddressCLIP 能够通过给定候选地址集的形式进行推理。模型将图像与各种地址的对齐,推理所用的候选文本可以是十分灵活与多样的形式,而非一定要按照训练集的书写规则。
AddressCLIP 的实际应用场景包括城市管理和规划、社交媒体和新闻报道等。例如,在城市巡查中,工作人员只需拍摄照片,模型即可自动识别并提供详细的地址信息。在社交媒体和新闻报道中,记者和用户可以通过上传照片,快速获取拍摄地点的详细地址信息。
与其他多模态模型相比,AddressCLIP 在图像地址定位任务中表现出色。传统的两阶段方法需要先预测地理坐标,再将其转换为可读的地址信息,而 AddressCLIP 通过端到端的框架,直接对图像和地址进行对齐,避免了中间步骤的误差累积。