AddressCLIP：只需一张照片，精准定位街道地址

2024 年 9 月 15 日，中科院自动化所与阿里云合作推出了街景定位大模型 AddressCLIP。该模型基于 CLIP 构建，只需一张照片即可实现街道级精度的定位。通过分析照片中的细节，模型能够给出具体的拍摄位置，并列举附近的多个候选地址。相关论文《AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization》已入选顶会 ECCV2024。

AddressCLIP 模型的核心在于其技术架构和数据集构建。该模型通过图像 – 文本对齐和图像 – 地理匹配两大关键技术，实现了街景定位。

图像 – 文本对齐技术利用对比学习，将图像与地址和场景描述进行对齐。这一过程通过大量的图像和文本数据进行训练，使模型能够理解图像中的细节并将其与相应的地址信息匹配。- 图像 – 地理匹配技术通过流形学习约束图像特征与空间距离，使得模型能够在特征空间中定位图像。
为了验证模型的有效性，研究团队构建了三个不同规模的数据集，分别来自匹兹堡和旧金山。这些数据集涵盖了多种城市环境和拍摄角度，为模型的训练和测试提供了丰富的样本。实验结果表明，AddressCLIP 在这些数据集上的表现优于现有的代表性迁移学习方法。

在模型训练方面，研究人员采用了端到端的训练框架，避免了传统两阶段方法中地理坐标预测和地址转换的复杂过程。通过直接对图像和地址进行对齐，AddressCLIP 不仅提高了定位精度，还减少了计算资源的消耗。

推理过程中，AddressCLIP 能够通过给定候选地址集的形式进行推理。模型将图像与各种地址的对齐，推理所用的候选文本可以是十分灵活与多样的形式，而非一定要按照训练集的书写规则。

AddressCLIP 的实际应用场景包括城市管理和规划、社交媒体和新闻报道等。例如，在城市巡查中，工作人员只需拍摄照片，模型即可自动识别并提供详细的地址信息。在社交媒体和新闻报道中，记者和用户可以通过上传照片，快速获取拍摄地点的详细地址信息。

与其他多模态模型相比，AddressCLIP 在图像地址定位任务中表现出色。传统的两阶段方法需要先预测地理坐标，再将其转换为可读的地址信息，而 AddressCLIP 通过端到端的框架，直接对图像和地址进行对齐，避免了中间步骤的误差累积。