2024 年 8 月 21 日,谷歌宣布其研究人员开发了一种名为 Health Acoustic Representations(HeAR)的人工智能模型,旨在通过识别咳嗽和打喷嚏声中的声学生物标志物来诊断疾病,如结核病。HeAR 模型的设计目标是利用声音数据进行疾病检测,提供一种新的非侵入性诊断方法。
谷歌的研究团队利用包含 3 亿条音频数据的庞大数据集对 HeAR 进行了训练,其中包括 1 亿条咳嗽声。通过这些数据,HeAR 模型能够识别出与健康相关的声音中的模式,为医学音频分析奠定了基础。谷歌研究工程总监 Shravya Shetty 表示,HeAR 在各种任务中都表现出比其他模型更好的性能,特别是在跨不同麦克风泛化能力方面。
HeAR 模型的技术细节显示,它是基于大规模音频数据训练的生物声学基础模型,能够识别出与疾病相关的声学生物标志物。谷歌研究团队利用包含 3 亿条音频数据的庞大数据集对 HeAR 进行了训练,这些音频数据经过了整理和去身份化。特别值得注意的是,HeAR 中的咳嗽模型是使用大约 1 亿条咳嗽声音进行训练的。
海量的数据使模型能够辨别与健康相关的声音中的模式,为医学音频分析奠定了基础。谷歌研究工程总监 Shravya Shetty 解释说,HeAR 在各种任务中都表现出比其他模型更好的性能。它展示了跨不同麦克风泛化能力,表明它能够捕捉与健康相关的声学数据中的有意义模式。
HeAR 的一个关键优势是它能够以较少的训练数据实现高性能。这在数据通常稀缺的医疗保健研究中尤为重要。即使在数据或计算资源有限的情况下,该模型的效率也可以加速定制生物声学模型的开发。
在实际应用中,印度呼吸保健公司 Salcit Technologies 已开始探索 HeAR 的潜力。该公司已将 AI 模型集成到其名为 Swaasa® 的产品中,该产品使用人工智能分析咳嗽声音并评估肺部健康状况。目前,Salcit Technologies 正专注于使用 HeAR 增强其基于咳嗽声音的结核病(TB)早期检测能力。
这项技术对结核病检测的潜在影响是巨大的。结核病是一种可治愈的疾病,但每年有数百万例结核病病例未被诊断出来,通常是由于缺乏医疗服务。通过利用基于智能手机的咳嗽分析等可访问技术改善早期检测,HeAR 可以发挥关键作用,使世界各地的人们更容易获得和负担得起结核病治疗。
StopTB Partnership 是一家由联合国主办的组织,旨在到 2030 年消灭结核病,该组织已表示支持这种方法。该伙伴关系的数字健康专家 Zhi Zhen Qin 指出,像 HeAR 这样的解决方案可以 “使人工智能声学分析在结核病筛查和检测方面开辟新天地,为最需要的人提供一种潜在的低影响、可访问的工具。”
除了结核病,HeAR 模型在检测其他呼吸系统疾病方面也有潜力,例如慢性阻塞性肺病(COPD)。研究人员还在探索其在分析语音模式以发现痴呆症等疾病的早期迹象方面的潜力。
Google 已向研究人员开放 HeAR,旨在加速定制生物声学模型的开发。此举可能会为从呼吸系统疾病到神经系统疾病等各个健康研究领域带来突破。
HeAR 模型在印度的应用是其实际效果的一个重要验证。印度是全球结核病负担最重的国家之一,每年有数百万新病例和大量未被诊断的患者。Salcit Technologies 是一家专注于呼吸健康的印度公司,已经将 HeAR 模型集成到其名为 Swaasa® 的产品中。Swaasa 自 2020 年推出以来,已经使用 AI 算法来评估人类肺部的异常情况。
Salcit Technologies 的创始人兼 CEO Rajeev Kumar 表示,通过这种合作,他们希望能够提高结核病的早期检测率,特别是在医疗资源匮乏的地区。
HeAR 模型的应用不仅限于结核病检测。Salcit Technologies 还计划利用该模型来检测其他呼吸系统疾病,如慢性阻塞性肺病(COPD)和哮喘。通过分析患者的咳嗽声,HeAR 模型可以提供早期预警,帮助医生更早地进行干预和治疗。

