Patronus AI 研究揭示：GPT-4 等模型在财务报表测试中的局限性

2024 年 8 月 7 日，Lepton AI 宣布了一项技术：实时语音生成技术，能够在 300 毫秒内实现文本和音频流的结合，并与所有开源 LLM 模型自然集成。Lepton AI 的创始人在推特上表示：“我们正在将实时语音生成技术带入每一个开源 LLM 模型，首次音频时间仅需 300 毫秒。”

2023 年 11 月，人工智能初创公司 Patronus AI 进行了一项研究，比较了 GPT-4、GPT-4-Turbo、Claude2 和 LLaMA-2 在两种版本的 150 道关于财务报表信息测试中的表现。这些财务报表包括 Form 10-K、Form 10-Q、Form 8-K、收益报告和收益电话会议记录，均由上市公司提交给美国证券交易委员会。

研究分为两种版本：一种要求生成式 AI 模型使用检索系统找到特定的 SEC 文件来回答问题；另一种则直接给模型提供特定的 SEC 文件来回答问题（即在长上下文窗口中）。结果显示，在使用检索系统的版本中，GPT-4-Turbo 和 LLaMA-2 都未能正确回答 81% 的问题，而在长上下文窗口版本中，这些模型的表现也不尽如人意。

AI 技术在金融市场的应用一直备受关注，尤其是在财务数据分析和预测方面。然而，Patronus AI 的研究结果显示，当前的 AI 模型在处理财务报表信息时仍存在显著的局限性。金融市场对数据的准确性和及时性要求极高，而 AI 模型在财务报表信息测试中的表现不佳，意味着它们在实际应用中可能无法满足这些要求。

此外，AI 模型的局限性也引发了对其在其他领域应用的担忧。例如，在医疗、法律等领域，数据的准确性和可靠性同样至关重要。如果 AI 模型在这些领域的表现也不尽如人意，那么它们的应用前景将受到影响。

Lepton AI 的实时语音生成技术展示了 AI 在其他领域的潜力。通过将文本和音频流结合，Lepton AI 为用户提供了更加自然和高效的互动方式。