谷歌发布会现场演示失误，Gemini Live 语音助手能否赢得用户信任？

在 2024 年 8 月 13 日的 “Made by Google” 发布会上，谷歌展示了其最新的 Gemini Live 语音交互功能。现场演示中，演示者尝试通过 Gemini 查询日程安排，但在两次尝试后均未成功，最终在更换手机后才得到回应。谷歌表示，现场演示的失败并不代表最终产品的质量，鼓励感兴趣的用户自行体验 Gemini Live 功能。

Gemini Live 是谷歌最新推出的语音助手功能，旨在提供更加自然和深入的语音对话体验。用户可以通过智能手机与 Gemini 进行对话，并选择 10 种自然声音进行回应。Gemini Live 支持用户在对话中随时打断或提出澄清问题，增强了互动的灵活性和自然性。此外，Gemini Live 还支持后台运行，用户可以在切换到其他应用时继续使用，或者开启免提模式，在锁屏状态下继续交互。

在技术细节方面，Gemini Live 依赖于 Google 的 Gemini 1.5 Pro 模型，该模型在基准测试中表现优于 OpenAI 的 GPT-4。Gemini 1.5 Pro 具有更长的上下文窗口，能够在生成响应之前吸收和推理大量数据，理论上可以支持数小时的对话。Gemini Live 还计划在今年晚些时候推出多模态输入功能，允许用户通过手机摄像头捕捉的照片和视频来与 AI 互动，例如命名损坏自行车上的一个部件或解释计算机屏幕上的一段代码。

自 Gemini Live 发布以来，用户的初步体验和反馈各不相同。一些用户在社交媒体上分享了他们的使用感受。一位用户在 Reddit 上表示，Gemini Live 的语音识别非常准确，可以在做家务时与它进行对话，而不需要拿起手机。另一位用户在 Twitter 上写道，虽然 Gemini Live 的语音对话功能很强大，但有时它的回答显得有些机械化，不如与真人对话那么自然。

尽管 Gemini Live 在语音识别和响应速度方面表现出色，但它也面临一些技术挑战。首先是隐私问题。尽管 Google 承诺 Gemini Live 在访问用户数据时会征得用户同意，并且大部分敏感数据处理会在设备本地完成，但仍有用户对其隐私保护措施表示担忧。其次是技术稳定性问题。在实际使用中，仍可能遇到一些技术问题和限制。例如，有用户反映，Gemini Live 在处理复杂对话时，有时会出现理解错误或响应延迟的情况。

此外，Gemini Live 目前还不支持图像和视频输入，这限制了其在某些场景下的应用。Google 表示，计划在今年晚些时候推出多模态输入功能，以进一步提升 Gemini Live 的交互能力。