在 2024 年 8 月 13 日的 “Made by Google” 发布会上,谷歌展示了其最新的 Gemini Live 语音交互功能。现场演示中,演示者尝试通过 Gemini 查询日程安排,但在两次尝试后均未成功,最终在更换手机后才得到回应。谷歌表示,现场演示的失败并不代表最终产品的质量,鼓励感兴趣的用户自行体验 Gemini Live 功能。
Gemini Live 是谷歌最新推出的语音助手功能,旨在提供更加自然和深入的语音对话体验。用户可以通过智能手机与 Gemini 进行对话,并选择 10 种自然声音进行回应。Gemini Live 支持用户在对话中随时打断或提出澄清问题,增强了互动的灵活性和自然性。此外,Gemini Live 还支持后台运行,用户可以在切换到其他应用时继续使用,或者开启免提模式,在锁屏状态下继续交互。
在技术细节方面,Gemini Live 依赖于 Google 的 Gemini 1.5 Pro 模型,该模型在基准测试中表现优于 OpenAI 的 GPT-4。Gemini 1.5 Pro 具有更长的上下文窗口,能够在生成响应之前吸收和推理大量数据,理论上可以支持数小时的对话。Gemini Live 还计划在今年晚些时候推出多模态输入功能,允许用户通过手机摄像头捕捉的照片和视频来与 AI 互动,例如命名损坏自行车上的一个部件或解释计算机屏幕上的一段代码。
自 Gemini Live 发布以来,用户的初步体验和反馈各不相同。一些用户在社交媒体上分享了他们的使用感受。一位用户在 Reddit 上表示,Gemini Live 的语音识别非常准确,可以在做家务时与它进行对话,而不需要拿起手机。另一位用户在 Twitter 上写道,虽然 Gemini Live 的语音对话功能很强大,但有时它的回答显得有些机械化,不如与真人对话那么自然。
尽管 Gemini Live 在语音识别和响应速度方面表现出色,但它也面临一些技术挑战。首先是隐私问题。尽管 Google 承诺 Gemini Live 在访问用户数据时会征得用户同意,并且大部分敏感数据处理会在设备本地完成,但仍有用户对其隐私保护措施表示担忧。其次是技术稳定性问题。在实际使用中,仍可能遇到一些技术问题和限制。例如,有用户反映,Gemini Live 在处理复杂对话时,有时会出现理解错误或响应延迟的情况。
此外,Gemini Live 目前还不支持图像和视频输入,这限制了其在某些场景下的应用。Google 表示,计划在今年晚些时候推出多模态输入功能,以进一步提升 Gemini Live 的交互能力。

