Google 发布 Gemini Live，AI 语音助手进入自然对话新时代

2024 年 8 月 13 日，Google 发布了其最新的 AI 语音助手功能 ——Gemini Live。该功能旨在为用户提供更自然、更互动的语音对话体验。Gemini Live 不仅可以通过智能手机进行语音对话，还能在对话中随时打断或提出澄清问题，类似于人类之间的自然对话。用户可以选择 10 种不同的自然声音进行回应，并且该功能支持多种应用场景，如更新个人日历、从 Gmail 中提取旅行计划信息等。

Gemini Live 的技术核心在于其语音引擎和多模态输入功能。Google 在 I/O 2024 开发者大会上展示了这一功能，强调其能够通过手机摄像头捕捉实时视频，并进行实时分析和响应。例如，用户可以让 Gemini Live 识别桌面上的扬声器，甚至进一步识别扬声器的具体部件。

Gemini Live 也面临一些挑战。首先是隐私问题。尽管 Google 承诺 Gemini Live 在访问用户数据时会征得用户同意，并且大部分敏感数据处理会在设备本地完成，但仍有用户对其隐私保护措施表示担忧。其次是技术稳定性问题。在实际使用中，仍可能遇到一些技术问题和限制。

在竞争对手方面，OpenAI 的 ChatGPT 高级语音模式是 Gemini Live 的主要竞争对手。ChatGPT 的高级语音模式在今年早些时候发布。与 Gemini Live 类似，ChatGPT 的高级语音模式也支持自然对话和多模态输入。

其他科技巨头如苹果和亚马逊也在积极布局 AI 助手市场。苹果最近宣布将大模型技术引入其核心产品，如 iPhone 和 iPad，旨在通过本地运行大模型来提升用户体验和隐私保护。亚马逊则继续在其 Alexa 平台上进行创新，增加更多智能家居和物联网功能。