Google 发布 Gemini Live，挑战 OpenAI ChatGPT 语音模式

2024 年 8 月 13 日，Google 在其年度 “Made by Google” 发布会上正式推出了 Gemini Live，这是其最新的 AI 助手功能，旨在挑战 OpenAI 的 ChatGPT 高级语音模式。Gemini Live 允许用户通过智能手机与 Google 的生成式 AI 聊天机器人进行语音对话。用户可以选择 10 种自然声音进行回应，并在对话中随时打断或提出澄清问题。Gemini Live 的一个特点是其增强的记忆力和更长的上下文窗口，支持长时间对话。此外，Google 计划在今年晚些时候推出多模态输入功能，并扩展到更多语言。

在技术细节方面，Gemini Live 依赖于 Google 的 Gemini 1.5 Pro 模型，该模型在基准测试中表现优于 OpenAI 的 GPT-4o。Gemini 1.5 Pro 具有更长的上下文窗口，能够在生成响应之前吸收和推理大量数据，理论上可以支持数小时的对话。Gemini Live 还计划在今年晚些时候推出多模态输入功能，允许用户通过手机摄像头捕捉的照片和视频来与 AI 互动，例如命名损坏自行车上的一个部件或解释计算机屏幕上的一段代码。

在 Google 的 “Made by Google 2024” 事件中，TechCrunch 的记者体验了 Gemini Live。记者发现，Gemini Live 的响应速度非常快，通常在两秒钟内就能回答问题，并且能够在被打断时迅速调整对话方向。用户可以选择 10 种不同的声音进行对话，这些声音都是由专业的配音演员录制的，听起来非常自然。

Gemini Live 的发布引起了市场的广泛关注。作为 Google 对标 OpenAI ChatGPT 高级语音模式的产品，Gemini Live 的推出被视为 AI 语音助手市场的一次重要事件。市场分析师认为，Google 和 OpenAI 之间的竞争将进一步推动 AI 技术的发展，并为用户带来更多创新的产品和服务。

OpenAI 在 Gemini Live 发布前一天推出了其高级语音模式，这一举动被认为是对 Google 的直接回应。OpenAI 的高级语音模式基于其最新的 GPT-4o 模型，能够提供更自然的实时对话，并且可以感知和响应用户的情绪。

市场反应显示，用户对 Gemini Live 和 OpenAI 的高级语音模式都表现出了浓厚的兴趣。社交媒体上，用户纷纷分享他们的使用体验和反馈。

此外，市场上其他科技巨头也在积极布局 AI 语音助手领域。苹果公司正在大力招募 AIGC 人才，计划将大模型技术应用于其核心产品 iPhone 和 iPad 上。360 集团则与国内多家大模型厂商合作，推出了新一代 AI 产品 “AI 助手”，并计划将其应用于多个场景中。