2024 年 8 月 13 日,Google 在其年度 “Made by Google” 发布会上正式推出了 Gemini Live,这是其最新的 AI 助手功能,旨在挑战 OpenAI 的 ChatGPT 高级语音模式。Gemini Live 允许用户通过智能手机与 Google 的生成式 AI 聊天机器人进行语音对话。用户可以选择 10 种自然声音进行回应,并在对话中随时打断或提出澄清问题。Gemini Live 的一个特点是其增强的记忆力和更长的上下文窗口,支持长时间对话。此外,Google 计划在今年晚些时候推出多模态输入功能,并扩展到更多语言。
在技术细节方面,Gemini Live 依赖于 Google 的 Gemini 1.5 Pro 模型,该模型在基准测试中表现优于 OpenAI 的 GPT-4o。Gemini 1.5 Pro 具有更长的上下文窗口,能够在生成响应之前吸收和推理大量数据,理论上可以支持数小时的对话。Gemini Live 还计划在今年晚些时候推出多模态输入功能,允许用户通过手机摄像头捕捉的照片和视频来与 AI 互动,例如命名损坏自行车上的一个部件或解释计算机屏幕上的一段代码。
在 Google 的 “Made by Google 2024” 事件中,TechCrunch 的记者体验了 Gemini Live。记者发现,Gemini Live 的响应速度非常快,通常在两秒钟内就能回答问题,并且能够在被打断时迅速调整对话方向。用户可以选择 10 种不同的声音进行对话,这些声音都是由专业的配音演员录制的,听起来非常自然。
Gemini Live 的发布引起了市场的广泛关注。作为 Google 对标 OpenAI ChatGPT 高级语音模式的产品,Gemini Live 的推出被视为 AI 语音助手市场的一次重要事件。市场分析师认为,Google 和 OpenAI 之间的竞争将进一步推动 AI 技术的发展,并为用户带来更多创新的产品和服务。
OpenAI 在 Gemini Live 发布前一天推出了其高级语音模式,这一举动被认为是对 Google 的直接回应。OpenAI 的高级语音模式基于其最新的 GPT-4o 模型,能够提供更自然的实时对话,并且可以感知和响应用户的情绪。
市场反应显示,用户对 Gemini Live 和 OpenAI 的高级语音模式都表现出了浓厚的兴趣。社交媒体上,用户纷纷分享他们的使用体验和反馈。
此外,市场上其他科技巨头也在积极布局 AI 语音助手领域。苹果公司正在大力招募 AIGC 人才,计划将大模型技术应用于其核心产品 iPhone 和 iPad 上。360 集团则与国内多家大模型厂商合作,推出了新一代 AI 产品 “AI 助手”,并计划将其应用于多个场景中。

