2024 年 8 月 13 日,Google 发布了其最新的 AI 语音助手功能 ——Gemini Live。该功能旨在为用户提供更自然、更互动的语音对话体验。Gemini Live 不仅可以通过智能手机进行语音对话,还能在对话中随时打断或提出澄清问题,类似于人类之间的自然对话。用户可以选择 10 种不同的自然声音进行回应,并且该功能支持多种应用场景,如更新个人日历、从 Gmail 中提取旅行计划信息等。
Gemini Live 的技术核心在于其语音引擎和多模态输入功能。Google 在 I/O 2024 开发者大会上展示了这一功能,强调其能够通过手机摄像头捕捉实时视频,并进行实时分析和响应。例如,用户可以让 Gemini Live 识别桌面上的扬声器,甚至进一步识别扬声器的具体部件。
Gemini Live 也面临一些挑战。首先是隐私问题。尽管 Google 承诺 Gemini Live 在访问用户数据时会征得用户同意,并且大部分敏感数据处理会在设备本地完成,但仍有用户对其隐私保护措施表示担忧。其次是技术稳定性问题。在实际使用中,仍可能遇到一些技术问题和限制。
在竞争对手方面,OpenAI 的 ChatGPT 高级语音模式是 Gemini Live 的主要竞争对手。ChatGPT 的高级语音模式在今年早些时候发布。与 Gemini Live 类似,ChatGPT 的高级语音模式也支持自然对话和多模态输入。
其他科技巨头如苹果和亚马逊也在积极布局 AI 助手市场。苹果最近宣布将大模型技术引入其核心产品,如 iPhone 和 iPad,旨在通过本地运行大模型来提升用户体验和隐私保护。亚马逊则继续在其 Alexa 平台上进行创新,增加更多智能家居和物联网功能。

