在 2024 年 8 月 13 日的 Made by Google 2024 活动中,谷歌正式发布了其最新的 Pixel 9 系列智能手机,包括 Pixel 9、Pixel 9 Pro 和 Pixel 9 Pro XL。这次发布会的亮点之一是 Pixel 9 Pro XL,这款手机在硬件上进行了升级,并引入了许多新的 AI 功能,特别是在摄影方面。Pixel 9 Pro XL 配备了 Tensor G4 处理器和先进的摄像头系统。
Pixel 9 系列包括三款主要型号:Pixel 9、Pixel 9 Pro 和 Pixel 9 Pro XL。每款手机都配备了谷歌最新的 Tensor G4 处理器,并运行最新的 Android 15 操作系统。以下是各型号的详细规格和功能:
- Pixel 9:配备 6.3 英寸 Actua 屏幕,12GB 内存和 128GB 或 256GB 存储空间。摄像头系统包括一个 5000 万像素的广角镜头和一个 4800 万像素的超广角镜头。
- Pixel 9 Pro:配备 6.3 英寸 Super Actua 屏幕,亮度更高,内存增加到 16GB,存储空间最高可达 1TB。摄像头系统增加了一个 4800 万像素的长焦镜头,支持 5 倍光学变焦和最高 30 倍超级分辨率变焦。此外,Pixel 9 Pro 还配备了 4200 万像素的前置摄像头。
- Pixel 9 Pro XL:配备 6.8 英寸 Super Actua 屏幕,内存和存储空间与 Pixel 9 Pro 相同。其摄像头系统与 Pixel 9 Pro 一致,但电池容量增加到 5060mAh。
Pixel 9 系列的一个重要特点是其深度集成的 AI 技术。所有型号都搭载了 Gemini AI 助手,取代了传统的 Google Assistant。 Gemini AI 能够提供更自然的语音交互体验,并支持多种语言的实时翻译。此外,Pixel 9 系列还引入了多项 AI 摄影功能,如 Magic Editor、Magic Eraser 和 Zoom Enhance。
除了 Pixel 9 系列,谷歌还在此次发布会上推出了 Pixel 9 Pro Fold、Pixel Buds Pro 2 和 Pixel Watch 3。
- Pixel 9 Pro Fold:谷歌推出的第二款折叠屏手机,配备 6.3 英寸的外屏和 8 英寸的内屏。其摄像头系统包括一个 4800 万像素的广角镜头、一个 1050 万像素的超广角镜头和一个 1080 万像素的 5 倍长焦镜头。Pixel 9 Pro Fold 搭载 Tensor G4 处理器,16GB 内存和 256GB 或 512GB 存储空间。Pixel 9 Pro Fold 的起售价为 1799 美元。Google 还提供了一年的 Google One AI Premium Plan 订阅,包括 Gemini Advanced、Gemini 在 Gmail 和 Docs 中的应用以及 2TB 的云存储。
- Pixel Buds Pro 2:谷歌推出的第二代无线耳塞,体积更小,重量更轻。其主要特点包括增强的主动降噪(ANC)性能、空间音频和头部追踪功能。电池续航时间长达 8 小时(开启 ANC)和 30 小时(配合充电盒使用)。Pixel Buds Pro 2 还支持多点连接、实时翻译和 Find My Device 网络兼容性。
- Pixel Watch 3:谷歌推出的最新智能手表,提供 41 毫米和 45 毫米两种尺寸选择。其屏幕亮度是前代的两倍,峰值亮度达到 2000 尼特,功耗更低。Pixel Watch 3 的主要功能包括 24 小时电池续航、与 Fitbit 合作的健身和健康追踪功能,以及多种实用应用,如 Google TV 遥控器、Google Maps 和 Nest 门铃实时视图。Pixel Watch 3 还提供 “准备度” 和 “心脏负荷” 追踪功能。具体的价格和上市时间尚未公布。
谷歌发布会现场演示失误,Gemini Live 语音助手能打吗?
谷歌展示了其最新的 Gemini Live 语音交互功能。现场演示中,演示者尝试通过 Gemini 查询日程安排,但在两次尝试后均未成功,最终在更换手机后才得到回应。谷歌表示,现场演示的失败并不代表最终产品的质量,鼓励感兴趣的用户自行体验 Gemini Live 功能。
Gemini Live 是谷歌最新推出的语音助手功能,旨在提供更加自然和深入的语音对话体验。用户可以通过智能手机与 Gemini 进行对话,并选择 10 种自然声音进行回应。Gemini Live 支持用户在对话中随时打断或提出澄清问题,增强了互动的灵活性和自然性。此外,Gemini Live 还支持后台运行,用户可以在切换到其他应用时继续使用,或者开启免提模式,在锁屏状态下继续交互。
在技术细节方面,Gemini Live 依赖于 Google 的 Gemini 1.5 Pro 模型,该模型在基准测试中表现优于 OpenAI 的 GPT-4。Gemini 1.5 Pro 具有更长的上下文窗口,能够在生成响应之前吸收和推理大量数据,理论上可以支持数小时的对话。Gemini Live 还计划在今年晚些时候推出多模态输入功能,允许用户通过手机摄像头捕捉的照片和视频来与 AI 互动,例如命名损坏自行车上的一个部件或解释计算机屏幕上的一段代码。
自 Gemini Live 发布以来,用户的初步体验和反馈各不相同。一些用户在社交媒体上分享了他们的使用感受。一位用户在 Reddit 上表示,Gemini Live 的语音识别非常准确,可以在做家务时与它进行对话,而不需要拿起手机。另一位用户在 Twitter 上写道,虽然 Gemini Live 的语音对话功能很强大,但有时它的回答显得有些机械化,不如与真人对话那么自然。
尽管 Gemini Live 在语音识别和响应速度方面表现出色,但它也面临一些技术挑战。首先是隐私问题。尽管 Google 承诺 Gemini Live 在访问用户数据时会征得用户同意,并且大部分敏感数据处理会在设备本地完成,但仍有用户对其隐私保护措施表示担忧。其次是技术稳定性问题。在实际使用中,仍可能遇到一些技术问题和限制。例如,有用户反映,Gemini Live 在处理复杂对话时,有时会出现理解错误或响应延迟的情况。
此外,Gemini Live 目前还不支持图像和视频输入,这限制了其在某些场景下的应用。Google 表示,计划在今年晚些时候推出多模态输入功能,以进一步提升 Gemini Live 的交互能力。
Gemini 边缘 + 云端方案发布,安卓系统全面 AI 化
谷歌展示了全新的 Gemini 边缘 + 云端方案,目标是将 Android 系统全面 AI 化。这个方案由谷歌自家的 G4 Tensor 芯片驱动,Gemini Nano 版能够在本地实现每秒 45 Tokens 的输出。
Gemini 已经深度融合到 Android 系统中,贯穿整个系统的 Gemini AI Assistant 随时准备提供服务。在云端,还有 Gemini Pro 模型和其他模型,通过 TPU 提供支持,注重用户数据和隐私保护。
G4 Tensor 芯片是 Gemini 边缘 + 云端方案的核心引擎。它在性能上实现了质的飞跃,具备本地计算能力。G4 Tensor 芯片能在设备端本地运行 Gemini Nano 模型,每秒能输出 45 个 Tokens。这意味着,即使在没有网络连接的情况下,用户也能享受到 AI 服务。
Gemini Nano 模型是一个轻量级的多模态大模型,可以在移动设备上运行,处理文本、音频、图像等多种数据类型。它的应用场景包括语音助手、实时翻译和图像识别。Gemini Nano 在设备端运行,提升了响应速度,并增强了用户数据的隐私保护。用户的数据无需上传到云端,所有操作都在本地完成,降低了数据泄露的风险。
除了 Gemini Nano,谷歌还推出了 Gemini Pro 模型,这些模型主要在云端运行。云端计算由谷歌自家的 TPU(Tensor Processing Unit)提供支持,这些 TPU 能处理大规模计算任务,确保 AI 模型的高效运行。TPU 不仅提供了计算能力,还在数据隐私保护方面发挥了作用。通过在云端进行数据处理,用户的敏感信息可以得到更好的保护,同时享受到 AI 服务。
Gemini 作为智能底层被整合到 Android 系统中,通过将 Gemini AI Assistant 嵌入系统的各个层面,Android 设备能实现智能的操作和用户体验。无论是语音命令、任务管理还是个性化推荐,Gemini 都能提供服务。
Pixel Studio 图像生成应用亮相,2 秒生成小猫图片
谷歌推出了全新的图像生成应用 Pixel Studio。该应用基于谷歌的 Imagen 3 模型,能够在 2 秒内生成各种图像,并将预装在每台 Pixel 9 系列手机上。用户只需输入简单的提示词即可生成所需图像。Pixel Studio 依赖谷歌 Tensor G4 SoC 芯片进行本地生成,如果用户想要更高质量的内容,还可以调用 Gemini 在云端生成图片。发布会上,谷歌展示了该应用生成的一张小猫图片,生成时间不超过 2 秒。此外,谷歌还宣布了对 Gemini overlay 功能的改进,可以将人工智能生成的图片直接拖放到电子邮件或聊天中。
Pixel Studio 应用的核心技术是谷歌的 Imagen 3 模型,这是一种基于扩散技术的生成模型,能够将文本提示转换为图像。与其他 AI 图像生成器不同,Pixel Studio 主要在设备本地运行,这得益于谷歌最新的 Tensor G4 SoC 芯片。该芯片提供了计算能力,使得图像生成速度极快,仅需 2 秒钟。然而,对于更高质量的图像生成,用户可以选择调用 Gemini 在云端进行处理。
用户体验方面,Pixel Studio 应用界面简洁直观,用户只需输入提示词即可生成图像。生成的图像可以直接在应用内进行简单的编辑,如添加贴纸或更改图像风格。尽管如此,Pixel Studio 目前不支持生成人脸,这可能是由于 Gemini 模型在历史准确性方面曾出现问题。谷歌表示,未来可能会添加更多功能,但目前的重点是确保生成图像的安全性和准确性。
与苹果的 Image Playground 相比,Pixel Studio 在某些方面具有优势。Image Playground 是苹果即将推出的 AI 图像生成应用,预计将与 iOS 18 一起发布。与 Pixel Studio 类似,Image Playground 也能够根据文本提示生成图像,并提供一些基本的编辑功能。然而,Pixel Studio 的本地生成功能使其在速度和隐私保护方面更具优势。苹果的 Image Playground 则更注重与其他 Apple Intelligence 功能的整合,如 Siri 和照片搜索。
Pixel Studio 的发布在市场上引起了广泛关注。作为 Pixel 9 系列手机的预装应用,Pixel Studio 展示了谷歌在 AI 图像生成技术上的应用,也为用户提供了一个创意工具。
Pixel Studio 在技术上也面临一些挑战。首先,尽管 Tensor G4 SoC 芯片提供了计算能力,但在生成复杂图像时,仍可能出现性能瓶颈。为了解决这一问题,谷歌提供了调用 Gemini 在云端生成图像的选项,这样可以利用更强大的计算资源,生成更高质量的图像。
其次,如何确保生成图像的安全性和准确性也是一个重要问题。谷歌在发布会上表示,Pixel Studio 目前不支持生成人脸,这可能是为了避免生成潜在有害的图像。未来,谷歌可能会添加更多的安全措施,如内容审核和过滤机制,以确保生成图像的安全性。