在今年的 WWDC 2024 发布会上,苹果公司 CEO Tim Cook 和他的团队展示了一系列关于人工智能(AI)的新功能,这些功能涵盖了 Siri 的升级、照片和视频编辑等多个领域。然而,这些 AI 功能并没有超出预期,很多功能在其他科技公司的产品中早已出现。此举也引发了广泛讨论,尤其是埃隆·马斯克(Elon Musk)在 X(前身为 Twitter)平台上对苹果的发布会进行了嘲讽,称苹果的 AI 发布会“除了包装和营销,几乎没有什么创新可言”。
6 月 11 日,WWDC 发布会结束后,苹果公司股价下跌近 2%,市值一夜蒸发 580 亿美元,创下 5 个多月来的最低水平。投资者对发布会内容反应冷淡,主要担忧苹果在人工智能领域落后于其他科技巨头以及其中国业务的下滑。
苹果多年来一直以硬件和生态系统的无缝整合著称,但在 AI 技术的研发和应用上,似乎一直较为保守。这次发布的 AI 新功能虽然看似亮眼,但实质上并没有太多革命性的新意,更多的是对现有技术的优化和整合。
苹果自家的 AI 全面进化
在 WWDC 2024 大会上,苹果发布了全新的 Apple Intelligence 智能助手,展示了其最新的图像生成、编辑、分析、搜索和表情生成等功能。这些功能利用先进的 AI 技术,为用户提供了更强大的图像处理能力和更便捷的使用体验。该助手具备深度个性化功能,能够跨应用执行各种任务。此外,苹果还对 Siri 进行了全面改造,使其具备屏幕感知能力和更强大的任务执行能力。这些新功能将大大提升用户的使用体验。
Tim Cook 在发布会上介绍了开发 Apple Intelligence 系统的五大原则:
- Powerful(强大):确保 AI 技术具备强大的计算能力和功能,能够处理复杂的任务并提供高效的服务。
- Intuitive(直观):让用户界面和交互方式变得更加直观,易于使用,即使是不熟悉技术的用户也能轻松上手。
- Integrated(整合):将 AI 技术深度整合到苹果的硬件和软件生态系统中,提供无缝的用户体验。
- Personal(个性化):根据用户的个人偏好和需求,提供高度个性化的服务和建议。
- Privacy(隐私):保护用户的隐私,确保所有数据处理过程都是安全和透明的。
苹果公司宣布对 Siri 进行全面升级,借助 Apple Intelligence 技术,使其更加自然和贴合语境。新的 Siri 不仅能理解更丰富的语言和上下文信息,还支持语音打字切换输入。Siri 现在掌握了大量功能和设置的信息,能够解答数千个操作问题。未来,Siri 将具备屏幕内容感知功能,并能在数百种 APP 内外进行操作,包括写作和图像生成。 所有更新同样适用于 iPad 和Mac,开发者也可以通过 APP Intents API 定义他们 APP 中的各种操作。
具体来说,Siri 现在能够在对话中更好地理解上下文,从而提供更精确的回答。例如,当用户问“我上次去的那家餐厅叫什么名字?”时,Siri 能够根据用户的历史记录准确地给出答案。此外,Siri 还增强了对多任务处理的支持,能够同时处理多个请求,提升用户的使用体验。
关于这一点,许多科技媒体和分析师早就预测到了。科技媒体《TechCrunch》在发布会前就提到,Siri 的智能升级将是本次 WWDC 的重点之一,并预期苹果会通过自然语言处理(NLP)和机器学习(ML)的最新进展来提升 Siri 的性能。这些预测基本得到了验证,苹果确实在这些领域做出了显著的改进。
Siri 的升级得益于苹果在自然语言处理和机器学习方面的持续投入。新的算法能够更好地捕捉用户的意图,不仅限于简单的关键词匹配,而是能够理解句子的整体语义。这种进步使得 Siri 在处理复杂请求时表现更加出色。例如,用户可以询问复杂的日程安排问题,Siri 现在能够根据日历、邮件和其他相关信息提供更准确的答复。
同时,Siri 的个性化推荐功能也得到了显著提升。通过分析用户的使用习惯和偏好,Siri 能够提供更贴合个人需求的建议。例如,基于用户的音乐收听历史,Siri 可以推荐新歌单或艺术家;在健康方面,Siri 可以根据用户的运动记录和健康目标,提供定制化的锻炼计划和健康提示。
然而,尽管这些升级提升了 Siri 的智能化水平,但业内专家指出,这些功能在市场上并不新鲜。谷歌助手和亚马逊的 Alexa 在这些领域早已实现了类似的功能。谷歌助手不仅能够处理复杂的语音请求,还能无缝集成各种第三方服务,为用户提供更加丰富和灵活的体验。亚马逊的 Alexa 则通过与众多智能家居设备的深度整合,打造了一个完整的智能家居生态系统。因此,虽然 Siri 的升级令人印象深刻,但在与竞争对手的对比中,苹果似乎并没有明显的技术优势。
这一升级对语音助手市场和 AI 技术发展的启示在于,智能助手未来的发展不仅需要更强的技术支持,还需要更广泛的生态系统整合。 苹果在保护用户隐私和数据安全方面的做法也为其他公司提供了一个有益的借鉴。
另一个被广泛预测的领域是苹果在照片和视频编辑方面的更新。通过新的 AI 算法,用户可以自动优化照片和视频,无需手动调整即可获得最佳效果。具体功能包括自动添加滤镜、调整亮度和对比度、去除噪点以及智能裁剪等。例如,当用户拍摄一张风景照片时,AI 可以自动识别出场景中的关键元素,并根据最佳摄影构图规则进行裁剪和调整,使照片更加美观。
在此次 WWDC 2024 上,苹果还推出了全新的图像生成和表情应用,成为 Apple Intelligence 的重要组成部分。
GenMoji 是一款基于 AI 的个性化表情符号生成应用。用户可以通过简单的文字描述生成独特的表情符号。例如,用户可以输入“微笑的猫戴着太阳镜”,GenMoji 就会生成一个符合描述的表情符号。这一功能不仅使得表情符号更加个性化和丰富多彩,也提升了用户在社交媒体上的互动体验。
GenMoji 的开发基于苹果在生成对抗网络(GANs)和自然语言处理方面的技术积累。通过不断训练和优化模型,GenMoji 能够生成高质量、细节丰富的图像,满足用户的多样化需求。
Image Playground 是一款实时图片编辑应用,用户可以通过它轻松创建和编辑图片。该应用集成了多种 AI 工具,如创意滤镜、动态效果和互动元素,用户可以在图片中添加虚拟背景、特效和动画,使图片更加生动有趣。
Image Playground 的一个亮点是其增强现实(AR)功能。用户可以通过 AR 滤镜实时查看和编辑图片效果,进行创意表达。例如,用户可以在自拍照中添加虚拟的化妆效果、背景动画等,使得图片更加吸引人。这一功能不仅提升了用户的创作体验,也为社交媒体内容的创作提供了更多可能。
《The Verge》之前的报道中提到,苹果可能会在计算摄影(computational photography)方面进行重要升级,利用 AI 技术提升用户的拍摄和编辑体验。发布会上展示的这些功能验证了这一预测,但并没有带来令人惊艳的突破。
计算摄影利用强大的处理器和先进的算法,将多个图像信息合成为一张高质量的照片。通过 AI 技术,苹果能够在拍照的瞬间进行多帧合成、动态范围调整和噪点消除,极大地提升了照片的质量和细节表现。例如,iPhone 的夜景模式就是一个典型的计算摄影应用,它能够在低光环境下拍摄出明亮清晰的照片,这在几年前是难以想象的。
此外,苹果还引入了增强现实(AR)滤镜功能。用户可以通过 AR 滤镜实时查看照片和视频的效果,进行创意编辑。例如,用户可以为照片添加虚拟背景、动态效果和互动元素,使照片和视频更具视觉冲击力和趣味性。这一功能不仅提升了用户的创作体验,也为社交媒体内容的创作提供了更多可能。
尽管如此,业内分析师指出,谷歌的照片应用和 Adobe 的 Creative Cloud 套件在照片和视频编辑方面同样表现出色,甚至在某些功能上更具优势。谷歌照片(Google Photos)凭借其强大的 AI 技术,可以自动生成照片回忆、创意短片和照片修复。Adobe 的 Lightroom 和 Photoshop 则通过强大的专业工具和云同步功能,为摄影师和创意工作者提供了极大的便利。因此,虽然苹果在照片和视频编辑功能上取得了显著进步,但在与竞争对手的对比中,仍需进一步努力。
另外,iPad 推出了一个全新的手写计算器功能。这个功能通过直观的触发方式,使用户能够在手写流程中轻松进行计算操作。该功能的推出为用户提供了更便捷的计算体验,受到了广泛关注和好评。
与 OpenAI 的合作:意料之外的谨慎
OpenAI 宣布与 Apple 合作,将 ChatGPT 集成到 iOS、iPadOS 和 macOS 系统中,用户无需在不同工具之间切换即可使用 ChatGPT 的功能,包括图像和文档理解。Siri 也可以调用 ChatGPT 的智能,提供答案和生成内容。隐私保护措施将会生效,OpenAI 不会存储请求内容,用户的 IP 地址也会被隐藏。用户可以选择连接他们的 ChatGPT 账户,享受个性化服务。由 GPT-4 驱动的 ChatGPT 集成将于今年晚些时候上线,用户无需创建账户即可免费使用,订阅者可以连接账户并使用付费功能。
OpenAI CEO 山姆·奥特曼表示,这次合作将让更多人受益于 AI 技术。
然而,苹果对这次合作的应用权限相对克制,只是在特定的应用场景中调用了 OpenAI 的技术,没有大规模开放 API 接口。 这种克制的态度反映了苹果一贯的谨慎作风,尤其是在涉及用户隐私和数据安全的问题上。例如,苹果仅在 Siri 和健康监测等应用中使用了 GPT-4 的技术,以增强自然语言处理和数据分析能力,而没有在所有应用中全面集成。
GPT-4 是 OpenAI 最新一代的大型语言模型,具有强大的自然语言处理能力。通过与 OpenAI 的合作,苹果能够利用 GPT-4 的技术提升 Siri 的智能化水平,使其在处理复杂请求和提供个性化建议方面表现更加出色。例如,Siri 可以更好地理解用户的语音指令,提供更加精准和有用的答复。
然而,苹果在这次合作中采取了相对保守的策略。与其他公司不同,苹果没有全面开放 GPT-4 的 API 接口,而是仅在特定的应用场景中调用了 OpenAI 的技术。这种克制的态度反映了苹果对用户隐私和数据安全的高度重视。苹果一贯以来都非常重视用户数据的保护,不愿意将用户数据过多地暴露给第三方服务。
科技博主 Marques Brownlee 在其 YouTube 频道上评论道:“虽然苹果与 OpenAI 的合作令人兴奋,但它们的实施策略显得相当保守。这可能是为了确保用户数据的安全,但也可能限制了 AI 技术的全面应用潜力。”这种观点反映了业内对苹果保守策略的复杂看法,一方面理解其出于安全和隐私保护的考虑,另一方面也希望看到更大胆的技术应用。
同时,特斯拉和 SpaceX 创始人埃隆·马斯克表示,如果苹果公司在其操作系统层面内置 OpenAI 的模型,他将禁止其公司员工使用苹果设备。 马斯克认为这是不可接受的安全漏洞。这一声明引发了广泛关注和讨论。
写在最后
苹果仅在 Siri 对话和 Compose 写作中集成了 GPT-4,苹果展示的其他软件中的 AI 能力均由其自研模型驱动,包括一个 30 亿参数的端侧语言模型和一个云端语言模型,苹果在其博客中详细介绍了这些模型的测试表现。苹果的 On-Device 模型在性能评测中表现出色,超越了许多 7B 参数的模型。该模型的优势在于其高效的本地处理能力,能够在设备上直接运行复杂的 AI 任务,提供更快的响应速度和更高的隐私保护。
苹果此次 WWDC 2024 的发布会虽然在创新上略显保守,但却标志着苹果正式迈入了 AI 时代。AI 技术的深度整合,将为苹果的硬件设备带来更强大的处理能力和更智能的交互体验。这不仅提升了设备的性能,还为用户提供了更加智能和个性化的使用体验。
随着 AI 技术的不断普及,我们正迈向一个智能化的未来,各大科技公司在这场竞赛中也将扮演越来越重要的角色。例如,Google 已经将其最新的 AI 模型 Gemini 集成到浏览器中,为用户提供智能化的浏览体验。微软也在其 Office 套件中引入了 AI 助理 Copilot,提升了办公效率。这一趋势表明,AI 正在从实验室走向大众,普及速度惊人。AI 技术的广泛应用,将极大地改变我们的日常生活和工作方式,使得各类设备变得更加智能和高效。
总的来说,WWDC 2024 展示了苹果在 AI 领域的一些进展,尽管这些进展并不算突破性,但它们的整合和优化无疑会提升用户体验。随着 AI 技术的不断普及,我们正迈向一个智能化的未来。苹果虽然起步较晚,但其强大的硬件和软件生态系统有望在未来的 AI 时代占据重要位置。