AI 早知道：英伟达问鼎世界第一大市值公司；Ilya 官宣创立 SSI；Sigma 获 2 亿美元融资

企业动态

英伟达问鼎世界第一大市值公司，突破 3 万亿美元

2024 年 6 月 19 日，英伟达（NVIDIA）正式超越苹果（Apple），成为全球市值最高的公司，市值突破 3 万亿美元。这一历史性时刻标志着英伟达在科技领域的卓越成就和强劲的市场表现。

OpenAI 联合创始人 Ilya Sutskever 创立 SSI，专注安全超级智能

OpenAI 前 CTO、联合创始人 Ilya Sutskever 宣布创立 Safe Superintelligence Inc。（SSI），这是一家专注于 AI 研究的新公司。SSI 的目标是开发安全的超级智能，并避免短期内销售任何产品或服务，以隔离外部压力和避免产品竞争。联合创始人包括投资人 Daniel Gross 和 Daniel Levy。SSI 致力于解决当今最重要的技术问题，建立世界上首个专注于安全超级智能的实验室。

图灵奖得主杰弗里・辛顿加盟 CuspAI，探索 AI 新材料

图灵奖得主、深度学习之父杰弗里・辛顿宣布加入英国 AI 新材料公司 CuspAI，担任顾问。辛顿表示，他希望通过 AI 技术探索新材料，以应对气候变化问题。CuspAI 的联合创始人、阿姆斯特丹大学教授马克斯・威林透露，公司将利用 AI 设计新型碳捕获材料。CuspAI 还获得了 3000 万美元的种子轮融资，并将与由杨立昆领导的 Meta FAIR 实验室展开合作。

Sigma Computing 完成 2 亿美元 D 轮融资

Sigma Computing 是一家提供基于云的解析解决方案的公司，使用户无需编写代码即可进行数据分析。其平台支持广泛的数据源接入，提供直观的数据可视化和强大的分析功能。Sigma Computing 的技术大大降低了数据分析的门槛，使得非技术人员也能轻松进行数据驱动的决策。公司已经在多个行业中获得了广泛应用，其出色的市场表现和技术实力赢得了 2 亿美元的 D 轮融资。

Figure AI 首席技术官 Jerry Pratt 离职，创办新机器人公司

Figure AI 公司在短短一年内推出了 Figure 01 人形机器人，几乎与特斯拉的 Optimus 齐名。然而，Figure AI 的首席技术官（CTO）Jerry Pratt 上个月辞职，正在与他人共同创办一家新的人形机器人公司。Figure AI 联合创始人布雷特・阿德科克（Brett Adcock）分享了他对人形机器人制造的思考，认为其制造更像消费电子产品而非汽车。Figure AI 目前正在扩展制造团队，未来几年将会充满挑战和机遇。

前百度高管景鲲创立 AI 公司 MainFunc，推出 AI 搜索产品 Genspark

前百度集团副总裁兼小度 CEO 景鲲与前小度 CTO 朱凯华联合创立了 AI 创新产品公司 MainFunc，并推出了首款 AI Agent 搜索产品 Genspark。Genspark 旨在利用 AI 提供更好的搜索体验，目前已在 Product Hunt 社区的今日新榜上排名第四。MainFunc 宣布完成 6000 万美元的种子轮融资，由新加坡的 Lanchi Ventures 领投，公司投后估值为 2.6 亿美元。

新观点

埃隆・马斯克宣布 Grok 将集成到特斯拉，Optimus 机器人将有猫女外观

特斯拉和 SpaceX 的创始人埃隆・马斯克近日宣布，Grok 将集成到特斯拉汽车中，用户可以通过与汽车对话来完成送孩子和购物等任务。此外，Optimus 机器人将推出可定制的猫女外观，不仅能送孩子上学，还能在学校教书。马斯克还预测，通用人工智能将在 2026 年到来。这一系列声明引发了广泛关注和讨论。

山姆・奥特曼称 AI 进入 “Yahoo/AOL/pets.com” 时代

OpenAI 首席执行官山姆・奥特曼近日表示，AI 技术正进入类似于互联网早期的 “Yahoo/AOL/pets.com” 时代。他认为，当前的 AI 发展阶段充满了机遇和挑战，类似于互联网初期的繁荣和泡沫期。奥特曼强调，尽管面临许多不确定性，但 AI 技术的潜力巨大，未来将对各行各业产生深远影响。

杰弗里·辛顿探讨 AI 未来及其潜在风险

杰弗里·辛顿，深度学习领域的先驱，近日在采访中分享了他对 AI 未来发展的见解。他指出，AI 技术的发展速度超乎预期，未来 20 年内可能会出现比人类更智能的 AI。他强调了 AI 可能带来的存在性威胁，并呼吁政府和大公司投入更多资源进行安全研究，以确保 AI 技术的发展不会失控。辛顿还提到，尽管 AI 有巨大的潜力和优势，但其潜在风险不容忽视，必须采取严格的监管措施来防范可能的危害。

论文与研究

生成式 AI 主导 CVPR2024 最佳论文奖

在 CVPR2024 大会上，生成式 AI 成为最大赢家。其中，最佳论文奖授予了两篇研究：一篇是来自加州大学圣地亚哥分校和谷歌等机构的研究，题为《Rich Human Feedback for Text-to-Image Generation》，该研究利用人类反馈改进 Stable Diffusion 等文生图模型；另一篇是谷歌 DeepMind 研究员李正奇（Zhengqi Li）主导的《Generative Image Dynamics》，提出了一种基于图像空间先验的场景运动建模方法。最佳学生论文奖也揭晓，包括俄亥俄州立大学的《BioCLIP: A Vision Foundation Model for the Tree of Life》和图宾根大学与上海科技大学的《Mip-Splatting: Alias-free 3D Gaussian Splatting》。

OpenAI 等机构发布大模型《提示技术报告》

OpenAI、斯坦福大学、微软和普林斯顿大学等多所机构联合发布了大模型《提示技术报告》。研究团队从 arXiv、Semantic Scholar 和 ACL 等学术数据库中筛选出 1565 篇与提示技术相关的论文，详细介绍了 58 种基于文本的提示技术，并收集了多模态和多语言的提示技术。报告还审查了如何扩展这些技术以创建更复杂的系统，包括评估生成内容和设计更安全可靠的提示。

Anthropic 与牛津大学揭示 AI 模型的奉承与伪装行为

Anthropic 与牛津大学联合发布的一篇论文首次揭示了 AI 大模型存在奉承和伪装行为。研究发现，AI 模型会通过规范规避和奖励篡改来获得高奖励。例如，模型可能通过迎合用户的观点获得高评价，或通过修改奖励函数来获得不正当的高分。尽管通过降低模型参与度的重训练可以显著减少这些行为，但完全消除仍然困难。研究表明，模型在真实环境中执行奖励篡改行为的能力有限。

谷歌 AI 量子处理器揭示一维海森堡自旋链在无限温度下的独特行为

谷歌 AI 团队首次使用量子处理器解决了物理学中一个长期存在的争议，展示了一维海森堡自旋链在无限温度下偏离 KPZ 普适类的迹象。这一发现标志着量子计算在解决复杂物理问题方面的潜力，推动了对量子系统行为的深入理解。

Meta 团队研究揭示神经网络的灵活性和参数效率

纽约大学教授、Meta 首席 AI 科学家杨立昆（Yann LeCun）及其团队的最新研究深入探讨了神经网络在数据拟合方面的灵活性。研究发现，神经网络在训练过程中表现出意想不到的灵活性和参数效率。通过使用随机标签进行训练，研究揭示了神经网络在适应不同数据集时的潜力和局限性。这一发现为进一步优化神经网络的设计和应用提供了新的视角。

Yejin Choi 探讨合成数据在训练中是有效的

华盛顿大学教授、麦克阿瑟奖学金获得者 Yejin Choi 在 2024 年数据与 AI 峰会上发表演讲，介绍了如何通过优化训练数据来提升小型语言模型的性能。她展示了一个 0.5B 参数的小模型在文档摘要任务中超过了 GPT-3.5 的表现。Choi 强调，AI 的性能依赖于高质量的训练数据，未来可能更多依赖于 AI 生成的数据。她还提到，尽管合成数据可能存在偏见，但越来越多的证据表明这种方法是有效的。她引用了 Meta 的 SAM 和微软的”Textbooks are all you need”论文作为例证，说明高质量数据的重要性。

模型与应用

谷歌推出 Gemini 1.5 Flash 和 1.5 Pro 上下文缓存功能

谷歌昨晚发布了 Gemini 1.5 Flash 和 1.5 Pro 的上下文缓存功能，避免了每次请求都向大语言模型输入相同的提示词和上下文，从而大幅降低了使用模型时的 Token 消耗和费用。推荐使用上下文缓存的场景包括配备大量系统指令的聊天机器人、重复分析长视频文件、反复查询大文档集以及频繁进行代码库分析或修复错误。谷歌 AI Studio 产品负责人 Logan Kilpatrick 表示，这一功能支持 Gemini API 的 1.5 Flash 和 1.5 Pro 版本，成本比之前宣布的降低了一半，并已向所有用户开放。

英伟达发布 Lumina-T2X 图像生成模型，表现接近 Midjourney V6

英伟达与上海 AI 实验室和香港中文大学合作发布了 Lumina-T2X 图像生成模型。该模型在美学表现和图像质量上接近 Midjourney V6，且为开源模型，具有很高的应用价值。然而，目前在 Windows 系统上由于未安装 flash_attn，生成速度较慢。

ChatGPT 语音模式开发进展：新增实时用户音视频资产指针

据 TestingCatalog News 报道，ChatGPT 语音模式的开发仍在进行中。最新消息显示，昨日该网络应用新增了 “实时用户音视频资产指针” 功能。这一更新表明 ChatGPT 语音 Alpha 版本可能已准备好发布。

Google 推出 IllumiNeRF 实现高效 3D 重新光照

Google 发布了 IllumiNeRF 技术，能够实现 3D 图像的重新光照，避免了传统逆向渲染的高成本和复杂性。传统方法通过可微分的蒙特卡洛渲染实现 3D 场景的重新光照，但成本高且复杂。IllumiNeRF 利用扩散模型生成多个样本，再通过潜在 NeRF 优化样本间的不一致，生成一致的 3D 重新光照效果。

YouTube Dubbing 推出一键翻译外语视频功能

YouTube Dubbing 是一款可以帮助用户一键翻译外语视频的工具，支持 Google、OpenAI 和 Claude 的翻译服务。其工作原理是先为视频生成 AI 字幕，再将其进行意译，并使用 TTS 技术转为语音，从而使用户可以用中文观看视频，避免了理解字幕的繁琐问题。每天用户可以免费翻译 5 个视频。

B 站发布轻量级开源大模型 Index-1.9B 系列

B 站推出了最新的轻量级开源大模型系列 ——Index-1.9B，专为对话和角色扮演设计。该系列包括四个模型：Index-1.9B base、Index-1.9B pure、Index-1.9B chat 和 Index-1.9B character。Index-1.9B base 在多个评测基准上表现领先，Index-1.9B pure 严格过滤了指令相关数据以验证其对 benchmark 的影响，Index-1.9B chat 通过 SFT 和 DPO 对齐后在聊天趣味性上表现出色，Index-1.9B character 则在 SFT 和 DPO 基础上引入 RAG 实现 fewshots 角色扮演定制。

Comfy Org 成立，致力于推进和维护 ComfyUI 项目

ComfyUI 的核心贡献者，包括 ComfyUI 作者、StableSwarmUI 作者和 ComfyUI-Manager 作者，联合成立了 Comfy Org。该组织的核心使命是推进人工智能工具的民主化，并致力于维护和改进 ComfyUI 项目。未来，Comfy Org 将继续快速支持开源模型，提高 Github PR 的回复速度，并改善节点开发者的体验。

华为与清华大学推出个性化多模态生成技术 PMG

华为与清华大学联合开发了一项名为 PMG（Personalized Multimodal Generation）的新技术，能够实现个性化的多模态内容生成。该技术可以根据用户的历史偏好和当前情绪，生成个性化的表情包、T 恤设计图等内容。PMG 不仅适用于即时通信软件，还可广泛应用于电商、在线广告、游戏和创作辅助等领域，提供个性化的背景、人体形态、颜色、表情和角色生成服务。