AI 早知道：马斯克预测全球将至少 100 亿人形机器人；三星领投 Tenstorrent 3 亿美元

马斯克预测全球将有至少 100 亿人形机器人，为人类两倍

在特斯拉 2024 股东大会上，特斯拉和 SpaceX 创始人埃隆·马斯克表示，他同意 ARK 对特斯拉估值 5 亿美元的预测，这仅限于自动驾驶车辆，不包括人形机器人。马斯克认为未来人形机器人和人的比例可能至少是 2:1，甚至可能达到 1:1，这意味着全球将有 100 亿到 300 亿个人形机器人。特斯拉计划每年生产 1 亿个 Optimus 机器人，占据 10% 的市场份额。

马斯克预计，机器人行业的规模将比汽车行业大一个数量级，特斯拉每年可从人形机器人业务中赚得 1 万亿美元的利润，若市盈率为 20 到 25 倍，仅 Optimus 业务的估值就可达 20 万亿美元，再加上自动驾驶的估值，特斯拉的总估值将是目前市值最高公司的 10 倍。

三星领投 Tenstorrent 3 亿美元融资，估值达 20 亿美元

据 The Information 报道，韩国科技巨头三星正领投 AI 芯片初创公司 Tenstorrent 的 3 亿美元融资轮。三星不仅是此次融资的主要投资者，还负责制造 Tenstorrent 的 AI 芯片。此次融资使 Tenstorrent 的估值达到 20 亿美元，进一步巩固了其在 AI 芯片领域的地位。

OpenAI 董事会迎来前美国国家安全局局长保罗·中曾根

OpenAI 宣布前美国国家安全局局长保罗·中曾根（Paul M. Nakasone）加入其董事会。中曾根将为 OpenAI 带来世界级的网络安全专业知识，帮助公司保护其系统免受日益复杂的恶意行为者的威胁。此举旨在加强 OpenAI 的安全措施，确保其使命的顺利实现。

Groq Inc 宣布 Guillermo Aure 加入团队，推动 AI/HPC 硬件和软件发展

Groq Inc 宣布 Guillermo Aure 加入公司，将负责将 Groq 的创新 AI/HPC 硬件和软件推广给全球开发者，并支持日益增长的客户和合作伙伴数量。Groq Inc 是一家专注于提供最快速 AI 应用推理引擎的公司，其产品设计和工程均在北美完成。

NVIDIA 与 Utilidata 合作推动分布式 AI 在电网边缘的应用

NVIDIA 与 Utilidata 合作，利用分布式 AI 技术实现实时电网管理，以应对清洁能源和减排的要求。该技术能够在电网边缘进行高效的实时监控和管理，提升电网的稳定性和效率。

Andrej Karpathy 提出新的模拟假说：神经网络与近似模拟

前特斯拉 AI 总监、OpenAI 创始团队成员 Andrej Karpathy 在推特上提出了一种新的模拟假说。他认为模拟可能不是基于物理方程来模拟场或粒子，而是通过一个巨大的扩散 Transformer++ 来创建一个大型的“梦境”。这一观点引发了关于模拟和神经网络在理解现实方面的新讨论。

Luma 发布免费 AI 视频生成模型 Dream Machine

初创公司 Luma 发布了公众免费可用的 AI 视频生成模型 Dream Machine，抢在 Sora 之前向公众开放。Luma 成立于 2021 年，最初专注于 3D 内容生成和重建技术。今年 1 月，Luma 完成了由 a16z 独家投资的 4300 万美元 B 轮融资。此前，Luma 在 A 轮融资中获得了英伟达、Amplify Partners 和 General Catalyst 等知名机构的支持。Luma 的核心团队包括曾在 Apple AR/VR 部门工作的联创兼 CEO Amit Jain、加州大学伯克利分校毕业的联创兼 CTO Alex Yu 以及曾在英伟达工作的首席科学家 Jiaming Song。

Suno 发布音频输入功能，用户可用生活声音制作歌曲

Suno 推出了新的音频输入功能，允许专业版和高级版用户上传或录制自己的音频，制作个性化歌曲。用户可以从街头声音或即兴演奏中找到灵感，通过简单的步骤在平台上生成自己喜欢的音乐。

美图将发布最新 AI 短片创作平台 MOKI

美图创始人兼 CEO 吴欣鸿在美图影像节上展示了最新的 AI 短片生成效果，并宣布将于下月推出进阶版本。他强调生成时长并非 AI 视频产品的核心能力，并介绍了即将于 7 月 31 日上线的AI 短片创作平台 MOKI。美图通过 AI 技术实现了规模化盈利，全球 VIP 会员数已突破千万。此次发布的六款新产品包括游戏物料 AI 创作平台奇觅、链接专业设计师的站酷设计服务、专业批量修图工具美图云修、口播视频 AI 制作平台开拍、以及专注于电商的 AI 设计工具美图设计室。

Yi-1.5 模型下载量突破 70,000 次

Yi-01.AI 宣布其 Yi-1.5 模型在过去一个月内下载量已超过 70,000 次，并且已有超过 300 个模型被创建。该公司对社区的支持表示感谢，并鼓励大家继续共同努力，推动 AI 技术的发展。

Cartesia AI 推出高效 Mamba-3B-SlimPJ 模型

Cartesia AI 是一家由斯坦福大学 AI 实验室博士生创立的公司，致力于开发下一代基础模型。其最新发布的 Mamba-3B-SlimPJ 模型在减少 17% 训练浮点运算（FLOPs）的情况下，性能可与领先的 3B 参数 Transformer 模型媲美。Cartesia 的研究涵盖文本、音频、视频、图像和时间序列数据，特别擅长处理长序列和大数据集。公司致力于将其先进模型无缝集成到各种应用中，并频繁向公众发布研究成果。

东京大学推出 Musashi 人形驾驶机器人

东京大学开发了一款名为 Musashi 的肌肉骨骼人形机器人，能够执行多种驾驶任务，包括转方向盘、踩刹车、拧车钥匙、开转向灯和拉手刹。Musashi 配备了视觉、听觉和力传感器，并通过软硬件进行控制，能够识别交通信号灯、行人和其他车辆，并做出相应的驾驶决策。

斯坦福大学人工智能实验室开源 HumanPlus 项目，实现人类动作实时影子系统

斯坦福大学人工智能实验室发布了 HumanPlus 项目，该项目通过单个 RGB 摄像头和全身策略实现人类动作的实时影子系统。HumanPlus 能够模仿多种人类动作，包括拳击、弹钢琴、乒乓球、投掷和打字等。该系统已经开源，旨在利用人类数据训练类人机器人，使其掌握折叠衣物、从仓库货架卸载物品、蹲跳站立等多种技能，并能与其他机器人互动。

斯坦福团队推出多模态视频生成模型 PROTEUS

斯坦福大学的研究人员推出了一款名为 PROTEUS 的新视频生成模型。该模型能够从单一图像生成虚拟人物的多种动作，如大笑、说唱、绕口令和眨眼等。PROTEUS 还支持实时音频流输入，可以以每秒 100 帧以上的视频流生成，从而实现现场直播或语音操控互动。该模型兼容多种大模型的多模态输入，能够处理语音、文本和图像等多种形式的数据。

微软研究团队发布视觉字幕恢复任务及数据集

微软研究团队宣布了一项新的视觉语言模型（VLM）任务——视觉字幕恢复（Visual Caption Restoration），并发布了相关数据集。该任务要求模型不仅要捕捉相关的感知细节，还需要基于这些细节进行推理。研究团队成员包括张天宇、王硕、李磊、张国、塔斯拉基安、拉杰斯瓦尔、傅杰、刘斌和约书亚·本吉奥。