AI 早知道：Hebbia 获 1 亿美元融资；OpenAI 考虑收购 Scale AI；亚马逊聘请 Adept CEO

# 企业动态

Hebbia 获得近 1 亿美元 B 轮融资，提升 AI 文档处理能力

Hebbia 宣布在 B 轮融资中筹集了近 1 亿美元，由 Andreessen Horowitz 领投。该公司利用 AI 技术，可以在短时间内处理数百万份文档，包括 PDF、PowerPoint、电子表格和转录内容，并返回具体答案。Hebbia 的主要客户包括金融服务公司，如对冲基金和投资银行，同时也适用于律师事务所和其他专业领域。

亚马逊聘请 Adept CEO 并获得技术授权

据 The Information 报道，亚马逊已聘请 AI 初创公司 Adept 的联合创始人& CEO David Luan，并获得其技术授权。这一举动类似于微软与 Inflection AI 的合作，显示出亚马逊在 AI 领域的积极布局。Adept 成立于 2022 年 1 月，凭借深厚的技术背景迅速获得了 LinkedIn 创始人 Reid Hoffman 和特斯拉自动驾驶负责人 Andrej Karpathy 等行业大佬的投资。

OpenAI 继续扩张团队，聘请 Zapier 首席营收官

据知名科技记者 Amir Efrati 报道，OpenAI 继续其扩张团队的步伐，最新聘请了 Zapier 的首席营收官（CRO）Giancarlo ‘GC’ Lionetti，负责领导销售策略。

Sam Altman 与 Scale AI 创始人 Alexandr Wang 讨论收购事宜

根据 The Information 报道，去年秋天，OpenAI CEO Sam Altman 与 Scale AI 创始人 Alexandr Wang 进行了关于收购的讨论。值得注意的是，Altman 和 Wang 曾经住在一起。Scale AI 是一家专注于数据标注和人工智能训练数据的公司，由 Alexandr Wang 创立。Wang 出生于 1997 年，是一位年轻的华裔企业家，曾在麻省理工学院就读，并在 19 岁时创办了 Scale AI。

# 论文与研究

Dimitris Papailiopoulos 探讨语言模型在长上下文中的表现

威斯康星大学麦迪逊分校教授 Dimitris Papailiopoulos 在社交媒体上分享了他最新的研究，探讨了语言模型在处理长上下文时的表现。研究的初衷是基于 @nelsonfliu 等人观察到的 “中间丢失” 现象，即模型如 GPT 和 Claude 在从输入上下文的中间或末尾检索信息时表现不佳。相关论文链接：https://arxiv.org/pdf/2307.03172。

# 人物与发言

比尔・盖茨谈人工智能的能源消耗与未来发展

比尔・盖茨在采访中表示，尽管人工智能（AI）带来了额外的能源需求，但其通过抵消排放所带来的收益将足以覆盖自身的成本。他指出，AI 的电力使用量最终可能占 3% 到 6%，但不会超过 10%。科技公司愿意支付额外费用使用绿色能源，这将推动绿色技术的发展。盖茨认为，AI 领域的增长是真实的，并非互联网泡沫的代名词，未来将有一些大赢家。

Airbnb CEO 谈 OpenAI 内部纷争及 AI 对 Airbnb 的影响

在最近的一次采访中，Airbnb CEO Brian Chesky 回顾了去年 OpenAI 的内部纷争，并分享了他在幕后帮助 OpenAI CEO Sam Altman 的经历。Chesky 强调了信息缺失导致的误解和恐惧，并赞扬了 Altman 在危机中的表现。此外，Chesky 还讨论了 AI 对 Airbnb 的潜在影响，预计到 2026 年，AI 将显著改变各类应用程序的面貌。

# 模型与应用

英伟达投资的 Luma AI 推出 Dream Machine，上线 “关键帧控制” 功能

英伟达投资的初创公司 Luma AI 推出了新一代 AI 视频生成模型 Dream Machine，并上线了 “关键帧控制” 功能。用户可以上传首尾两张图像并搭配简单文字说明，生成各种创意视频。该功能目前免费开放，吸引了大量用户体验，导致服务器被挤爆。Luma AI 成立于 2021 年，专注于 3D 内容生成和重建技术，今年 1 月完成了由 a16z 独家投资的 4300 万美元 B 轮融资。Luma 的核心团队包括曾在 Apple AR/VR 部门工作的联创兼 CEO Amit Jain、加州大学伯克利分校毕业的联创兼 CTO Alex Yu 以及曾在英伟达工作的首席科学家 Jiaming Song。

讯飞星火大模型 V4.0 发布，语音识别能力再创新高

在最新的发布会上，科大讯飞展示了其讯飞星火大模型 V4.0 的强大语音识别能力。即使在三人同时说话并伴有背景音乐的强干扰场景下，讯飞星火大模型依然能够准确识别并转化为文字，解决了语音识别领域的 “鸡尾酒会” 难题。此外，讯飞星火 V4.0 在七大底座能力上进行了提升，并在八个榜单中排名第一，全面对标 GPT-4 Turbo。此次发布会还带来了讯飞星火 APP/Desk 和语音大模型的一系列升级，支持 74 种语言的自由交流。科大讯飞成立于 1999 年，是中国领先的智能语音和人工智能技术提供商。

谷歌 Gemma-2 提供的各项评测对比中，GLM-4-9B 表现优势

在 Gemma-2 提供的各项评测对比中，近 1 个月前发布开源的国产大模型 GLM-4-9B 表现优势。GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。在语义、数学、推理、代码和知识等多方面的数据集测评中，GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出较高的性能。GLM-4-9B 升级的前身是 2023 年智谱开源的 3 代的 6B 模型，Hugging Face 上获得了超过1700 万次的下载。

GPTPDF：使用 GPT-4o 将 PDF 解析为 Markdown 的高效工具

GPTPDF 是一款基于 GPT-4o 的工具，能够将 PDF 文件解析为 Markdown 格式。该工具仅需 293 行代码，几乎可以完美解析任何 PDF 文件，包括排版、数学公式、表格、图片和图表等内容，平均每页成本为 $0.013。其工作原理是使用 PyMuPDF 库首先解析出 PDF 中的所有非文本区域并做好标记，然后使用 GPT-4o 进行解析，最终生成 Markdown 文件。

多伦多大学等团队发布 Diffusion4D，开源 81K 高质量 4D 数据集

多伦多大学、北京交通大学、德克萨斯大学奥斯汀分校和剑桥大学的研究团队发布了名为 Diffusion4D 的创新成果。该方法利用大规模数据集，训练视频生成模型生成 4D 内容。团队整理筛选了约 81K 个 4D 数据，使用 8 卡 GPU 共 16 线程，花费超过 30 天渲染得到了约 400 万张图片，包括静态 3D 物体环拍、动态 3D 物体环拍以及动态 3D 物体前景视频。项目已开源所有渲染的 4D 数据集及渲染脚本。

NBC 使用 AI 模仿 Al Michaels 声音解说巴黎奥运会

2024 年巴黎奥运会将迎来 AI 解说员的首次亮相。NBC 利用 AI 技术模仿传奇解说员 Al Michaels 的声音，为观众定制了 10 分钟的奥运集锦。观众可以根据自己的喜好选择运动项目、运动员和内容类型。这一举动标志着 AI 生成内容开始被主流媒体接受，经过几个月的法律斗争和犹豫，大型媒体公司终于加入了 AI 内容生成的潮流。

AI 早知道：谷歌推出 Gemma 2 开源模型；OpenAI 模型销售能力超微软；Figma 更新 AI 功能

AI 早知道：Sam 透露 GPT-5 仍在开发；英特尔展示首个全光计算互连芯片；ChatGPT 语音助手推迟上线至七月底