AI 早知道：OpenAI 又要造机器人了； Midjourney 也要做硬件；英特尔模拟人脑进度达 1/80

OpenAI 重启机器人团队并开始招聘研究工程师

据报道，OpenAI 在放弃通用机器人项目后，正式重启其机器人团队。新团队已成立约两个月，目前正在招聘研究工程师。

Midjourney 宣布成立新硬件团队

Midjourney 创始人 David Holz 宣布，公司已组建新的硬件团队，新团队将专注于开发创新硬件解决方案。

Poolside AI 寻求 Bain Capital Ventures 4.5 亿美元投资

Poolside AI 正在寻求由 Bain Capital Ventures 主导的 4.5 亿美元融资。该公司专注于为软件开发者提供大语言模型（ LLM ），此次融资将是其 8 月种子轮融资 1.26 亿美元后的重大进展。

Perplexity 推出 AI Wikipedia

Perplexity 的创始人 Aravind Srinivas 表示， Perplexity 的使命是满足全球的好奇心，并从维基百科中汲取灵感，提供带有引用的内容。近日， Perplexity 推出了名为“ Pages ”的新功能，被称为“ AI Wikipedia ”，旨在通过分析来源并合成可读页面来进一步实现这一目标。

Groq Inc 计划 2024 年底实现每秒 2500 万 token 的LLM推理速度

Groq Inc 的 Bruce.nkn 在 #genaisummit 2024 上宣布，公司计划在 2024 年底前实现每秒 2500 万 token 的 LLM 推理速度。这一目标将显著提升 AI 模型的处理效率和应用潜力。

Yann LeCun 探讨实时图像和视频处理最佳架构

Yann LeCun 指出，实时图像和视频处理的最佳架构应在低层次使用卷积操作（或更复杂的局部操作），在高层次使用自注意力电路。他认为，低层次的 Transformer 嵌入是资源浪费，并提到特斯拉的全自动驾驶可能采用了类似的架构。此外，他还提到 ConvNext 的研究表明，如果使用得当，卷积网络的效果可以媲美视觉 Transformer 。

FAIR 发布 CoPE 方法提升 Transformer 模型上下文理解

FAIR团队发布了一种名为 Contextual Positional Encoding ( CoPE )的新方法，旨在提升 Transformer 模型对上下文的理解能力。CoPE 通过考虑上下文信息，能够根据需要计算不同层级的距离，如句子、段落、单词和动词等，而不仅仅是简单的标记。该方法由 Yann LeCun 等人提出，可能对 Elon Musk 的 Grok 项目有所帮助。

Cartesia 推出低延迟语音生成模型 Sonic

模型初创公司 Cartesia 宣布推出一种低延迟的语音模型 Sonic 及其 API 。Sonic 的延迟仅为 135 毫秒，音频困惑度降低了 20 %，单词错误率降低了 2 倍，并且 NISQA 质量评分提高了 1 分。Cartesia 由斯坦福博士 Karan Goel 创立，华人 Albert Gu 担任首席科学家。Albert Gu 此前还与 FlashAttention 的作者合作推出了优于 Transformer 的新架构 Mamba 。

Udio 新模型可生成 2 分钟音频

Udio 推出了新的 udio – 130 音乐生成模型，能够生成长达 2 分钟的音频，帮助用户创建更具连贯性和结构的曲目。该模型还增加了高级控制功能，包括随机种子设置、剪辑开始时间控制、提示词或歌词强度调节等，使用户能够更加精准地控制音乐生成和剪辑。

Mistral AI 发布精通 80 多种编程语言的模型 Codestral

素有“欧洲 OpenAI ”之称的 Mistral AI 推出了一个名为 Codestral 的模型，该模型以 22 B 参数量超越了 70 B 参数的 Code Llama ，并精通 80 多种编程语言。Codestral 的模型大小为 22B ，具有 32K 的上下文长度。该模型还成功解决了 GPT-4o 和 Claude3 – Opus 未能完成的代码编辑任务。

Arm 发布新一代 AI 手机 CPU 和 GPU 架构

英国芯片设计公司 Arm 发布了面向智能手机 AI 功能的下一代 CPU 和 GPU 设计。新一代 CPU 架构 Cortex – X 925 较上一代，单核性能提升 36 %，AI工作负载性能提高 41 %。此外， Arm 还推出了最新的 Immortalis G925 GPU ，其AI推理速度比当前 GPU 快 36 %。预计搭载这些新设计的手机将于 2024 年底上市。

英特尔 Hala Point 神经拟态系统模拟人脑进度达 1/80

英特尔实验室推出的 Hala Point 神经拟态系统，利用硅芯片模拟生物神经元，规模已接近人脑的 1/80 。该系统在执行 AI 推理负载和处理优化问题时，速度比常规 CPU 和 GPU 架构快 50 倍，能耗降低 100 倍。其 INT8 精度运算的能效比达到了 15 TOPS/W 。Hala Point 在仿生脉冲神经网络模型中运行速度比人脑快 20 倍，在神经元数量较低的情况下速度可达 200 倍。

日本研究人员利用 AI 成功从人脑提取心理图像

日本研究人员开发了一种“大脑解码”技术，利用AI将人类大脑活动转化为物体和风景的心理图像。在实验中，AI 成功从人脑活动中提取出具有耳朵、嘴巴和斑点等可辨认特征的生动图像，包括动物和飞机等物体。这是首次实现对任意自然图像的心理形象视觉化。高级视觉皮层在想象图像重建中起着重要作用。这一发现可能为研究幻觉、梦境等主观大脑内容提供新的工具。