企业动态
摩尔线程推出首个国产全功能 GPU 万卡集群
摩尔线程宣布推出国内首个全功能 GPU 万卡集群,兼容 CUDA,专为万亿参数级别的大模型训练设计。该集群总算力超万 P,有效计算效率(MFU)目标最高达 60%,周均训练有效率目标最高可达 99%以上,平均无故障运行 15 天以上。摩尔线程创始人兼 CEO 张建中表示,夸娥万卡智算集群将为各行各业的数智化转型提供强大算力支持。摩尔线程是国内领先的 GPU 企业,致力于解决大算力需求问题。
Harvey 计划融资 6 亿美元并考虑收购法律研究公司 vLex
据 The Information 报道,美国 AI 公司 Harvey 正在与投资者洽谈,计划融资 6 亿美元,并考虑收购由私募股权支持的法律研究提供商 vLex。Harvey 专注于为律所提供 AI 模型,帮助律师更快、更准确地分析案件,提高办案效率。此次融资和收购计划将进一步增强 Harvey 在法律科技领域的竞争力。
卡内基梅隆大学教授创立 All Hands AI,推出开源 AI 软件代理 OpenDevin
卡内基梅隆大学教授 Graham Neubig 宣布创立新公司 All Hands AI,推出开源 AI 软件代理 OpenDevin。OpenDevin 是 Cognition AI Lab 之前推出的 Devin AI 软件工程师的开源版本,能够编码、调试,甚至开发应用程序和网站。目前,OpenDevin 在 Github 上的 Star 数已接近 3 万,社区讨论等功能也即将上线。公司的目标是通过开放的方式让更多人接触到好用的 AI 软件开发代理,并共同建设友好交流的社区。这款 AI 代理不仅能提高工程师的工作效率,还能让非工程师构建有用的应用程序。
人物与发言
周伯文接任上海人工智能实验室主任,提出 AI-45°平衡律
在 WAIC 2024 全体会议上,清华大学教授周伯文以上海人工智能实验室主任和首席科学家的新身份发表演讲,提出了 AI-45°平衡律,强调在确保 AI 安全的同时,推动 AI 性能的长期发展。他介绍了上海人工智能实验室正在探索的“可信 AGI‘因果之梯’”,将可信 AGI 的发展分为泛对齐、可干预和能反思三个阶段。周伯文表示,目前 AI 技术主要停留在第一阶段,部分尝试第二阶段,但要实现 AI 的安全与性能平衡,必须完善第二阶段并勇于攀登第三阶段。周伯文此前创办了衔远科技,专注于电商领域的生成式 AI 应用。
论文与研究
Meta 发布多 token 预测模型,提升 LLM 训练速度和代码完成能力
Meta 团队在 2024 年 4 月发布了一篇关于多 token 预测的新训练方法的论文,展示了如何通过这种方法提升大型语言模型(LLM)的训练速度和性能。为了促进研究人员的进一步探索,Meta 还在 HuggingFace 平台上发布了使用该方法进行代码完成的预训练模型。
改变答题顺序会显著降低大模型准确率
一项来自 Meta 公司 FAIR 团队、宾夕法尼亚州立大学和加州大学伯克利分校的新研究发现,改变答题顺序会导致大规模多任务语言理解(MMLU)数据集上的模型准确率显著下降,顶级模型的准确率可能会下降 10-20%。这表明现有排行榜的可靠性可能不如预期。研究人员建议在评估大语言模型(LLMs)时,需要额外考虑每个模型在随机回答情况下的准确率,以调整排行榜测试的标准规则。
模型与应用
法国 Kyutai 实验室推出 Moshi:实时多模态开源模型,挑战 GPT-4o
法国 AI 实验室 Kyutai 宣布推出 Moshi,这是一款实时多模态开源模型,能够进行听、说和编程等多种交互。Moshi 被视为 GPT-4o 的竞争对手,Kyutai 实验室获得了 3 亿美元的资金支持。该模型的代码、模型和相关论文将很快发布。
苹果计划分批上线“Apple Intelligence”功能
据知名科技记者马克·古尔曼(Mark Gurman)最新爆料,苹果将在 2024 年秋季推出“Apple Intelligence”,但不会包含所有在 WWDC24 上展示的功能。第一批功能将以“预览版”形式上线,包括全新的 Siri 用户界面和“键入式 Siri”功能,允许用户通过键盘与 Siri 交互。其他功能如 Siri 理解设备内容、语义索引、AI 控制设备和屏幕感知等,将在 2025 年上线。古尔曼指出,苹果选择花更多时间解决技术问题并完善多语言支持,显示了对产品体验的重视。
谷歌 Pixel 9 将引入更多 AI 功能,包括 Recall 和 Circle to Search
最新泄露的细节显示,谷歌 Pixel 9 将带来更多 AI 功能,包括类似微软的 Recall 功能。Google AI 计划将结合新旧功能一起在 Pixel 9 上推出。Circle to Search 划圈搜索功能目前已经在 Pixel 手机和一些第三方设备上可用,Gemini 也在所有 Android 手机上提供。
英伟达发布 Canary 多语言语音识别和翻译模型,训练效率大幅提升
英伟达推出了 Canary 多语言语音识别(ASR)和自动语音翻译(AST)模型,在英、法、西、德四种语言的语音识别和翻译上表现出色。Canary 模型在仅使用 86,000 小时语音数据的情况下,超越了主流模型如 Whisper、OWSM 和 Seamless-M4T。其成功归功于基于 FastConformer 的编码解码架构、使用机器翻译生成的合成数据以及先进的训练技术。Canary 在 10 个测试集中取得了最佳的词错误率(WER),并通过动态分桶技术和抗噪微调显著提高了训练效率和模型鲁棒性。使用 128 个 NVIDIA A100 80GB GPU 仅需 48 小时即可完成训练,Canary 模型及其训练代码将开源,推动科技社区的进步。
腾讯开源混元 Captioner 模型,优化文生图数据集生成
腾讯宣布开源混元 Captioner 模型,该模型支持中英文双语,专为文生图场景优化,能够帮助开发者快速制作高质量的文生图数据集。混元 Captioner 通过构建结构化图片描述体系,注入人工标注、模型输出和公开数据等多种来源,提升描述的完整性和准确性。模型还包含丰富的背景知识,如知名文学作品形象、地标、食物、动物和中国元素。此外,腾讯还推出了混元 DiT 模型的小显存版本,仅需 6G 显存即可运行,并支持 LoRA、ControlNet 等插件,适配至 Diffusers 库,新增对 Kohya 图形化界面的支持,进一步提升图片质感与构图。
ChatGPT macOS 应用引发隐私担忧:对话以纯文本形式存储
据 9to5Mac 报道,ChatGPT 的 macOS 应用因将用户对话以纯文本形式存储而引发隐私担忧。用户担心这种存储方式可能导致敏感信息泄露。OpenAI 尚未对此作出回应。
Cloudflare 推出一键阻止 AI 机器人的新工具
Cloudflare 近日推出了一项新功能,允许网站运营者一键阻止所有 AI 机器人、抓取工具和爬虫。用户只需在 Cloudflare 仪表板中导航至“安全 -> 机器人”部分,并启用标有“AI 抓取工具和爬虫”的开关,即可使用该功能。此功能适用于所有 Cloudflare 客户,包括免费用户,无需额外付费。
Move AI 推出 Move API,实现 2D 视频转 3D 运动数据
Move AI 推出了全新的 Move API,能够将 2D 视频轻松转化为 3D 运动数据。用户只需上传一个视频文件,即可生成 3D 人类动作数据,并支持多种 3D 文件格式,包括 usdz、usdc 和 fbx。Move API 提供了 Swift 和 Python 的 SDK,方便开发者在不同环境中快速集成。这一技术在 AR、游戏和动画领域具有广泛应用前景。
上海市第一人民医院推出首个大模型陪诊师
上海市第一人民医院引入了基于大模型的 AI 陪诊师 “公济小壹”,为患者提供全程陪诊服务。无需下载 APP,患者只需打开支付宝即可使用该服务。从诊前预约挂号、在线取号,到诊中院内导航、排队叫号、扫码支付,再到诊后的报告查询和用药注意等流程,AI 陪诊师都在旁协助。目前,该服务主要在眼科试点,未来将拓展到更多科室。整个大模型本地化部署,充分保障数据安全。
相关阅读
AI 早知道:Runway 洽谈 4.5 亿美元融资;苹果高管加入 OpenAI 董事会;Figure 机器人进入宝马工厂
AI 早知道:Hebbia 获 1 亿美元融资;OpenAI 考虑收购 Scale AI;亚马逊聘请 Adept CEO