企业动态
马斯克宣布 Grok-2 将于 8 月推出,承诺解决数据重叠问题
马斯克在 X 平台上宣布,他的人工智能初创公司 xAI 的最新大语言模型 Grok-2 将于 8 月推出。此声明回应了一位博主关于当前模型在彼此数据上训练的评论,马斯克表示 Grok-2 将大幅改进这一问题,减少训练数据的重叠,并对数据进行更多整理。此前,xAI 已发布了 Grok-1.5 大语言模型和首个多模态模型 Grok-1.5 Vision,并宣称使用了业内最强大的 GPU 集群进行开发。
Character.AI 考虑与 Meta 和 谷歌合作,拓展聊天机器人市场
据 The Information 报道,Character.AI 正在与 Meta 和 谷歌商讨合作事宜。这两家公司也在积极进入聊天机器人市场,试图与 Character.AI 竞争。Character.AI 以其基于名人和用户模型的定制聊天机器人而闻名,此次合作可能进一步推动其市场份额的增长。
人物与发言
扎克伯格预测智能眼镜将取代手机,Meta 推进 AI Studio 项目
Meta 首席执行官马克·扎克伯格在一次访谈中详细讨论了智能眼镜和神经腕带等技术对未来发展的影响。他预测,智能眼镜将逐渐替代手机,成为人们主要使用的个人硬件设备。智能眼镜的发展可分为三个阶段:基础型的无显示屏眼镜、带抬头显示的中级型眼镜,以及配备全息显示的高级型眼镜。此外,扎克伯格还提到了神经腕带的研发进展,这种腕带可以通过捕捉皮下神经信号来识别用户的手势,甚至仅通过用户的想象就能控制设备。Meta 还在开发一个名为 AI Studio 的新项目,允许创作者为其 AI 设计特定角色,处理来自社区的私信。该项目预计在未来几个月将向更多用户开放。
马斯克披露首位 Neuralink 大脑芯片患者近况
Neuralink 的首位使用者在详细访谈中分享了他的体验。他与 Neuralink 联合创始人马斯克讨论了增加更多神经连接芯片以控制大脑两半球的可能性,这种假设可以极大改善左右手的协调性。他还分享了通过 Neuralink 直接用思维控制电脑光标的经历,这种技术不仅能实现基本控制,还可能让 Neuralink 理解人类的思维,例如直接通过思考操作网络浏览器。随着这项技术的发展,未来的人类可能天生就擅长使用这类接口,就像今天的年轻人自然掌握智能手机和互联网一样。
论文与研究
韩国团队提出 Block Transformer,解码速度提升 20 倍
韩国科学技术院、LG 和 DeepMind 的研究人员提出了一种新的 Transformer 架构——Block Transformer。通过对 Transformer 的注意力机制进行切块调整,研究人员成功解决了原始 Transformer 推理速度慢的问题。原始 Transformer 每生成一个 Token 就要访问一次全局 KV 缓存,导致 GPU 有效利用率不到 1%。Block Transformer 在没有明显质量损失的情况下,将推理吞吐量提升了 10-20 倍,大幅度降低了内存开销。
模型与应用
Meta 发布 LLM Compiler,优化代码能力达最先进水平
Meta 宣布推出 LLM Compiler,这是基于 Meta Code Llama 构建的一系列模型,具备代码优化和编译器功能。这些模型能够模拟编译器、预测代码大小的最佳传递路径,并进行代码反汇编。LLM Compiler 在代码大小优化和反汇编方面达到了最先进的水平,展示了 AI 在代码优化领域的潜力。Meta 发布了 7B 和 13B 两个版本的 LLM Compiler 模型,并提供宽松的许可协议,允许研究和商业用途,旨在帮助开发者和研究人员利用这些工具进行进一步的研究和应用。
微软更新 Azure AI Speech,推出增强版文本转语音功能
微软对 Azure AI Speech 进行了重要更新,增强了文本转语音功能。此次更新支持更多语言和声音,特别为呼叫中心场景设计的语音,实现自然、真实的互动。用户可以在 Speech Studio 中访问更多预设的数字人形象,覆盖多种文化和身份。这些新功能通过 Azure OpenAI API 提升了视频创建和实时聊天的体验。结合语音 SDK,用户可以实现文本到语音的转换,在与聊天机器人交互中实时合成语音,或批量制作创意视频。新的文本流 API 集成了 ChatGPT,实现了更快、更流畅的实时语音合成,显著减少了延迟。
WhatsApp 测试 Llama 3-405B 模型,AI 对话功能再升级
WhatsApp 正在测试 AI 对话功能,默认模型为 Llama 3-70B,但测试客户端中出现了 Llama 3-405B 模型。该模型提供有限数量的使用,达到限制后用户将回到使用默认模型。这表明 Llama 3-405B 已经开始小范围测试,距离正式发布不远。Meta 早在 4 月份就预告了这一模型,预计将成为第一个 GPT-4 级别的开源模型。
硅基智能开源数字人交互平台 DUIX
硅基智能最近开源了数字人智能交互平台 DUIX。开发者可以接入多方大模型,结合语音识别(ASR)和语音合成(TTS)功能,实现数字人实时交互,并在 Android 和 iOS 多终端低成本快速部署。平台提供多种数字人形象,用户可根据行业需求定制功能,适用于客服、教育、聊天机器人等场景。
Resona V2A 推出首个商用视频转音频技术产品
Resona V2A 是首个商用的视频转音频技术产品,只需上传视频,即可根据上下文生成声音设计、效果、拟音和氛围,完美匹配场景、动画或电影。该技术擅长捕捉视频输入的细微差别和细节,速度比传统方法快约 90%,可将传统音频制作方法的成本降低 99%。Resona V2A 可以与 Runway 或 Luma 等视频生成程序配合使用。
英矽智能推出全自动化 AI 制药实验室
英矽智能(Insilico Medicine)在苏州建立了一个 1600 平的全自动化制药实验室,利用 AI 系统和机械臂实现无人操作。该实验室通过 PandaOmics 平台在 14 天内完成靶点发现和验证,显著缩短了传统需要 2-3 年的时间。PandaOmics 平台集成了 20 多种预测模型和生成生物学模型,支持靶点识别、分析和排序等生物学研究。此外,英矽智能的 Pharma.AI 平台和 Chemistry42 系统能够在几小时内设计新型小分子药物。
中山大学与字节智创推出 MMTryon,实现多件衣服一键组合试穿
中山大学与字节智创数字人团队联合推出了名为 MMTryon 的虚拟试穿框架。该框架通过输入多个服装图像及指定穿法的文本指令,生成高质量的组合试穿效果。无论是真人图像还是漫画人物,MMTryon 都能一键实现按需搭配的试穿效果。该方案利用强大的服装编码器处理复杂的换装场景,并消除了对服装精细分割的依赖,显著提升了组合换装的真实度和自然度。在基准测试中,MMTryon 取得了新的 SOTA(State of the Art)成绩。
相关阅读
AI 早知道:OpenAI 封禁部分区域 API;阶跃星辰新融资估值 20 亿美元;ChatGPT 语音模式开启灰测
AI 早知道:Hebbia 获 1 亿美元融资;OpenAI 考虑收购 Scale AI;亚马逊聘请 Adept CEO