Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 

谷歌开源多模态 Gemma 3 大模型:手机 1 小时视频 20 秒解析,推理提速 47%

2025-03-12

谷歌于 2025 年 3 月 12 日发布 Gemma 3 系列开源大语言模型,包含 1B、4B、12B 和 27B 四种参数规格。该系列首次实现多模态处理能力,支持文本、图像及短视频混合输入,128K 上下文窗口可同时解析约 30 张高分辨率图像或 1 小时视频内容,支持英语交互与函数调用功能,适用于 AI 代理开发及自动化任务场景。

Gemma 3 基于与 Gemini 相同的底层架构。移动端和边缘计算部署测试显示,27B 版本在单台 A100 服务器即可运行。硅谷开发者论坛实测显示,该模型在移动设备处理短视频内容时,推理速度较前代提升 47%。

开源文档显示,Gemma 3 的视觉处理模块采用动态图像切片技术,将高分辨率图像分割为 512×512 像素单元进行处理。视频解析采用帧采样与光流分析结合方案,1 小时视频内容可在 20 秒内完成关键帧提取。开发者已将该模型应用于智能客服、工业质检等场景。

谷歌云平台同步推出 Gemma 3 定制服务,支持在 Vertex AI 平台进行模型微调。目前 GitHub 开源库已提供 PyTorch、JAX 两种实现版本。

AI 日报

查看全部日报

  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!
  • 千觉机器人完成千万融资!加速多模态触觉技术落地

©2025 毫河风报 沪ICP备18012441号-5