智谱 AI 在 2025 年 3 月 4 日宣布开源文本生成图像模型 CogView4。这款 6B 参数的模型在 DPG-Bench 基准测试中综合评分排名第一,成为首个支持生成汉字的开源文生图工具。其最低硬件需求为 12G 显存的显卡,在启用模型分载和 4bit 量化技术时,生成 1024×1024 分辨率图像仅需 13G 显存。
技术细节显示,CogView4 支持中英双语输入,生成图像分辨率可在 512×512 至 2048×2048 之间自由调整。在中文文本准确性测试中,该模型达到 69.69% 的识别精度。测试数据显示,当使用 BF16 精度生成单张图像时,显存占用随分辨率提升从 33GB 到 43GB 不等。
该模型遵循 Apache 2.0 协议开源,用户可通过 Hugging Face 的 diffusers 库直接调用。开发者需要安装特定版本的 diffusers 源代码,并掌握 Python 编程基础才能使用。官方代码示例展示了如何生成一辆红色跑车的图像,提示词包含车辆外观细节和背景环境描述。
融资方面,智谱 3 月 3 日宣布完成超 10 亿元战略融资,杭州城投产业基金和上城资本领投。资金将用于 GLM 大模型技术创新,重点服务长三角地区实体经济数字化转型。这家源自清华大学的 AI 公司自 2020 年起持续研发预训练架构,先后推出 GLM-130B、ChatGLM 等开源模型。
此次融资正值美国政府拟将智谱列入实体清单之际。公司现有股东包括阿里和腾讯,2024 年 5 月融资时估值已达 30 亿美元。2025 年被智谱定义为开源年,计划陆续开源基座模型、推理模型和多模态模型。