国产文生图模型融资 10 亿硬抗美制裁：12G 显存跑出 2048×2048 高清图

智谱 AI 在 2025 年 3 月 4 日宣布开源文本生成图像模型 CogView4。这款 6B 参数的模型在 DPG-Bench 基准测试中综合评分排名第一，成为首个支持生成汉字的开源文生图工具。其最低硬件需求为 12G 显存的显卡，在启用模型分载和 4bit 量化技术时，生成 1024×1024 分辨率图像仅需 13G 显存。

技术细节显示，CogView4 支持中英双语输入，生成图像分辨率可在 512×512 至 2048×2048 之间自由调整。在中文文本准确性测试中，该模型达到 69.69% 的识别精度。测试数据显示，当使用 BF16 精度生成单张图像时，显存占用随分辨率提升从 33GB 到 43GB 不等。

该模型遵循 Apache 2.0 协议开源，用户可通过 Hugging Face 的 diffusers 库直接调用。开发者需要安装特定版本的 diffusers 源代码，并掌握 Python 编程基础才能使用。官方代码示例展示了如何生成一辆红色跑车的图像，提示词包含车辆外观细节和背景环境描述。

融资方面，智谱 3 月 3 日宣布完成超 10 亿元战略融资，杭州城投产业基金和上城资本领投。资金将用于 GLM 大模型技术创新，重点服务长三角地区实体经济数字化转型。这家源自清华大学的 AI 公司自 2020 年起持续研发预训练架构，先后推出 GLM-130B、ChatGLM 等开源模型。

此次融资正值美国政府拟将智谱列入实体清单之际。公司现有股东包括阿里和腾讯，2024 年 5 月融资时估值已达 30 亿美元。2025 年被智谱定义为开源年，计划陆续开源基座模型、推理模型和多模态模型。