什么是CogView4?
CogView4是智谱AI开发的开源文生图模型,具备60亿参数,原生支持中文输入与文本生成。
该模型在DPG-Bench综合评分中位列第一,是开源文生图模型中性能最优(SOTA)的解决方案。
作为首个基于Apache 2.0协议发布的图像生成模型,CogView4支持任意分辨率图像生成,能根据复杂文本描述输出高质量图像。
CogView4核心特性
双语输入支持——首个支持汉字生成的开源模型,中英文提示词均可生成高质量图像
任意分辨率生成——支持512×512至2048×2048分辨率,满足多样化创作需求
强语义对齐——DPG-Bench排名第一,擅长复杂语义对齐与指令跟随
中文文本渲染——针对中文生成优化,可实现汉字与图像的自然融合,特别适合广告、短视频等创意场景
内存优化与高效推理——采用CPU卸载和量化文本编码器技术,降低内存占用并提升推理效率
CogView4技术基础
模型架构——融合扩散模型与Transformer架构
扩散模型通过逐步去噪生成图像
Transformer组件处理文本与图像的联合表征
采用60亿参数规模,支持任意长度文本输入与任意分辨率图像生成
文本编码与分词——使用中英双语GLM-4编码器实现复杂语义对齐
通过分词器将文本转化为嵌入向量,再与图像潜表征进行融合
图像编码与解码——采用变分自编码器(VAE)将图像编码为潜空间表征
扩散模型对潜表征进行去噪处理以生成最终图像
扩散与去噪流程——扩散模型通过多步去噪逐步优化图像
使用FlowMatch EulerDiscrete调度器控制去噪过程
用户可调节推理步数(num_inference_steps)平衡生成质量与速度
多阶段训练策略——包含基础分辨率训练、多分辨率训练、高质量数据微调、人类偏好对齐
确保生成图像兼具高质量与美学价值
优化与效率——采用CPU卸载、文本编码器量化等内存优化技术提升训练推理效率
基于Apache 2.0协议开源,支持社区开发与贡献
项目链接
GitHub仓库:https://github.com/THUDM/CogView4
Hugging Face模型库:https://huggingface.co/THUDM/CogView4-6BZ
CogView4应用场景
广告创意设计——无缝融合中英文字与图像,生成高质量海报、营销视觉与品牌物料
教育内容生成——创作插画与科学示意图,帮助学生理解复杂概念
儿童绘本创作——生成符合儿童审美的插画,激发创造力与想象力
电商与内容创作——产出商品图、广告图等营销素材,助力商家获客
个性化内容定制——根据用户需求生成专属视觉内容,提升用户体验