CogView4——支持汉字生成的开源AI文本转图像模型
AI产品观察

CogView4——支持汉字生成的开源AI文本转图像模型

  • CogView4
  • 文生图模型
  • 中文输入
  • 尖端性能
  • 图像生成
  • 语义对齐
  • 内存优化
  • 技术基础
  • 开源
Tina

By Tina

March 27, 2025

什么是CogView4?

CogView4是智谱AI开发的开源文生图模型,具备60亿参数,原生支持中文输入与文本生成。

该模型在DPG-Bench综合评分中位列第一,是开源文生图模型中性能最优(SOTA)的解决方案。

作为首个基于Apache 2.0协议发布的图像生成模型,CogView4支持任意分辨率图像生成,能根据复杂文本描述输出高质量图像。

CogView4核心特性

双语输入支持——首个支持汉字生成的开源模型,中英文提示词均可生成高质量图像

任意分辨率生成——支持512×512至2048×2048分辨率,满足多样化创作需求

强语义对齐——DPG-Bench排名第一,擅长复杂语义对齐与指令跟随

中文文本渲染——针对中文生成优化,可实现汉字与图像的自然融合,特别适合广告、短视频等创意场景

内存优化与高效推理——采用CPU卸载和量化文本编码器技术,降低内存占用并提升推理效率

CogView4技术基础

模型架构——融合扩散模型与Transformer架构

扩散模型通过逐步去噪生成图像

Transformer组件处理文本与图像的联合表征

采用60亿参数规模,支持任意长度文本输入与任意分辨率图像生成

文本编码与分词——使用中英双语GLM-4编码器实现复杂语义对齐

通过分词器将文本转化为嵌入向量,再与图像潜表征进行融合

图像编码与解码——采用变分自编码器(VAE)将图像编码为潜空间表征

扩散模型对潜表征进行去噪处理以生成最终图像

扩散与去噪流程——扩散模型通过多步去噪逐步优化图像

使用FlowMatch EulerDiscrete调度器控制去噪过程

用户可调节推理步数(num_inference_steps)平衡生成质量与速度

多阶段训练策略——包含基础分辨率训练、多分辨率训练、高质量数据微调、人类偏好对齐

确保生成图像兼具高质量与美学价值

优化与效率——采用CPU卸载、文本编码器量化等内存优化技术提升训练推理效率

基于Apache 2.0协议开源,支持社区开发与贡献

项目链接

GitHub仓库:https://github.com/THUDM/CogView4

Hugging Face模型库:https://huggingface.co/THUDM/CogView4-6BZ

CogView4应用场景

广告创意设计——无缝融合中英文字与图像,生成高质量海报、营销视觉与品牌物料

教育内容生成——创作插画与科学示意图,帮助学生理解复杂概念

儿童绘本创作——生成符合儿童审美的插画,激发创造力与想象力

电商与内容创作——产出商品图、广告图等营销素材,助力商家获客

个性化内容定制——根据用户需求生成专属视觉内容,提升用户体验



相关文章

首页iconAI产品观察icon

CogView4——支持汉字生成的开源AI文本转图像模型

© Copyright 2025 All Rights Reserved By Neurokit AI.