什么是xAR?
xAR是由字节跳动与约翰霍普金斯大学联合提出的新型自回归视觉生成框架。该框架通过"Next-X Prediction"和"Noisy Context Learning"技术,解决了传统自回归模型在视觉生成中存在的信息密度不足与误差累积问题。
xAR主要功能
Next-X预测:将传统的"next token prediction"扩展为支持模型预测更复杂实体(如图像块单元、子采样、完整图像等),捕获更丰富的语义信息。
噪声上下文学习:通过在训练中引入噪声,提高模型对错误的鲁棒性,缓解误差累积问题。
高性能生成:在ImageNet数据集上,xAR模型在推理速度和生成质量两方面均优于DiT等现有扩散模型技术。
灵活预测单元:支持多种预测单元设计(如单元、子采样、多尺度预测等),适用于不同视觉生成任务。
xAR技术原理
流匹配:xAR基于流匹配方法将离散的token分类问题转化为连续实体回归问题。具体表现为:
模型通过插值和噪声注入生成含噪输入
每个自回归步骤中,模型预测从噪声分布到目标分布的方向流(Velocity),从而逐步优化生成结果
推理策略:在推理阶段,xAR以自回归方式逐步生成图像:
首先从高斯噪声预测初始单元(如8x8图像块)
基于已生成单元,模型逐步生成下一单元直至完成整幅图像
实验结果:xAR在ImageNet-256和ImageNet-512基准测试中取得显著性能提升:
xAR-B(1.72亿参数)模型推理速度比DiT-XL(6.75亿参数)快20倍,同时取得1.72的Fréchet Inception Distance(FID),优于现有扩散模型和自回归模型
xAR-H(11亿参数)模型在ImageNet-256上取得1.24的FID,创下新最优水平,且不依赖视觉基础模型(如DINOv2)或高级引导区间采样
xAR项目地址
项目网站:https://oliverrensu.github.io/project/xAR/
arXiv技术论文:https://arxiv.org/pdf/2502.20388
xAR应用场景
艺术创作:艺术家可用xAR生成创意图像作为艺术作品灵感来源或直接用于创作。xAR能生成具有丰富细节和多样风格的图像,支持不同分辨率和风格创作需求。
虚拟场景生成:在游戏开发和虚拟现实(VR)中,xAR可快速生成逼真虚拟场景,包括自然景观、城市环境和虚拟人物,提升用户体验。
老照片修复:通过生成高质量图像内容,xAR可修复老照片的受损部分,还原其原始细节和色彩。
视频内容生成:xAR可生成视频中特定场景或物体,用于视频特效制作、动画生成和视频编辑。
数据增强:通过生成多样化图像,xAR可扩充训练数据集,提升模型的泛化能力和鲁棒性。