什么是OmniAlign-V?
OmniAlign-V是由上海交通大学、上海人工智能实验室、南京大学、复旦大学和浙江大学联合开发的高质量数据集,专门用于增强多模态大语言模型(MLLMs)与人类偏好的对齐能力。
该数据集包含约20万条多模态训练样本,涵盖自然图像和信息图表,结合开放式、知识密集型问答对。通过强调任务多样性(包括知识问答、推理任务和创意任务),利用复杂问题和多样化回答格式提升模型对齐效果。OmniAlign-V采用图像筛选策略,确保使用语义丰富且复杂的图像进行数据生成。
核心特性
高质量多模态训练数据:包含约20万条含自然图像和信息图表(如海报、图表)的样本,通过复杂问题与多样化回答格式帮助模型理解人类偏好。
增强开放式问答能力:设计开放式问题、跨学科知识及综合性回答,使模型生成更符合人类预期的答案。
提升推理与创造力:训练模型执行复杂思维和创意任务,强化多模态交互表现。
优化多模态指令微调:采用高质量指令微调数据,在保持物体识别、OCR等基础能力的同时提升指令遵循性。
支持多模态模型持续优化:可用于监督微调(SFT),并通过直接偏好优化(DPO)进一步强化对齐能力。
技术原理
图像筛选与分类:基于图像复杂度(IC)评分和物体类别(OC)过滤选择语义丰富的图像,分为自然图像与信息图表两类并设计差异化任务。
自然图像任务:包含知识问答、推理及创意任务,提升模型在真实场景的理解与生成能力。
信息图表任务:针对图表/海报等复杂视觉内容设计,要求模型解析深层信息。
问答生成:采用GPT-4o等先进模型生成高质量问答对,经后处理优化数据质量。
后处理优化:通过指令增强、推理改进及图表答案精修确保数据多样性与高品质。
多模态训练与优化:结合SFT和DPO提升模型对齐能力,优先选择多样复杂的样本强化多模态交互偏好理解。
基准评估:引入MM-AlignBench基准评估MLLMs的人类偏好对齐表现,确保实际应用效果。
项目链接
官网:https://phoenixz810.github.io/OmniAlign-V
GitHub仓库:https://github.com/PhoenixZ810/OmniAlign-V
Hugging Face模型库:https://huggingface.co/collections/PhoenixZ/omnialign-v
技术论文:https://arxiv.org/pdf/2502.18411
应用场景
多模态对话系统:提升智能助手与用户的交互质量,生成更符合人类偏好的响应。
图像辅助问答:结合图像信息提供更全面准确的问答服务,适用于教育、旅游等领域。
创意内容生成:帮助用户快速生成广告文案、故事创作等高质量内容。
教育学习辅助:为学生提供富含图表解析的学习材料,助力理解复杂知识。
信息图表解读:辅助用户分析复杂图表,提供背景知识与推理洞察。