OmniAlign-V：上海交通大学与上海人工智能实验室联合出品的高质量数据集

什么是OmniAlign-V？

OmniAlign-V是由上海交通大学、上海人工智能实验室、南京大学、复旦大学和浙江大学联合开发的高质量数据集，专门用于增强多模态大语言模型（MLLMs）与人类偏好的对齐能力。

该数据集包含约20万条多模态训练样本，涵盖自然图像和信息图表，结合开放式、知识密集型问答对。通过强调任务多样性（包括知识问答、推理任务和创意任务），利用复杂问题和多样化回答格式提升模型对齐效果。OmniAlign-V采用图像筛选策略，确保使用语义丰富且复杂的图像进行数据生成。

高质量多模态训练数据：包含约20万条含自然图像和信息图表（如海报、图表）的样本，通过复杂问题与多样化回答格式帮助模型理解人类偏好。

增强开放式问答能力：设计开放式问题、跨学科知识及综合性回答，使模型生成更符合人类预期的答案。

提升推理与创造力：训练模型执行复杂思维和创意任务，强化多模态交互表现。

优化多模态指令微调：采用高质量指令微调数据，在保持物体识别、OCR等基础能力的同时提升指令遵循性。

支持多模态模型持续优化：可用于监督微调（SFT），并通过直接偏好优化（DPO）进一步强化对齐能力。

图像筛选与分类：基于图像复杂度（IC）评分和物体类别（OC）过滤选择语义丰富的图像，分为自然图像与信息图表两类并设计差异化任务。

自然图像任务：包含知识问答、推理及创意任务，提升模型在真实场景的理解与生成能力。

信息图表任务：针对图表/海报等复杂视觉内容设计，要求模型解析深层信息。

问答生成：采用GPT-4o等先进模型生成高质量问答对，经后处理优化数据质量。

后处理优化：通过指令增强、推理改进及图表答案精修确保数据多样性与高品质。

多模态训练与优化：结合SFT和DPO提升模型对齐能力，优先选择多样复杂的样本强化多模态交互偏好理解。

基准评估：引入MM-AlignBench基准评估MLLMs的人类偏好对齐表现，确保实际应用效果。

多模态对话系统：提升智能助手与用户的交互质量，生成更符合人类偏好的响应。

图像辅助问答：结合图像信息提供更全面准确的问答服务，适用于教育、旅游等领域。

创意内容生成：帮助用户快速生成广告文案、故事创作等高质量内容。

教育学习辅助：为学生提供富含图表解析的学习材料，助力理解复杂知识。

信息图表解读：辅助用户分析复杂图表，提供背景知识与推理洞察。