logo
  • 分类
  • 提交
  • 博客

© 2026 NeuroKit. All Rights Reserved.
    AI产品观察

    OmniAlign-V:上海交通大学与上海人工智能实验室联合出品的高质量数据集

    Tina
    Tina
    ·2025年3月27日·24 次浏览
    OmniAlign-V:上海交通大学与上海人工智能实验室联合出品的高质量数据集

    什么是OmniAlign-V?

    OmniAlign-V是由上海交通大学、上海人工智能实验室、南京大学、复旦大学和浙江大学联合开发的高质量数据集,专门用于增强多模态大语言模型(MLLMs)与人类偏好的对齐能力。

    该数据集包含约20万条多模态训练样本,涵盖自然图像和信息图表,结合开放式、知识密集型问答对。通过强调任务多样性(包括知识问答、推理任务和创意任务),利用复杂问题和多样化回答格式提升模型对齐效果。OmniAlign-V采用图像筛选策略,确保使用语义丰富且复杂的图像进行数据生成。

    核心特性

    高质量多模态训练数据:包含约20万条含自然图像和信息图表(如海报、图表)的样本,通过复杂问题与多样化回答格式帮助模型理解人类偏好。

    增强开放式问答能力:设计开放式问题、跨学科知识及综合性回答,使模型生成更符合人类预期的答案。

    提升推理与创造力:训练模型执行复杂思维和创意任务,强化多模态交互表现。

    优化多模态指令微调:采用高质量指令微调数据,在保持物体识别、OCR等基础能力的同时提升指令遵循性。

    支持多模态模型持续优化:可用于监督微调(SFT),并通过直接偏好优化(DPO)进一步强化对齐能力。

    技术原理

    图像筛选与分类:基于图像复杂度(IC)评分和物体类别(OC)过滤选择语义丰富的图像,分为自然图像与信息图表两类并设计差异化任务。

    自然图像任务:包含知识问答、推理及创意任务,提升模型在真实场景的理解与生成能力。

    信息图表任务:针对图表/海报等复杂视觉内容设计,要求模型解析深层信息。

    问答生成:采用GPT-4o等先进模型生成高质量问答对,经后处理优化数据质量。

    后处理优化:通过指令增强、推理改进及图表答案精修确保数据多样性与高品质。

    多模态训练与优化:结合SFT和DPO提升模型对齐能力,优先选择多样复杂的样本强化多模态交互偏好理解。

    基准评估:引入MM-AlignBench基准评估MLLMs的人类偏好对齐表现,确保实际应用效果。

    项目链接

    官网:https://phoenixz810.github.io/OmniAlign-V

    GitHub仓库:https://github.com/PhoenixZ810/OmniAlign-V

    Hugging Face模型库:https://huggingface.co/collections/PhoenixZ/omnialign-v

    技术论文:https://arxiv.org/pdf/2502.18411

    应用场景

    多模态对话系统:提升智能助手与用户的交互质量,生成更符合人类偏好的响应。

    图像辅助问答:结合图像信息提供更全面准确的问答服务,适用于教育、旅游等领域。

    创意内容生成:帮助用户快速生成广告文案、故事创作等高质量内容。

    教育学习辅助:为学生提供富含图表解析的学习材料,助力理解复杂知识。

    信息图表解读:辅助用户分析复杂图表,提供背景知识与推理洞察。



    摘要

    使用OmniAlign-V数据集增强多模态模型与人类偏好的对齐性。探索高质量训练数据、改进的推理能力及优化的多模态指令调谐。