WorldCraft是一款基于大语言模型(LLM)智能体的3D世界创建与定制系统,由香港科技大学(HKUST)研发。该系统专为构建和定制逼真的3D虚拟世界而设计,通过自然语言交互,使用户能够轻松生成复杂的室内外场景,并精细调整场景内的物体与布局。
WorldCraft包含三大核心模块:ForgeIt支持基于程序化生成对单个物体进行几何与纹理的精确控制;ArrangeIt通过分层数值优化平衡功能性与美学需求来生成场景布局;轨迹控制模块则允许用户通过对话操控物体运动与摄像机轨迹,实现动画与视频生成。系统兼容现有深度3D生成器,可丰富场景资源,帮助非专业人士高效实现创意设计。
WorldCraft核心功能
自然语言交互:用户通过简单文字指令或对话即可创建与定制复杂3D场景,无需专业建模知识
单体物件定制:精确控制物体的几何形状、表面纹理与材质,实现个性化设计
场景布局生成:根据用户设计意图(如功能需求、美学要求)生成符合逻辑的物件布局
场景动画控制:用自然语言描述物体或摄像机运动轨迹以生成动画与视频
兼容性与扩展性:集成InfiniGen等深度3D生成器扩展场景资源,增强视觉效果
WorldCraft技术原理
协调智能体:管理整个3D场景生成流程,将复杂任务拆解为子任务并协调其他模块完成。支持用户与系统多轮交互,实时调整生成结果
单体生成与定制:LLM智能体操控程序化生成器(如InfiniGen),根据自然语言指令生成具有精确几何形状与PBR纹理的3D物体。通过自动验证机制构建动态增长的操作手册,指导智能体完成复杂生成任务,支持基于多轮对话的编辑
场景布局优化:将布局建模为分层数值优化问题,采用模拟退火算法求解。用户可用自然语言描述布局需求,系统将设计意图转化为优化目标与约束条件
轨迹控制模块:扩展ChatCam功能,用户通过自然语言描述物体/摄像机运动轨迹,系统将轨迹描述转换为具体运动指令以生成场景动画
深度3D生成器集成:兼容现有深度3D生成器,引入艺术化物体丰富场景细节。结合程序化生成与深度生成技术,提升场景视觉质量与多样性
WorldCraft项目地址
arXiv技术论文:https://arxiv.org/pdf/2502.15601
WorldCraft应用场景
建筑与室内设计:快速生成建筑概念模型与虚拟样板间,根据自然语言定制室内布局与风格,优化设计流程,提升客户体验
影视娱乐:创建虚拟电影布景、游戏关卡与动画影片复杂场景,降低实体布景成本,为VR/AR体验提供高真实感虚拟环境
教育培训:设计虚拟实验室、历史场景、地理环境与医疗训练场景,通过沉浸式体验提升教学效果,支持远程教育与职业技能培训
产品设计与展示:快速生成产品概念模型与虚拟展厅,展示家具、汽车、电子设备等设计方案,支持个性化定制与虚拟广告场景制作
文化艺术:创建虚拟博物馆、艺术展览、历史建筑与文化节庆场景,助力文化遗产保护,为艺术创作与文化体验提供沉浸空间