本文主要作者来自上海交通大学电子信息与电气工程学院i-WiN中心团队。课题组组长是上海交通大学讲座教授关新平。本文第一作者为上海交通大学博士生王思宇。他的研究兴趣包括多模态大模型、大模型的可靠生成及其工业应用。本文的通讯作者和主要导师为i-WiN中心陈彩莲教授、乐欣怡副教授和徐启民副研究员。
计算机辅助设计 (CAD) 已成为许多行业设计、绘图和建模的标准方法。如今,几乎每个物体的制造都是从参数化 CAD 建模开始的。 CAD 构造序列是 CAD 模型表示的一种类型。它不同于Mesh类型的三角网格和B-rep格式的点、线、面表示。它被描述为一系列的建模操作,包括确定草图的3D起点、3D草图平面方向的完整参数和过程、绘制2D草图、将草图挤压成3D实体形状等,存储并表示在JSON 代码格式。这种表示方法最类似于专业建模工程师构建CAD模型的过程,可以直接导入到ProE、ProE等建模软件中。构建这些 CAD 模型需要领域专业知识和空间推理能力,以及高昂的学习成本。

图1 CAD建模代码示意图
空间建模能力作为空间智能的关键能力之一,对MLLM提出了严峻的挑战。尽管MLLM在生成2D网页布局代码方面表现出了出色的性能,但此类方法在3D建模领域仍然存在问题,例如生成四辆车轮平行于汽车底部方向的汽车。这是因为 MLLM 在推理 3D 草图角度和 3D 空间位置时受到大型语言模型的 1D 推理惯性的限制,导致难以理解复数背后的真实空间含义。


图2 原多模态大模型3D建模效果不佳原因分析
近日,上海交通大学i-WiN研究团队提出了一种专门针对CAD建模的多模态大语言模型CAD-GPT,它结合了专门设计的3D建模空间定位机制,将3D参数映射到1D语言信息。维度提高了 MLLM 的空间推理能力,并能够基于单张图片或一句话描述准确生成 CAD 建模构造序列。这项研究的标题是“CAD-GPT: CAD with - LLMs”,并被 AAAI 2025 接收。

方法介绍
3D建模空间定位机构
我们将关键的3D和2D建模参数定义为大型语言模型可以理解的建模语言,以方便大型模型的理解和生成。具体来说,设计了三个系列的定位标记来代替3D草图平面起点坐标、3D草图平面角度和2D草图曲线坐标参数。通过将全局空间3D坐标和草图平面3D旋转角度的特征展开到一维语言特征空间,将它们转换为两种不同类型的1D位置。此外,2D 草图被离散化并转换为特殊的 2D 标记。这些标记被合并到原始的 LLM 词汇表中。同时,结合了 3 种类型标记的自定义可学习位置嵌入,以弥合语言和空间位置之间的差距。
数据集构建

基于该数据集,生成了160k个固定视图渲染的CAD模型图像和18k对应的自然语言描述数据集,构建了专门用于训练多模态大语言模型的CAD建模数据集,方便后续大模型的训练一代人从事其他工作。 CAD 模型建模顺序。
培训策略和细节
我们使用 LLaVA-1.5 7B 版本作为基础模型。训练分为两个阶段:首先对任务进行训练,然后通过降低学习率对任务进行微调。此外,由于CAD建模序列长度较长,我们基于外推法通过超参数调整将LLM的窗口长度扩展至8192。

图3 CAD-GPT原理框架图
实验效果展示


图 4. CAD-GPT 生成的各种 CAD 模型的显示
图 4 中的模型展示了生成具有精确语义的草图(例如心形和字母“E”)的能力、生成具有类别(例如桌子、椅子和钥匙)的 CAD 以及空间推理能力(例如表和正交对象)。圆柱体),以及生成不同尺寸的相同模型的能力(例如带有两个圆孔的三个不同尺寸的连接器)。
基于单个图像生成效果
CAD-GPT 与三种代表性方法进行了比较。首先,它展示了 CAD 建模中的先进生成技术。第二个是GPT-4,它代表了闭源多模态大规模模型的前沿。第三个是Qwen2-VL-Max,领先的开源多模态大型模型之一。相比之下,CAD-GPT 生成的输出既准确又美观。

图5 基于图像的CAD生成效果对比


根据一句话描述生成效果展示
本文选取了两个具有代表性的大规模语言模型:领先的闭源模型GPT-4和最先进的开源模型LLaMA-3.1(405B)。如图 6 所示,我们的模型始终生成高精度、美观的输出,并展示与文本描述相对应的语义信息。

图6 基于文字描述的CAD生成效果对比

消融实验

图7显示了无论是否添加3D建模空间定位机制,训练模型的差异。如图所示,添加定位机制后,CAD-GPT可以准确推理空间角度和位置变化,生成精确的2D草图。

图7 消融实验效果展示

总结
本文提出CAD-GPT,一种具有三维建模空间定位机制的多模态大模型,以提高空间推理能力。所提出的模型擅长推断草图 3D 方向的变化、3D 空间位置的变化以及准确渲染 2D 草图。利用这些功能,CAD-GPT 在从单个图像和文本输入生成准确的 CAD 模型方面表现出了出色的性能。


