编辑:袁思来
对于具身智能,发展情境意识和理解是一项核心能力。视觉感知是机器与物理世界交互的基础,自建筑诞生以来,视觉模型就与之结合,走上了一条“从小到大,从N到1”的道路,带来了全场景视觉感知能力的提升,拓宽了技术落地的空间。
11 月 22 日,2024 年 IDEA 大会在深圳召开,IDEA 研究院发布了最新的 DINO-X 通用视觉模型,该模型具有物体级理解能力,无需用户提示即可实现开放世界物体检测;同时,还推出了行业平台架构,将大型模型库与通用识别技术相结合,实现模型无需再训练即可使用和学习,从而支持多种应用需求。
在以具身智能为代表的新一波实现浪潮中,技术路径强调泛化,追求对真实场景的适配。会上,IDEA研究院宣布达成三大合作:与腾讯在深圳市福田区建立福田实验室,在河套设立深港科技创新合作区,专注于人居环境具身智能技术;与美团合作,探索无人机视觉智能技术;与比亚迪一起,拓展工业化机器人的智能化应用。


沈向阳 IDEA研究院创始理事长、美国国家工程院外籍院士
此前,机器人已经进入工厂制造、汽车生产车间、物流仓储终端等场景,可以完成半结构化领域的基础工作,但仍然缺乏真实场景的认知能力,应用空间有限。例如,居民区地面车辆的物流和配送需要克服复杂的地面环境。

IDEA研究院计算机视觉与机器人研究中心主任张磊指出,“机器人有不同的形式,包括双臂机器人和移动机器人。
AI 模型的出现极大地提高了机器人的认知和决策能力。腾讯 X Lab 智能双胞胎中心负责人韩磊表示:“语言是人类高度抽象的知识或思维,符号语言可以进行长期、缓慢的高维思考。机器人是从第一人称视角看世界的代理,所以首先要用视觉来理解世界。”


“从愿景到行动:具身智能的挑战和机遇”圆桌会议。

当机器人在移动时,纸箱的折叠和向某个方向的运动往往很难用简单的语言来描述这些步骤,但随着多模态的加入,整合了对物理世界认知的具身智能可以有效增强机器人对世界的理解。
在落地方面,美团副总裁兼无人机事业部负责人毛年认为,机器人的主要应用场景应以人类高危任务为切入点,如山地巡查、深海探测、油田钻探、高层清洁等,“具备全身控制、动作控制、手部、视觉触摸协同、 从小场景做出来,用起来,用户不会说好,也不会骂,也不会一脚清零。我们希望看到它不砸锅,这很重要。”
在IDEA大会上,IDEA研究所创始理事长、美国国家工程院外籍院士沈向阳指出,在技术爆炸的时代,对技术有深刻的理解进行创新尤为重要。“深圳是一个以迭代软件的速度迭代硬件的城市。”
除上述福田实验室外,IDEA还与前海深港合作区联合成立了IDEA前海创新研究院,与深圳市龙岗区联合成立了IDEA低空经济分院,与横琴粤澳深度合作区共建了IDEA-横琴数字技术与人工智能评估中心。在初创生态方面,IDEA还孵化了有之源科技、AI 机器人爱小瓣、GPU加速电影行业渲染器惠光查等生态公司。


