理想智驾的秘密:端到端+VLM 方案,超越特斯拉的弯道超车之道

   日期:2024-09-04     来源:网络整理    作者:二手钢材网    浏览:222    评论:0    
核心提示:因此郎咸朋凡尔赛地表示,“我们跟特斯拉没有太大差别,甚至更领先一点”。敢于与特斯拉FSD这个全球智驾标杆掰手腕,不仅在于理想双系统架构的超前,更在于理想在新势力当中领先的销量和财力。接下来它还要持续发力这个“头号工程”,这或许将是带领它成为比肩比亚迪、特斯拉的关键一环。

8月30日的成都车展上,理想汽车智能驾驶团队详细发布了“端到端+VLM”解决方案,不同于国内同行的“分段式端到端”,理想的解决方案是一张名为“大网”。

这是目前自动驾驶架构演进的最终形态,现阶段还没有清晰的感知、决策、规划等模块划分,从原始信号输入到最终规划轨迹的输出,都采用深度学习模型,原封不动地运用到自动驾驶中。

在理想智能驾驶研发副总裁郎先鹏看来,理想超越的秘诀在于端到端对“最终版本”的专注。

“过去无论是轻地图还是无地图,智能驾驶解决方案的底层技术架构都有人为设计的成分。如果要全年跑遍各种路况,没有一两年的时间是不可能实现的。所以我们迭代了端到端+VLM的技术架构”,郎先鹏认为,架构是AI自己长出来的,“车真正做到了自动驾驶”。

不仅如此,理想智能驾驶已经开始构建“世界模型”,加速智能驾驶AI的训练。理想智能驾驶高级算法专家詹坤表示:“世界模型可以生成并模拟场景,这涉及到数千万次的场景测试。这是实现智能驾驶快速迭代最重要、最必要的保障,未来‘世界模型’将是端到端的终极存在。”

“它可以根据现在的环境预测未来,推断未来的情景。比如一个球滚到马路中间,端到端系统只会刹车,但世界模型会认为情况不变,一个小孩冲出去,它对世界的判断更宏观、更全面。”詹坤说,理想在安装端到端系统的同时,就已经对下一代技术进行了预研。

因此,郎咸平用凡尔赛的方式说,“我们和特斯拉差别不大,甚至还领先一点。”

理想之所以敢与智能驾驶全球标杆特斯拉FSD同台竞技,不仅在于双系统架构先进,更在于理想在新势力中领先的销量和资金实力。郎咸平说,真正做到端到端,要看两个能力:“是否有足够的数据、足够的算力,因为是AI训练。”

他表示,为了训练自己的智能驾驶系统,理想对数据质量要求极高,只选取“老司机”3%的数据喂给AI。但80万车主基数,数据量已经够大了;而为了消化这些数据,理想将在今年年底把算力提升到8亿,“每年要花20亿元”。

在郎先鹏眼中,高端智能驾驶是巨头才玩得起的游戏。“未来到了L4阶段,数据和算力的增长将是指数级的,每年至少需要10亿美元,如果一家公司的利润和收益无法支撑这笔投入,那就很难了。”

随着初步的端到端落地,理想汽车已实现快速的销量转化,接下来,其将继续紧抓这一“头号项目”,这或许是其能否比肩比亚迪、特斯拉的关键。

以下为华尔街日报与理想智能驾驶研发副总裁郎先鹏与智能驾驶高级算法专家詹坤的对话实录(经过编辑):

Q:什么是真正的端到端?怎么评估是不是真正的端到端?什么效果最好?

詹坤:端到端是一种研发范式,从最初的输入到最后的输出,中间没有其他过程,完全用一个模型来实现。理想汽车现在是端到端集成的,通过传感器直接输入,模型推理完成后,直接给到车辆控制的轨迹规划,这就是端到端集成。

市面上还有一种端到端,就是中间分成两种模式,用信号来桥接,但我们认为这不是真正的端到端,如果中间加上人为的信息消化过程,效率可能没那么高,或者会受到容量限制的制约。

郎咸平:现在很多人声称自己有一个端到端的模型,但真正做到端到端还是要看两个能力:是否有足够的数据、是否有足够的算力。否则我觉得很难做到真正的端到端的模型,因为它是AI的训练。

问:现在很多品牌都宣称自己是领导者,理想汽车也称自己已经进入智能驾驶第一梯队,您如何评价自己端到端的技术水平?

郎先鹏:普通消费者关注的不是技术而是体验,我们不和任何人竞争。

我们之前考虑过使用高精度地图做城市NOA,后来出于体验考虑,决定改用无地图方案,但当时的无地图方案还是基于感知、规划、模块化,包含大量的人工规则和实车测试。

先不说预算,时间就很困难。如果要把所有季节的各种情况都跑起来,没有一两年的时间是不可能实现的。所以我们迭代到了端到端+VLM的技术架构,这是一个自己成长起来的AI解决方案。

之前辅助驾驶是辅助人开车的系统,主体是人。但是到了端到端+VLM阶段之后,我们认为车自己在开车,训练出完整的模型之后,模型有能力把车开好。我监督车,看有没有出问题,有没有提示需要接管,但主体肯定是车,人是监督的一种辅助角色。

问:端到端的研发周期是多长?

郎先鹏:理想去年就开始做端到端+VLM,在研发阶段我们是一个非常小的、非常精锐的团队。做吾途的时候就已经在做端到端的预研了,现在其实是在做下一代端到端技术的预研,当我们判断条件成熟、初步验证成功的时候,我们就会进入量产阶段。

问:特斯拉首先提出了端到端的概念。我们是否受到了特斯拉的启发?我们如何确保该流程可行?

詹坤:特斯拉并不是第一个提出端到端的,2016年就有模型提到这个技术,但效果一般只能解决很简单的场景。以当时的算力和模型规模,大家都认为这条路行不通。到2023年,特斯拉在新架构上加入超大算力之后,就会往更有增长的方向发展。

问:理想汽车感觉自己和特斯拉的智能驾驶能力差距有多大?

郎先鹏:去年落后了半年,今年可能落后得会小一点。从技术架构上来说,我们跟特斯拉差别不大,甚至还领先一点,因为我们有VLM,而特斯拉只有端到端。从国内的训练算力、训练数据来说,至少从现在来看,我们是领先的,因为特斯拉在中国还需要算力部署。

另外,我们还用世界模型来生成和模拟场景,这是几千万次的场景测试,这是智能驾驶快速迭代最重要、最必要的保障。这种模型迭代的方式比原来的车辆或道路测试方式可靠得多,而且可以覆盖全年各种场景。

詹坤:世界模型可以根据现在的环境预测未来,推断未来的场景。比如说,一个球滚到马路中间,头对头只会刹车,但是世界模型会想会不会有小孩子冲出来?它对世界的判断更宏观、更全面。其实我们系统中的 VLM 就起到了这个作用。当然,我们现在的模型规模还很小,能力也有限。

问:前不久有人提出“500亿不够实现智能驾驶”的观点,理想汽车对此怎么看?

郎先鹏:关于500亿,我们要确定是一次性投入,还是长期投入,像今天讲到的,我们每年在智能驾驶研发上投入10亿美元,如果持续10年的话,投入会超过500亿。

端到端+VLM的技术架构是一个分水岭,从这一代开始,我们才会真正用AI来做事情。

此前我们还是用传统方式去开发智能驾驶,所有产品的最终效果都是在里面“设计”出来的,没有设计出来的场景可能就无法实现,不仅无法靠纯数据去驱动,而且人工工作量也很大。

一体化的端到端模型虽然在模型结构、模型训练方法等方面存在困难,但它最大的优势是我们提供数据来训练模型,模型输出结果,让AI的训练过程变得自然。

从我们自己的端到端模型来看,你只需要告诉它拥有跟“老司机”一样的驾驶经验,输入所有理想车主的驾驶数据,它就会给你结果。数据筛选非常严格,当时80万车主中,只有3%是真正的老司机。

有了这个前提,接下来研发的核心竞争就是看有没有更多更好的数据,以及对应的算力来训练模型。算力和数据的获取,取决于投入多少金钱和资源,这些东西有些是钱买不到的,比如训练数据、训练里程。每家车企都有自己的资源,相互之间不共享。

另外需要投入的是算力,我们目前有5.39亿算力,预计今年年底能达到8亿算力,每年要投入20亿人民币。

未来进入L4阶段,数据和算力每年都会呈指数级增长,意味着每年至少需要10亿美元投入,5年后还需要不断迭代,在这样的规模下,如果一家公司的盈利和利润不能支撑这些投入,那么它很难赚到足够的钱。

所以我们不需要关注自动驾驶要投入多少个亿,而是应该从本质出发,看是否有足够的算力和数据支撑,然后再看需要多少钱。

问:智能驾驶的技术战在过去几年中经历了快速变化和几次重大迭代,是否还会再次出现重大变革?

郎咸平:端到端+VLM双系统是模拟人的思维认知的架构,因为我们在AI上的最终目标是实现拟人化或者像人一样。现在的AI框架非常合理,很多公司也开始尝试跟进。

双系统理论不仅可以运用在自动驾驶,也可以作为未来AI乃至智能机器人的范式。自动驾驶可以说是轮式智能机器人,但它的工作范围是在道路上。因此,我认为它有一定的长期行为能力,但技术发展是永无止境的。我们会保持对先进技术的敏捷感知,如果有新技术可用,我们也会跟踪。

问:端到端的量产和交付能带来多少销量的提升?

郎先鹏:无图NOA全面推开之后,两个月来我们的试驾量翻了一番,30万以上车型中AD Max占比70%,之前AD Pro占比更高,L9 AD Max甚至占比90%以上。

问:理想汽车有针对高级智能驾驶收费的计划吗?什么样的商业模式比较好?

郎先鹏:标配和免费都是理想汽车进入智能驾驶市场第一天就制定的策略。“监督自动驾驶”对所有AD Max车主都是免费的,还可以为自动驾驶提供更多的车辆训练里程。因此交付量相对较好,公司经营稳定,有充足的资源投入智能驾驶研发。

詹坤:理想有很多数据,我们认为这些数据是可以支撑我们的优势。所以我们选择了更有挑战性和难度的端到端一体化架构,它的上限很高,但缺点是训练起来比较困难,包括数据配比、训练方法都需要探索和挖掘,但我们还是毅然选择了那条困难但正确的路。

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2