赵哲伦:完全全国,这是我们上一代架构★◆■◆◆,从无图NOA开始◆◆◆★,7月份全量推送已经是全国所有的路段都可以用了。
但是因为很多企业目前研发阶段还没法做到全量推送◆★◆,你说行业现状如此◆★◆,虽然没有办法全量推送,说是要说这么一个状态。
2024年11月15日★■,2024(第二十二届)广州国际汽车展览会开幕,本届车展主题为“新科技 新生活★■◆■■”★★★◆◆◆。作为年内压轴的国际汽车展览会★■■★◆,2024广州车展吸引到国内外主流车企悉数参与,展车总数1171辆,其中全球首发车78辆、新能源车512辆,新能源汽车数量再创规模新高。
搜狐汽车:您提的这个点特别有意思,每个企业所生产的这套系统,所训练的这个东西都是不太一样的,可以说他们都是不同的人■■★★◆■,不同性格的人,对于理想来说★■,您觉得这套系统■★,您负责的这个板块它是一个偏向于温和保守派,还是比较激进■★■◆,走向前沿一点的■◆★◆■?
声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外■■,观点仅代表作者本人■■,不代表搜狐立场。
赵哲伦:背后最核心一点其实要通过用户来驱动的■◆★,事实上如果我们从传统类的产品观念上来说,智能驾驶的产品它的功能层面到目前为止我们已经能做全功能了,今天我们端到端到+VLM智能驾驶系统所有路段从家到公司◆◆★■★★,无论是经过小区的路面,左转右转过红绿灯,U形掉头,过环岛所有的场景我们都能通过,但目前我们还不能叫做L4自动驾驶,最最核心一个点用户场景的多样性。今天我在北京OK不代表在广州OK,背后确实要非常感谢我们很多用户会给到我们的反馈,用户他在用我们智驾的时候,如果发现了一个场景表现不太好,很轻松点击按键上传这段数据,这段数据就会直接有一个系统,系统就会提醒到我们产品经理★■,提醒到我们工程师去看这段数据,然后再把这段数据进行分类■★,分类完之后内部有一个库,会看到目前这一代的模型在整个用户使用中出现最多的问题是什么,筛选优先级最多的问题,这就是我们下一款模型优化的方向★■◆■,这个是非常重要驱动模型该往哪里走核心一点★◆◆◆■。
赵哲伦■■:对,他回来的东西全部是数据,第二个要看整个技术的发展,就像我们这次提出了系统1+系统2■★■◆◆,端到端+VLM整体技术之外◆★■■■,我们整个技术团队也在做技术的研究,技术的研究是无止境的,这确实不是说某一代架构就是终极形态了,我们社会进步就是技术在不断的迭代,特别是AI的迭代非常快◆◆■■◆■,其实我们还在不断探索技术的边界。我们认为只有真正技术架构的迭代■◆■,可以真正的跨代或者数量级别去提升整体的智能驾驶的用户体验◆★。当我们用上系统1、系统2,端到端+VLM系统之后◆★■,我们也会发现它确实是最符合有监督有自动驾驶的技术架构,现在也推出了可以让用户更多用目光去监督智能驾驶◆★★■,已经到了用户监督就比较像自动驾驶的状态了,已经有点脱离大家以前说的纯辅助驾驶,更多的人只需要监管就可以了,这里面对于技术架构不断的探索核心的研究它是一种长周期的规划■■★★,完全能牵引以后的架构★◆,怎么更好的满足完全用户的需求,所以很多用户反馈我们得不断去看,尽量避免在竞争上被竞争对手牵引,还是得回到用户和技术的角度来。
像今天你在用所有AI产品时候★◆,无论是用国内的KIMI还是豆包,还是国外的ChatGPT,里面非常一点是反馈,你给它点赞或者说一下不行,这一点也是我们做AI原生产品很核心的一个反馈的机制■★■◆◆■。
因为卷到现在这个份上★◆,到了端到端这一代,理想是行业首个推送端到端这套系统,首先和特斯拉在北美第一次推送时间只差了半年★◆,时间在大大缩短,我们技术研发其实提前了。第二点我们也不完全是特斯拉的架构★◆★,我们在这次真的是领先了整体的技术架构的研究,因为它只是一个端到端,所以前面说的比如ETC、潮汐车道中国非常特有的场景◆■◆,他那套系统是完全没法解决的,但我们加入了视觉语言模型,做整套双系统,我认为在特斯拉下一代也会往这个方向走,某种程度我们已经达到了在技术上抗衡的状态★◆,当然他现在没有进入国内,完全没有办法正面的竞争★★■◆,这是指技术层面■★◆■◆。
从产品层面来讲,当然国内确实很卷◆◆◆■■,大家不断的在比,比如这次车展大家都提车位到车位,我们还是偏回归到用户,这次我们整体节奏在快,而且所有的内部决策考虑都是回到什么时候能给用户推送,这次车展看到好多企业都会提车位到车位,这是代表端到端的特性■■◆★,这次就我们提的是全量推送给所有用户,这也是我们的主张◆◆◆◆■,我们现在并不会吹嘘这些对用户周期还特别长的一些事情。
前面说到三点,一个是算法,一个是数据■■■★,第三个是算力★★◆◆■■,算力这一块确实跟整个公司战略和储备相关,到目前为止理想的经营状况作为创业公司来讲都是比较好的■★◆■,我们的算力一直在储备中,现在的算力不说具体数字,但我们在整个汽车行业甚至是国内科技公司里都是非常领先的算力水平,通过这个算力也会发现,这也是模型迭代这么快的核心原因,因为我们云端算力比较足够,所以相对来说除了用户能感知到30多版的模型迭代以外,其实用户每收到一版我们背后起码要淘汰掉5、6版的模型作为内部的筛选★◆◆★◆■,但这背后需要很大的算力做很多计算的工作。
事实上大家有关有注智驾行业会发现,最近无论是一些友商对外的沟通,甚至是海外一些令人尊敬的企业比如最早google做自动驾驶的公司都在应用快思考和慢思考的方法,但是他们比我们晚了基本上半年◆◆■,我们基本上牵引了这一代智能驾驶■■,但背后其实是人才,背后是我们的积累,这是算法的部分。
赵哲伦■★★★◆★:这里面最核心的是两个维度★★■,其实有三个维度■■★★★★,但是第三个维度尽量的要比较少的牵引◆■,其实就是用户、技术和竞争■◆◆■■,最核心的要看用户和技术,在去年的时候更多嵌入到竞争一些◆◆,别人说A我们说A+,一定会陷入这么一个状态,事实上那个东西不是用户价值。我们现在说用智驾整体解决了很多细节的场景◆■★★★■,从车位出发一直到用户的公司车位都能连起来,在人机交互上很细节的东西宣传普通用户都理解不了的东西★◆,我们在人机交互上做了行泊一体,以前公开道路整体的行使和封闭道路里面的泊车★◆,这里面还是两套系统,这次我们在交互上做了一体★■■★◆,就是你到了封闭道路自动切入到泊车界面,很方便的使用泊车,现在理想用户非常喜欢我们的泊车功能■■★◆■◆,基本上大部分家里女主人爱不释手■★★★★■,这里面都是很偏用户需求的■◆■◆◆,包括解决一些用户核心的场景■◆■★,杭州的潮汐车道,大家所痛点的收费站,综合提升整体智驾的性能,提升MPI接管率,从第一版模型到现在基本上提升了3.5倍,30多版模型,这些都是回归到用户价值本身的东西,我们还是会不断倾听用户的建议。智驾这个东西的用户建议不是策略和逻辑了,大部分我们要看到更多物理世界里更多发生了什么■■◆。
赵哲伦■★:因为智驾是一个完全AI的产品,我们说到AI最核心的AI有三要素■★◆◆■■,第一个是算法,第二个是数据,第三个是算力,分开说这三点来解读理想的优势,首先从算法层面来说,算法背后的本质是对于人才,过去3年以来理想对于整个智能驾驶研发投入在不断往上涨的,不断的留下了很好国内做自动驾驶的AI人才,理想内部整个组织氛围,熟悉理想汽车的朋友可能会知道★★◆,我们组织氛围还是非常勤奋,可以说有些卷■★◆,但大家的协作机制又很高效,对于算法这一块会看到,我们确实一来从去年开始有很多团队在做量产的业务,很工程化的,有一支团队在研究,特别是和清华大学在合作研究行业最新的算法,所以我们才能提出前面端到端相对系统1的东西加上VLM相对系统2的东西,把它结合起来作为行业首创的架构。
搜狐汽车:今天整个车市新能源销量占比超过了50%,很快速的增长,新能源或者纯电动是第一个阶段,第二个阶段就会到智驾阶段■★★,智驾阶段普遍来看所占的比例并不是非常高■★★,对普通消费者来说它可能还是会有一些担心的在使用智驾功能上,您觉得什么时候会像新能源销量一样在智驾方面的使用占比上也会达到突飞猛进的地步呢?
赵哲伦:核心是理想汽车从10月23号OTA6◆■.4开始◆■■◆,整个双系统智能驾驶架构是我们在行业首创的,这里面有两个,我们原来提供的参考是■★★,有一款很经典的书《思考快与慢》,描述了双系统,系统1和系统2,系统1反应很快◆★,很敏捷,你做事情的时候完全不需要考虑◆★■★★,现在马上能把这盆草拿起来,系统2往往需要进入到很多的深度思考■★★■■■,这盆草要拿起来,要养活它需要每天浇几次水■★★,以前智驾系统基本上是系统1◆★★,它能进行很高频的运算,我现在变道◆★■、转向、过路口,但不具备系统2的能力★★,不具备深度思考或者对于人类世界一些语言结构的理解能力,其实这一波跟ChatGPT是呼应的,大家在GPT之后会发现,AI这个东西对语言的理解能力,上下文的理解能力强了很多,再往下一步是通过语言解读一张图片,解读一个视频★◆■,我们的VLM和LLM核心区别就是就是加入它的视觉,所以今天除了具备系统1前面所有快反应以外还有它的慢思考◆◆◆■■,说实话我们VLM不只是ETC◆◆■■★★,但ETC是核心价值,还有很经典的事情是潮汐车道★★◆◆,在很多的城市最典型是杭州,潮汐车道管控很多左转还是直行,它也是一直变化的,也需要对人类社会的环境有很好的图像级别的理解能力,就是对箭头的东西。包括公交车道■■◆★■◆,每个城市公交车道不一样,有的时候是限时间,有的时候是不限时间,24小时的★■,路能不能走,有些特殊车道,还有我们做了对于特殊路段的理解,比如学校路段,学校路段比人的能力很强,往往进入到一个学校路段之后,可能很多标注学校路段请减速,人都不经意,如果去陌生的地方都不会注意,但是智驾系统看到之后会特意降低我们智驾的速度,这对于在学校路段可能会突然而然小孩冲出来就是我们俗称的★◆■◆◆◆“鬼探头★◆★★■◆”比其他路段要高,其实是很有帮助的★★★◆◆◆。
搜狐汽车★■■■★◆:现在整个车市环境大家都说非常卷★■◆◆★★,在智驾这个方面您有什么样的体感吗★■?比如和其他的国内外的竞品同行对比,或者自己的感受是什么样的◆★■★?会发展到什么样的地步?
搜狐汽车:您所负责的领域是蛮前沿的,变化也很快■■◆★■,尤其是加入了AI科技的元素进来之后,对于您自身来说,怎么去做一个决策和判断?因为现在的市场除了卷★◆★■、竞争,还是蛮混乱的,并不是非常有序的,很商业化非常规范的状态,所以对于企业的决策者来说◆★◆★■◆,做出正确的决策还是蛮重要的一件事。
作为行业权威媒体,搜狐汽车原创新闻账号“汽车咖啡馆”现场对话车企掌舵人,深度剖析车圈动态◆■◆,以各自独特的视角共享智慧与经验,把握行业发展脉络■◆■◆。
赵哲伦:没错★★■■★,传统但凡用上什么地图、规则这样的系统,完全没法通过一个收费站,因为所有的记忆◆■★◆■,所有你记住的东西,以前你去做下的规则在当下可能是完全失效的■◆★★,我认为这个是全球非常领先的一个应用,真的把全球非常热点的视觉语言模型应用到生活场景中■◆◆,而且非常实用,能帮助用户通过收费站。
搜狐汽车★★◆:非常感谢今天您接受我们的采访和分享,也期待明年理想汽车可以带给我们更多的惊喜。
搜狐汽车:所以对用户来说会显得稍微混乱了一些,大家都再说这样的概念,包括前一段城市NOA也是一样的。
赵哲伦◆★■:反馈下来还是正向的多,好多的用户从原来完全城区里不用★◆■★◆■,到现在开始尝试使用,有很多用户给我们反馈,我们在每次智驾结束之后有智驾里程报告,每次结束就会弹出来★◆■■◆,基本上好多用户都是95%以上使用率,就是他的路基本上95%以上都是智驾在开这么一个状态★■◆◆■■,其中也不乏有些用户接受新事物没有那么快,这类用户使用率也在提升,往往先从简单场景开使用,比如非高峰期,可能一些堵车的路段★■◆★◆★,他们都会开始使用智驾系统。整体来说端到端这套架构出来之后■★■◆■,像人在学习,完全学习人的视频数据,通过迭代,30多个版本迭代到了500万的视频片段的学习,大家反应感觉很像人,以前的智驾在7月份时候全量推送无图NOA★■,虽然也已经全路都能用了,但是好多用户接受不了,因为开起来感觉像机器人★◆★,有的时候变道突然方向盘打一下,转弯画弧画的很大,不像人在开车虽然看起来连起来是那样的弧■◆◆◆,但是在转弯的时候会稍微斜一下,就穿过去了,效率更高★■★◆,端到端之后就跟人很像。有一个场景特别明显◆■,在很多路口,你在左转或者右转的时候会有横穿的行人■■,以前的智驾系统基本上在那停下来★■,似乎得人一定走光了,然后你再过去■◆★■★★,你就会觉得明明前面有一个空,我已经可以往前一点■★,下个空就可以过去了,这个时候就会觉得特别憋的慌★■★■■,现在这套端到端智驾系统就会慢慢挪,如果这边人让一下稍微加点速就过去了★★★★■,原来我们最早期说安全■■★◆◆★,除了安全以外舒适和效率确实是用户要接受这个东西很重要的一点★■◆◆★。
赵哲伦:我觉得在智驾这个层面,因为我们属于走在比较前面的企业,一来我们都全栈自研整套技术■◆★■◆,研发也走的比较早,比较前,二来是所有的AD Max的车完全标配最新智驾系统,AD Pro也都在高速NOA是行业里非常好的水平◆■,总体来说理想的用户能看到行业的趋势■◆,我们端到端推送了之后,其实我们用户整个智驾使用率高了非常多,现在用户基本上像NOA说的使用占比可以达到90%,在端到端智驾推送了之后★◆★★,我们在买车的环节,整个NOA的试驾率从原来30%◆■■、40%左右的用户来进店开车会去试驾,到现在基本上到了60%、70%,从这个角度行业到明年大家慢慢会觉得非智驾不买,也会慢慢的开始有这样的态度。
赵哲伦■◆◆■★:我觉得对于消费者来讲如果他很想尝试智驾,他要选车还是很难的◆■◆◆★,因为他只能根据社会的舆论,他事实上在门店能体验到的时间也相对有限,也没法完全对比,我个人觉得镜头前的观众,我呼吁大家不要太看网上的舆论,有很多是一些偏见◆★★■◆◆,完全没有试过这个车试过这个系统■◆★,还是要到门店实际的体验一下◆◆★。另外还是要看整体潜力◆◆★★★,理想整体迭代速度确实很快★◆■■,在这半年里面特别是很多行业内的大佬,智驾除了车企自研以外,还会有一些方案公司,他们会给其他的车企提供一些他们的方案,基本上这半年以来方案公司在研究端到端智驾没有人不提理想的◆■★■■■,在他们内部去做工程的研究,产品研究没有人不对标理想的。我在这边不提对比了,如果大家感兴趣或者对这个东西有疑惑还是要到门店尝试一下。
搜狐汽车:您是负责整个智驾系统的,我们迭代这么多★◆★■■◆,比如这个功能是否要实现◆★★,怎么样克服其中的一些技术的问题◆■★★,我们整个工作流程是什么样的■◆?它一定是背后有一套架构在支持着我们可以这么快速的来推进这件事。
赵哲伦:这次我们发布OTA6.5,我们在之前10月23号的时候对于整个OTA6.4做了端到端智能驾驶的全量推送★★■■,这次 OTA6◆◆■◆★■.5最核心的事情对于整套端到端系统又做了一个全面的升级,我们在内部测试包括做用户公测有比较长时间了◆■,大家在智驾领域比较火热的是车位到车位,这次我们是整个行业(首个)全量推送给用户的在全国或者全球,11月内就会全量把车位到车位智能驾驶的能力,端到端+VLM这套架构的东西全量推送给每一位AD Max的车主。
赵哲伦:整体来说我们的产品取向还是偏温和一些,大家都知道理想汽车是偏家庭用户,我们需要做到的事情不是一个人在开车的时候才用,而是你家人在车上的时候也能用,这是我们希望做到的◆■◆◆■。因为它毕竟不是规则■■★◆★■,还是AI整体驱动的东西★■■■■,我们当然会尽量筛选我们认为的优秀司机◆★★,我们认为优秀的司机就是很好的家庭主人,无论是男主人还是女主人开车的状态,但是避免不了有的时候为了效率的选择◆◆◆★◆■,偶尔会激进一下,但整体的取向是往家庭可用★★■◆,舒适方面做调试的■■★。
赵哲伦:很卷,国内的速度真的是很快,我们在这个行业很多年,如果说拿以前这个行业状态来说的话,以前大家基本上,首先在北美特斯拉相对会领先一些,但是北美他没有竞争,基本上就每年做一次技术迭代。以前国内差不多会比北美的技术迭代晚个一年左右■★,做整体的产品化◆★■◆■,其实产品的很多细节比它要做的更好,但是可能在技术上会稍微晚一些。
搜狐汽车■◆◆★◆★:咱们刚刚提到智驾有理想的特色在里面★◆,现在很多企业都在做自己的智驾系统■◆■★,理想的优势或者我们区别于其他企业的核心竞争力是什么★★◆◆★?
第二个是数据,这一段是一个做自动驾驶的刚需,所有的东西如果没有数据都是0,而且数据量一定是越多越好,通过数据才能不断迭代我们模型的参数,模型的数据量,过去理想汽车已经交付了差不多100万台车,100万台车,100万个家庭用户,他们所有驾驶■◆,其实这些数据规模是很恐怖的★★◆■,100万台车每辆车日均里程大概是40—50公里,每天回来差不多是5000万公里的数据◆◆■,这个在传统L4公司来讲是完全不可想象的,他们可能最多100辆试验车◆★★■★,开一年两年都开不到这个里程■◆■,当然这只是我们一天,场景又非常的泛化,在全国所有的省市◆★■■◆★,所有的乡镇■◆★■◆◆、城市都会涉及◆◆◆■,所以数据这一块会看到整个端到端这套系统迭代特别快,我们过去4个月从开始内测以来■◆◆■★◆,到全量推送,到现在基本上迭代了30多版★◆◆★,这个迭代的速度在大部分的车企或者自动驾驶公司是不可想象的■★■■◆◆,离不开是源源不断对用户的数据作为背后的驱动力。
从家里车位直接出发到公司的车位★★■,除此之外通过VLM的能力,就是中文叫做视觉语言大模型,通过这个模型还做了一个大家认为一个智能驾驶应用很难做到的是◆■,我们现在可以识别收费站的ETC了■★★■■,以前大家用智能驾驶碰到一个很大的痛点,有人说高速的NOA有人说城市的NOA,有人说全场景的NOA,但是不管怎么样,大家到了一个城市和高速的交界处的时候,由于你的智能驾驶系统它无法认识怎么进收费站■★◆■◆■,是要进ETC还是要进人工,所以往往大家在这里还需要去接管★★★■◆◆,我们在这一版当中以前也做过一些功能的尝试★■◆◆◆■,说实话收费站场景还是挺难的。我举两个例子,一个是中国的收费站每个城市的样子都不一样■★,有的收费站有棚子特别宽大,宽大到可能有十多个收费站的矩阵,有的收费站可能很窄就两个口,完全不同,跟中国其他道路也完全不同。第二点收费站有很多潮汐调控,有的收费站有的路会ETC,有的时候会人工◆■,有的时候是人工—ETC,完全通过LED屏进行控制◆★■■。
但我觉得这里确实会有这么一个阶段,理想分成两阶,AD Max和AD Pro◆◆,AD Max通过端到端+VLM智驾基本上在城区都能达到一个很有安全感■◆★◆,很方便的智驾方案,如果你是原来甚至连高速智驾都没有用习惯的话,你可能先接受高速的智驾,因为高速场景它非常的有规则,让你容易去放心接受它,一旦高速接受之后,你会发现大部分的时间还在城里,这时候开始渴望在城市里能用,我们AD Max就非常符合这一点尊龙◆◆■◆★■,所以整体来说这个趋势确实在往这方面靠。