中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>
    • 關(guān)于ZAKER 合作
      鈦媒體 13小時(shí)前

      競(jìng)速與暗戰(zhàn),智能輔助駕駛邁入 Next Level

      文 | 極智 GeeTech

      2025 年智能輔助駕駛戰(zhàn)場(chǎng),彌漫著 " 短平快 " 的焦慮。部分車企依賴人工采集 " 老司機(jī)數(shù)據(jù) ",甚至雇傭數(shù)百人實(shí)車路測(cè),成本高昂卻效率低下。同時(shí)," 端到端 +VLM" 架構(gòu)遭遇瓶頸——訓(xùn)練數(shù)據(jù)突破 1000 萬(wàn) Clips 后,性能增長(zhǎng)緩慢。實(shí)車測(cè)試無(wú)法復(fù)現(xiàn)極端場(chǎng)景,接管里程的數(shù)字繁榮背后隱藏著極端場(chǎng)景的未解難題。

      面對(duì)這些現(xiàn)象,現(xiàn)有端到端模型已給不出更多答案,端到端模型像猴子開(kāi)車,能夠?qū)W習(xí)人類行為,但并不理解物理世界。傳統(tǒng)用規(guī)則算法 " 修補(bǔ) " 端到端缺陷的方式已然失效,而現(xiàn)在,理想、小鵬等造車新勢(shì)力正在推翻現(xiàn)有架構(gòu),以全新的 VLA 大模型重燃新一輪智駕戰(zhàn)火。

      新勢(shì)力押注 VLA

      在最近理想和小鵬首發(fā)的 i8 和 G7 Ultra 中,VLA 成為關(guān)鍵技術(shù)。

      理想 i8 核心亮點(diǎn)就是 VLA" 司機(jī)大模型 ",這是理想汽車智駕領(lǐng)域繼去年推出 " 端到端 +VLM" 之后的又一新進(jìn)展。理想 VLA 的所有模塊經(jīng)過(guò)全新設(shè)計(jì),空間編碼器通過(guò)語(yǔ)言模型并結(jié)合邏輯推理,給出合理的駕駛決策,并通過(guò) Diffusion(擴(kuò)散模型)預(yù)測(cè)其他車輛和行人的軌跡,進(jìn)一步優(yōu)化出最佳的駕駛軌跡。

      8 月 15 日,小鵬汽車宣布,小鵬 G7 Ultra 的 VLA 能力再度提前,現(xiàn)已明確 8 月內(nèi)可以開(kāi)啟首批推送。" 高速人機(jī)共駕 " 等功能,不僅即將登陸 Ultra 車型,也會(huì)通過(guò) OTA 推送至 Max 車型。

      據(jù)稱,小鵬 G7 Ultra 車型將搭載本地端 VLA 模型,具備 VLA 思考推理可視化、語(yǔ)音控車、主動(dòng)推薦等功能。這一版本使用了 3 顆小鵬汽車自研的圖靈 AI 芯片,綜合算力高達(dá) 2250TOPS。

      " 端到端 +VLM" 被視為區(qū)分智能輔助駕駛技術(shù)的分水嶺。在此之前,NPN(先驗(yàn)網(wǎng)絡(luò))輕圖、無(wú)圖均是人工時(shí)代的技術(shù),而人工時(shí)代的最大特點(diǎn)是 " 規(guī)則算法 ",需要工程師設(shè)計(jì)算法并編寫(xiě)程序,因此提升輔助駕駛性能依賴于工程師的能力和經(jīng)驗(yàn)。

      然而,從 " 端到端 +VLM" 開(kāi)始,車企不再用傳統(tǒng)的方式做," 端到端 +VLM" 架構(gòu)的本質(zhì)是模仿學(xué)習(xí),是用人類駕駛數(shù)據(jù)訓(xùn)練模型,數(shù)據(jù)數(shù)量和質(zhì)量決定性能。

      這場(chǎng)智能輔助駕駛的比拼特別像體育界的鐵人三項(xiàng),要想贏得競(jìng)賽,需要三個(gè)核心要素:技術(shù)、工程和產(chǎn)品。智能輔助駕駛要實(shí)現(xiàn)好用、愛(ài)用,需要關(guān)注兩個(gè)維度。一個(gè)是 Scale up(性能提升),即把系統(tǒng)打磨到可以處理各種極端環(huán)境和復(fù)雜交通流;另一個(gè)是 Scale out(場(chǎng)景泛化),即系統(tǒng)在全場(chǎng)景下在不同的時(shí)間、天氣、環(huán)境和不同的城市都可以有很好的表現(xiàn)。

      從技術(shù)路徑看,無(wú)論端到端也好,還是 VLM 也罷,最后來(lái)看都將殊途同歸,就是建立 VLA 流程,整體系統(tǒng)會(huì)更加接近于人的應(yīng)激反應(yīng),(感知)看到什么,(規(guī)控)就能做出相應(yīng)的駕駛動(dòng)作。不少智駕行業(yè)人士都將 VLA 視為當(dāng)下 " 端到端 " 方案的 2.0 版本,認(rèn)為這是未來(lái)確定的技術(shù)路線,只是實(shí)現(xiàn)的時(shí)間快慢問(wèn)題。

      在智能輔助駕駛的發(fā)展過(guò)程中,VLA 和一段式端到端是兩個(gè)較為主流的技術(shù)路徑。

      VLA 作為一種融合了視覺(jué)(Vision)、語(yǔ)言(Language)和操作決策(Action)的多模態(tài)大模型,是介于傳統(tǒng)模塊化和端到端之間的技術(shù)架構(gòu)。它不直接控制車輛,而是先把路況轉(zhuǎn)化為 " 語(yǔ)義信息 ",比如把感知硬件看到的車道、障礙物、紅綠燈等信息做成語(yǔ)義標(biāo)注,包括文本描述和視覺(jué)關(guān)聯(lián),動(dòng)作生成器綜合視覺(jué)和語(yǔ)義信息輸出決策。

      從理論上分析,作為多模態(tài)大模型,VLA 具有強(qiáng)大的場(chǎng)景推理和語(yǔ)言理解能力,可適應(yīng)復(fù)雜、邊緣情況或動(dòng)態(tài)交通環(huán)境。此外,由于融入了 " 世界知識(shí) " 和 " 常識(shí)推理 ",VLA 理論上具備更高上限的智能行為。

      比如,VLA 可以理解城市中的 " 潮汐車道 "" 公交車道 " 等指示牌的文字信息,甚至可以理解駕駛者的語(yǔ)音指令并做出相應(yīng)的動(dòng)作。

      VLA 架構(gòu)下,端到端與多模態(tài)大模型的結(jié)合將會(huì)更徹底。但更具挑戰(zhàn)的是,當(dāng)端到端與 VLM 模型合二為一后,車端模型參數(shù)將變得更大,這既要有高效實(shí)時(shí)推理能力,同時(shí)還要有大模型認(rèn)識(shí)復(fù)雜世界并給出建議的能力,對(duì)車端芯片硬件有相當(dāng)高要求。

      如何將端到端與多模態(tài)大模型的數(shù)據(jù)與信息進(jìn)行深度交融,實(shí)現(xiàn)軟硬件的無(wú)縫融合與協(xié)同配合,將考驗(yàn)著每一個(gè)智能輔助駕駛團(tuán)隊(duì)的模型框架定義能力、模型的工程開(kāi)發(fā)能力以及模型快速迭代能力。

      在過(guò)去一年,幾乎所有主流的車企在輔助駕駛上都更新成了端到端大模型驅(qū)動(dòng)的系統(tǒng),在短時(shí)間內(nèi)性能和體驗(yàn)提升都比較明顯。但端到端黑盒的研發(fā)模式,導(dǎo)致了部分 Corner Case 無(wú)法追溯產(chǎn)生的原因,這也導(dǎo)致一部分車企很快地從 " 熱戀期 " 進(jìn)入到了 " 瓶頸期 "。

      即使是當(dāng)前 TOP 級(jí)別的端到端系統(tǒng),在面臨復(fù)雜道路結(jié)構(gòu)疊加復(fù)雜車流博弈時(shí)大多數(shù)情況也會(huì)崩潰。行業(yè)普遍面臨瓶頸,所以很自然地有公司開(kāi)始探尋上限更高的新架構(gòu)。

      而 VLA 通過(guò)語(yǔ)言模型的引入,很好地解決了研發(fā)和用戶兩端黑盒的問(wèn)題。

      不過(guò),這并不意味著端到端不值得投入開(kāi)發(fā)。如果規(guī)則算法都做不好,那么根本不知道怎么去做端到端;如果端到端沒(méi)有做到一個(gè)非常極致的水平,那連 VLA 怎么去訓(xùn)練都不知道。換句話說(shuō),在端到端上取得大規(guī)模成功量產(chǎn)經(jīng)驗(yàn),是探索 VLA 的一個(gè)門檻。

      為什么是 VLA?

      過(guò)去幾年,輔助駕駛經(jīng)歷了三種架構(gòu)的迭代:規(guī)則算法、端到端、VLA,這是一個(gè)從指令控制,到模仿行為,再到理解意圖的過(guò)程。每一代技術(shù)都在不停地提升算力、平均接管里程,本質(zhì)上是要不斷接近人類的駕駛方式。

      輔助駕駛的人工時(shí)代到現(xiàn)在 AI 時(shí)代的分水嶺,是從無(wú)圖到端到端。在原來(lái)輕圖、NPN 或者無(wú)圖的人工時(shí)代,輔助駕駛的核心是規(guī)則算法。

      最早的輔助駕駛采用模塊化架構(gòu),由于感知、規(guī)劃及執(zhí)行系統(tǒng)相對(duì)獨(dú)立,且每個(gè)步驟都要占用一定的計(jì)算時(shí)間,整體系統(tǒng)的響應(yīng)較慢,延時(shí)較高。

      簡(jiǎn)單來(lái)說(shuō),就是需要在既定的規(guī)則下,同時(shí)依賴高精地圖,類似螞蟻的行動(dòng)和完成任務(wù)的方式。但無(wú)法完成更復(fù)雜的事情,需要不斷地加限定規(guī)則。

      人工時(shí)代的局限性在于,單靠人力難以解決所有場(chǎng)景,很多場(chǎng)景是 " 按下葫蘆起來(lái)瓢 ",于是輔助駕駛進(jìn)入了端到端時(shí)代。

      端到端階段通過(guò)大模型學(xué)習(xí)人類駕駛行為,足以應(yīng)對(duì)大部分泛化場(chǎng)景,但端到端很難解決從未遇到過(guò)或特別復(fù)雜的問(wèn)題,此時(shí)需要配合 VLM。VLM 對(duì)復(fù)雜交通環(huán)境具有更強(qiáng)的理解能力,但現(xiàn)有 VLM 在應(yīng)對(duì)復(fù)雜交通環(huán)境時(shí)只能起到輔助作用。

      " 端到端 +VLM" 的核心是模仿學(xué)習(xí),用人類駕駛的數(shù)據(jù)來(lái)訓(xùn)練模型。這個(gè)技術(shù)階段,決定性的因素就是數(shù)據(jù)。數(shù)據(jù)多,覆蓋的場(chǎng)景全,數(shù)據(jù)質(zhì)量好——最好是來(lái)自老司機(jī),這時(shí)訓(xùn)練模型的性能就會(huì)非常好。

      但模仿學(xué)習(xí)終究有上限。相比過(guò)去只依賴真實(shí)駕駛數(shù)據(jù),VLA 采用生成數(shù)據(jù)和仿真環(huán)境結(jié)合的方式,讓模型能在無(wú)風(fēng)險(xiǎn)、可控的虛擬世界中自主進(jìn)化。這套思路如今也正在被更多車企采納,VLA 正成為智能駕駛的新共識(shí)。

      由于人類駕駛數(shù)據(jù)存在嚴(yán)重的分布不均,大多集中在白天、晴天、正常通勤等常規(guī)場(chǎng)景,真正復(fù)雜或危險(xiǎn)的工況數(shù)據(jù)稀缺且難以采集。而訓(xùn)練具備真實(shí)決策能力的模型,恰恰需要這些邊緣與極端場(chǎng)景。

      這就要求引入合成數(shù)據(jù)和高質(zhì)量仿真環(huán)境,用生成式方法構(gòu)建覆蓋更全、分布更廣的數(shù)據(jù)集,同時(shí)不斷評(píng)測(cè)模型表現(xiàn)。最終決定模型性能提升速度的關(guān)鍵,不是收集了多少真實(shí)數(shù)據(jù),而是仿真迭代的效率。相比傳統(tǒng)的數(shù)據(jù)驅(qū)動(dòng)方式,這是一種更具主動(dòng)性的訓(xùn)練方式。

      事實(shí)上,VLA 并不是一套跳級(jí)的打法,而是端到端之后的自然發(fā)展。如果沒(méi)有經(jīng)歷過(guò)端到端階段對(duì)模型感知、決策、控制等環(huán)節(jié)的完整訓(xùn)練,就無(wú)法一步跨入 VLA。

      在 VLA 階段,利用 3D 視覺(jué)和 2D 的組合構(gòu)建更真實(shí)的物理世界,此階段系統(tǒng)可實(shí)現(xiàn)看懂導(dǎo)航軟件的運(yùn)行邏輯,而非 VLM 階段僅能看到一張圖。

      同時(shí),VLA 不僅能看到物理世界,更能理解物理世界,具有自己的語(yǔ)言和思維鏈系統(tǒng),有推理能力,可以像人類一樣去執(zhí)行一些復(fù)雜動(dòng)作,能夠更好的處理人類駕駛行為的多模態(tài)性,可以適應(yīng)更多駕駛風(fēng)格。

      在海量的優(yōu)質(zhì)數(shù)據(jù)的加持下,VLA 模型在絕大多數(shù)場(chǎng)景下能接近人類的駕駛水平;隨著偏好數(shù)據(jù)的逐步豐富,模型的表現(xiàn)也逐步接近專業(yè)司機(jī)的水平,安全下限也得到了巨大的提升。

      VLA 雖然給自動(dòng)駕駛行業(yè)提出了新的可能,但實(shí)際應(yīng)用依舊面臨很多挑戰(zhàn)。

      首先是模型可解釋性不足,作為 " 黑盒子 " 系統(tǒng),很難逐步排查在邊緣場(chǎng)景下的決策失誤,給安全驗(yàn)證帶來(lái)難度。

      其次,端到端訓(xùn)練對(duì)數(shù)據(jù)質(zhì)量和數(shù)量要求極高,還需構(gòu)建覆蓋多種交通場(chǎng)景的高保真仿真環(huán)境。另外,計(jì)算資源消耗大、實(shí)時(shí)性優(yōu)化難度高,也是 VLA 商用化必須克服的技術(shù)壁壘。

      為了解決上述問(wèn)題,車企也正在探索多種技術(shù)路徑。如有通過(guò)引入可解釋性模塊或后驗(yàn)可視化工具,對(duì)決策過(guò)程進(jìn)行透明化;還有利用 Diffusion 模型對(duì)軌跡生成進(jìn)行優(yōu)化,確??刂浦噶畹钠交耘c穩(wěn)定性。同時(shí),將 VLA 與傳統(tǒng)規(guī)則引擎或模型預(yù)測(cè)控制(MPC)結(jié)合,以混合架構(gòu)提高安全冗余和系統(tǒng)魯棒性也成為熱門方向。

      智能輔助駕駛接近決戰(zhàn)時(shí)刻

      理想、小鵬并不是智能輔助駕駛領(lǐng)域的先行者,當(dāng)技術(shù)方向清晰后,它們迅速通過(guò)投入大算力和海量的數(shù)據(jù),快速驗(yàn)證路徑,追上了對(duì)手。這種路徑適用于車輛保有量大、且駕駛數(shù)據(jù)可有效回傳的車企。但隨著時(shí)間的推進(jìn),落后者的機(jī)會(huì)窗口逐漸縮窄。

      從端到端到 " 端到端 +VLM" 再到 VLA,其中需要面臨很多現(xiàn)實(shí)難題,比如多模態(tài)對(duì)齊工程龐大,成熟度亟待提升,多模態(tài)數(shù)據(jù)的獲取和訓(xùn)練也十分困難,對(duì)于算力需求更是水漲船高。

      目前,行業(yè)應(yīng)用的主流英偉達(dá) Orin 芯片單顆算力 254TOPS,且不支持直接運(yùn)行語(yǔ)言模型。而英偉達(dá) Thor 芯片由于存在設(shè)計(jì)缺陷和工程問(wèn)題,實(shí)際算力與宣傳數(shù)據(jù)相比大幅縮水,其中 Thor S、Thor U 版本的算力約為 700TOPS,而 Thor Z 基礎(chǔ)版算力約為 300TOPS,對(duì)于端到端 +VLM 的算力需求而言,都依然緊張。

      算力不足會(huì)導(dǎo)致大模型在推理過(guò)程中可能出現(xiàn)時(shí)延超過(guò) 200 毫秒的問(wèn)題,而自動(dòng)駕駛系統(tǒng)對(duì)于緊急制動(dòng)等操作的響應(yīng)時(shí)間要求是控制在 100 毫秒以內(nèi)。

      正因如此,目前行業(yè)內(nèi)的芯片算力大戰(zhàn)正在逐漸升溫。除了英偉達(dá),高通推出的 8797 艙駕一體芯片最高支持 350TOPS 算力,也已成為車企的選擇之一。

      而車企,尤其是新勢(shì)力企業(yè)自研 AI 芯片已經(jīng)逐漸成為潮流,其中,理想汽車自研的馬赫(原名 " 舒馬赫 ")100 大算力 AI 芯片,盡管尚未透露參數(shù),但今年 5 月已經(jīng)流片成功,計(jì)劃 2026 年量產(chǎn)。

      特斯拉下一代全自動(dòng)駕駛(FSD)芯片 AI 5 已進(jìn)入量產(chǎn)階段,單顆算力或達(dá)到 2500TOPS,較 AI 4 提升 4~5 倍,據(jù)稱最快在今年年底啟用。

      此外,多模態(tài)對(duì)齊使得 VLA 需要依賴海量的標(biāo)注數(shù)據(jù)來(lái)實(shí)現(xiàn),然而在實(shí)際應(yīng)用場(chǎng)景中,雨天反光、夜間弱光等并不常見(jiàn)的極端場(chǎng)景相關(guān)數(shù)據(jù)積累不足,將影響 VLA 的決策準(zhǔn)確率及可靠性。所以,VLA 要實(shí)現(xiàn)大規(guī)模落地,至少需要 3~5 年時(shí)間甚至更久。

      VLA 的大規(guī)模落地,本質(zhì)是算法、算力、數(shù)據(jù)技術(shù)革命的交匯。短期(2025~2026 年)具備 VLA 功能的車型將在高速公路、封閉園區(qū)等特定場(chǎng)景運(yùn)行,典型應(yīng)用包括自動(dòng)泊車、高速領(lǐng)航等。

      中期(2027~2029 年),隨著算力達(dá) 2000TOPS 及以上新一代 AI 芯片量產(chǎn),VLA 將覆蓋城市道路全場(chǎng)景,平均無(wú)接管里程將顯著提升,或突破 100 公里,接管率或降至 0.01 次 / 公里以下。

      長(zhǎng)期(2030 年后),將出現(xiàn)如光計(jì)算架構(gòu)等專用 AI 芯片,并與腦機(jī)接口技術(shù)融合,或?qū)⑹?VLA 實(shí)現(xiàn)類人駕駛的直覺(jué)決策能力,如準(zhǔn)確預(yù)判行人突發(fā)行為的概率等。

      多模態(tài)對(duì)齊成熟度、訓(xùn)練效率提升、芯片能效比革命等一些關(guān)鍵因素,都可能在未來(lái) 3~5 年迎來(lái)新的突破,為 VLA 大規(guī)模落地提供更好支持。

      然而,技術(shù)路線的驟然升級(jí)與競(jìng)賽變奏,為還沒(méi)發(fā)力端到端的玩家設(shè)置了更高門檻,后發(fā)制人的機(jī)會(huì)更加稀少,距離智能輔助駕駛的決戰(zhàn)時(shí)刻已經(jīng)越來(lái)越近。

      相關(guān)標(biāo)簽

      相關(guān)閱讀

      最新評(píng)論

      沒(méi)有更多評(píng)論了

      覺(jué)得文章不錯(cuò),微信掃描分享好友

      掃碼分享

      熱門推薦

      查看更多內(nèi)容