2026年4月,在2026智能電動汽車發(fā)展高層論壇上,清華大學(xué)車輛學(xué)院、人工智能學(xué)院教授/博導(dǎo) 李升波出席論壇并發(fā)表主題演講,以下為演講全文。
尊敬的各位嘉賓,各位同事,大家好!
我是來自清華大學(xué)的李升波,非常榮幸能夠在智能電動汽車發(fā)展高層論壇介紹我們的工作,與大家分享在智能時代如何推進(jìn)具身智能的端到端技術(shù)研發(fā)。我今天的報告包括兩部分內(nèi)容:一、談一談人工智能發(fā)展態(tài)勢;二、總結(jié)自動駕駛行業(yè)當(dāng)前現(xiàn)狀、目前發(fā)展趨勢。
人工智能已從概念階段全面邁入現(xiàn)實應(yīng)用,過去十年間,一系列里程碑事件持續(xù)推動社會認(rèn)知不斷深化:從2015年ResNet在圖像識別任務(wù)中超越人類水平,2017年AlphaGo戰(zhàn)勝圍棋世界冠軍柯潔,到2022年ChatGPT問世,再到2025年初DeepSeek推理模型的重磅推出,這些標(biāo)志性進(jìn)展充分表明,人工智能正加速成為新一輪科技革命與產(chǎn)業(yè)變革的重要驅(qū)動力。
人工智能的發(fā)展正由信息空間逐步邁向具身智能,即深度融入物理世界。人類本身就是典型的物理世界智能體,通過眼睛實現(xiàn)環(huán)境感知,經(jīng)由大腦完成決策判斷,再通過肢體執(zhí)行具體動作,并持續(xù)地與外部環(huán)境交互。如何實現(xiàn)可靠的物理世界交互,是當(dāng)前研究的關(guān)鍵問題。
從應(yīng)用形態(tài)來看,物理世界交互的研究主要集中在兩個方向:一是自動駕駛,二是機(jī)器人。二者在感知、決策、控制和訓(xùn)練等核心技術(shù)鏈條上具有較強(qiáng)共性特征。自動駕駛自2015年進(jìn)入快速發(fā)展階段,目前已形成了清晰的商業(yè)化格局。同時,具身智能機(jī)器人在近兩年持續(xù)升溫,成為行業(yè)關(guān)注的熱點。從更長周期來看,人工智能將進(jìn)一步嵌入各類可運動、可交互的實體系統(tǒng),泛在具身智能有望成為未來人工智能發(fā)展的重要趨勢。
從技術(shù)路線看,端到端訓(xùn)練已成為具身智能的重要范式。無論訓(xùn)練數(shù)據(jù)來自仿真環(huán)境還是真機(jī)平臺,其核心都是通過大規(guī)模數(shù)據(jù)匯聚與訓(xùn)練,構(gòu)建端到端神經(jīng)網(wǎng)絡(luò)模型。從訓(xùn)練范式看,當(dāng)前主要包括兩類技術(shù)路徑:一類是模仿學(xué)習(xí);另一類是強(qiáng)化學(xué)習(xí)。
汽車可以視為具身智能最早落地的產(chǎn)品形態(tài),其駕駛過程與人類行為模式具有相似性,需要通過傳感器感知周圍環(huán)境,再由端到端模型完成感知、決策和控制,最終將指令送至車端執(zhí)行。如何高校訓(xùn)練這類端到端模型,仍然面臨諸多顯著挑戰(zhàn)。
特斯拉是自動駕駛端到端路線的發(fā)起者。2024年,特斯拉發(fā)布FSDV12,標(biāo)志著自動駕駛研發(fā)正式由傳統(tǒng)專家規(guī)則驅(qū)動轉(zhuǎn)向端到端設(shè)計階段。其訓(xùn)練路徑具有兩個典型特征,一是依賴大規(guī)模量產(chǎn)車開展數(shù)據(jù)閉環(huán);二是依賴超大算力云平臺完成訓(xùn)練、更新和迭代。對于國內(nèi)企業(yè)而言,如何在數(shù)據(jù)、算力與模型路線的多重約束下推進(jìn)端到端乃至VLA(自動駕駛大模型)相關(guān)研發(fā)工作,仍是需要系統(tǒng)思考并解答的問題。
進(jìn)一步分析來看,當(dāng)前國內(nèi)自動駕駛端到端研發(fā)領(lǐng)域至少存在三方面挑戰(zhàn)。第一,訓(xùn)練數(shù)據(jù)規(guī)模與質(zhì)量能否與特斯拉相匹配,因為數(shù)據(jù)規(guī)模直接決定了模型性能的基本邊界;第二,現(xiàn)有算力是否能夠支撐億級參數(shù)規(guī)模模型的高效訓(xùn)練;第三,訓(xùn)練算法、框架是否成熟,尤其是能否突破單一監(jiān)督學(xué)習(xí)路徑的局限,并持續(xù)擴(kuò)展新的訓(xùn)練方向。這些問題既是技術(shù)層面的關(guān)鍵判斷,也是產(chǎn)業(yè)落地過程中必須面對的現(xiàn)實約束。
對于高校而言,我們也在持續(xù)思考這些問題。概括來看,目前主要形成兩點判斷:
第一,應(yīng)通過仿真技術(shù)實現(xiàn)更大規(guī)模的數(shù)據(jù)生成,不能完全依賴車端或者大規(guī)模量產(chǎn)車采集的方式來解決數(shù)據(jù)匱乏難題。隨著相關(guān)技術(shù)發(fā)展,世界模型等方法正在成為仿真能力的重要延伸;
第二,要更加重視高效算法的研發(fā)與應(yīng)用,DeepSeek的進(jìn)展帶來了一個重要啟發(fā),即在更高性能算法的支撐下,可以顯著降低對傳統(tǒng)數(shù)據(jù)規(guī)模與算力擴(kuò)張路徑的過度依賴。
因此,設(shè)計更高效的訓(xùn)練算法也是高校的一項重要任務(wù)。
圍繞這一思路,清華大學(xué)自2018年起,便持續(xù)在行業(yè)中推廣端到端訓(xùn)練路徑,并重點聚焦數(shù)據(jù)不足與算法效率受限這兩個核心問題。我們的基本方案是構(gòu)建兩段式端到端模型,分別形成感知基座模型和決控基座模型,以仿真數(shù)據(jù)作為主體,結(jié)合實車數(shù)據(jù)和路側(cè)數(shù)據(jù)進(jìn)行輔助;在訓(xùn)練過程中,先開展基座模型監(jiān)督預(yù)訓(xùn)練,再通過虛實融合強(qiáng)化學(xué)習(xí)完成微調(diào),從而提升模型性能、泛化能力與部署效果。
在此過程中,我們研發(fā)了一系列面向行業(yè)的工業(yè)軟件,包括高保真自動駕駛仿真軟件和強(qiáng)化學(xué)習(xí)的訓(xùn)練軟件,旨在通過技術(shù)產(chǎn)品化的方式賦能行業(yè)高質(zhì)量發(fā)展。我們發(fā)現(xiàn),自動駕駛領(lǐng)域的數(shù)據(jù)生成技術(shù),從早期的物理引擎到當(dāng)下的世界模型,均屬于仿真技術(shù)的范疇,如何打造高保真的仿真平臺,是我們的核心研究之一,未來將構(gòu)建更具智能性的交通行為模擬、打造更高效的模型訓(xùn)練平臺、實現(xiàn)更精細(xì)化的環(huán)境模擬,持續(xù)提升仿真技術(shù)的支撐能力。
與此同時,我們開展了一系列關(guān)鍵技術(shù)探索,包括傳感器模擬(涵蓋激光雷達(dá)、攝像頭、毫米波雷達(dá))、3D/4DGS技術(shù)、世界模型等。
另一重要方向是訓(xùn)練平臺的搭建。當(dāng)前各類訓(xùn)練技術(shù)分散于不同企業(yè)與高校實驗室,如何整合這些分散技術(shù)、更好地賦能行業(yè)發(fā)展,是我們重點推進(jìn)的工作。
清華大學(xué)自2021年起研發(fā)強(qiáng)化學(xué)習(xí)平臺GOPS的研發(fā)工作,目前已融合主流算法、測試環(huán)境及數(shù)據(jù)集,力求一站式解決企業(yè)在模型訓(xùn)練過程中面臨的各類難題。圍繞強(qiáng)化學(xué)習(xí)訓(xùn)練的核心需求,我們先后開發(fā)了DSAC算法、RAD優(yōu)化器、LipsNet神經(jīng)網(wǎng)絡(luò)、安全強(qiáng)化學(xué)習(xí)算法RACS、多模態(tài)強(qiáng)化學(xué)習(xí)算法DACER、世界模型強(qiáng)化學(xué)習(xí)算法BOOM,同時推出非線性狀態(tài)濾波器NANO,并面向大模型研發(fā)了STAPO等相關(guān)算法,持續(xù)提升模型的訓(xùn)練效率與核心性能。
在此基礎(chǔ)上,我們完成了國內(nèi)首個端到端自動駕駛模型的開放道路測試。該模型采用全神經(jīng)網(wǎng)絡(luò)架構(gòu),覆蓋環(huán)境感知、預(yù)測、決策與控制核心部分,并于2024年完成開放道路的實車測試。同時我們發(fā)現(xiàn),該領(lǐng)域仍面臨諸多挑戰(zhàn)。
其一,模型架構(gòu)仍處于持續(xù)迭代發(fā)展階段,遠(yuǎn)未達(dá)終局形態(tài)。當(dāng)前VLA模型成為行業(yè)熱議的發(fā)展方向,我們也相信,應(yīng)該從端到端基礎(chǔ)模型入手,持續(xù)融入語言類模態(tài),最終構(gòu)建起動作、視覺、語言深度融合的多模態(tài)模型。
其二,仿真技術(shù)的發(fā)展從早期基于物理引擎的仿真平臺,到依托3DGS重建的仿真,再到當(dāng)下備受關(guān)注的世界模型,仍有大量工作亟待持續(xù)完善與迭代優(yōu)化。
同時,我們也想談一談具身智能的后續(xù)挑戰(zhàn)。
近期諸多自動駕駛領(lǐng)域從業(yè)者投身具身智能研究,我們發(fā)現(xiàn),機(jī)器人具身智能與自動駕駛具身智能的技術(shù)棧高度相似。汽車可視為具身智能的初級形態(tài),其自由度較低,應(yīng)用場景規(guī)范,交互對象也相對有限。
而進(jìn)入機(jī)器人領(lǐng)域,無論是工業(yè)制造、家居服務(wù)還是商業(yè)服務(wù)場景,其自由度均大幅提升,從雙足、輪式到雙臂式機(jī)器人,其自由度遠(yuǎn)高于汽車;場景結(jié)構(gòu)也更為復(fù)雜,交互對象更是覆蓋視覺范圍內(nèi)的所有對象,這導(dǎo)致具身智能問題的解決難度大幅增加。我們始終認(rèn)為,端到端訓(xùn)練是攻克機(jī)器人具身智能模型的核心路徑,但二者之間存在本質(zhì)性的難度差距。
從數(shù)據(jù)規(guī)???,自動駕駛領(lǐng)域約1億片段數(shù)據(jù)可達(dá)到模型訓(xùn)練的入門門檻,模型規(guī)模達(dá)到1B、10B參數(shù)量基本能實現(xiàn)智駕功能;若以自動駕駛的訓(xùn)練復(fù)雜度為基準(zhǔn),具身機(jī)器人領(lǐng)域的訓(xùn)練難度更高。
當(dāng)前,行業(yè)普遍低估了具身機(jī)器人的訓(xùn)練難度。具身機(jī)器人的交互數(shù)據(jù)片段規(guī)模需達(dá)到十億甚至百億級別,神經(jīng)網(wǎng)絡(luò)參數(shù)量的入門基準(zhǔn)約為100B;無論從監(jiān)督學(xué)習(xí)還是強(qiáng)化學(xué)習(xí)角度,其訓(xùn)練難度相較自動駕駛均有約5-10倍的提升,這也是二者的核心差異所在。
總體來看,未來是人工智能大發(fā)展、大有可為的時代。當(dāng)前信息智能領(lǐng)域的人工智能模型已完成核心研發(fā),以豆包、ChatGPT等代表性產(chǎn)品已落地應(yīng)用,我們預(yù)判這一時代將于2028年左右步入成熟階段。物理智能領(lǐng)域則剛剛興起,未來10至15年,該領(lǐng)域?qū)⒂楷F(xiàn)大量新技術(shù)、新方法與新企業(yè)。從更長遠(yuǎn)來看,機(jī)器與人的深度融合將成為發(fā)展趨勢,我們將其定義為“生物智能”,量子計算、人造生命等前沿方向或?qū)⒃诖穗A段實現(xiàn)突破,這一發(fā)展進(jìn)程預(yù)計需要15至20年甚至更久的時間。
各位同事,我的匯報到此結(jié)束,謝謝大家!
【獨家稿件及免責(zé)聲明】本網(wǎng)注明轉(zhuǎn)載文章中的信息僅供用戶參考。凡注明來源“運輸人網(wǎng)”的作品,未經(jīng)本網(wǎng)授權(quán)均不得轉(zhuǎn)載、摘編或使用。聯(lián)系郵件:master@yunshuren.com
評論