當(dāng)前位置：首頁 > 廠商資訊 > 正文

清華大學(xué)李升波：以仿真與高效算法，破解端到端智駕數(shù)據(jù)與算力瓶頸

2026-04-12 19:29:32

　　2026年4月，在2026智能電動汽車發(fā)展高層論壇上，清華大學(xué)車輛學(xué)院、人工智能學(xué)院教授/博導(dǎo) 李升波出席論壇并發(fā)表主題演講，以下為演講全文。

　　尊敬的各位嘉賓，各位同事，大家好！

　　我是來自清華大學(xué)的李升波，非常榮幸能夠在智能電動汽車發(fā)展高層論壇介紹我們的工作，與大家分享在智能時代如何推進(jìn)具身智能的端到端技術(shù)研發(fā)。我今天的報告包括兩部分內(nèi)容：一、談一談人工智能發(fā)展態(tài)勢；二、總結(jié)自動駕駛行業(yè)當(dāng)前現(xiàn)狀、目前發(fā)展趨勢。

　　人工智能已從概念階段全面邁入現(xiàn)實應(yīng)用，過去十年間，一系列里程碑事件持續(xù)推動社會認(rèn)知不斷深化：從2015年ResNet在圖像識別任務(wù)中超越人類水平，2017年AlphaGo戰(zhàn)勝圍棋世界冠軍柯潔，到2022年ChatGPT問世，再到2025年初DeepSeek推理模型的重磅推出，這些標(biāo)志性進(jìn)展充分表明，人工智能正加速成為新一輪科技革命與產(chǎn)業(yè)變革的重要驅(qū)動力。

　　人工智能的發(fā)展正由信息空間逐步邁向具身智能，即深度融入物理世界。人類本身就是典型的物理世界智能體，通過眼睛實現(xiàn)環(huán)境感知，經(jīng)由大腦完成決策判斷，再通過肢體執(zhí)行具體動作，并持續(xù)地與外部環(huán)境交互。如何實現(xiàn)可靠的物理世界交互，是當(dāng)前研究的關(guān)鍵問題。

　　從應(yīng)用形態(tài)來看，物理世界交互的研究主要集中在兩個方向：一是自動駕駛，二是機(jī)器人。二者在感知、決策、控制和訓(xùn)練等核心技術(shù)鏈條上具有較強(qiáng)共性特征。自動駕駛自2015年進(jìn)入快速發(fā)展階段，目前已形成了清晰的商業(yè)化格局。同時，具身智能機(jī)器人在近兩年持續(xù)升溫，成為行業(yè)關(guān)注的熱點。從更長周期來看，人工智能將進(jìn)一步嵌入各類可運動、可交互的實體系統(tǒng)，泛在具身智能有望成為未來人工智能發(fā)展的重要趨勢。

　　從技術(shù)路線看，端到端訓(xùn)練已成為具身智能的重要范式。無論訓(xùn)練數(shù)據(jù)來自仿真環(huán)境還是真機(jī)平臺，其核心都是通過大規(guī)模數(shù)據(jù)匯聚與訓(xùn)練，構(gòu)建端到端神經(jīng)網(wǎng)絡(luò)模型。從訓(xùn)練范式看，當(dāng)前主要包括兩類技術(shù)路徑：一類是模仿學(xué)習(xí)；另一類是強(qiáng)化學(xué)習(xí)。

　　汽車可以視為具身智能最早落地的產(chǎn)品形態(tài)，其駕駛過程與人類行為模式具有相似性，需要通過傳感器感知周圍環(huán)境，再由端到端模型完成感知、決策和控制，最終將指令送至車端執(zhí)行。如何高校訓(xùn)練這類端到端模型，仍然面臨諸多顯著挑戰(zhàn)。

　　特斯拉是自動駕駛端到端路線的發(fā)起者。2024年，特斯拉發(fā)布FSDV12，標(biāo)志著自動駕駛研發(fā)正式由傳統(tǒng)專家規(guī)則驅(qū)動轉(zhuǎn)向端到端設(shè)計階段。其訓(xùn)練路徑具有兩個典型特征，一是依賴大規(guī)模量產(chǎn)車開展數(shù)據(jù)閉環(huán)；二是依賴超大算力云平臺完成訓(xùn)練、更新和迭代。對于國內(nèi)企業(yè)而言，如何在數(shù)據(jù)、算力與模型路線的多重約束下推進(jìn)端到端乃至VLA（自動駕駛大模型）相關(guān)研發(fā)工作，仍是需要系統(tǒng)思考并解答的問題。

　　進(jìn)一步分析來看，當(dāng)前國內(nèi)自動駕駛端到端研發(fā)領(lǐng)域至少存在三方面挑戰(zhàn)。第一，訓(xùn)練數(shù)據(jù)規(guī)模與質(zhì)量能否與特斯拉相匹配，因為數(shù)據(jù)規(guī)模直接決定了模型性能的基本邊界；第二，現(xiàn)有算力是否能夠支撐億級參數(shù)規(guī)模模型的高效訓(xùn)練；第三，訓(xùn)練算法、框架是否成熟，尤其是能否突破單一監(jiān)督學(xué)習(xí)路徑的局限，并持續(xù)擴(kuò)展新的訓(xùn)練方向。這些問題既是技術(shù)層面的關(guān)鍵判斷，也是產(chǎn)業(yè)落地過程中必須面對的現(xiàn)實約束。

　　對于高校而言，我們也在持續(xù)思考這些問題。概括來看，目前主要形成兩點判斷：

　　第一，應(yīng)通過仿真技術(shù)實現(xiàn)更大規(guī)模的數(shù)據(jù)生成，不能完全依賴車端或者大規(guī)模量產(chǎn)車采集的方式來解決數(shù)據(jù)匱乏難題。隨著相關(guān)技術(shù)發(fā)展，世界模型等方法正在成為仿真能力的重要延伸；

　　第二，要更加重視高效算法的研發(fā)與應(yīng)用，DeepSeek的進(jìn)展帶來了一個重要啟發(fā)，即在更高性能算法的支撐下，可以顯著降低對傳統(tǒng)數(shù)據(jù)規(guī)模與算力擴(kuò)張路徑的過度依賴。

　　因此，設(shè)計更高效的訓(xùn)練算法也是高校的一項重要任務(wù)。

　　圍繞這一思路，清華大學(xué)自2018年起，便持續(xù)在行業(yè)中推廣端到端訓(xùn)練路徑，并重點聚焦數(shù)據(jù)不足與算法效率受限這兩個核心問題。我們的基本方案是構(gòu)建兩段式端到端模型，分別形成感知基座模型和決控基座模型，以仿真數(shù)據(jù)作為主體，結(jié)合實車數(shù)據(jù)和路側(cè)數(shù)據(jù)進(jìn)行輔助；在訓(xùn)練過程中，先開展基座模型監(jiān)督預(yù)訓(xùn)練，再通過虛實融合強(qiáng)化學(xué)習(xí)完成微調(diào)，從而提升模型性能、泛化能力與部署效果。

　　在此過程中，我們研發(fā)了一系列面向行業(yè)的工業(yè)軟件，包括高保真自動駕駛仿真軟件和強(qiáng)化學(xué)習(xí)的訓(xùn)練軟件，旨在通過技術(shù)產(chǎn)品化的方式賦能行業(yè)高質(zhì)量發(fā)展。我們發(fā)現(xiàn)，自動駕駛領(lǐng)域的數(shù)據(jù)生成技術(shù)，從早期的物理引擎到當(dāng)下的世界模型，均屬于仿真技術(shù)的范疇，如何打造高保真的仿真平臺，是我們的核心研究之一，未來將構(gòu)建更具智能性的交通行為模擬、打造更高效的模型訓(xùn)練平臺、實現(xiàn)更精細(xì)化的環(huán)境模擬，持續(xù)提升仿真技術(shù)的支撐能力。

　　與此同時，我們開展了一系列關(guān)鍵技術(shù)探索，包括傳感器模擬（涵蓋激光雷達(dá)、攝像頭、毫米波雷達(dá)）、3D/4DGS技術(shù)、世界模型等。

　　另一重要方向是訓(xùn)練平臺的搭建。當(dāng)前各類訓(xùn)練技術(shù)分散于不同企業(yè)與高校實驗室，如何整合這些分散技術(shù)、更好地賦能行業(yè)發(fā)展，是我們重點推進(jìn)的工作。

　　清華大學(xué)自2021年起研發(fā)強(qiáng)化學(xué)習(xí)平臺GOPS的研發(fā)工作，目前已融合主流算法、測試環(huán)境及數(shù)據(jù)集，力求一站式解決企業(yè)在模型訓(xùn)練過程中面臨的各類難題。圍繞強(qiáng)化學(xué)習(xí)訓(xùn)練的核心需求，我們先后開發(fā)了DSAC算法、RAD優(yōu)化器、LipsNet神經(jīng)網(wǎng)絡(luò)、安全強(qiáng)化學(xué)習(xí)算法RACS、多模態(tài)強(qiáng)化學(xué)習(xí)算法DACER、世界模型強(qiáng)化學(xué)習(xí)算法BOOM，同時推出非線性狀態(tài)濾波器NANO，并面向大模型研發(fā)了STAPO等相關(guān)算法，持續(xù)提升模型的訓(xùn)練效率與核心性能。

　　在此基礎(chǔ)上，我們完成了國內(nèi)首個端到端自動駕駛模型的開放道路測試。該模型采用全神經(jīng)網(wǎng)絡(luò)架構(gòu)，覆蓋環(huán)境感知、預(yù)測、決策與控制核心部分，并于2024年完成開放道路的實車測試。同時我們發(fā)現(xiàn)，該領(lǐng)域仍面臨諸多挑戰(zhàn)。

　　其一，模型架構(gòu)仍處于持續(xù)迭代發(fā)展階段，遠(yuǎn)未達(dá)終局形態(tài)。當(dāng)前VLA模型成為行業(yè)熱議的發(fā)展方向，我們也相信，應(yīng)該從端到端基礎(chǔ)模型入手，持續(xù)融入語言類模態(tài)，最終構(gòu)建起動作、視覺、語言深度融合的多模態(tài)模型。

　　其二，仿真技術(shù)的發(fā)展從早期基于物理引擎的仿真平臺，到依托3DGS重建的仿真，再到當(dāng)下備受關(guān)注的世界模型，仍有大量工作亟待持續(xù)完善與迭代優(yōu)化。

　　同時，我們也想談一談具身智能的后續(xù)挑戰(zhàn)。

　　近期諸多自動駕駛領(lǐng)域從業(yè)者投身具身智能研究，我們發(fā)現(xiàn)，機(jī)器人具身智能與自動駕駛具身智能的技術(shù)棧高度相似。汽車可視為具身智能的初級形態(tài)，其自由度較低，應(yīng)用場景規(guī)范，交互對象也相對有限。

　　而進(jìn)入機(jī)器人領(lǐng)域，無論是工業(yè)制造、家居服務(wù)還是商業(yè)服務(wù)場景，其自由度均大幅提升，從雙足、輪式到雙臂式機(jī)器人，其自由度遠(yuǎn)高于汽車；場景結(jié)構(gòu)也更為復(fù)雜，交互對象更是覆蓋視覺范圍內(nèi)的所有對象，這導(dǎo)致具身智能問題的解決難度大幅增加。我們始終認(rèn)為，端到端訓(xùn)練是攻克機(jī)器人具身智能模型的核心路徑，但二者之間存在本質(zhì)性的難度差距。

　　從數(shù)據(jù)規(guī)?？?，自動駕駛領(lǐng)域約1億片段數(shù)據(jù)可達(dá)到模型訓(xùn)練的入門門檻，模型規(guī)模達(dá)到1B、10B參數(shù)量基本能實現(xiàn)智駕功能；若以自動駕駛的訓(xùn)練復(fù)雜度為基準(zhǔn)，具身機(jī)器人領(lǐng)域的訓(xùn)練難度更高。

　　當(dāng)前，行業(yè)普遍低估了具身機(jī)器人的訓(xùn)練難度。具身機(jī)器人的交互數(shù)據(jù)片段規(guī)模需達(dá)到十億甚至百億級別，神經(jīng)網(wǎng)絡(luò)參數(shù)量的入門基準(zhǔn)約為100B；無論從監(jiān)督學(xué)習(xí)還是強(qiáng)化學(xué)習(xí)角度，其訓(xùn)練難度相較自動駕駛均有約5-10倍的提升，這也是二者的核心差異所在。

　　總體來看，未來是人工智能大發(fā)展、大有可為的時代。當(dāng)前信息智能領(lǐng)域的人工智能模型已完成核心研發(fā)，以豆包、ChatGPT等代表性產(chǎn)品已落地應(yīng)用，我們預(yù)判這一時代將于2028年左右步入成熟階段。物理智能領(lǐng)域則剛剛興起，未來10至15年，該領(lǐng)域?qū)⒂楷F(xiàn)大量新技術(shù)、新方法與新企業(yè)。從更長遠(yuǎn)來看，機(jī)器與人的深度融合將成為發(fā)展趨勢，我們將其定義為“生物智能”，量子計算、人造生命等前沿方向或?qū)⒃诖穗A段實現(xiàn)突破，這一發(fā)展進(jìn)程預(yù)計需要15至20年甚至更久的時間。

　　各位同事，我的匯報到此結(jié)束，謝謝大家！

【獨家稿件及免責(zé)聲明】本網(wǎng)注明轉(zhuǎn)載文章中的信息僅供用戶參考。凡注明來源“運輸人網(wǎng)”的作品，未經(jīng)本網(wǎng)授權(quán)均不得轉(zhuǎn)載、摘編或使用。聯(lián)系郵件：master@yunshuren.com

點擊關(guān)鍵字閱讀相關(guān)文章：文章來源：網(wǎng)絡(luò)

新能源商用車智能駕駛 2026智能電動汽車發(fā)展高層論壇

閱讀