理想汽車近期在其“理想AI Talk第二季”活動中,隆重推出了名為“理想VLA司機大模型”的創新技術,這一舉措由理想汽車董事長兼CEO李想親自揭曉,他同時分享了關于人工智能的深度見解、VLA司機大模型的具體作用、其獨特的訓練方法以及所面臨的挑戰,還談到了創業和個人成長的感悟。
李想將AI工具的發展劃分為三個層次:信息工具、輔助工具和生產工具。他指出,當前大多數人使用AI的方式還停留在信息工具層面,這類工具往往伴隨著大量無效的信息和結論,僅作為參考使用。當AI進化為輔助工具時,如當前的輔助駕駛系統,能夠顯著提升效率,但仍需人類的介入。
李想強調,AI真正的突破點在于成為生產工具,這是衡量AI是否真正智能的關鍵。他比喻說,就像人類會雇傭司機一樣,AI技術也終將承擔類似的職責,成為真正的生產工具。只有當AI在生產領域獨立承擔專業任務,并能顯著提升效率與質量時,才算迎來了真正的爆發。
在自動駕駛領域,李想認為當前的L2、L2+級別的組合駕駛輔助仍然屬于輔助工具階段。而理想汽車所研發的VLA(視覺語言行動模型)則致力于將AI推向生產工具的新高度,讓AI成為交通領域的專業生產工具,如同一位真正的司機。
VLA的實現是一個逐步進化的過程,經歷了三個關鍵階段。從2021年開始,理想汽車自研依賴規則算法和高精地圖的輔助駕駛,這可以比作“昆蟲動物智能”。隨后,從2023年起,理想汽車開始研究并在2024年正式推出了端到端+VLM(視覺語言模型)輔助駕駛,這標志著向“哺乳動物智能”的邁進。然而,端到端模型在處理復雜問題和與人類溝通方面存在局限。
為了解決這些問題,理想汽車自2024年起開始研究VLA,并在多項頂級學術會議上發表論文,奠定了堅實的理論基礎。VLA在端到端的基礎上,開啟了“人類智能”的階段。它能夠通過3D和2D視覺的組合,完整地感知物理世界,并擁有完整的腦系統,具備語言、CoT(思維鏈)推理能力,既能看,也能理解并真正執行行動,這符合人類的運作方式。
李想還詳細分享了VLA的訓練細節和運作原理。VLA的訓練過程分為預訓練、后訓練和強化訓練三個環節,這與人類學習駕駛技能的過程頗為相似。預訓練相當于人類學習物理世界和交通領域的常識,通過大量高清視覺數據和語言語料,訓練出云端的VL基座模型。后訓練則如同人類去駕校學習開車,隨著動作數據的加入,VL基座變為VLA司機大模型。強化訓練則類似于人類在社會中實際開車練習,目標是讓VLA司機大模型更加安全、舒適,并符合人類的價值觀。
VLA司機大模型以“司機Agent”的形式呈現,用戶可以通過自然語言與司機Agent進行溝通,就像與人類司機交流一樣。簡單通用的短指令由車端的VLA直接處理,而復雜指令則先由云端的VL基座模型解析,再交由VLA處理。
李想自豪地表示,理想汽車在人工智能領域走的是一條無人區之路。在研發VLA的過程中,他們沒有追隨Deepseek、OpenAI、谷歌、Waymo等科技巨頭的腳步,而是選擇了自己的道路。理想汽車以前在汽車領域走的是無人區,現在,他們在人工智能領域也同樣在開拓新的道路。