2月18日,蘋果造車項(xiàng)目擱淺1年后,在自動(dòng)駕駛領(lǐng)域取得了一項(xiàng)重大突破,蘋果公司最新研究將自博弈(Self-play)技術(shù)引入自動(dòng)駕駛系統(tǒng),實(shí)現(xiàn)了前所未有的魯棒性和性能表現(xiàn),該成果優(yōu)勢(shì)顯著,尤其是在訓(xùn)練成本方面。蘋果的自博弈技術(shù)為自動(dòng)駕駛行業(yè)帶來了新的技術(shù)思路。
自博弈技術(shù)的核心是通過讓智能體在與自我的副本或歷史版本進(jìn)行博弈,從而實(shí)現(xiàn)算法的自我進(jìn)化和優(yōu)化。此前,這一技術(shù)已在游戲、機(jī)器人和生物工程等領(lǐng)域取得了顯著成效,而蘋果此次將其成功應(yīng)用于自動(dòng)駕駛領(lǐng)域,為自動(dòng)駕駛技術(shù)的發(fā)展開辟了新的道路。
蘋果利用自博弈技術(shù),在短短10天內(nèi)生成了16億公里的模擬數(shù)據(jù),用于訓(xùn)練自動(dòng)駕駛算法。這一過程中,蘋果設(shè)計(jì)了極簡(jiǎn)的獎(jiǎng)勵(lì)函數(shù),通過大規(guī)模數(shù)據(jù)模擬彌補(bǔ)獎(jiǎng)勵(lì)函數(shù)簡(jiǎn)單的不足,實(shí)現(xiàn)了算法的高效進(jìn)化。
該成果優(yōu)勢(shì)顯著,尤其的在訓(xùn)練成本方面。依靠公共云 8 張 A100,每小時(shí)模擬和學(xué)習(xí) 44 億次狀態(tài)轉(zhuǎn)移,速度比用真實(shí)數(shù)據(jù)快 36 萬倍,每百萬公里費(fèi)用不到 5 美元。在多個(gè)開放數(shù)據(jù)集零樣本獨(dú)立測(cè)試中均獲 SOTA 表現(xiàn),證明了其泛化性和魯棒性。