国产成人精品午夜福利A探花_国产成人自拍无码在线观看_在线无码bt超清国产_国产菊爆视频在线观看_亚洲乱伦剧情双飞手机免费

刮目相看網(wǎng)

在 12 月 13 日舉行的第八屆 GAIR 全球人工智能與機(jī)器人大會 " 數(shù)據(jù) & 一腦多形 " 分論壇上,一場有關(guān) " 一腦多形 " 的圓桌論壇,將整個會場氣氛推向高潮,在英諾天使基金 ED 王建

「一腦多形」圓桌:世界模型、空間智能在具身智能出現(xiàn)了哪些具體進(jìn)展?

在 12 月 13 日舉行的腦多能具能出第八屆 GAIR 全球人工智能與機(jī)器人大會 " 數(shù)據(jù) & 一腦多形 " 分論壇上,一場有關(guān) " 一腦多形 " 的形圓型空現(xiàn)具圓桌論壇,將整個會場氣氛推向高潮,桌世展在英諾天使基金 ED 王建明的界模間智主持下,浙江大學(xué)控制學(xué)院副教授,身智微分智飛創(chuàng)始人高飛,體進(jìn)寧波東方理工大學(xué)助理教授金鑫,腦多能具能出上海人工智能實(shí)驗(yàn)室青年科學(xué)家王靖博三位嘉賓圍繞著具身智能、形圓型空現(xiàn)具空間智能、桌世展世界模型等話題進(jìn)行了熱烈討論。界模間智

通過主持人特有的身智投資人式、抽絲剝繭的體進(jìn)提問,圍繞著幾位學(xué)者的腦多能具能出研究和創(chuàng)業(yè)方向,我們可以了解到當(dāng)下最火熱的形圓型空現(xiàn)具世界模型、空間智能在具身智能領(lǐng)域的桌世展研究進(jìn)展和細(xì)節(jié),從而得以穿透資本籠罩在世界模型、空間智能的迷霧,看到具身智能當(dāng)下遇到的挑戰(zhàn)與機(jī)遇。

具身智能技術(shù)路線仍未收斂

王建明:三位學(xué)者研究的方向都非常不一樣,開場先問一個共性的問題熱熱場,大家怎么看過去兩年具身智能的發(fā)展?

高飛:現(xiàn)在還沒到技術(shù)路線收斂的時候,還屬于探索階段,這是好事,有發(fā)散才有機(jī)會。這波具身智能的熱潮,大家本質(zhì)期待的還是 AI 結(jié)合本體能帶來的智能性的飛躍。我認(rèn)為從發(fā)散探索到技術(shù)路線收斂、到最后落地階段,大家還是要記住自己做具身智能的初心是什么。如果不是為了通用泛化智能,最后這個領(lǐng)域又收斂回工業(yè)自動化了,可能就沒有太大的意義了。

金鑫:我也非常同意高老師的看法,我感覺這兩年留給高校的機(jī)會相對產(chǎn)業(yè)界來講比較少,希望未來更多把具身智能的核心問題交給高校去突破,比如交互、人機(jī)協(xié)同、多智能體、世界模型等等抽象出的關(guān)鍵問題,產(chǎn)業(yè)去做更落地的事情。希望未來兩年能看到高校跟企業(yè)更好地合作、平衡。

王靖博:相比較在純數(shù)字世界中做一些例如 scaling up 的事情,我更關(guān)注具身智能軟硬件的 code design,比如人形機(jī)器人十年前的波士頓動力 Atlas 就展示出了很好的運(yùn)動能力,但它并沒有從實(shí)驗(yàn)室的產(chǎn)品進(jìn)入產(chǎn)業(yè)界,當(dāng)有了較好的軟硬件的 code design,可能會加快整個領(lǐng)域的進(jìn)程。

王建明:高飛老師的演講剛剛展示了特別多的能力,例如單個機(jī)器人的自主路徑的規(guī)劃決策、集群、飛行操作,demo 演示都非常驚艷,這些能力背后是如何做到的?跟您過往研究是否有協(xié)同?

高飛:很難有一句話來說明白怎么做到的,不同的 demo 肯定有不同的技術(shù)路線,我之所以比較擅長做一些比較 fancy 的 demo,可能是因?yàn)槲冶容^擅長在保持著一定發(fā)散思維的情況下,還有比較好的執(zhí)行力,最后能把想法落實(shí)。在具體技術(shù)路線里,我的優(yōu)勢可能是:在無人機(jī)領(lǐng)域,我可能是比較懂 AI 的;在 AI 領(lǐng)域,我可能是比較懂無人機(jī)的。

單體機(jī)器人的研究思路是通過放大其極限情況下的小腦能力,現(xiàn)在比較合適收斂的技術(shù)路線越來越往端到端的方向傾斜。通過端到端可以降低整個系統(tǒng)的 compound error(復(fù)合誤差)和降低延遲。具體用什么解法,就要 case by case,做 robotics 的好處就是這是很尊重客觀事實(shí)、面向?qū)ο蟮囊粋€學(xué)科,什么好用我們用什么。

決策這塊,現(xiàn)在業(yè)界的共識可能要通過放大 VLM 的能力,而對于群體機(jī)器人而言,打造一種柔性的、彈性的、分布式的、靈活的群體架構(gòu)才是一切的基礎(chǔ)。

王建明:我比較好奇無人機(jī)的端到端是什么端到端?我的簡單粗化理解大家說的端到端是一個黑箱操作,是 data driven 的事情。

高飛:我認(rèn)為端到端和 data driven 是兩個概念,舉個例子,無人機(jī)的端到端是圖像輸入,電機(jī)控制,那是不是一定要用到機(jī)器學(xué)習(xí)、黑箱、RL,其實(shí)不一定。20 年前大家研究無人機(jī),就可能會在地上貼一個小球,無人機(jī)的攝像頭看到這個小球,通過把小球的像素點(diǎn)控制在像平面中間,讓無人機(jī)可以保持懸停。這是不是端到端?是,因?yàn)樗?PID 把一端輸入的信息——圖像空間中的點(diǎn)誤差,映射到另一端輸出的控制指令。

端到端是一種范式,強(qiáng)化學(xué)習(xí)是一種解法,黑箱是一種模式,三者是不一樣的概念,不應(yīng)該被直接畫上等號。

王建明:所以高老師的端到端也用到各種解法?

高飛:各種各樣的解法,以解決問題為唯一目標(biāo)。

王建明:也有涉及到強(qiáng)化學(xué)習(xí)?

高飛:現(xiàn)在用大量的強(qiáng)化學(xué)習(xí)。

王建明:無人機(jī)的高速穿越我印象里有強(qiáng)調(diào)強(qiáng)化學(xué)習(xí),高老師的工作中還是有一些 rule base 的東西存在?

高飛:我們不叫 rule base,我們叫 model base 或者叫 principle base,我們很少去寫規(guī)則。大家經(jīng)常會批判 rule base,但是如果只寫了一個規(guī)則要怎么解釋你的算法可以在不同的地方避障。所以它一定不是一套規(guī)則,而是一種系統(tǒng)化的模式。

世界模型解決了自動駕駛的哪些問題?

王建明:金老師剛分享了很多世界模型在自動駕駛領(lǐng)域的突破,金老師的研究方向主要是世界模型空間智能。最近一段時間世界模型的概念很火,那么自動駕駛的具體什么問題用世界模型來解決了?

金鑫:現(xiàn)在第一梯隊像特斯拉的方案基本都在用世界模型,之前他們收集到的數(shù)據(jù)已經(jīng)把數(shù)據(jù)飛輪轉(zhuǎn)起來了,這么多數(shù)據(jù)上已經(jīng)積累了大量的 corner case,那么他們下一步可能就要通過世界模型模擬的方式再去生成更多海量數(shù)據(jù),例如覆蓋掉之前在國內(nèi)采集的數(shù)據(jù)以及之前布局不到的地方。

再一個,跟原來通過離線數(shù)據(jù)訓(xùn)練相比,通過世界模型方式可以做閉環(huán)測試。閉環(huán)測試是指上線一個模型后,在世界模型里面跑,跑完后能輸出 action 得到未來的狀態(tài),再根據(jù)未來的狀態(tài)測試下一步該怎么做,就能把整個 decision making 鏈路放到 world model 里面去做閉環(huán)的測試跟優(yōu)化。這是跟原來技術(shù)方案最大的不同。

現(xiàn)在世界模型在自動駕駛領(lǐng)域?yàn)槭裁催@么火,主要還是因?yàn)樽詣玉{駛的場景生成還是比較簡單,不像機(jī)器人。而自動駕駛領(lǐng)域很早就有世界模型的概念,只是叫法不一樣叫閉環(huán)仿真器,用來做自動駕駛安全測試。是生成式 AI 能力的提升才使得現(xiàn)在世界模型生成的數(shù)據(jù)已經(jīng)到了真假難辨的地步,為此提供大量非常有價值的訓(xùn)練樣本。

王建明:視頻生成是一種世界模型,如果帶上機(jī)器人的 3D 空間,再加上很多動作維度,這個狀態(tài)表征可以是多種多樣的,那么在自動駕駛領(lǐng)域的表征是什么?是一個共識嗎?

金鑫:機(jī)器人領(lǐng)域世界模型路線究竟對不對還存在爭議。對于世界模型的定義大家也有不同的看法,例如李飛飛跟 LeCun 就存在差異。李飛飛更偏重于 "pixel-wise"(像素級)重建,LeCun 認(rèn)為不需要重建成人人可見可視的 video,直接 " latent-based" 表達(dá)出來對應(yīng)的機(jī)器人的 latent state 就可以了,它也是一種世界模型,只要能夠給定前序的 action,能夠預(yù)測出后續(xù)的 action,或者 state 狀態(tài)應(yīng)該怎么變化,本體下個階段會出現(xiàn)什么情況,只要能把這個階段抽象地表達(dá)出來,都算世界模型。

所以目前世界模型的定義還沒有定式,我認(rèn)為在自動駕駛跟機(jī)器人兩個任務(wù)之間,對于世界模型的要求跟技術(shù)范式也都有區(qū)別。最初世界模型那篇 paper 提出的概念也很抽象,只要有能預(yù)測未來的能力并且有記憶,都可以被稱為世界模型。

王建明:我觀察到創(chuàng)業(yè)公司層面,現(xiàn)在做世界模型創(chuàng)業(yè)的很多公司創(chuàng)始人都有自動駕駛背景,我想了解下自動駕駛的狀態(tài)表征到底是個什么?

金鑫:可能主流的還是視頻生成。因?yàn)闋砍兜桨踩詥栴},如果連視頻模態(tài) RGB 的 video 都給不出來,如何相信生出來的數(shù)據(jù)是有效的?自動駕駛主要還是視頻的 ADAS,同時雷達(dá)、點(diǎn)云這些傳統(tǒng)的數(shù)據(jù)也要有,所以這是我為什么要做 UniScene,因?yàn)樯傻哪B(tài)越多,信息量越大,我認(rèn)為 multi model 的前景可能更好。

每家主機(jī)廠都在做自己的方案,因?yàn)閷Π踩缘囊笠约暗缆穲鼍暗膹?fù)雜度不同,偏重也都不一樣,例如特斯拉就是純視覺方案,華為有激光雷達(dá)輔助。

王建明:世界模型解決具身智能相關(guān)問題,會不會距離太遠(yuǎn)?

金鑫:前兩天 LeCun 公布了多模態(tài) V-JEPA,他一直宣稱自己的 latent space 就是世界模型的方案之一。如果要把世界模型打造出來,offline 先做好,再去驅(qū)動具身,這個目前似乎沒有比較明確走通的技術(shù)方案,但像 LeCun V-JEPA 直接通過 representation learning 方式先學(xué)到對應(yīng)的預(yù)測能力,再去追問輔助,其實(shí)已經(jīng)有不少工作,比如 VLA。

但是要說它走通了嗎,把世界模型跟具身結(jié)合起來的方案已經(jīng)有人在售賣了,但要說真正達(dá)到剛高老師說的那種通用智能似乎又沒有,還需要時間驗(yàn)證。

王建明:現(xiàn)在一種說法是把世界模型跟 VLA 對立起來,你剛提到其實(shí)這兩種可以結(jié)合。

金鑫:我們昨天上線了一篇研究《Integrating World Models into Vision Language Action and Navigation: A Comprehensive Survey》就是將兩者結(jié)合起來。如何做我們梳理了兩種方式,一種是先創(chuàng)建世界模型,再做 policy learning,要么同時做,不分先后。

王建明:兩者結(jié)合解決的是不同層次的問題?

金鑫:解決的還是老問題,即原本 offline 數(shù)據(jù)集沒辦法通過 imitation learning 模仿學(xué)習(xí)擁有長程思維和未來預(yù)測的能力。

高飛:相當(dāng)于 MPC 中的 P ( 預(yù)測 ) 。很多人認(rèn)為 MPC 中的模型就是機(jī)器人,可以把其他所有狀態(tài)都放到 model 里,也會往前預(yù)測。

王建明:我可以理解 MPC 可能是用一個方程來 predict,而世界模型其實(shí)是用一個生成式方法來 predict?

高飛:我認(rèn)為 MPC 里面的 M 怎么來,其實(shí)是工程師跟科學(xué)家去做了抽象,而世界模型這種數(shù)據(jù)驅(qū)動就是用 AI 自己去探索。本質(zhì)上如果我們用更多 AI,以后就可以不需要那么多科學(xué)家去抽象了。

王建明:那 predict 的下一個狀態(tài)是什么樣的?

金鑫:比如說一個長程任務(wù),我要想象出來后面怎么做,就相當(dāng)于把它抽象成一個一個 long horizon 問題,現(xiàn)在最難解決的就是長程任務(wù),有了世界模型之后,長程任務(wù)的理解、預(yù)測能力就能很好地賦予后續(xù)的 different policy 去學(xué)習(xí)。

什么是無人機(jī)的空間智能?

王建明:王博士您主要做全身控制(Whole-Body Control, WBC),把視覺引入到 Whole-Body Control,在這個方向,您覺得大概到什么時間點(diǎn)可能會實(shí)現(xiàn)一個看上去還不錯的通用控制器。

王靖博:如果說在仿真器里不做一些力矩的限制,要實(shí)現(xiàn)一個還不錯的控制器不難,但會有精度的平衡,可能不太會像真的機(jī)械臂一樣指哪打哪。

如果在真實(shí)世界里,要實(shí)現(xiàn)這件事一方面是算法的問題,一方面也看硬件,在上海 AI LAB 有非常多不同型號的人形機(jī)器人,相同的算法跑出來很多不同的結(jié)論,我覺得硬件能力的上限決定了什么時候能取得不錯的成績。

王建明:高老師您剛給我們展示了多機(jī)的集群,包括多無人機(jī)的協(xié)同,這是否有點(diǎn)像集群學(xué)習(xí)?

高飛:集群學(xué)習(xí)具體的定義我不太熟,但是我們會采用集中學(xué)習(xí)、分布計算的模式,學(xué)習(xí)、訓(xùn)練的時候在一起,work 的時候各做各的,但是大家都有一個共同的目標(biāo)。

王建明:三位嘉賓共同探討的另一個共同點(diǎn)可能還有空間智能,包括無人機(jī)的空間感知、VLR(Vision-Language Reconstruction

訪客,請您發(fā)表評論:

網(wǎng)站分類
熱門文章
友情鏈接

© 2026. sitemap