隨著機器人技術(shù)的不斷成熟,在人們?nèi)粘I畹亩鄠€場景中都可以窺見機器人的身影,在承擔更多、更重要角色的同時,機器人需要具備的技能和智能要求也越來越高,人們希望它能夠像人類一樣完成更為靈巧的操作。在2019世界機器人大會上,清華大學教授、清華大學人工智能研究院智能機器人研究中心主任孫富春,結(jié)合工作經(jīng)驗,從專業(yè)角度分析了機器人靈巧操作過程中所需要的主動感知與技能學習。
相關(guān)期刊:《機器人》
馬克思曾經(jīng)說過,勞動創(chuàng)造了人。勞動最主要的成本就是我們勤勞的雙手,所以手的操作是智能的直接體現(xiàn),也是能力進化的一個主要驅(qū)動力。
一個兒童從出生開始發(fā)育,隨著生理和心理的成熟,很快就可以靈巧地搭積木,這樣的能力讓我們嘆為觀止。但要讓一個機器人像人類一樣,哪怕是像兒童那樣靈巧地搭積木卻是一個具有挑戰(zhàn)性的問題。
可以進行靈巧操作的機器人
機器人的裝配和打磨需要靈巧操作。我們特別希望廚房機器人能把我們所有的家務都承擔了,同時我們也希望機器人能夠進入藝術(shù)領域,進行藝術(shù)表演。比如我們最近在進行機器人彈鋼琴的研究,清華大學美術(shù)學院進行的機器人表演,以及豐田研發(fā)的機器人彈鋼琴、拉小提琴等。然而目前大部分機器人產(chǎn)品都沒有實現(xiàn)這種操作技能,主要是進行外觀和手勢的展示,即便它們能夠進行一些操作也是非常簡單的操作。
要讓機器人完成靈巧的操作需要完成感知、目標特性識別等技能的表達和學習,這是一個非常繁瑣的工作。現(xiàn)在世界機器人大會上有多個關(guān)于機器人靈巧操作的比賽,由此可見,機器人操作離不開像人一樣的雙手發(fā)展。
人工智能經(jīng)過了漫長的發(fā)展過程,20世紀60年代到80年代受到關(guān)注,80年代到90年代蓬勃發(fā)展,后來經(jīng)過一段時間的低谷,如今人工智能開始興起,面向人工智能的智能操作已經(jīng)成為現(xiàn)在機器人發(fā)展當中非常重要的部分。
清華大學智能機器人研究中心研發(fā)的帶有指間傳感器、掌面?zhèn)鞲衅骱凸?jié)間傳感器的多模態(tài)感知靈巧手,可以感知多個模態(tài)信息,包括對目標特性的識別、操作技能的學習等,是一個非常典型的融合系統(tǒng)。其實,對于鋼琴家來說,每天都在彈鋼琴,經(jīng)常會談到琴鍵手感特別好,我們?nèi)绾潍@得手感?首先要有皮膚感知這個觸覺,并且在大腦當中形成感覺,這樣才能形成觸感。那么機器人該怎么形成觸感呢?我們要研究機器人的傳感器,包括觸覺傳感器。
基于視覺的傳感是目前的主流方向。清華大學智能機器人研究中心研發(fā)的指間傳感器用到了彈性體表面的浮作材料,這個材料非常重要,上面有很多標志點,下面就是攝像機,攝像機會把標志點的移動記錄下來,根據(jù)標志點的移動,通過人工智能的算法就可以得到表面的顏色、紋理、增壓力、溫度等非常豐富的信息。
清華大學智能機器人研究中心研發(fā)的兩款觸覺傳感器,可以接觸物體表面的紋理信息。我們設計了43種布料,用它們進行實驗可以展示出觸覺紋理信息和視覺信息,它們之間是完全不一樣的,觸覺紋理信息更多的是展示深度信息和結(jié)構(gòu)信息。
前面講到標志點的移動,那么如何通過人工智能的方法將其處理成三維的計算?目前我們主要從六個指標來進行比較,綜合指標應該處于前列,然后用各種樣品進行檢測。比如勺子、不同溫度的鹽水、不同鹽水的水杯,以及各種豆類、不同紋理的布料和毛巾等。怎么挑選需要的豆類?比如要挑綠豆,這就會是兩種實驗,一種是僅僅用到溫度,一種是用到紋理,二者都用的情況下識別的成功率遠遠高于單一模態(tài)的信息。
如今,這種多模態(tài)感知靈巧手在各種操作當中進行應用。基于此,我們研發(fā)了一個人工假肢,可以感知到12種行為,并且參加了2018年世界制造業(yè)大會,中央電視臺也對我們的研發(fā)成果進行了報道。
再來看多模態(tài)的感知,我們一直在想機器人能不能像人一樣做到對環(huán)境的感知和理解?比如有兩張圖,一張上面是花,另一張上面是老虎,我們可以輕松辨認,但機器可以這樣做嗎?機器根本不認識什么是花?什么是老虎?只知道花的底層特征是什么,老虎的底層特征是什么。我們需要學習從底層特征和語義關(guān)聯(lián),但是這難以辨別這是畫里的老虎還是真實的老虎,老虎未來的行為是什么,我們更無從談起,所以必須通過認知辦法解決這樣的問題。
面向靈巧操作的主動感知
想必大家都聽過烏鴉喝水的故事,烏鴉是最聰明的,當烏鴉發(fā)現(xiàn)一個盛有水的瓶子時,用眼睛一看發(fā)現(xiàn)這個高度是嘴難以達到的,所以把石頭填進去,水位隨之上升,慢慢縮短水和嘴之間的距離,然后重復這樣的操作,不斷地試探,直到水位上升到足夠的高度,成功喝到瓶子里面的水。那么烏鴉的感知過程是什么?就是從感知到行為,行為又幫助它感知,感知得越來越精確,最后再回到行為。實際上,這是一個閉環(huán)過程,從感知到行為,行為又來增強感知,最后到行為實現(xiàn)目的這樣一個過程。
這就引入了一個問題,機器學習和機器人學習。如今,很多人在進行機器學習相關(guān)的研究,機器學習不強調(diào)和環(huán)境的交互,所以是典型的開放學習。我們研究的是人工智能的學習過程,比如深度學習要研究可解釋性的問題,烏鴉的學習過程當中用到了感知過程,就是大腦、眼睛和行為之間形成的行為共融,通過不斷地從感知到行為,從行為到感知的閉環(huán)過程實現(xiàn)了認知的過程,這是一個非常復雜的操作過程。機器人學習就是在與環(huán)境交互過程中,從感知到行為,再從行為到感知的認知過程。
于是,我們提出了一個主動感知的概念。主動感知由三個部分組成:一部分是傳感器主動,傳感器如何最快地找到感興趣的目標?另一部分是感知模式主動,那么多的傳感器究竟是如何做到傳感器的模態(tài)選擇,包括行為的選擇?最后一部分是機器人能不能像上文提到的烏鴉一樣,通過不斷的實踐變得越來越精明?我們把它叫做發(fā)育。
“主動控制”,進行自動化研究的人也常常會用這個詞,就是目標最開始是在坐標系當中,通過非線性濾波使得它總是在視場中心,但是當它不在你的視場當中你怎么找到它呢?如果偽裝了、遮擋了、變形了,你還能找到它嗎?我們可以通過場景運動的辦法,通過對抗式學習實現(xiàn)這樣的認識過程。
我們有一個優(yōu)點叫做選擇注意機制,人的視覺系統(tǒng)就有這種注意機制,比如,人們會對大的物體、近的物體,以及色彩對比度比較大的物體感興趣,那么如何把人類視覺的認知過程和檢測相結(jié)合?我們開始把金字塔模型具有的認知過程與卷積網(wǎng)絡相結(jié)合,實現(xiàn)多尺度不同大小的檢測,以提高它的檢測率。
我們該如何提高視覺系統(tǒng)對物體的檢測率?比如對于無人車來說,從某個角度來看物體檢測率比較低,通過深度強化學習找到一個合適的位置,這個位置上的檢測率顯著提高了,這就是從感知到行為的交互過程。其實對于機器人來講,操作過程的手感編碼非常重要,現(xiàn)在雖然有很多編碼,但是編碼過程還跟什么有關(guān)系?跟手的構(gòu)型有關(guān),構(gòu)型也是影響編碼的一個非常重要的因素。
我們團隊研究了這樣幾項工作,通過先進動態(tài)系統(tǒng)的方式實現(xiàn)對觸覺的建模過程,什么東西是具有不變性的?只有不變的東西才能變,先進動態(tài)系統(tǒng)當中觀測數(shù)據(jù)具有不變性,這種觀測數(shù)據(jù)很難進行編碼。因此,我們提出一種辦法,通過核函數(shù)的辦法進行進一步的研究。
前文提到,編碼不只是和接觸面有關(guān),還和手的構(gòu)型有關(guān),那么該如何考慮構(gòu)型的結(jié)構(gòu)信息?對此,我們提出了聯(lián)合編碼的方法。
機器人身上裝載了很多的傳感器,那么我們能不能做到面向任何場景,對于有些傳感器不用的時候?qū)⑵潢P(guān)掉,需要用的時候再打開?尤其是在航天領域中,包括現(xiàn)在我國發(fā)射的承擔月球表面巡視探測任務的嫦娥四號月球車,特別需要這種技術(shù),能不能根據(jù)場景和任務選擇不同的傳感器?此外,我們還看到不同的傳感器,比如視覺傳感器跟視角有關(guān),哪個角度好?觸覺和動作行為有關(guān)系,雷達和掃描方式有關(guān)系,能不能一下就確定最好的模態(tài)內(nèi)行為?這是擺在我們面前非常重要的問題,如何來做這件事情?我們可以通過強化學習將它們結(jié)合在一起。
現(xiàn)在,還有一個更重要的問題,視覺和觸覺如何進行融合?對于視覺和觸覺的重要性,也許大家不是很清楚,我們可以通過兩個例子進行說明。比如桌子上有兩個礦泉水瓶,其中一個是空的,另一個里面裝滿了水,按照視覺表現(xiàn)來看它們非常接近,但是觸覺是完全不一樣的,通過觸覺的顯著性很容易對它們進行判別。同樣,對于兩個用相同材料做的玩具,從視覺上看完全不同,但它們的觸覺卻是相當接近的,我們通過視覺的顯著性很容易判別它們。那么就存在這樣一個問題:我們?nèi)绾卫靡曈X和觸覺的顯著性實現(xiàn)對目標的識別,包括對物體材料特性的識別?對此,我們團隊也提出了讓視覺和觸覺能夠很好地進行融合的辦法。
我們還要研究視覺的發(fā)育機理。機器人經(jīng)常用到視覺、聽覺和觸覺這些關(guān)聯(lián)部分,如何做到這些關(guān)聯(lián)部分的聯(lián)合學習?比如我們特別強調(diào)感知是為動作服務的,動作又會對感知產(chǎn)生作用,聯(lián)合學習的過程是不是也需要發(fā)育和學習?這是未來機器人學習當中非常重要的部分。
面向靈巧操作的技能學習
對于當前機器人的發(fā)展,大家都希望如今的機器人能夠像人類一樣,哪怕像兒童一樣能夠從事非常靈巧操作的工作。那么現(xiàn)在的機器人能夠做到怎樣的程度呢?上文提到,我們用到了人的眼睛、手和大腦這種高度的協(xié)同,實現(xiàn)這樣的機器人學習。目前,技能學習主要用到了兩類方法,一種方法就是機器學習,比如大家經(jīng)常看到的,給機器人放一段視頻,視頻內(nèi)容展示機器人該如何去搭積木,機器人是怎么理解視頻內(nèi)容的呢?因為視頻中給我們的信息主要有兩個部分,一部分是視覺信息,另一部分是接觸力信息,我們要把這個視頻通過機器學習進行分段,清楚某個動作過程究竟包含哪幾個動作,然后再和力的動作進行配對。我們可以通過深度學習進行學習,就是學習這個聯(lián)合動作的序列。
由此我們可以看出,機器學習依賴于效用函數(shù),較少依賴于人的參與。比如通過某個特征自動學習而不依賴于模型,但是缺少可解釋性,具有很強的普適性。學過控制理論的人都知道,閉環(huán)控制就可以做技能學習,只要把理想的學習過程變成期望的行為,深入到閉環(huán)系統(tǒng),然后通過閉環(huán)控制使得控制系統(tǒng)的輸出跟蹤期望的行為,這也是學習控制理論時經(jīng)常用到的技能學習辦法。我們必須知道整個操作過程系統(tǒng)模型是什么,而且還要調(diào)整參數(shù),如果發(fā)現(xiàn)學得不太好,就要對這個參數(shù)進行調(diào)整,比較好的地方是具有比較強的可解釋性。由此我們可以看到,機器學習和今天談到的控制系統(tǒng)學習具有很強的互補性,這種互補性的結(jié)合就是強化學習。
如今,很多人在研究強化學習,主要通過機器人和環(huán)境的交互過程形成獎懲信號,做得好就獎勵,做得不好就懲罰,通過獎懲信號指導學習。為什么我們要研究模仿學習和偏好學習?因為強化學習在很多情況下難以應用。比如我們要研究汽車在行駛過程中如何避障,飛機在空中飛行時如何戰(zhàn)斗,對于這些情況,我們不好進行環(huán)境實驗,所以要研究模仿學習和偏好學習。那么另一個問題又出現(xiàn)了,剛才講到的獎懲和獎勵機制難以和技能貫穿起來,所以有人認為我們能不能利用對這些技能操作很好的人,比如在乒乓球比賽中取得好成績的人,對他們的行為進行學習不是更好嗎?所以模仿學習已經(jīng)可以引入強化學習當中。有些人某些工作做得特別好,如何把這個技能學會?這是未來技能學習非常重要的研究工作。
我們團隊圍繞著剛才談到的傳感器、人機交互進行人的意圖理解研究,通過技能學習演示驗證這個工作。我們做的第一項工作就是研究能不能讓機器人彈鋼琴,利用人的手指進行示教,通過訓練集找到對應的動作。我們把這個工作引伸到倒水的技能學習,對此還研制了數(shù)據(jù)手套,里面有36個關(guān)鍵傳感器,能夠檢測人在操作過程當中所有關(guān)節(jié)的角度和壓力信息,通過它來構(gòu)造數(shù)據(jù)集進行技能的學習。
基于主動模仿的學習是目前技能學習非常重要的過程,就是把好的學習行為學習下來。這引出了一個很重要的問題,就是傳統(tǒng)的示教特別依賴于示教者的動作行為,學習者的學習是非常繁瑣也是非常被動的,我們該如何克服這種難題?為了簡化這一過程,我們做了一項工作,就是對于示教者和模仿者來說,如果行為的概率特性一致的話,這個學習就是成功的,如果不一致,這個學習就是失敗的。那么如何利用這個差別指導學習?這是數(shù)學上的一個問題。最近我們進行了相關(guān)的研究,認為可以把概率差別歸結(jié)為動力學的測度差別,通過這種優(yōu)化就能夠做到基于主動模仿的學習。
機器人在裝配過程中擰螺絲是非常重要的環(huán)節(jié),我們可以說學得好與不好影響不是很大,但是擰螺絲這個行為是非常重要的,能不能把這種學習的機制做好至關(guān)重要。通過這種機制,首先讓機器人進行學習,然后讓機器人操作各種各樣的行為,緊接著讓操作比較好的老師判別一下機器人哪里學得比較好,哪里還存在一些問題,操作機制還有哪些問題沒有教給機器人,再通過機械學習和人的示教對比學習彌補這個差別,從而讓擰螺絲的過程成為學習能力的過程。
我們曾做過這樣一項研究工作,四足機器人往往是漫無目的地移動,公安部希望它能夠沿著某種氣味尋找東西,按照這個方向進行相關(guān)的學習。為此我們建立了一個產(chǎn)生庫,通過專家自動產(chǎn)生這個庫,并且通過差別產(chǎn)生的軌跡做了一個軟件系統(tǒng),并設計了各種場景來展示這種能力,獲得了很好的性能表現(xiàn)。
展望未來
現(xiàn)在很多人在研究云端智能,其實云端智能在未來的技能學習中非常重要。技能學習需要通過各種傳感器獲得信息,包括視覺、聽覺、觸覺、穿戴設備等,也可以通過云端和網(wǎng)上信息找到各種類似的操作行為。這些數(shù)據(jù)應該怎么處理?如何把這些多模態(tài)的信息分解在一個又一個動作中,并且形成多模態(tài)的配對?這就涉及到技能的分割和解析的過程,通過這樣兩個過程我們就可以進行操作技能的表達,這種知識表達是分層的,然后在這種基礎上做到技能的學習和技能的增強,就可以做各種各樣的事情了。我們國家3C行業(yè)當中一個最大的問題就是非標準件的安裝和插件的操作,因為標準件有大有小、各種各樣,寬的線,窄的線,機器人有沒有這種能力進行這樣的操作,知道寬的線可以插,短的線也可以插,這就需要技能遷移和增強學習。
大家都知道,我們國家3C行業(yè)目前的產(chǎn)值是15萬億元,而我們國家的GDP是90萬億元,很多標準件裝配都可以用機械完成的,但是非標準件和插件現(xiàn)在往往是通過人工去做的。如果我們把這部分用機器人代替,可以把工作效率提高200%以上。做人工智能一定要做有用的人工智能,機器人一定要落地,我們特別希望這項技術(shù)能夠改變我們國家3C行業(yè)制造的現(xiàn)狀,造福我們國家的智能制造發(fā)展。
論文指導 >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >