摘 要:圖像指代分割作為計算機視覺與自然語言處理交叉領域的熱點問題,其目的是根據自然語言描述在圖像中分割出相應的目標區域。隨著相關深度學習技術的成熟和大規模數據集的出現,這項任務引起了研究者的廣泛關注。本文對圖像指代分割算法的發展進行了梳理和分析。首先根據多模態信息的編碼解碼方式,將現有圖像指代分割算法分成基于多模態信息融合和基于多尺度信息融合兩類進行了系統闡述,重點介紹了基于 CNNLSTM 框架的方法、結構復雜的模塊化方法和基于圖的方法;然后,對用于圖像指代分割任務的典型數據集和主流評價指標進行了總結與統計;之后,通過實驗綜合比較了現有的圖像指代分割模型之間的性能差異并進一步驗證了各種模型的優缺點。最后,對這一領域現有方法中存在的問題進行討論分析,并對未來的發展方向進行了展望,表明了針對復雜的指代描述,需要通過多步、顯式的推理步驟來解決圖像指代分割問題。
關鍵詞:指代分割;圖像語義分割;深度學習;卷積神經網絡
邱爽; 趙耀; 韋世奎 信號處理 2022-01-17
1 引言
圖像指代分割問題是計算機視覺(Computer Vision,簡稱 CV)與自然語言處理(Nature Language Processing,簡稱 NLP)交叉領域中的一個重要問題,它要求計算機能夠同時理解圖像與文本兩種模態的數據,根據文本在圖像中進行目標區域的像素級分類。近年來,圖像以其豐富的內容信息常常在信息傳遞中作為載體,發揮重要的作用。隨著具有拍照功能的智能設備的普及以及平安城市工程的啟動,每天都有大量的圖像和視頻數據產生。同時,隨著互聯網技術的發展與人們分享習慣的轉變,大量的視覺數據也在網絡上快速傳播。另一方面,以 GPU 為代表的高性能計算工具被頻繁地應用于研究與產品中,大大提升了視覺任務的處理速度。在這種背景下,計算機視覺方向取得了令人矚目的進展和突破。與圖像等視覺數據相比,文本數據具有更利于理解的特點,人們可以通過文本直觀地表達需求。因此,由于圖像豐富的信息和文本易于理解的特點,以圖像與文本數據為研究對象的多模態任務是人工智能發展中重要的研究方向。
圖像指代分割任務的目標是:給定輸入圖像和自然語言指代描述,通過對指代描述進行分析理解在圖像中分割出相應的物體或區域。與圖像描述生成[1,2]、視覺問答系統[3,4]等利用圖像文本數據的問題不同,該任務中的文本特指指代描述。指代描述關注的是被描述目標在圖像中具有的唯一屬性,能夠使該目標與其他區域區分開而不造成理解上的歧義,即當圖像中包含同一類別的多個實例時,指代描述能夠準確地概括出被指定目標或區域與其他區域具有的唯一特點,包括該區域的類別、外觀和空間位置關系等等。指代描述廣泛出現在日常生活中,比如“請把桌子上最上面的雜志遞給我”。隨著智能機器人、無人車和以語言為接口的軟件的發展,人類對于計算機能夠根據描述定位目標的需求越來越迫切。在這種需求促使下,與指代描述相關的視覺任務的得到了研究者的關注。這類視覺任務主要包含三個方面,即生成、理解和分割。生成任務與圖像描述生成類似,但是要求生成的文本描述圖像中指定的具體目標而不是針對整幅圖像。指代描述理解主要進行對被描述區域的目標級定位,即根據指代描述在圖像中定位被指定的目標位置及大小。指代分割是與理解任務相比更加細粒度的解析,不僅需要確定目標位置,還要將目標邊框細化至目標輪廓,獲得像素級的定位結果。圖像指代分割與語義分割和實例分割任務也有一定的相似性,但是它旨在分割出描述特定的區域,而不是某一類別的全部區域。圖像指代分割是一項具有挑戰性的任務,首先,指代描述的長度不固定,可以是幾個單詞,也可以是多輪對話,隨著描述長度的變化,對于文本的解析難度也會大大提升。其次,文本具有明確的語言結構和語法規則,可以通過解析獲得結構化信息。而圖像中包含較多的噪聲并且缺乏結構性信息,難以與文本共同理解并進行匹配。因此,在指代分割任務中,多模態信息的融合與匹配是關鍵的難點問題。
圖像指代分割問題的研究具有廣泛的實際價值和長遠的應用前景,是智能化生活的重要部分。在構建平安城市、智慧城市方面,圖像指代分割可以在僅通過對于嫌疑人外表或穿著的描述,在大量監控視頻中尋找目標,協助對目標的識別和跟蹤,大大節省人力資源。在智能家居方面,圖像指代分割可用于自然語言巡航系統,通過語言指令使機器人在室內不同位置完成拾取等操作。在生活娛樂方面,圖像指代目標分割可以把語言作為各種應用與智能軟件的交互接口,從而避免人工進行復雜的操作[5]。
2 現有圖像指代分割方法介紹
圖像指代分割是計算機視覺與自然語言處理交叉領域的熱點問題。由于計算機視覺和自然語言處理技術的日益成熟,和指代分割具有的重要學術研究價值和廣泛實際應用價值,該任務吸引了越來越多的關注。隨著深度學習的快速發展和廣泛應用, 尤其是一系列具有代表性的網絡模型在圖像分類、語義分割等任務上獲得的巨大成功,在圖像指代分割任務上也取得了突破性的進展。近年來涌現了大量的相關工作,本文將現有的代表性的工作進行了總結,如圖 1 所示。根據對多模態信息的編碼解碼方式,將現有的圖像指代分割工作分為多模態信息融合與多尺度信息融合兩大類。其中,根據多模態信息融合方式的不同,又將多模態信息融合分為聯合嵌入方法、模塊化方法和基于圖的方法三類。以下將對這些方法進行詳細介紹。
2.1 基于多模態信息融合的指代分割方法
對于圖像指代分割任務,最直觀的想法是將圖像和指代描述編碼到相同的向量空間中進行多模態信息的融合。對于圖像的表示,卷積神經網絡(Convolutional Neural Networks,簡稱 CNN)[6-12]可獲取豐富的圖像特征表示,并用于各種視覺任務。對于文本表示,以長短時記憶(Long Short-Term Memory,LSTM)網絡和 BERT 網絡[13,14]為代表模型已廣泛用于句子特征編碼,并在許多順序建模任務中表現出良好的性能。基于多模態信息融合的指代分割方法將兩種模態信息融合后,采用現有的語義分割網絡進行最終的分割結果預測。這類方法根據融合方式的不同,主要包括三類,即聯合嵌入方法、模塊方法和基于圖的方法。
2.1.1 聯合嵌入方法
聯合嵌入方法主要包括兩類方法:基于 CNN-LSTM 框架的方法和基于注意力機制的方法。
CNN-LSTM 框架是最傳統最直觀的融合方式,分別利用 CNN 和 LSTM 提取描述和整幅圖像的特征,之后利用全卷積分割網絡輸出最終結果,方法框架如圖 2 所示。具體來說,Hu 等人[15]提出了圖像指代分割方法(Segmentation from Natural Language Expression, 簡稱 SNLE)。該方法將圖像和文本特征與歸一化的空間坐標串聯,利用與 FCN-32S 類似的一系列卷積層與上采樣得到預測的掩膜圖,并與真實標注計算損失。雖然 SNLE 初步達到了指代分割的目的,但是其簡單的結構難以取得足夠精確的分割結果。Liu 等人指出,人類在進行目標指代的過程中,人眼會在閱讀指代描述時,在文本與圖像間來回移動后作出判斷,即兩種模態信息的交互存在于人的整個決策過程中而不是僅在句子結尾。根據這種思路,提出了循環多模態交互網絡(Recurrent Multimodal Interaction, 簡稱 RMI)[16],利用多模態 convLSTM 網絡,在對文本中每個單詞編碼時都加入圖像特征進行多模態信息融合,從而獲取更豐富的多模態特征。類似地,Margffoy-Tuay 等人[17]提出了動態多模態網絡(Dynamic Multimodal Network,簡稱 DMN),同樣將每個單詞的特征都與圖像特征進行融合,之后利用 SRU 網絡將單詞級的多模態特征進行整合后進行后續的分割。這類基于 CNN-LSTM 框架的指代分割方法雖然簡單有效,但是忽略了指代描述中復合的語言表達和圖像中的復雜結構。在采用順序的方式進行指代描述的編碼時,忽略了句子中各部分的依賴關系與不同的重要程度,導致了不重要或者不相關的單詞引入混淆信息造成的理解偏差。
注意力機制在許多視覺和語言領域[18-20]發揮了重要作用。由于注意力機制能夠在視覺信息和文本信息之間建立元素連接,從而在對文本中的每個單詞進行編碼時可以利用來自某些特定圖像區域(即感興趣區域)的信息,獲得語義更豐富的多模態信息表示。因此,注意力機制也被引入圖像指代描述理解的相關任務中,獲得了眾多成果[21]。Ye 等人[22,23]提出了跨模態自注意力網絡(Cross-Modal Self-Attention Network,簡稱 CMSA),通過自注意力方法跨模態地進行特征融合,使得網絡模型能夠同時自適應地聚焦于圖像中的重要區域和語言描述中的信息關鍵詞,有效地捕捉語言和視覺特征之間的長期依賴關系,充分捕獲全局交互信息,更好地進行對兩種模態數據的語義理解與相關區域的分割。Hu 等人[24]提出了雙向關系推理網絡(Bi-directional Cross-modal Attention Module,簡稱 BCAM)構建跨模態信息的依賴關系。該方法同時利用兩種模態信息對彼此的影響,構建了雙向的注意力關系,使用視覺引導的文本注意力學習與每個視覺區域相對應的文本上下文信息。具體來說,首先構造一個視覺引導的語言注意模塊學習每個視覺區域的上下文信息。其次,語言引導視覺注意模塊利用學習的語言上下文指導視覺特征任意兩個位置之間的空間依賴性學習。通過不同模態之間的相互學習,獲得的多模態特征能夠豐富目標區域的上下文表示,從而準確地表征包含語義上下文信息的視覺區域和指代描述,處理視覺區域和描述單詞間更復雜和非順序的依賴關系。然而基于注意力機制的方法仍然存在一些問題,由于指代分割數據集不提供相應的注意力標注信息,這類方法不能保證學習到正確的注意力分配,導致分割誤差的出現。
2.1.2 模塊化方法
模塊化網絡已成功應用于許多任務,如視覺問答[3,4]、視覺推理[25]、關系建模[26]和多任務強化學習[27]。在圖像指代分割任務中,模塊化方法不同于上述基于聯合嵌入的工作只是簡單地將所有特征串聯起來,而是考慮到描述中提供的不同信息之間的差異,分別進行理解與匹配。具體來說,模塊化方法通過將指代描述分解為幾個不同的組件,之后通過模塊化網絡將各個組件與相應的圖像區域進行匹配,實現對目標位置的推理,方法框架如圖 3 所示。
Yu 等人[28]提出了模塊化注意網絡(Modular Attention Network,簡稱 MAttNet)。MAttNet 將自然語言指代描述分解為三個模塊化組件,分別與目標外觀、位置和與其他對象的關系有關。其中,目標外觀模塊處理目標的類別、顏色等屬性,位置模塊處理目標在圖像中的絕對位置和相對位置,關系模塊處理物體間的交互關系。每個模塊都具有不同的結構,并在不影響其他模塊的情況下單獨學習參數。MAttNet 不依賴外部語言解析器,而是通過學習注意力機制自動解析指代描述。最后計算三個模塊的匹配分數來衡量候選區域與指代描述之間的相關性,并采用 Mask-RCNN 網絡同時預測指代分割結果。模塊化方法雖然取得了指代分割任務的突破性進展,但是模塊化網絡過分簡化了語言結構,并且文本和圖像候選區域的特征是獨立學習或設計的。這導致在指代描述復雜的情況下,不同模態的特征很難相互適應。
2.1.3 基于圖的方法
為了更好地處理圖像指代分割中復雜的文本描述和對象間的交互關系,基于圖的方法被提出用來解析復雜的場景中目標間的交互關系,方法框架如圖 4 所示。Huang 等人[29]提出了一種跨模態遞進理解的方法(Cross-Modal Progressive Comprehension,簡稱 CMPC),該方法通過漸進式的方式,逐步利用文本描述中不同類型的單詞,并利用圖結構分割所指代的目標。具體來說,CMPC 首先使用文本中的實體詞和屬性詞感知圖像中所有被描述所提及的相關對象。之后,構造一個完全連通的空間圖,其中每個頂點對應一個圖像區域的多模態特征,同時通過使用指代描述中的表達關系的單詞自適應地構建邊。最后通過圖卷積網絡,突出被指代目標的特征,抑制與文本不相關的區域,實現圖像與指代描述中目標間交互關系的對應,從而生成準確的分割結果。Hui 等人[30]提出了一種語言結構引導的上下文建模方法(Linguistic Structure Guided Context Modeling,簡稱 LSCM)。該方法通過構建一個依賴分析樹的圖結構(DPT-WG),經過聚集-約束傳播-分布三個步驟為每個單詞學習一個包含多模態上下文信息的特征表示。具體來說,首先融合視覺和描述信息,之后通過跨模態注意力機制為每個節點生成多模態特征,最后利用 DPT-WG 結構,根據描述中單詞間的依賴關系選擇性地抑制圖結構中部分邊的權重,使多模態表示更加貼合描述文本,有助于獲得更準確的分割結果。
2.2 基于多尺度信息融合的指代分割方法
由于指代分割任務中存在尺度差異很大的分割目標,僅僅使用視覺特征提取網絡的高維特征難以準確感知目標區域,同時在視覺特征提取時較高下采樣率也導致了高維特征大量缺失物體細節和輪廓信息,造成分割結果在目標邊緣區域不準確預測。針對這個問題,基于多尺度特征融合的方法被隨之提出,方法框架如圖 5 所示。Li 等人[31]提出了循環優化網絡(Recurrent Refinement Network,簡稱 RRN),利用圖像特征提取骨架網絡中固有的多尺度金字塔特征,按照分辨率從小到大的順序輸入到 convLSTM 網絡中逐步細化分割掩膜,增加特征的細節信息。具體來說,RRN 網絡包含兩部分,首先利用 CNN-LSTM 框架對多模態特征進行編碼和融合,得到目標區域的粗略定位。之后將融合結果作為 convLSTM 網絡的初始輸入,并按分辨率從小到大的順序逐步輸入金字塔視覺特征,對目標區域表示進行逐步精煉,最終輸出一個像素級的前景掩膜。這個步驟模仿了人類解決指代分割的方式,即首先定位感興趣的目標,然后逐步描繪出目標的具體輪廓。在此基礎上,Ye 等人[32]提出了一個雙重 convLSTM 網絡(Dual Convolutional LSTM Network,簡稱 DCLN),通過指代描述的特征分別為每個尺度的視覺特征生成一個空間注意力權重圖,并與視覺特征相乘從而突出受關注的重要區域,之后與 RRN 網絡相同,按分辨率順序輸入到 convLSTM 網絡,經過循環細化最終獲得同時包含豐富語義信息和目標細節的多尺度特征,準確地完成圖像指代分割。
3 數據集與評價指標 3.1 圖像指代分割任務的相關數據集
圖像指代分割數據集主要包含以下幾部分標注信息,即圖像、與圖像中某一區域對應的指代描述以及該區域對應的像素級標注。近年來,圖像指代分割數據集的陸續公開,對該任務的研究發展起到重要的促進作用。本節介紹了現有的幾個常用指代分割數據集,并將其詳細構成總結在表 1 中。
早期的圖像指代分割數據集由于標注困難主要集中在中小型的人工數據集。2014 年, Kazemzadeh 等人[33]推出了第一個大規模指代分割數據集 ReferItGame,之后,隨著圖像語義分割分割任務和深度學習的發展,越來越多的指代分割數據集也不斷公開。下面詳細介紹圖像指代解析任務的數據集: ReferItGame 數據集[33]基于 Image CLEF IAPR[34]圖像檢索數據集構建,其中圖像區域和像素標簽來源于 SAIAPR TC-12 數據集[35]。該數據集的指代描述是通過一個兩人游戲收集的,一個玩家根據圖像中指定的目標進行描述,另一個玩家根據圖像和收到的描述判斷圖像中所描述對象的位置。如果找到的位置正確,兩個玩家都獲得游戲分數,并交換位置進行下一張圖像。如果錯誤,將保持當前角色進行后續游戲。該數據集指代描述的特點是,當圖像中目標類別只包含一個對象時,描述者相比于描述周圍區域更傾向于用簡短的類別描述該對象。除此之外,該數據集最大的不同是除了包含前景物體,還可能包含一些背景區域,比如“天空”和“墻”等。
UNC 和 UNC+數據集[36]的圖像和像素級標注來源于 MSCOCO 數據集[37],指代描述同樣通過 ReferIt Game 游戲收集。這兩個數據集均包含一個訓練集、一個驗證集和兩個測試集。其中,測試集 A 中的目標類別大多為人,而測試集 B 中包含更多其他類別的對象。值得注意的是,與 UNC 數據集相比,UNC+數據集中的指代描述不包含位置詞,著重在目標外觀屬性方面描述。 Google-Ref 數據集[38]同樣基于 MSCOCO 數據集[35]構建,指代描述在非交互環境中收集。具體來說,一組人員為圖像中的目標編寫自然語言描述,另一組人員根據圖像與描述判斷對象位置。如果預測位置與正確區域重疊,則該描述作為有效數據添加到數據集中。如果不重疊則重新為該目標編寫指代描述。這樣的編寫和驗證的步驟交叉重復三次,獲得最終的收據收集,與其他指代分割數據集相比,該數據集擁有更長的句子與更復雜的結構和對象依賴關系,而不是僅有簡單的類別單詞或短語。 GuessWhat?!數據集[39]基于 MSCOCO 數據集[37]構建,指代描述同樣通過雙人合作游戲收集。在游戲中,兩個玩家均觀察同一幅包含多個目標的圖像。一個玩家被隨機分配其中一個目標,另一個玩家作為提問者,通過對前一個玩家進行一系列是非提問確定目標是什么。
3.2 圖像指代分割任務的性能評價指標
為了能夠公平地對比不同指代分割方法的性能,需要適當的評價指標進行評測。指代分割常用的評價指標與圖像語義分割任務類似,包括全局交并比和精度百分比,具體定義如下: 全局交并比(Overall Intersection over Union,簡稱 Overall IoU)作為語義分割評估的標準度量,同時考慮了每個類別的誤檢值和漏檢值。考慮到在圖像指代分割任務中,標簽類別只包含與指代描述相關或不相關兩個類別,因此,通過公式 (1)計算 Overall IoU: Overall IoU = ∑
論文指導 >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >