摘要 為了解決行人再識別中由于視角變化和背景干擾造成的錯位匹配(未對齊)問題,提出一種基于行人分割的部位對齊網絡(SegPAN)的方法,該網絡由3部分組成:1) 構建一種基于RefineNet的行人分割網絡(TL-RefineNet),以獲得多個局部對齊部位;2)基于分割的行人部位,提出一種行人部位對齊網絡,以提取多個局部對齊特征;3)通過一種加權融合的策略將提取的局部對齊特征融合,提高視覺特征的判別能力。在此基礎上利用特征之間的相似度實現行人再識別。實驗在Market-1501和DukeMTMC-reID數據集上進行測試,R1的性能分別達到90.5%和80.3%。結果證明該方法不僅有效的緩解了錯位匹配問題,而且減少了背景的干擾,提高了再識別性能。
關 鍵 詞 行人再識別;行人分割;部位對齊網絡;加權融合
0 引言
行人再識別是指在非交疊的視頻監控中尋找與目標一致的行人,該技術可以應用于行人檢索、交叉攝像機跟蹤等視頻監控領域[1-5],是視頻智能分析的一個重要組成部分。但由于光線、姿勢和視角的多樣性,使得跨場景中的行人匹配極具挑戰性。眾多的影響因素中,錯位匹配是導致行人再識別失敗的一個重要因素,究其原因可分為兩類:1)行人檢測不準確。例如,當圖像中包含大量的背景或行人部位不全時[6-8],很容易造成局部背景與行人某區域之間的錯誤匹配(圖1 a));2)不同視角中行人姿態的變化。例如,同一行人在騎車與行走時產生的對應匹配,也會造成錯位匹配(圖1 b))。
為了解決行人再識別中的錯位匹配,Zhang等[9]提出一個多分枝網絡,每個分支對應行人圖像中一個水平條區域,通過匹配對應的水平區域實現行人部位對齊,但當背景較大時,匹配效果并不理想。Su等[10]構建了一個深度對齊網絡,網絡不僅提取全局特征,同時對整個行人進行重定位,利用重定位的行人進行相似度比較以實現行人的對齊,但該方法并沒有對行人部位進行細分,導致算法對行人姿態的魯棒性會受到影響。此外,許多方法借助于行人關鍵點實現行人部位對齊[11-18]。Zheng[13]將行人劃分為14個關鍵點,利用這些關鍵點把行人劃分為若干個區域,同時為了提取不同尺度上的局部特征,還設定了3個不同的PoseBox組合進行映射矯正對齊。與方法[13]不同的是,Zhao[15]并沒有用仿射變換來實現局部對齊,而是直接利用行人關鍵點來摳出多個行人部位,然后將這些區域和原始圖像一并輸入到對齊網絡進行特征匹配。由于該方法的摳取方式過于簡單使得算法無法獲取精確的部位區域,不可避免地引入無關背景,并且關鍵點的檢測并不可靠[19]。
為了解決行人未對齊,提高算法對姿態變化的魯棒性,本文提出一種新的再識別方法,該方法不僅提取全局特征,同時還對行人的各個部分進行了區域劃分,通過對應部位之間的匹配實現行人對齊,與其他方法[11-15]不同的是,本方法并沒有采用行人關鍵點進行行人區域劃分,而是采用一種行人分割的策略完成圖像中行人各部分的有效分割(頭部、軀干、腿等),在此基礎上進一步構建行人部位對齊網絡實現行人部位對齊。此外,在融合部位對齊特征時,采用一種加權的策略以提高特征魯棒性。通過該方法不僅能實現行人與背景的分離,消除背景的干擾,而且能有效地提高行人對齊效果(圖2)。
本文主要的貢獻可歸納為以下3點:
1)提出基于行人部位分割對齊的再識別網絡,網絡的輸入不僅包含分割的行人區域,而且包含對應區域置信特征,該特征可以對分割的效果進行有效反饋,提高局部特征的可靠性。
2)為了獲取良好的行人分割效果,提出基于過渡層(Transition Layer)的RefineNet網絡(TL-RefineNet),以實現對行人部位的精確分割。
3)提出一種加權融合的方法,將提取的多個區域特征進行加權,實現多個對齊特征的有效融合,進一步提高特征的可區分性。
為了驗證提出方法的有效性,在兩個標準行人再識別數據集進行驗證,分析其有效性及各部分的作用,并與其他主流方法進行性能比較。
1 本文方法
本文方法主要包括3個部分:行人分割、行人部位對齊以及行人對齊特征的融合(圖2)。首先利用提出的TL-RefineNet網絡將行人圖像進行分割,得到多個行人分割區域,例如,行人上半區域和行人下半區域。然后基于分割的行人區域,構建行人部位對齊網絡,提取部位對齊特征。最后通過加權融合的方式將提取的對齊特征進行融合,提高特征的魯棒性。在該基礎上計算特征之間的相似性,獲得最終結果。
1.1 TL-RefineNet與行人部位分割
本研究目標是分割出行人對齊部位,然后將其應用到行人部位對齊網絡,以解決行人錯位匹配問題。但直接對re-ID數據集中的行人進行分割將面臨兩個主要問題:1)由于re-ID數據集沒有語義分割標簽,很難直接在re-ID數據集上訓練分割網絡;2)直接利用在非re-ID數據集(如Person Parts Dataset [20])訓練的分割模型,用在re-ID數據集上進行分割,并不能獲得理想的分割效果。其主要原因在于:在re-ID數據集中,行人圖像的分辨率太低(尺寸小),使得圖像分割目標過小,許多細節特征不足。但是,在re-ID數據集中,行人已被裁剪好,并且他們在圖像中占據了絕大部分區域。因此一個合適的放大操作不僅能放大分割目標,而且因放大而導致的背景干擾也是有限的。基于此思路,本文提出一個過渡層嵌入到RefineNet分割網絡中,以實現圖像中行人各部位的良好分割。
具體的,過渡層由一個雙線性差值構成,設插值像素值f (m, n)如公式(1)所示:
[fm,n=θ1θ2Q11Q12Q21Q22θ3θ4][,] (1)
式中:[θ1=m2-m,][θ2=m-m1,][θ3=n2-n,][θ4=n-n1,][Q11=m1,n1,][Q12=m1,n2,][Q21=m2,n1,][Q22=m2,n2]表示[fm,n]的4個近鄰坐標。放大尺度參數設為α,該參數可通過網絡訓練獲得。首先在Person Parts 數據集上訓練基礎的RefineNet,然后將T-Layer層嵌入到訓練好的RefineNet(如圖3所示)。最后通過固定RefineNet網絡的其他參數,利用部分分割結果訓練尺度參數。行人分割網絡的輸出為預定義的分割標簽,即行人上半部分(包括行人頭部、上臂和軀干)和行人下半部分(包括行人軀干以下及腿部,如圖2所示)。
1.2 基于分割的行人部位對齊網絡
為了緩解行人未對齊問題,本文基于分割的行人區域構建一個行人部位對齊網絡。該網絡針對每個行人部位構建一個分支網絡,從而提取部位對齊特征。
此外,考慮到,當行人被嚴重遮擋時,行人的分割效果會受到一定的影響。為了彌補這一影響,本文將原始圖像單獨作為一個網絡分支,合并到整個行人對齊網絡中,共構建3個網絡分支。每個網絡分支的基本結構為Resnet50網絡的pooling5層及以前的所有網絡層結構。特別的,每個網絡分支的輸入除了分割后的RGB圖像,由分割獲得的對應的置信特征也被輸入到對齊網絡中,以提高分割結果的可靠度。將每個網絡分支輸出的1×1×2 048維特征作為部位對齊特征。具體結構如圖2所示。
在訓練時,由于不同數據集的行人數目不同,本文增加了一個全鏈接層以調整輸出結果的維度變化。Softmax用來將每一個行人的預測值[ak]歸一化到[0, 1]:
[pkx=expakk=1Kak][,] (2)
式中[K]表示數據集中行人的類別數目 (Person ID)。通過交叉熵來迭代獲取每個分支網絡的最小損失值:
[lossi=-k=1K(log(p(k|x))q(k|x))][,] [qy|x=1,y=k0,y≠k], (3)
式中:x表示網絡輸入特征;i =1,2,3對應3個網絡分支;y為類別標簽。此外,當行人圖像檢測不準確或者存在大量背景時,在輸入對齊網絡之前,本文通過雙線性差值對分割結果進行裁剪、尺寸調整,從而實現行人初步對齊,如圖4所示。
1.3 局部對齊特征的加權融合
為了反映不同部位在再識別過程中的重要程度,本文提出一種特征加權融合方法,來提高行人特征的魯棒性。在此過程中,使用3個(1×1)加權卷積核對提取的3個對齊特征進行加權融合,然后通過一個全連接層,來調整融合后特征的輸出維度(不同數據集中行人數目不同)。
推薦閱讀:《化學工業》(月刊)創刊于1983年,由中化國際咨詢公司(石油和化學工業規劃院)主辦。為“化工系統信息成果一等獎”刊物。
論文指導 >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >