現(xiàn)今,我們已經(jīng)進入了大數(shù)據(jù)的時代。在這個技術飛速進步,信息爆炸的時代,數(shù)據(jù)的量從K到M,從M到G,從G到T,從T到P……。本文就針對多流形數(shù)據(jù)的結(jié)構分析進行了一些研究,文章是一篇電子科技論文范文。
摘要:在大數(shù)據(jù)的時代,面對著大量的多流形數(shù)據(jù),對多流形數(shù)據(jù)的結(jié)構分析進行研究是十分有必要的。為了提高對多流形數(shù)據(jù)的分析能力,在已有的聚類技術基礎上,結(jié)合流形學習的方法和譜聚類的方法,發(fā)展出了譜多流形聚類方法。而在研究多流形數(shù)據(jù)的結(jié)構以及譜多流形聚類的基礎上,又提出了稀疏譜聚類方法來進一步改進對多流形數(shù)據(jù)的結(jié)構分析研究。
關鍵詞:多流形數(shù)據(jù),數(shù)據(jù)幾何結(jié)構分析,譜聚類,譜多流形聚類,稀疏譜多流形聚類
Research on Structure Analysis of Multi-Manifold Data
HAN Yang
(College of Electronics and Information Engineering, Tongji University, Shanghai 201804, china)
Abstract: In the era of big data, it is very necessary to study the structure analysis method of multi-manifold data, facing a large number of multi-manifold data. To improve the analysis ability of the multi-manifold data, the spectral manifold clustering method is developed, which based on the existing clustering techniques and combined with manifold learning method and spectral clustering method. On the basis of studying the structure of multi manifold data and the clustering of spectral manifold, the sparse spectral clustering method is proposed to improve the structure analysis of multi manifold data.
Key words: multi-manifold data;data geometry structural analysis;spectral clustering;spectral clustering on multiple manifolds; sparse spectral clustering on multiple manifolds
1 概述
隨著數(shù)據(jù)量的迅速增加,對分析方法的需求也有了進一步的增加。而在對數(shù)據(jù)的分析中,一個重要的方向是將數(shù)據(jù)集中屬于不同集合的數(shù)據(jù)分開,這也就是所謂的聚類分析[1]。傳統(tǒng)的聚類方法,例如,K均值聚類,即通過比較所有點到每個類的中心距離與重置類中心的方法,已經(jīng)不能夠滿足解決許多問題的實際需求。
在對實際問題的分析中,可以發(fā)現(xiàn),有許多的數(shù)據(jù)集,實質(zhì)上是由多個幾何結(jié)構組合而成。幾何結(jié)構分析已被廣泛應用于對象識別、圖像分類等模式識別和分類問題。同時,對于高維數(shù)據(jù)的相關性分析、聚類分析等的基本問題而言,基于結(jié)構的分析也非常重要。而流形,在數(shù)學中就是用于描述幾何結(jié)構的,并且為研究各種維度下曲線、曲面的可微性提供了最一般的抽象[2,3]。流形的微觀結(jié)構使得它能夠容納微分結(jié)構,從而可以用局部線性去近似它;而它的宏觀結(jié)構卻又使得它可以作為對抗局部擾動的理想數(shù)學模型。因此,對多流形數(shù)據(jù)的結(jié)構分析進行研究是十分有必要的。
2 背景介紹
對于多流形數(shù)據(jù),其中不存在交疊混合的情況相對而言比較少,而且由于不相交的情況相對比較簡單,用傳統(tǒng)的聚類方法即可解決,本文不再過多討論。實際中存在困難的,是多流形交疊混合的情況。在現(xiàn)實環(huán)境中,尤其是機器視覺中,大量存在需要對多流形數(shù)據(jù)進行識別的問題。現(xiàn)在的流形學習算法能處理的情況還比較弱,而前提假設的條件比較強,特別是對于不同維數(shù)的多流形混合的問題,目前還沒有完全解決的方法。而此又恰恰是模式識別中一個合理且常見的情況。雖然針對多流形交疊混合的非線性學習已經(jīng)存在許多成熟的模型,如ISOMAP、譜聚類(SC)等等,但都有各自缺陷[4-7]:
ISOMAP方法能夠正確地將靠近流形交疊的部分樣本點進行聚類,但是僅限于流形交疊部分附近的樣本點。這是由其使用測地線做相似性度量的性質(zhì)所導致的,因此即使兩類樣本集并不相交也不一定能進行正確的區(qū)分。
譜聚類(SC)的情況則與前述的ISOMAP正相反,能正確區(qū)分間隔的不同類樣本集,但是對于流形交疊處附近的樣本點則表現(xiàn)不佳。
此外,由于流形空間一般被認為是局部具有歐氏空間性質(zhì)的拓撲空間,因此可以直觀上認為是將多個線性空間拼接起來形成一個近似非線性流形空間[2,3]。
4 實驗分析
使用實驗分析常用的圖1,其是視頻中的一幀,有三個不同運動的特征點軌跡被提取出來,需要這些特征點軌跡分成三類。在實驗中,分別了使用傳統(tǒng)的PCA+K-means方法、譜多流形聚類和稀疏譜多流形聚類的方法。傳統(tǒng)的PCA+K-means方法,無法很好分出位置相鄰但不屬于同一流形的點集;譜多流形聚類對流形區(qū)域做了處理,但因為兩個流形之間存在距離過近的部分,而且分錯區(qū)域與該流形區(qū)域大部分點距離較大,雖然結(jié)果有改善,但是還有錯誤;稀疏譜多流形聚類相比譜多流形聚類又有了改進,實現(xiàn)了正確分類。 5 結(jié)束語
隨著大數(shù)據(jù)時代的到來,多流形數(shù)據(jù)的結(jié)構分析越來越成為重要的課題。與傳統(tǒng)方法相比,新的方法不斷涌現(xiàn),也能夠更好地解決問題。譜多流形聚類的出現(xiàn),就是一個很好的例子。不過,我們?nèi)匀恍枰粩喔倪M我們的方法,去進一步滿足解決實際問題的需要。雖然我們提出了稀疏譜多流形聚類來改進譜多流形聚類,但是后續(xù)依然有廣泛的空間需要進一步的研究。
參考文獻:
[1] Richard O. Duda, Peter E. Hart, David G. Stork. 《模式分類》[M],北京:機械工業(yè)出版社, 2013, P94-96.
[2] R. Souvenir, R. Pless. Manifold clustering[C]. in Proceedings of the 10th International Conference on Computer Vision (ICCV 2005), 2005: 648-653.
[3] Y. Wang, Y. Jiang, Y. Wu, Z.-H. Zhou, Multi-manifold clustering[C], 11th Pacific Rim International Conference on Artificial Intelligence(PRICAI 2010), 2010:280-291.
[4] Tenenbaum J B, V. de Silva, et al. A global geometric framework for nonlinear dimensionality reduction, 2000, 290(5500):2319-2323
[5] A. Ng, M. Jordan, Y. Weiss, On spectral clustering: Analysis and an algorithm[C]. in Proc. Adv. Neural Inf. Process. Syst. 14, 2001:849-856.
[6] Shay Deutsch, Gérard Medioni. Intersecting Manifolds: Detection, Segmentation,and Labeling[C]. IJCAI, 2015:3445-3452.
電子科技論文發(fā)表期刊推薦《電子世界》雜志由中國電子學會主辦,創(chuàng)刊于1979年,讀者遍及全國30個省、市、自治區(qū)。本刊全方位推崇E時代大眾電子科學意識,傳播電子與信息領域的新知識、新技術,發(fā)表最新科研成果和展示技術進展狀況,始終注重扶持學術新人,尤其關注廣大青年科技工作者,優(yōu)先發(fā)表理工科青年教師和研究生中的優(yōu)秀學術稿件。
論文指導 >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >