摘 要:針對現有三支決策模型的研究對象多為單一性數據的決策系統,對于混合數據邊界域樣本處理的研究相對較少,本文面向混合數據提出了基于核屬性的代價敏感三支決策邊界域分類方法。該方法基于正域約簡計算混合鄰域決策系統的核屬性集,在此基礎上計算混合鄰域類,并利用三支決策規則分別將對象劃分到各決策類的正域、邊界域和負域;提出了一種基于代價敏感學習的三支決策邊界域分類方法,并構造了誤分類代價的計算方法,以此劃分邊界域中的對象。通過對 UCI 上的 10 個數據集進行實驗對比與分析,進一步驗證了本文方法為處理邊界域樣本提供了一種可行有效的方法。
周陽陽; 錢文彬; 王映龍; 彭莉莎; 曾武序, 智能系統學報 發表時間:2021-10-13
關鍵詞:三支決策;粒計算;代價敏感;混合數據;正域約簡;邊界域樣本處理;粗糙集; 核屬性
1三支決策是加拿大學者 Yao.Y.Y 提出的一種 “化繁為簡”決策理論[1-2],它從粒計算視角將論域劃分為三個互不相交的論域子空間,并對其分別采取不同的應對策略,這種分而治之的思想,可有效提高決策準確度,降低誤分類代價。三支決策理論模擬人類認知、學習和決策的過程,可處理決策過程中出現的不確定性問題。近年來,三支決策理論引起了許多研究者的關注,已成為了粒計算和知識發現領域中的一個重要研究方向。目前,三支決策在眾多應用領域中得到廣泛的應用,如人臉識別[3]、推薦系統[4-5]、決策系統[6]和郵件過濾[7]等;為了處理復雜的應用場景,提出了不同的計算模型,如序貫三支決策[3,8] 、優化三支決策[9]、前景三支決策[10]、 三支模糊集[11]和三支約簡[12]等。
在實際應用中,代價是影響三支決策劃分的重要因素之一。代價敏感學習能夠有效緩解分類過程中的數據不平衡問題,其主要作用是處理決策過程和結果產生的各類代價問題。代價敏感學習主要研究兩種代價:誤分類代價(結果代價)和測試代價,兩者互相關聯,呈負相關。如在醫療診斷中,患者想要獲得更高的診斷準確率(即決策代價越低),就需要做更多的檢查(即測試代價越高)。由于代價是數據的內在特征,將其與知識發現結合會使得問題更具有普適性,目前,代價敏感學習已經應用到現實生活中的許多領域,如:人臉識別[13]、價格預測[14]和客戶信用評價[15]等。
因此,基于代價敏感的三支決策算法與模型引起了許多學者的關注和研究,已取得重要的研究成果。Fang 等人[8]將信息粒度納入決策分析過程,同時考慮決策過程和決策結果的代價,分別設計了兩種不同的算法以最小化決策過程和決策結果代價。 Yang 等人[16]提出了一種三支決策和可分辨矩陣的框架,在此框架下分別設計了基于刪除和增加的代價敏感近似屬性約簡算法。Jia 等人[17]構造了一種可以直接應用于傳統的代價敏感學習問題的三支決策模型,在此基礎上,提出基于多類三支決策模型的多階段代價敏感學習方法。Li 等人[18]為從輸入圖像中順序提取分層粒度結構,提出了一種基于 DNN 的順序粒度特征提取方法,在此基礎上,提出一種代價敏感的序貫三支決策模型。Fang 等[19]考慮了用戶需求,提出一種基于模糊粗糙集的序貫三支決策模型的優化機制,用來實現對代價敏感的最優粒度選擇。Ma 等人[20]定義了三支特定類的最低代價約簡,分別設計了基于添加-刪除策略和刪除策略來構建特定類的最小代價約簡算法。以上算法與模型能夠最小化結果代價或過程代價。而在許多應用領域中往往需要從代價敏感視角來分析三支決策邊界域樣本,目前三支決策的研究對象多為單一性數據的決策系統,對于混合數據邊界域樣本處理的研究相對較少。
為此,本文提出了一種面向混合數據的代價敏感三支決策邊界域分類方法。首先,基于正域約簡,提出了面向混合數據的屬性約簡模型;然后,提出了一種基于代價敏感的三支決策邊界域樣本處理方法,在貝葉斯最小風險的基礎上構造誤分類代價公式,劃分邊界域中的對象。最后,對 UCI 上的 10 個數據集進行實驗,結果表明該方法能夠降低誤分類代價,而且能較準確的劃分邊界域中的對象;這為三支決策的邊界域樣本處理提供了一種可借鑒的方法。
1 基本知識
1.1 鄰域粗糙集
在粗糙集理論[21]中,給定一個四元組決策系統: DS U At C D V a At I a At ? ? ? ? ? ? , , | , | ? a a ? ? ??,其中 U x x x ?? 1 2 , ,..., n?表示有限非空的對象全集,稱為論域或者對象空間; At 表示有限非空的屬性全集,由條件屬性和決策屬性共同組成; C a a a ? ? 1 2 , ,... n?表示有限非空的條件屬性全集, D 表示決策屬性; Va 表示 a C ?的屬性值集, | a I U At V ? ?是一個信息函數,能給每個對象的每個屬性賦值,即 ( ) a a I x V ? 。
定義 1 [22] 給定混合鄰域決策系統 DN U ?? , , , , , ? D C F F D V I a a ? ?,距離度量函數? ? N U U : ,給定屬性子集 B C ?和鄰域參數?,則對象 x 和 y 基于 B 的鄰域關系為: NR B x y U U N x y ( ) ( , ) | ( , ) ? B ??? ? ? ? ? ?對? ?x U , x 的鄰域粒度可表示為:? ? B B ( ) | , , ( , ) x y x y U N x y ? ? ? ? ? ?其中, D F 為離散屬性集合, C F 為連續屬性集合,?是鄰域參數。
1.2 三支決策粗糙集
三支決策粗糙集[23]通過 2 個狀態集和 3 個動作集來描述其決策過程。其中,狀態集 S X X ? ? ? , ?分別表示對象屬于概念 X 和不屬于概念 X ,動作集 A a a a ? ? P B N , , ?表示對于不同狀態,分別采取接受、延遲和拒絕三種不同的動作。由于采取不同動作會產生不同的損失,記 , , ??? PP BP NP 表示當 x X ?時,分別采取動作 , P B a a 和 N a 產生的風險損失值;同樣地,記 , , ??? PN BN NN 表示當 x X ??時,分別采取動作 , P B a a 和 N a 產生的風險損失值;損失之間的關系滿足:??? PP BP NP ? ? , ? ? ? NN BN PN ? ?。在實際應用中,這些損失值通過專家的經驗獲取。
定義 2 [1] 在決策系統 DS U C D V I ? ? ? , , , a a ?中,令 X 為論域 U 基于決策屬性 D 的劃分,?和?為三支決策的閾值, P X x ( |[ ]) 表示對象 x 的條件概率,對于? ?x U ,根據貝葉斯決策過程,計算得到最小成本準則的三支決策規則: POS X x U P X x ( ) | ( ) 1 ? ? ? ? ? ? ? ? ? BND X x U P X x ( ) | ( ) ? ? ? ? ? ? ? ? ? ? NEG X x U P X x ( ) |0 ( ) ? ? ? ? ? ? ? ??其中: ? ?? ?? ? ( | ) X x P X x x ?? , . 表示對象的個數;?? ? ? ???? ? ? ( ) ( ) ( ) BN NN BN NN NP BP ? ??? ? ? ???? ? ?其中,正域 POS X( ) 、負域 NEG X( ) 和邊界域 BND X( ) 分別對應三支決策規則中的接受、拒絕和不 承 諾 規 則 , 且 滿 足 : POS X BND X ( ) ( ) ? ? NEG X X ( ) ?;僅當 X U?時, POS X BND X ( ) ( ) ?? ? NEG X U ( ) 。
1.3 代價敏感學習
代價敏感學習主要研究誤分類代價和測試代價,由于本文中考慮了其誤分類代價,誤分類代價表示對對象錯誤劃分后的一種懲罰。用 Ck k ?表示誤分類代價矩陣,其中 k 表示 k 分類問題。為方便理解,以二分類代價矩陣 11 12 2 2 21 22 ? = ? ?? ? ? ? c c C c c 為例;其中 11 c 表示將類別為 1 的對象劃分到類別 1 種,因此 11 c 的值為 0,同理 22 c 的值也為 0; 12 c 表示將類別為 1 的對象劃分到類別 2 中,此時屬于誤分類,在劃分中需付出懲罰代價,因此 12 c ? 0 ,同理 21 c ? 0。
2 基于正域約簡的代價敏感三支決策邊界域分類方法
2.1 面向混合鄰域決策系統的正域約簡
由于基于三支決策的粒計算方法大多是處理連續型數據或離散型數據等單一型數據,但是在現實生活的應用領域中數據類型通常是既含有連續型數據又含有離散型數據的混合數據,為此需對混合數據的三支決策模型展開研究。
定 義 3 給定混合鄰域決策系統 DN U ?? , , , , , ? D C F F D V I a a ? ? , ( ) V x a 表示對象 x 在屬性 a 上的屬性值:
對于 , , D ? ? ? ? x y U a F ,則 x 和 y 基于 D F 的距離為: 0, ( ) ( ) ( , ) 1, ( ) ( ) D a a F a a V x V y N x y V x V y ? ?? ? ?? ?對于 , , C ? ? ? ? x y U a F ,則 x 和 y 基于 C F 的距離為: 1 1 C ( , ) | ( ) ( )| m p p F a a k N x y V x V y ?? ? ? ? ? ? ? ? ? ?其中,當 p ?1 時, C ( , ) F ?N x y 為曼哈頓距離;當 p ? 2 時, C ( , ) F ?N x y 為歐氏距離;當 p ??時, C ( , ) F ?N x y 為切比雪夫距離。
定 義 4 給 定 混 合 鄰 域 決 策 系 統 DN U ?? , , , , , ? D C F F D V I ? a a ? ,令 Di 為論域U 基于決策屬性D 的劃分,則混合鄰域決策系統的上下近似表示為: AN D x U x D ( ) | ( ) ? ? ? ? ? C i? AN D x U x D ( ) | ( ) ? ? ? ? ? ? ? C i ?通過上下近似集,可知特征子集 B 上的正域如下: POS D AN D x U x D C C i ( ) ( ) | ( ) ? ? ? ? ? ? ?
定 義 5 給定混合鄰域決策系統 DN U ?? , , , , , ? D C F F D V I ? a a ?,令屬性 i a C ?,則混合鄰域決策系統中基于三支決策的核屬性集定義為: CORE C a POS D POS D ( ) | 0 ? ? ? ? ? ? ? ? ? ?? ? i C C a ?? i? ?
下面以表 1 為例,給出一個混合鄰域決策系統,其中, U x x x ? ? 1 2 10 , ,..., ?為對象集, C a a a ? ? 1 2 6 , ,..., ?為條件屬性集, 決策類 U D D D ? ? 1 2 , ?,分別為 D x x x x x x 1 1 3 5 6 7 9 ?? , , , , , ? , D x x x x 2 2 4 8 10 ?? , , , ?。
根據定義 5 可計算出混合鄰域決策系統的核屬性集,具體的計算過程如下:首先,根據定義 3,利用 p ? 2 時的歐式距離計算全體對象的混合鄰域粒度,再根據定義 5 計算出? 1 4 5 6 ( ) , , , , POS D x x x x C ? x7 ?,同理可計算出? ? ? ? 1 1 4 5 6 7 ( ) , , , , POS D x x x x x C a ?? , 因 為? 1? ( ) ( ) POS D POS D C C a ?? , 所以屬性 1 a ? CORE C( ) ,同理可求出?a a a a CORE C 2 3 5 6 , , , ( ) ?? ,只有屬性 4 a CORE C ? ( ) 。由此可知核屬性集為 CORE C a ( ) ?? 4?。下面將在此基礎上,提出了代價敏感下的三支決策邊界域分類方法。
2.2 基于核屬性集的代價敏感三支決策邊界域分類方法
定 義 6 給 定 混 合 鄰 域 決 策 系 統 DN U ?? , , , , , ? D C F F D V I ? a a ? ,設屬性子集 B C ? ,? 和 ? 為三支決策的閾值, Di 表示不同的決策屬性,則不同屬性子集下的三支決策規則定義為: POS D x U P D x B i i B ( ) | ( ( )) 1 ? ? ? ? ? ? ? ? BND D x U P D x B i i B ( ) | ( ( )) ? ? ? ? ? ? ? ?? NEG D x U P D x B i i B ( ) |0 ( ( )) ? ? ? ? ? ? ??其中, ( ) ( | ( ))= ( ) i B i B B D x P D x x ???? 。
以表 1 為例,可給出混合鄰域決策系統代價矩陣,如表 2 所示。結合定義 2 和表 2,可求出三支決策的閾值? ? = 7 9, 1 3 ? 。
令 B CORE C a ? ? ( ) ? 4? ,根據定義 3 可計算出核屬性子集 B 下的對象之間的鄰域粒度;再根據定義 6 計算出核屬性集下決策類 D1 的的正域、負域和邊界域,具體的計算過程如下:由定義 3 可計算出核屬性集 B 下 的 1 x 的鄰域粒度 1 ( ) B ? x ??x x x x x x x x 1 2 5 6 7 8 9 10 , , , , , , , ? ,由此求出 1 x 的條件概率 1 1 ( ( ))=5 8 P D x ? ? B ?,所以 1 1 ( ) B x BND D ?,同理? 2 4 5 6 7 8 9 10 1 , , , , , , , ( ) ? B x x x x x x x x BND D ?,即 1 ( ) BND D B = , , , , , , , , ?x x x x x x x x x 1 2 4 5 6 7 8 9 10?。通過相同的計算可求出: 1 POS DB ( )=?和 NEG D x B ( )=1 3 ? ? 。
定 義 7 在 混 合 鄰 域 決 策 系 統 DN U ?? , , , , , ? D C F F D V I ? a a ?中,Di 為論域 U 基于決策屬性 D 的劃分,給定屬性子集 B C ?,為了簡化公式,用 r CP 和 (1 )r ?CP 分 別 代 替 1 ( ( )) P D x i B j ?和 1 (1 ( ( ))) P D x i B j ? ? ,對于? ? x BND D j B i ? ?,樣本簡化后的誤分類代價計算公式如下: ( | ) ( ) ((1 ) ) r PN B i j r r PN NP CP PC D x CP CP ?? ???? ? ? ? (1 ) ( | ) ((1 ) ) ( )
其中, ( | ) PC D x B i 表示在決策類 Di 下將對象 x 劃分到正域產生的誤分類代價,同理, ( | ) NC D x B i 表示在決策類 Di 下將對象 x 劃分到負域產生的誤分類代價。 ? NP 和? PN 是代價矩陣中的風險損失值, ( | ( )) P D x i B ?表示在決策類 Di 下對象 x 的條件概率。性 質 1 在 混 合 鄰 域 決 策 系 統 DN U ?? , , , , , ? D C F F D V I ? a a ?中, Di 是對決策屬性 D 的劃分,假設屬性子集 B C ?,對于 ( ) B i ? ?x BND D ,可得出如下推論: (1)如果 | ( | ) PC D x NC D x B i B i ? ? ?,則 x? ( ) NEG D B i ; (2)如果 ( | ) ( | ) PC D x NC D x B i B i ?,則 x? ( ) POS D B i 。以表 1 為例,令 B Core C a ? ? ( ) ? 4?,已知 D1 ??x x x x x x 1 3 5 6 7 9 , , , , , ?和 BND D x x x x x x B ( )= , , , , , , 1 1 2 4 5 6 7 ? x x x 8 9 10 , , ?,根據定義 7 和性質 1 可將邊界域中的對象劃分到正域和負域,具體的計算過程如下:
對于 1 ( ) B ? ?x BND D ,根據定義 7 可求出劃分對象 1 x 產生的兩種誤分類代價 1 1 ( | ) 6 11 PC D x B ? , 1 1 ( | ) 5 11 NC D x B ?,因為 1 1 1 1 | ( | ) PC D x NC D x B B ? ? ?,所以 1 1 ( ) B x NEG D ?,同理可得?x x x x x x 2 4 6 8 9 10 , , , , , ? 1 ( ) ? NEG D B 和? 5 7 1 , ( ) ? B x x POS D ?。由此可知,該混合鄰域決策系統的正域為: POS D x x B ( )= , 1 5 7 ? ?,負域為: NEG D x x x x x x x x B ( )= , , , , , , , 1 1 2 3 4 6 8 9 10 ? ? 。
3 算法描述及復雜度分析
針對混合鄰域決策系統,為了有效劃分其三支決策邊界域中的對象,本文提出了一種面向混合數據的代價敏感三支決策邊界域分類方法,該算法主要分為三個部分。首先,針對混合鄰域決策系統中的數據,通過混合鄰域計算公式計算每個對象的混合鄰域粒度,得到混合鄰域決策表的正域對象集合,由此基于啟發式策略計算核屬性集。其次,在此基礎上,計算混合鄰域決策表中每個對象的鄰域粒度,從而計算出每個對象屬于不同決策類的條件概率,利用三支決策規則將對象分別劃分到不同決策類的正域、邊界域和負域中;最后,針對邊界域中的對象,分別計算其劃分到正域和負域所產生的誤分類代價,通過比較這兩種代價的大小,將邊界域中的對象劃分到正域或負域中,為此,算法的流程圖 1 所示。
算法描述如下:
算法:面向混合數據的代價敏感三支決策邊界域分類方法
輸入:混合鄰域決策系統 DN ,鄰域參數?和閾值? , ?;
輸出:核屬性集下對不同決策類的正域和負域;
1)對混合鄰域決策系統 DN 做歸一化處理;
2)計算決策類 D U D i ?;
3):計算鄰域粒度 ( ) C ? x ,初始化 ( ) CORE D C =?;
4)對于? ?x U ,若滿足 ( ) C i ? x D ?,則將對象 x 存入到正域 POS D POS D x C C ( ) ( ) ? ?? ?;
5)對于 i ? ? a C ,分別計算去除每個對象之后的特征 子 集 的 正 域 集 合 -? ? ( ) C ai POS D ,若滿足? ? ( ) ( ) i POS D POS D C C a ??,則將屬性 i a 存入到核屬性集 CORE D CORE D a C C i ( ) ( ) ? ?? ?;
6)基于核屬性集 ( ) CORE D C ,計算對象的鄰域粒度? ? ( ) CORE D C ? x ;
7)對于? ?x U ,計算對象 x 屬于決策類 Di 的條件概率? ? ( | ( )) C P D x i CORE D ? : ①若? ? ( | ( )) 1 C ? ? P D x i CORE D ? ?,則將對象 x 劃分到決策類 Di 的正域 ( ) CORE i C POS D ; ②否則,若? ? 0 ( | ( )) C P D x i CORE D ? ? ? ?,則將對象 x 劃分到決策類 Di 的負域 ( ) CORE i C NEG D ; ③否則將對象 x 劃分到決策類 Di 的邊界域 ( ) CORE i C BND D ;
8)對于 ( ) C b CORE i ? ? x BND D 計算 ( | ) CORE i j C PC D x 和 ( | ) CORE i j C NC D x : ①若滿足 ( | ) ( | ) CORE i j CORE i j C C PC D x NC D x ?,則將對象 j x 劃分到決策類 Di 的負域 ( ) CORE i C NEG D ; ② 否則將對象 b x 劃分到決策類 Di 的正域 ( ) CORE i C POS D ;
9 ) 輸出劃分結果正域 ( ) CORE i C POS D ,負域 ( ) CORE i C NEG D 。//算法結束。
算法時間復雜度分析:
算法的 1)的時間復雜度為 O U C (| || |),2)劃分決策類所需的時間復雜度為 O U(| |) ;3)在屬性全集下,通過混合鄰域計算公式得出每個對象的混合鄰域粒度,其時間復雜度為 2 O U C (| | | |) ;4)計算正域對象的時間復雜度為 O U(| |) ;5)計算核屬性集的時間復雜度為 2 O U C (| | | |) ;6)在核屬性集 CORE 下,計算每個對象的混合鄰域粒度,其時間復雜度為 2 (| | | ( )|) O U CORE DC i ;7)計算各決策類正域、邊界域和負域,其時間復雜度為 O U(| |) ;8)結合代價敏感劃分邊界域中的對象,其時間復雜度為 (| |) ? ? CORE i C O BND D 。綜上所述,算法最壞情況下的時間復雜度是 2 O U C (| | | |) ;由于存儲空間主要用于存放數據,因此算法的空間復雜度為 O U C (| || |)。
4 實驗比較與分析
為了驗證本文方法對邊界域對象劃分的可行性和有效性,實驗從 UCI 中選取了 10 個混合數據集進行實驗測試與分析;選用分類準確率、權衡因子、誤分類損失和時間作為評價指標,對實驗結果進行對比與分析。
4.1 數據集與實驗設置
為了更好地說明所提出算法的普適性,本文根據數據集的來源和規模兩個方面,從國際公開的機器學習 UCI 數據庫中選取了 10 個數據集進行實驗結果的對比和分析,數據集的信息描述如表 3 所示。表中 Speaker Accent 和 Ionosphere 數據集中包含連續型數據,Phishing Websites 和 Student Evaluation 數據集中包含離散型數據;其余數據集均包含連續型和離散型數據;這些數據集來自欺詐分析、醫學診斷、信號處理和教育評價等應用領域。同時為了消除量綱的影響,對所有數據集中的連續型數據進行歸一化處理。本次實驗的運行環境為:Win10, Intel(R)Core(TM), i5-6500 CPU @ 3.20GHz 3.19GHz 和 8GB 內存,用 Python 編程語言實現算法設計。
4.2 評價指標
實驗將從準確率、權衡因子、誤分類損失和運行時間四種度量指標[24]對劃分結果進行分析,定義如下:準確率: ( ) ( ) i i i POS D D Acc POS D ??權衡因子: 2 Acc Cov F Acc Cov ?? ??誤分類損失: Cos b bp n np t n n ? ? ? ? ? ?式中, ( ) POS Di 和 Di 表示正域和決策類, b n 和 n n 分別表示邊界域、負域中的對象個數;?bp 和?np 分別表示將屬于某一決策類的對象錯誤劃分到該類別的邊界域和負域中產生的損失;由于本文算法的輸出只包含正域和負域,因此 Cov=1 。本實驗的風險損失參數為 =0.3 ?bp , =0.7 ?np 。
4.3 實驗結果與分析
4.3.1 參數? PN 和? NP 對劃分結果的影響
在混合鄰域決策系統中,參數? PN 和? NP 通過影響閾值對?? ?, ?的大小來影響三支決策的劃分。因此,為了詳細分析參數? PN 和? NP 的值對劃分準確度的影響。本小節中,為了一般性,從上述數據集中選取 6 個作為代表進行實驗分析,分別將? PN 和? NP 的值從 3 到 10,且每次步長變化 1 進行實驗。實驗結果如圖 2 的子圖(a)和(b)所示。
在子圖(a)中,當? PN 的取值區間在?4,5?時, Credit Approval 等 5 個數據集的準確率隨代價的增加而下降,且變化趨勢較為平緩;當? PN 的取值區間在?7,8?時,這些數據集的準確率隨代價的增加而下降,且變化趨勢較為顯著。在子圖(b)中,當? NP 的取值區間在?4,5?時,Credit Approval 等 5 個數據集的準確率隨代價的增加而上升,且變化趨勢較為顯著;當? NP 的取值在?6,7?區間時,數據集 Speaker Accent 的準確率隨代價的增加而升高,進而達到平穩狀態;當? NP 的 取 值 在?7,8?區間時, Credit Approval 等個 5 數據集的準確率隨代價的增加而升高,且變化趨勢較為平緩;當代價? PN 和? NP 的取值在[8,10]這個區間時,準確率達到平穩狀態,所有數據集的準確率不再隨著代價的變化而變化。
綜上所述,從整體上看,代價? PN 和? NP 對分類準確度的影響呈負相關,數據集的準確率隨著代價? PN 的增加,呈現出整體下降的趨勢;而隨著代價? NP 的增加,整體呈現出上升的趨勢。從局部上看,當代價的取值在?4,5?和?7,8?這兩個區間時,數據集的準確率隨著代價的增加而發生變化,當代價的取值在其他區間時,數據集的準確率趨于穩定的狀態。由此,在實際的決策過程中,可結合上述分析的結論,并根據數據集的分布和代價敏感學習構造合適的代價矩陣。
4.3.2 本文模型與不同三支決策模型的對比分析
本節主要分析不同三支決策模型對分類性能的影響,表 4 7 給出了三種粗糙集模型下準確率 ACC、權衡因子 F、誤分類損失 Cost 和運行時間 Time 的實驗結果。其中,NCTM (Neighborhood Rough set based Cost-sensitive Three-way Decision Boundary Region Processing Model)是基于鄰域粗糙集[25]設計考慮了代價敏感的三支決策邊界域處理模型,PCTM (Pawlak Rough set based Cost-sensitive Three-way Decision Boundary Region Processing Model)是基于經典粗糙集[22]設計考慮了代價敏感的三支決策邊界域處理模型,MCTM (MixedNeighborhood Rough set based Cost-sensitive Threeway Decision Boundary Region Processing Model)代表本文基于混合鄰域粗糙集的代價敏感三支決策邊界域處理模型。在 PCTM 模型中對數據集進行離散化預處理,在 NCTM 和 MCTM 模型中對數據集進行了歸一化預處理,另外,為了使距離處于同一量綱下,在 NCTM 模型中采取平均距離度量,同時 ACC、F、Cost 和 Time 的值均為數據集所有決策類的平均值。實驗結果如表 4 7 所示,其中,符號?表示度量指標的值越大越好,符號?表示度量指標的值越小越好,加粗字體表示算法在所對應的數據集上的最優值。
如表 4 所示,使用本文模型的分類準確率高于其他 2 種模型,例如,其在數據集 Credit Approval 上的準確率比 NCTM 和 PCTM 模型分別提高了 4.8%和 2.9%,由于 MCTM 能夠針對不同的數據類型采取不同的分類方法,且具有更低的錯誤率,因此其劃分準確率能整體上高于 NCTM 和 PCTM。此外,在數據集 Ionosphere 上,PCTM 模型的優勢更加明顯,而在數據集 Speaker Accent 上,本文模型和 NCTM 模型的準確率相同,由此可知,本文模型能有效的提高分類準確率,且在數據集上整體表現良好。
如表 5 所示,對權衡因子而言,由其度量公式可知,權衡因子由準確率和覆蓋率共同決定,由于本文中的三支決策最終轉換成二支決策,因此覆蓋率 Cov=1,在本文中權衡因子 F 很大程度上取決于準確率 Acc 的值。對比表 4 和表 5 的實驗結果可知,權衡因子 F 的值略高于準確率 Acc 的值,但是整體上的變化趨勢和 Acc 相同。
如表 6 所示,使用本文模型的誤分類損失整體上明顯低于其他 2 種模型,例如,在數據集 Student Evaluation 中,本文模型的誤分類損失比 NCTM 和 PCTM 分別降低了 478.1 和 287.0。從不同的模型角度分析,針對混合鄰域決策系統,PCTM 對劃分的要求較為苛刻,而 NCTM 對劃分的要求較于放松,容錯率低,導致劃分錯誤率提高;本文模型 MCTM 可靈活應用于不同類型的決策系統,容錯率高,所以具有更低的誤分類代價。
如表 7 所示,從整體上看,三種粗糙集粒計算模型所消耗的時間較少且隨著數據規模的增大而增多;從部分上看,NCTM 模型耗時相對較長,主要是由于 NCTM 是用鄰域關系計算鄰域類,每兩個對象之間都要計算,導致其時間復雜度較高。而 PCTM 模型和 MCTM 模型在耗時方面差異性不大,且差異性隨數據規模的增大而減小。
綜上所述,與其他 2 種不同的粗糙集模型進行實驗對比和分析可知,本文模型總體上具有較高的分類準確度和較低的誤分類損失,因此,用其對混合鄰域決策系統進行劃分較為合理。
4.3.3 本文模型和序貫三支決策模型的邊界域分類方法對比
為了進一步驗證本文模型的有效性,本小節將本文模型與序貫三支決策的方法進行實驗對比和分析。其中,MSTM (Mixed-Neighborhood Rough set based Sequential Three-way Decision Boundary Region Processing Model) 是基于經典序貫三支決策 [8]改造的基于混合鄰域粗糙集的序貫三支決策邊界域處理模型。實驗結果如表 8 所示,分別給出了 MCTM 和 MSTM 的分類準確度、權衡因子、誤分類損失和時間的對比。
由表 8 的實驗結果可知,在數據集 Ionosphere 和 Audit Data 上,本文模型 MCTM 的分類性能與 MSTM 相同,而在另外 8 個數據集上,本文模型 MCTM 的分類性能要優于序貫三支決策模型 MSTM。從理論上分析,由于 MSTM 直接由代價矩陣計算的閾值劃分邊界域對象,而本文在此基礎上進一步考慮條件概率和誤分類代價來劃分邊界域中的對象,因此本文模型 MCTM 在 Acc、F、Cost 和 Time 上表現較優。為此,在同等條件下,對于混合鄰域決策系統,本文基于屬性約簡的混合代價敏感三支決策邊界域分類方法為處理邊界域對象提供了一種可借鑒的分析方法。
5 結束語
近年來三支決策理論成為熱點研究問題,其研究對象多為單一型決策系統,然而,在許多的應用領域中,數據往往呈現混合類型的特點,目前三支決策對混合數據邊界域樣本處理的研究相對較少。為劃分混合決策系統中的邊界域對象,本文提出了基于混合數據的屬性約簡方法;并在此基礎上,提出了一種基于核屬性的代價敏感三支決策邊界域分類方法。通過在不同的數據集上進行實驗對比與分析,驗證了本文方法的可行性和有效性,獲得了一種相對合理的邊界域對象的劃分方法。由于序貫三支決策更加符合現實生活中的決策過程及人類的認知,下一步工作將研究基于代價敏感的序貫三支決策的粒化問題。
論文指導 >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >