摘 要:[目的/意義]在高維數據環境下,推薦的精準度和實時性存在相互制約的現象。如何在精準度與實時性之間取得平衡,實現對推薦質量的有效控制是值得研究的問題。[方法/過程]本文首先分析了高維數據環境的成因及其對推薦質量的影響,在此基礎上構建了一種個性化推薦質量控制模型,該模型先評估推薦質量在精準度和實時性兩個方面的損失,再結合應用環境,得到相應的質量控制策略。[結果/結論]實驗分析的結果證明該模型可以在高維數據環境下實現對推薦質量的有效控制,讓推薦系統可以更好地適應不同的應用環境。
關鍵詞:高維數據環境;大數據;個性化推薦;推薦質量;控制;模型;應用環境
個性化推薦技術在電子商務、社交、廣告和新聞領域都取得了商業上的成功,受到眾多學者的關注。精準度和實時性是個性化推薦質量的兩個核心指標,推薦的精準度越高、實時性越強,就表示推薦質量越好。大數據時代的來臨,高維數據環境對推薦系統來說已經成為常態。在高維數據環境下,個性化推薦的精準度和實時性存在相互制約的現象,即:在追求更高精準度的同時,其推薦實時性往往會下降,反之如果想實現更高實時性則精準度也會受到影響。
因此,當應用環境變化需要調節推薦的精準度或者實時性時,就必須在它們兩者之間取得一個平衡,不能為了提升一個推薦質量指標,而導致另一個推薦質量指標的大幅下降,這樣系統的推薦質量是無法保證的。由此,本文提出一種面向高維數據環境的個性化推薦質量控制模型,該模型通過對比推薦質量在精準度和實時性兩個方面的損失,來尋找有效的推薦質量控制策略,讓推薦系統可以更好地應對不同的應用環境。本研究不僅豐富了個性化推薦的理論體系,也為實際應用提供借鑒。
1 相關研究
個性化推薦是通過一定的技術手段來挖掘數據中的用戶興趣,再根據用戶興趣挖掘的結果來篩選待推薦的項目,最后生成推薦集合推送給目標用戶。目前有關個性化推薦的研究中,比較有代表性的有:
1)根據內容相似性來實現推薦。安悅等[1]提出一種基于內容的熱門微話題個性化推薦算法,該算法通過對比內容的相似性為用戶尋找感興趣的微話題,實驗結果表明該算法可以在一定程度上解決微博數據過載的問題,實現較好的推薦效果。王嫣然等[2]提出一種基于內容過濾的科技文獻個性化推薦算法,該算法將訪問時間權重和文獻重要度兩種概念與內容過濾相結合,實現了推薦精準度的提升。王潔等[3]先根據歷史瀏覽記錄對有相同興趣的用戶進行聚類,再通過內容相似性挖掘尋找推薦項目,實驗證明該個性化推薦方法可以有效提升推薦的精準度。
2)根據社交網絡中的用戶關系實現推薦。陳婷等[4]提出一種融合社交信息的個性化推薦方法,該方法將用戶評分相似度與社交網絡中的信任關系兩者相結合來尋找最近鄰,結合用戶自身偏好和最近鄰的影響實現評分預測,實驗結果證明該算法可以提升推薦的精準度。李鑫等[5]提出了一種基于興趣圈中社會關系挖掘的個性化推薦算法,該算法將興趣圈中的社會關系與矩陣分解模型相結合,實現矩陣分解的優化,實驗證明該方法在解決推薦冷啟動方面有較好的效果。Ma H等[6]將信任網絡與用戶評分結合,通過概率矩陣分解來優化推薦。景楠等[7]提出了一種基于用戶社會關系的好友個性化推薦算法,該算法將用戶在社會網絡中的影響力和社會關系相結合實現推薦算法的改進。
3)利用標簽信息來改進推薦效果。陳梅梅等[8]提出了基于標簽簇的信任張量模型,再通過計算簇內和簇間的信任強度,實現對傳統相似性計算的補充,從而改進個性化推薦的準確性。孔欣欣等[9]提出一種基于標簽權重評分的個性化推薦模型,并結合該模型對多類傳統推薦算法進行改進,實驗證明了該模型的有效性。李瑞敏等[10]通過分析用戶、標簽和項目之間的關系建立圖模型,在此基礎上將初步推薦列表與間接關聯集合進行綜合,實現對推薦算法的改進。
4)融合情境的個性化推薦。劉海鷗等[11]提出了一種對多種情境進行興趣建模的方法,該方法可以提升推薦的精準度。周明建等[12]用多維度建模法構建了知識情境模型,通過計算知識情境的相似性來尋找關聯知識并實現推薦,實驗表明該方法提升了個性化推薦的精準度。
5)基于協同過濾的個性化推薦。杜永萍等[13]將用戶間的信任關系與評分相似性相結合來尋找最近鄰,實現對傳統協同過濾推薦算法的改進。董立巖等[14]提出一種基于時間衰減的協同過濾個性化推薦算法,該算法將遺忘曲線和記憶周期融入協同過濾推薦中,以興趣衰減函數來優化評分相似性的判斷,實驗證明該算法可提高推薦的精準度。
郭蘭杰等[15]提出一種融合社交網絡的協同過濾個性化推薦算法,該算法利用社交網絡中的朋友關系來進行評分矩陣的填充,可有效緩解數據稀疏性問題,實現算法的改進。郭弘毅等[16]提出一種融合社區結構和興趣聚類的協同過濾改進算法,該算法先識別社交網絡中的社區結構,再與用戶興趣聚類信息進行融合來共同優化矩陣分解模型,實驗證明該算法提升了推薦的精準度。
總體來看,目前針對個性化推薦的研究中,無論是優化相似性的度量方法,還是改進最近鄰的查找流程,或是優化矩陣降維的方法等等,其改進的思路都是通過對推薦算法的不同環節進行優化改進來提升推薦質量。大數據時代,推薦系統經常面對高維的數據環境,高維數據環境下推薦精準度和推薦實時性相互制約的現象,會嚴重影響推薦質量的穩定,讓推薦系統無法適應應用環境的變化,而目前恰恰缺少對該問題解決方法的研究。由此,本文提出一種面向高維數據環境的個性化推薦質量控制模型,為解決該問題提供參考。
2 推薦系統高維數據環境的形成原因
大數據時代用戶數據極大豐富,個性化推薦系統為了更好地感知用戶的興趣偏好,會通過不同渠道收集用戶的各類數據,并將它們集中存儲起來作為推薦算法的數據源。如果這些數據源中的數據具有很高的維度,那么推薦系統就處在高維數據環境當中。推薦系統高維數據環境的形成原因主要有以下兩點:
第一,用戶數和項目數的快速增長,導致推薦系統主數據源的維度大幅增加。個性化推薦系統是通過分析用戶已有消費或評分記錄,來判斷用戶的興趣,再在用戶未消費過的項目中匹配合適的推薦項目。因此,用戶消費或者評分的歷史記錄就是推薦系統的主數據源。隨著用戶數和項目數的快速增長,用戶歷史消費記錄矩陣或用戶對項目的評分矩陣都會大幅擴容,形成高維數據環境。
第二,由于數據之間存在關聯關系,附屬數據源的維度也會快速增長。上文提到推薦系統會收集各類用戶數據作為興趣感知源。本文將歷史消費信息與評分信息以外的數據統稱為附屬數據源。這些附屬數據雖然來源很多,數據類型和數據格式也很復雜,但它們都有一個共同特點,就是可以根據用戶的行為軌跡進行關聯。
這樣一來不同類型的用戶數據不再是相互孤立的,而是通過這種關聯關系緊密地聯系起來。因此,當主數據源的維度增加時,附屬數據也必須進行相應擴容。比如將用戶背景信息、社交網絡、標簽等與歷史購買記錄或用戶評分進行融合來實現推薦時,當購買記錄矩陣或評分矩陣的維度增加時,與之對應的用戶背景信息、社交網絡信息或者標簽信息的數據維度也在增長,這些附屬數據維度的增長速度甚至快于主數據源本身,由此進一步促使了推薦系統高維數據環境的形成。
3 高維數據環境對個性化推薦質量的影響
精準度與實時性是個性化推薦質量的兩個核心指標,以下將分別介紹高維數據環境對推薦精準度和推薦實時性的影響,最后分析了精準度與實時性在高維數據環境下相互制約的原因。
3.1 高維數據環境對推薦精準度的影響
個性化推薦是通過分析用戶行為數據或用戶背景數據等信息來判斷用戶的興趣偏好。用戶的興趣是多方面,每個方向上都可能有潛在的興趣點,要想感知這些興趣,就需要有相應的用戶數據。總的來說,用戶興趣感知源越多,就越能從多個側面來推斷用戶的偏好。當推薦系統處于高維數據環境時,主數據源和附屬數據源都涵蓋了大量的有用信息,推薦系統可以利用不同的算法模型來挖掘用戶的興趣。從這個角度來說,高維數據環境對提升推薦精準度有正面的作用。
比如推薦系統可以利用用戶背景數據與消費評價數據進行融合,在多個用戶背景維度上對其興趣進行細分,這樣預測出的用戶興趣的精準度會大大提高,同樣的結合項目本身的屬性或者社交網絡、信任關系等也可以提升推薦的精準度。總的來說,高維數據環境為推薦系統提供了豐富的興趣感知源,為推薦精準度的提升奠定了數據基礎。
3.2 高維數據環境對推薦實時性的影響
推薦實時性也是推薦質量的重要指標,當用戶訪問網站時,推薦系統必須快速地識別用戶的潛在意圖,并及時給予推薦,這樣用戶根據系統推薦進行進一步的選擇。如果推薦集合的計算時間太長,無法保證推薦的實時性,用戶可能跳轉到另外一個頁面,其興趣可能已經發生轉化,或者在新的頁面下已經沒有了推薦欄的設置,無法實現推薦。
這樣系統的推薦質量會大大下降,用戶體驗也會降低。因此,保證推薦實時性對推薦系統來說非常重要。在高維數據環境下,用戶興趣感知源的增加,對推薦精準度來說是利好,但是對于推薦實時性來說,會使得興趣挖掘的計算復雜度大幅提升,從而導致系統開銷過大,直接影響推薦系統的響應。特別是將附屬數據源與主數據源進行融合挖掘時,計算復雜度的數量級會大大增加。此外,當大量用戶同時訪問時,系統的負擔會進一步加重,系統響應時間也會延長。總的來說,高維數據環境會降低推薦的實時性。
推薦閱讀:大數據市場下工業工程在制造業的應用
論文指導 >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >