隨著新媒體的不斷發(fā)展,對(duì)熱點(diǎn)輿情監(jiān)測(cè)的需求越來(lái)越緊迫,根據(jù)水利部門工作特點(diǎn)和遼寧省水利信息化建設(shè)的實(shí)際情況,開發(fā)了利用搜索引擎技術(shù)、文本處理技術(shù)、知識(shí)管理方法,通過對(duì)互聯(lián)網(wǎng)+海量信息自動(dòng)獲取、提取、分類、聚類、主題監(jiān)測(cè)、專題聚焦,實(shí)現(xiàn)用戶對(duì)遼寧水利網(wǎng)絡(luò)輿情監(jiān)測(cè)和熱點(diǎn)事件專題追蹤的水利輿情信息監(jiān)控系統(tǒng)。
《水利水電科技進(jìn)展》是由河海大學(xué)主辦的中國(guó)科學(xué)引文數(shù)據(jù)庫(kù)(CSCD)核心期刊、中文核心期刊、中國(guó)科技核心期刊、RCCSE核心期刊,近年來(lái)已連續(xù)多次獲全國(guó)水利水電系統(tǒng)優(yōu)秀期刊、華東地區(qū)優(yōu)秀期刊、江蘇省優(yōu)秀期刊等稱號(hào)。該刊為雙月刊,是以反映水利水電科技進(jìn)展和動(dòng)態(tài)為主的科技期刊。
1背景
隨互聯(lián)網(wǎng)技術(shù)不斷發(fā)展,繼報(bào)紙、廣播、電視之后網(wǎng)絡(luò)媒體已被公認(rèn)為第四大媒體,更有趕超和替代前者之趨勢(shì)成為反映社會(huì)輿情的主要載體之一。網(wǎng)絡(luò)輿情形成迅速,傳播范圍廣泛,其中一些輿情帶有網(wǎng)民的主觀性,未經(jīng)驗(yàn)證直接發(fā)布于網(wǎng)絡(luò)上對(duì)社會(huì)影響巨大。水利部門作為服務(wù)性行業(yè)與大眾生活息息相關(guān),其新聞一直都是網(wǎng)絡(luò)輿論關(guān)注的焦點(diǎn),及時(shí)發(fā)現(xiàn)并處理好水利輿隋信息是對(duì)新時(shí)期水利工作的新要求。
本著對(duì)國(guó)家和人民負(fù)責(zé)的態(tài)度,遼寧省水利輿隋信息監(jiān)控系統(tǒng)應(yīng)運(yùn)而生,以此建立高標(biāo)準(zhǔn)、起點(diǎn)高的全天候全方位網(wǎng)絡(luò)信息監(jiān)控,以先進(jìn)的技術(shù)手段對(duì)境內(nèi)外互聯(lián)網(wǎng)網(wǎng)站的內(nèi)容進(jìn)行監(jiān)測(cè),變事后處理為事前控制,為決策層全面掌握輿情動(dòng)態(tài),做出正確輿論引導(dǎo),提供分析依據(jù)。
2系統(tǒng)建設(shè)目標(biāo)
本系統(tǒng)以信息采集為核心,運(yùn)用內(nèi)容管理、知識(shí)管理、信息分類,完成水利輿情監(jiān)控和熱點(diǎn)追蹤等功能需求,實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)輿情中遼寧水利方面信息的監(jiān)管、監(jiān)測(cè),即時(shí)、實(shí)時(shí)發(fā)現(xiàn)信息。
建設(shè)目標(biāo)包含以下幾個(gè)方面:
1)監(jiān)測(cè)整個(gè)互聯(lián)網(wǎng)內(nèi)關(guān)于遼寧水利的相關(guān)報(bào)道,及時(shí)發(fā)現(xiàn)不良信息。
2)監(jiān)測(cè)地方媒體關(guān)于遼寧水利的評(píng)論或負(fù)面報(bào)道。
3)及時(shí)了解掌握最新重大事件。準(zhǔn)確收集關(guān)注需要的輿情信息。
4)借助技術(shù)手段,為早發(fā)現(xiàn)、早知道提供幫助。
5)追溯查詢網(wǎng)絡(luò)重點(diǎn)消息內(nèi)容的傳播途徑。
3系統(tǒng)工作流程
通過系統(tǒng)的采集與分析功能對(duì)互聯(lián)網(wǎng)有關(guān)報(bào)道或評(píng)論遼寧水利的各個(gè)方面的新聞或敏感言論做到及時(shí)返現(xiàn)、及時(shí)處理。
1)信息采集:完成互聯(lián)網(wǎng)中水利輿情的信息實(shí)時(shí)監(jiān)測(cè)、采集、內(nèi)容提取及排重;
2)信息處理:實(shí)現(xiàn)對(duì)從互聯(lián)網(wǎng)中抓取的水利輿情信息進(jìn)行自動(dòng)分類聚類、主題檢測(cè)、專題聚焦等;
3)信息服務(wù):將采集并分析整理后的輿情信息提供輔助處理信息服務(wù),如提供輿情信息簡(jiǎn)報(bào)服務(wù)、追蹤已發(fā)現(xiàn)的輿情焦點(diǎn)等。
系統(tǒng)既支持指定網(wǎng)站新聞、博客、論壇、貼吧的采集監(jiān)控,又支持通過關(guān)鍵詞對(duì)整個(gè)互聯(lián)網(wǎng)進(jìn)行監(jiān)控。(包括論壇、博客、貼吧)
4系統(tǒng)關(guān)鍵技術(shù)
1)信息抽取技術(shù)
網(wǎng)頁(yè)是組成互聯(lián)網(wǎng)的基本數(shù)據(jù)單位元,是各種面向互聯(lián)網(wǎng)的應(yīng)用系統(tǒng)最原始的數(shù)據(jù)源。網(wǎng)頁(yè)內(nèi)部含有大量噪音信息,如何從網(wǎng)頁(yè)中有效地提取有價(jià)值的內(nèi)容成為影響數(shù)據(jù)處理效果的關(guān)鍵。
2)重復(fù)識(shí)別技術(shù)
采用動(dòng)態(tài)詞典,將詞編碼成數(shù)字ID序列,為了控制動(dòng)態(tài)詞典容易膨脹,又設(shè)計(jì)了詞典溶解技術(shù),保證很高的訪問效率。
3)內(nèi)存池技術(shù)
采用了內(nèi)存池,先在內(nèi)存中建索引,再寫至磁盤,數(shù)據(jù)在內(nèi)存中進(jìn)行二次壓縮,保證了內(nèi)存新能優(yōu)化。
4)超鏈分析技術(shù)
采集最主要的依據(jù)就是URL,而任何一個(gè)網(wǎng)頁(yè)中又包含了若干互相的鏈接,這就對(duì)URL尋址帶來(lái)了很大程度上的干擾性,所以系統(tǒng)采集到第一個(gè)頁(yè)面后就把相關(guān)的信息進(jìn)行了智能識(shí)別。
5)智能化處理技術(shù)
智能化處理技術(shù)要解決的核心問題是計(jì)算機(jī)對(duì)信息“內(nèi)容”的理解。
5系統(tǒng)組成結(jié)構(gòu)
整個(gè)系統(tǒng)分為四個(gè)主要子系統(tǒng)。分別是信息采集系統(tǒng),智能分析系統(tǒng),信息檢索系統(tǒng),數(shù)據(jù)發(fā)布系統(tǒng)。
1)信息采集系統(tǒng)
主要用于實(shí)時(shí)監(jiān)控指定互聯(lián)網(wǎng)上各類新聞?wù)军c(diǎn)的敏感信息、以及有害信息的網(wǎng)站。模塊可以自動(dòng)執(zhí)行,無(wú)須人工干預(yù)。根據(jù)網(wǎng)站的特點(diǎn),將網(wǎng)站分為重點(diǎn)監(jiān)控和普通監(jiān)控,對(duì)于重點(diǎn)監(jiān)控系統(tǒng)采取循環(huán)搜索的方式,對(duì)于普通監(jiān)控只要在模塊中,設(shè)定好啟動(dòng)、結(jié)束的時(shí)間,時(shí)間一到搜索引擎服務(wù)器會(huì)自行啟動(dòng)搜索任務(wù)。搜索引擎將按照多種搜索策略并提供各種方式各種邏輯組合查詢(包含“and”、“or”、“not”、“(”、“)”的組合邏輯關(guān)系及“一”、“%”等通配符)統(tǒng)計(jì)和處理。系統(tǒng)支持簡(jiǎn)體和繁體同時(shí)查詢系統(tǒng),提供各種報(bào)表打印功能。系統(tǒng)支持新聞、博客、論壇、貼吧的采集及監(jiān)控。
2)智能分析系統(tǒng)
智能分析系統(tǒng)是整個(gè)系統(tǒng)的關(guān)鍵組成部分,其主要作用是對(duì)信息采集系統(tǒng)采集下來(lái)的數(shù)據(jù),進(jìn)行自動(dòng)智能分析。自動(dòng)分析功能包括:自動(dòng)生成熱點(diǎn),自動(dòng)區(qū)分正負(fù)面信息,自動(dòng)分類,自動(dòng)標(biāo)記重復(fù)(轉(zhuǎn)載)文章,自動(dòng)生成統(tǒng)計(jì)圖表等功能??梢愿鶕?jù)發(fā)表內(nèi)容出處權(quán)威度、時(shí)間、密集程度等參數(shù),判斷出給定時(shí)間段內(nèi)的熱門話題。使用內(nèi)容主題詞組和回帖數(shù)進(jìn)行綜合語(yǔ)義分析,識(shí)別敏感話題。判斷新采集到的文章、帖子的話題是否與已有內(nèi)容相同,根據(jù)文檔內(nèi)容間的相關(guān)程度進(jìn)行分組歸并。
3)信息檢索系統(tǒng)
對(duì)采集后的信息進(jìn)行加工處理,按內(nèi)容分類、關(guān)鍵詞(查詢方式又分為標(biāo)題查詢、關(guān)鍵詞查詢、正文查詢),時(shí)間范圍進(jìn)行檢索查詢,以便獲取最需要的關(guān)鍵信息。
4)數(shù)據(jù)發(fā)布系統(tǒng)
數(shù)據(jù)發(fā)布系統(tǒng)為整個(gè)系統(tǒng)的發(fā)布界面,也就是對(duì)智能分析系統(tǒng)生成的數(shù)據(jù)進(jìn)行發(fā)布。主要包括:采集數(shù)據(jù)統(tǒng)計(jì),領(lǐng)導(dǎo)人(名人)信息,地區(qū)信息,趨勢(shì)統(tǒng)計(jì),熱點(diǎn)新聞,熱點(diǎn)帖子,熱點(diǎn)博客,分類信息,個(gè)性化追蹤,簡(jiǎn)報(bào)系統(tǒng),文章細(xì)覽頁(yè)面,系統(tǒng)管理等等。
6結(jié)束語(yǔ)
本套系統(tǒng)區(qū)別于公眾搜索引擎采用覆蓋所有中文搜索引擎,批量自動(dòng)更新,系統(tǒng)配備自動(dòng)過濾功能對(duì)海量信息進(jìn)行預(yù)處理,達(dá)到近似用戶所要的內(nèi)容,只需在一個(gè)界面中就可以瀏覽自己所需的內(nèi)容,從而對(duì)用戶關(guān)心的突發(fā)事件進(jìn)行及時(shí)處置,為決策者提供有力的支持,該系統(tǒng)的開發(fā)使用對(duì)遼寧省水利輿情監(jiān)管工作具有重要意義。
論文指導(dǎo) >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >