IDC報告顯示,未來幾年全球大數據技術和服務市場將保持365,438+0.7%的年復合增長率,2065,438+06年市場總規模有望達到238億美元。照此計算,大數據市場的增速將達到同期整個信息通信技術領域增速的7倍。這個市場正在迅速吸收各種現有市場和新市場的技術和服務。目前壹些IT行業龍頭如IBM、微軟、甲骨文、惠普、EMC等都看好這壹領域,紛紛投入人力、財力進行布局。
根據IDC的數據,在過去的五年中,人類行為產生的數據量增長了10倍,在未來的10年中,這壹增長將達到29倍。但是80%的數據是非結構化數據,如何挖掘和利用數據將成為大數據的價值點和難點。
中國計算機大會指導委員會主席、北京大學教授高文近日在接受本刊采訪時表示,大數據不僅被業界廣泛關註,也是技術領域的熱點。從技術角度來說,數據挖掘就是大數據的價值,但是數據挖掘還存在很多問題,與我們的預期相差甚遠。他表示,阿裏巴巴在數據挖掘方面做了嘗試,阿裏金融物流已經從電商的海量交易數據中衍生出來,但這只是在商業領域的價值,並沒有在社會變革中釋放能量。未來,大數據會給社會帶來更多的改變。
大數據帶來的價值也正在被業界和學術界廣泛討論。近年來,大數據不斷滲透到各行各業,給每壹個領域帶來革命性的影響,正在成為各行業創新的驅動力和助推器。在此期間,隨著互聯網社交技術的不斷發展和創新,人們越來越習慣於通過微博、微信、博客、論壇等社交平臺分享各種信息和數據,表達訴求,建言獻策。每天在這些平臺上傳播的數據量高達數百億甚至數千億。這些龐大的社會數據構成了大數據的重要組成部分,在政府收集輿情動向、企業了解產品口碑、公司開發市場需求等方面發揮著重要作用。
如今,雖然互聯網已經成為收集民意、了解政府和企業工作成效的非常有效的途徑。然而,由於缺乏必要的網絡發帖監管措施,輿情危機發生後難以及時有效地獲取有深度、高質量的網絡輿情信息,往往導致輿情危機事件處理上的被動。因此,重視網絡輿情應對,建立“監測、響應、匯總、歸檔”的輿情應對體系,成為大數據時代政務的重要內容之壹。
在此背景下,輿情監測與分析行業應運而生,以適應大數據時代的輿情監測與服務。主要是通過海量信息采集、智能語義分析、自然語言處理、數據挖掘、機器學習等技術,對網站、論壇、博客、微博、平面媒體、微信等信息進行持續監測,及時、全面、準確地掌握各類信息和網絡動態,從浩瀚的大數據宇宙中探索事件的征兆,總結輿情趨勢,把握公眾態度和情緒,結合歷史相似性和類似事件進行趨勢預測和建議。
大數據在輿情監測中的應用價值
(壹)大數據價值的核心:輿情預測
傳統網絡輿情引導的出發點是對已經發生的網絡輿情進行監控。但是,這種方法的局限性在於它的滯後性。大數據技術的應用是對網絡輿情相關數據進行挖掘分析,將監測的目標時間提前到網絡敏感新聞傳播的初期,通過建立的模型模擬實際網絡輿情的演變過程,實現網絡突發輿情的預測。
(2)大數據發揮價值的條件:綜合輿情
大數據技術預測輿情的首要條件是對各種相關綜合數據進行分析計算。傳統數據時代,在分析網民觀點或輿情趨勢時,只關註網民的態度和情緒,忽略了網民的心理變化;只關註文字信息,對圖片、視頻、語音等內容關註較少;只觀察局部的輿論變化,忽略其他群體的輿論變化;只解讀網友的文字內容,卻忽略了復雜多變的社會關系網絡。從輿情分析的角度來看,網民只是信息海洋中的“孤獨僵屍”,就像蟻群可以湧現出高智能,而單個螞蟻卻像火鍋壹樣跑來跑去。
大數據時代,突破了傳統數據時代片面、單壹、靜態的思維,開始對網絡輿情數據進行立體、全局、動態的研究,將看似無關緊要的輿情數據納入分析計算的範圍。
(C)大數據價值的基礎:民意量化
大數據預測輿情價值的實現,必須建立在運用數學模型對挖掘出的海量信息進行科學計算和分析的基礎上,前提是各種相關數據的量化,即所有的輿情信息都可以量化。但數據量化並不等同於簡單的數字化,而是數據的可計算性。需要在關註網友評論的同時,統計持此意見的人數;在解讀網民發言內容的同時,統計網民互動的社交網絡數量;網民情緒的變化可以通過量化指標來識別。
(D)大數據價值的關鍵:民意相關性
數據背後是網絡,網絡背後是人。研究網絡數據,其實就是研究人員組成的社交網絡。大數據技術預測輿情價值實現的關鍵技術是對輿情之間的關系進行關聯,這將不僅關註傳統意義上的因果關系,更關註數據之間的相關性。按照大數據思維,每壹個數據都是壹個節點,可以和其他相關數據在輿情鏈上無限形成乘法效應——類似微博裂變傳播路徑,數據的裂變相關狀態蘊含著無限可能。
大數據時代的輿情監測瓶頸
目前,輿情監測工作的主要手段仍然是人工搜索。雖然也使用市場上相對成熟的搜索軟件進行輔助搜索,但仍然采用傳統的二維搜索方式,即主題關鍵詞和網絡平臺二維坐標進行輿情搜索,由輿情工作人員將收集到的信息加工成輿情產品。然而,輿情信息的結果大多是壹等文本信息。對於深層次的多層次輿情信息,如新聞、微博後評論、網民的社會關系、網民對某壹事件的評論所反映的情緒變化,以及網民的煽動性和行動性言論、暗示等數據,無法深入挖掘,仍然依靠人工收集、分析和判斷。受制於輿情工作人員不同的知識水平和價值判斷,很有可能丟失有價值的輿情信息,無法準確及時地預測輿情走向,大大降低了輿情監測工作的效率和準確性,增加了發現有價值輿情信息的偶然性和猜測性,為重大突發事件的輿情預測埋下隱患。
大數據背景下輿情監測的實施
大數據的采集和處理是輿情監測的基礎。掌握數據把握能力,通過“加工”實現數據的“增值”,是輿情監測分析的必備技能。由於Dorrico輿情數據分析站系統開發的先進采集技術,用戶不僅可以監控各類文本信息,還可以配置系統采集並獲取部分話題的最新回復內容,獲取其詳細信息,如瀏覽量、回復數、回帖人、回復時間等。很多網站結構復雜,或者使用Frame或JavaScript動態編寫內容或者Ajax技術實時自動刷新內容,這些都是普通爬蟲技術難以或者無法處理的。對於收集和監測到的信息,系統可以自動分類,以負面輿情、與我相關、我的關註、專題跟蹤等欄目分類呈現,讓用戶直奔主題,盡快找到自己需要的信息。
對趨勢的研究是大數據時代輿情監測的目標。現在人們可以從海量的數據中挖掘信息,判斷趨勢,提高效率,但這遠遠不夠。信息爆炸的時代,要求人們不斷加強對相關輿情信息的分析和預測,將監測的重點從單純收集有效數據擴展到對輿情的深入研判。多瑞科輿情數據分析站系統對監測到的負面信息進行專項重點跟蹤監測,對重點首頁進行定期截屏監測和專題頁面證據保全。監測人員可以對系統自動識別和分類的信息進行重新選擇和分類,並可以根據工作需要輕松導出包含分析數據圖表的輿情日報和周報,降低輿情數據分析和統計映射的復雜度。對於壹些敏感信息,系統還可以通過短信和郵件及時通知用戶,讓用戶隨時遠程掌握重要輿情動態。
大數據時代需要大采集、大分析,這是數據爆炸背景下數據處理和應用需求的體現。而傳統的人工采集和人工監控顯然難以滿足大數據背景下的數據需求和應用的要求。Doreco輿情數據分析站系統成功實現了對互聯網海量輿情的自動實時監控、自動內容分析、自動報警等功能。有效解決了輿情監測的傳統人工實施問題,加快了網絡輿情的監管效率,幫助組織力量進行信息整理、分析、引導和應對,提高了用戶應對網絡輿情突發公共事件的能力,加強了對互聯網“大數據”的分析研判。