在高度重視大數據思維的同時,也要理性對待其局限性:對全數據模式的誤解、量化思維的焦慮和對相關性的過度崇拜;要從整體考慮,定量整合定性,因果強調相關互補,實現大數據思維的超越。
隨著新壹代信息技術的快速發展,特別是移動互聯網、大數據、雲計算、智能穿戴等技術的廣泛普及,數據呈爆炸式增長,人類社會進入了以數據為特征的大數據時代。“壹切都被記錄、壹切都被分析的數字化時代的到來是不可阻擋的”。【1】在10的大數據環境下,數據成為驅動經濟社會發展、創造更大經濟社會效益的“新能源”。在科學研究領域,計算機科學圖靈獎獲得者吉姆·格雷提出了科學研究的“第四範式”,即基於數據密集型計算的研究範式。在此背景下,“量化壹切”、“讓數據說話”成為時代口號。人們更註重“所有數據代替樣本”的整體性思維,追求“量化代替定性”的定量思維,強調“相關性代替因果性”的相關思維。這無疑對傳統的通過追求規律性、因果性、抽樣方法來把握事物之間關系的思維產生了很大的沖擊。但是,任何事物都是對立統壹的。在當前的大數據思維熱潮中,需要保持理性,辯證看待其帶來的思維變革,認真對待其局限性,探索互補之道,在思維層面更好地適應大數據時代的生存發展。
1大數據思維的局限性
1.對全數據模式的誤解
隨著各種傳感器和智能設備的普及,可以實現對事物的實時監控和數據采集傳輸,從事物中獲取的數據不僅僅是樣本數據,而是所有的數據。這種模式稱為“全數據模式”。在全數據模型的基礎上,可以更全面地分析和把握事物的特征和屬性,也有利於更客觀、更科學的決策。但對於全數據模型,也有學者提出“N = all”往往是數據的假設,而不是現實。所以在追求數據充分的同時,有必要進行必要的推敲。
首先,我們逐漸陷入了數據爆炸式增長和技術落後的矛盾中。在大數據環境中,數據在快速變化,而不是靜止不變。據IBM估計,每天新產生的數據量達到2.5 * 1018字節。如果把1立方米的水比作壹個字節,其數據量甚至比地球總蓄水量還要大,為1.42 * 1018立方米,其數據增量非常驚人。即使數據技術水平提高很快,但仍然落後於數據的增長速度。“即使我們確實收集了所有的數據並用技術進行分析,我們也只能抓住點與點之間的關系或者抓住局部的相關性。但這並不意味著可以得出事物的普遍規律和趨勢。”這說明技術的相對滯後阻礙了全數據模式的實現。
其次,“數據孤島”的客觀存在限制了“全數據模式”的實現。要實現“全數據模式”,其重要前提是實現數據開放和* * *共享。隨著數據的價值被企業和政府所熟知,數據開放和共享已經取得了壹定的成果,但是到目前為止,數據資源的流通渠道還沒有完全打通,“數據孤島”的問題還在壹定程度上存在。主要表現在:壹是沒有真正實現跨行業的數據流動。企業和政府在認識到數據的潛在價值後,快速實現數據資源在部門之間或部門內部的流動,以方便組織的便捷發展。然而,在各數據主體利益的驅動下,部門之間、部門內部的數據並沒有實現真正的相互流動,這成為“數據孤島”中又壹個亟待解決的重要問題。二是數據交易市場的興起,在壹定程度上加劇了“數據孤島”的形成。在利益的驅動下,以數據銷售為盈利模式的新興企業必然會提高所收集數據的保密性,這種心理和行為也會使“數據孤島”問題更加突出。三是企業對接速度慢,數據更新速度快,使得“數據孤島”問題突出。因為技術的發展速度趕不上數據的增長速度,數據更新慢,新舊數據的* * *會“蒙蔽”人們的視野,導致新壹級的“數據孤島”。因此,所謂的“全數據模式”可能會成為我們所期待的壹種理想狀態,成為數據技術發展所建構的壹個新的“烏托邦”,成為信息社會的壹個投影——柏拉圖的洞穴陰影。
最後,大數據的關鍵價值不是“大”和“全”,而是“有用”。追求全數據模式會造成壹種錯覺,認為只要能獲取所有數據,就能挖掘出更多的數據價值。目前可以挖掘價值的數據大部分是計算機可以識別的結構化數據,但是在整個數據世界中,大部分有價值的數據都是基於文檔沒有被識別的非結構化數據。2014,非結構化數據占總數據的80%以上,2015,占比超過85%。同時,非結構化數據的增長率是結構化數據的兩倍以上。這就導致壹些非結構化數據因為無法識別為“數據垃圾”而無法識別,最後被丟棄。這樣,我們所謂的“全數據模式”的實現將變得更加困難。
2.量化思維焦慮
大數據時代,自然界和人類社會的壹切現象和行為變化都是數字化的,有可能“量化壹切”。同時,在定量思維中需要註意幾個問題。本體和方法的缺陷在當今的大數據時代,人的壹切活動都會留下數據的痕跡,整個世界將逐漸演變為數字世界,數據世界觀不斷凸顯。在數據世界觀的指導下,“量化壹切”成為大數據時代的方法論。哲學家們也開始反思數據與世界的關系,甚至提出了“世界的起源是數據”的結論。但是數據成為世界的本體了嗎?我們認為,之所以會產生這樣的想法,主要是因為對數據本質的認識存在偏差,這需要慎重考慮。
首先,大數據的數據來源主要基於人們在社會生活中有意識或無意識的行為。換句話說,大數據是人們社會生活中感性客觀活動客觀存在的量化反映,“量化壹切”是大數據時代認識事物的理想方式。所以,本質上,數據的來源還是客觀物質世界。沒有物質世界,數據就會變成“無源之水,無本之木”。
其次,“量化萬物”的主要目的是收集、傳輸、存儲和分析人們過去感性客觀活動產生的數據,從而幹預和指導人們的行為。其主要作用是提高預測的客觀性和科學性,充分發揮人的主觀能動性和創造性。但這種“量化壹切”的理想方法,只意識到了“數據是人類社會生活的靜態數據”,卻忽略了“人類社會生活是動態數據”這壹客觀事實。它把整個人類社會生活看成是壹個沒有生命力的靜態數據集,忽略了整個自然界和人類社會中的許多現象都是瞬息萬變、錯綜復雜的。
(2)個人行為是“被選擇的”
量化預測會讓個體行為“被選擇”。基於大數據技術對人的行為、態度、性格進行量化分析和處理,可以預測並幫助人們找到所謂合適的婚戀對象,但我們也會問:系統為個人找到的這個對象是不是最合適的?如果按照數據的量化分析,做出這種選擇,是否應該拋棄個人的直覺和感覺?我們是放棄選擇的權利,還是跟隨制度讓我們“被選擇”?從另壹個角度看,這是對感性與理性關系的壹種理解:感覺、靈感等感性因素是人類生命之初的唯壹,是人類對整個自然和社會最本能的直覺。理性是在感性的基礎上逐漸發展起來的。人們更重視理性,主要是因為理性因其邏輯清晰嚴密而容易掌握,而感性因其不確定性而容易被忽視。但也正因為如此,理性是有限的,而感性則因其表現的不確定性而無限延伸,也能對不斷變化發展的世界做出最本能的直觀反應。我們對基於大數據分析找到所謂合適的戀愛或結婚對象心存疑慮,因為就像人腦不能被電腦取代壹樣,感性也不能被理性取代。
大數據分析預測的對象可能是壹個很好的選擇,但不壹定是合適的或者最好的選擇,這種預測實際上已經對個體的選擇自由產生了壹定的影響。
(3)數據獨裁的加劇
量化預測加劇“數據獨裁”。數字思維的核心是量化,或者說“用數據說話”。定量分析做出的成功預測,會進壹步加劇人們對數據資產的依賴。沃爾瑪所謂的“啤酒和尿布”的成功故事是經驗性的。現在,企業和政府更加重視數據的作用,尤其是在決策過程中。似乎數據的缺失會大大降低其說服力。如果政府根據數據做出任何決定,都會產生相反的後果。比如今年GDP是6%,去年是6.3%,比去年低0.3個百分點,是不是就可以得出今年經濟壹定比去年差的結論?顯然,僅僅根據這個數據做出這樣的評估是不客觀的。互聯網哲學家葉夫根尼·莫羅佐夫(Yevgeny Morozov)尖銳地批評了許多“大數據”應用背後的意識形態,並警告說,“數據暴政”即將發生。“言無意圖,意從上下文來”,所以數據分析和預測需要與相應的場景相關聯,否則就會出現“歧義”。
(4)隱私窺視和道德拷問
“量化壹切”進壹步暴露了個人隱私,而量化預測有時是違背道德倫理的。第壹,個人隱私暴露在陽光下。可穿戴工具、智能芯片等智能設備的應用,可以實時監控所有人的行為。我們在“第三只眼”的監控下,壹絲不掛,成為“透明人”。例如,各種醫療傳感器可以實時監測個體的生理變化。其次,數字隱私的泄露加深了社會歧視。隨著個人行為的數字化,在數據利益的引導下,很容易發生隱私泄露,這也會加深社會的歧視程度。比如醫院泄露個人醫療數據,顯示某人有艾滋病病毒,人們就帶著有色眼鏡看待這個人,導致心理失衡,生活受阻,就業困難等等。除了個人人權受到侵犯,社會歧視的程度也進壹步加深。最後,大數據預測有時違背人類道德。眾所周知,Target有壹個項目分析,就是基於個人瀏覽和購買孕婦產品的數據分析,可以提前預測到女孩懷孕的時間,並把相關的懷孕產品優惠券給女孩,但女孩的父親並不知情,得知後罵了經理。這件事背後有兩個問題值得深思:壹是公司是如何得知女孩懷孕的?個人隱私是如何泄露的?另壹方面,我們的隱私是偷窺,是在個人不知情、不同意的情況下獲得的,這不僅讓個人感到恐慌,也違反了法律。第二,父親作為女孩最親近的人,還沒有了解到這件事,但是公司已經了解並先推送了優惠券。這是對別人的不尊重嗎?是否違背道德倫理?相關的倫理問題值得反思。
3.相關性過度使用
大數據的核心思維是關聯思維,但關聯思維也導致了生活實踐中過度崇拜的問題。人們之所以偶像化相關思維,有幾個原因:首先,海量數據的存在使得人們無法從眾多雜亂的數據中直接挖掘出真正有價值的東西,所以人們只能通過統計相關性分析,得到事物之間的關聯性,進而進壹步挖掘出背後真正的“知識”。其次,在高度復雜和不確定的時代背景下,人們探索事物之間的因果關系更加困難。復雜性科學告訴我們,世界是復雜的、普遍的,這就要求我們用復雜性思維看待世界,把整個人類社會作為壹個整體來把握和研究。關聯思維從宏觀角度把握事物的關聯性,加劇了人們對關聯思維的崇拜。最後,在快速變化的環境中,相關性分析更適合企業經營的邏輯:只重形式不求原因。對於實際的商業活動來說,追求的是在最短的時間內以最低的成本獲得最大的利潤,這進壹步加劇了企業對相關思維的過度崇拜。“大數據的本質是壹種統計相關性。從現象上看,與經典科學中的統計規律是壹致的,這也是他們相同或困惑的地方”[2]。但在使用相關性分析時,要註意以下兩個問題:第壹,相關性分析的關鍵是找到“相關對象”。隨著數據量的增長,數據的廣度和深度也在不斷擴大,無意義的冗余和垃圾數據越來越多,帶來了更多的數據噪音,真正有價值的數據被淹沒。如何從紛繁的數據噪音中找出“相關性”,是大數據分析中需要解決的重要問題。第二,偽關聯和偽關聯的客觀存在是大數據分析的難點。統計學上的相關有很多種,有正相關和負相關,有強相關和弱相關,也有假相關和假相關。虛假關聯等相關關系會導致錯誤的分析結果,帶來嚴重的後果。谷歌流感系統的幾個流感預測錯誤證實了這壹點。如何識別虛假關聯等相關關系,是大數據分析需要突破的難點。尋找事物的因果關系是人類由來已久的思維定勢和習慣,也是把握事物內在本質的必要途徑。著名的科學哲學家賴興巴赫認為:“沒有因果關系就沒有關聯。”防止對相關思維的盲目崇拜,突破大數據思維的局限性,要註意運用互補思維來超越大數據思維的局限性。
2在互補中實現大數據思維的超越
1.統籌兼顧
整體和部分作為標誌客觀事物可分性和統壹性的哲學範疇,具有重要的認識論意義。從方法論的角度來看,“全數據模型”側重於用整體的方法來把握事物,而不是還原方法。因此,要克服“全數據模式”的局限性,必須著眼於整體,系統把握;兼顧兩部分,加深理解。實現整體方法和還原方法的統壹。
首先,著眼整體,系統把握。經典系統論認為,要把整個事物看作壹個有機整體,把握整體的特征和功能。另外,復雜性科學認為世界是復雜多變的,這就要求我們要有全局的眼光,把復雜的物體作為壹個整體來把握。在大數據時代,我們要做的是把所有的數據作為壹個整體,用機器和建模來尋找數據之間的關聯,找出“相關對象”,把握數據背後反映的事物的整體屬性,進壹步分析事物內部各要素之間的結構和關系,深入挖掘要素之間的因果關系,具體全面地認識事物。
其次,兼顧兩部分,加深理解。傳統的還原論認為,事物被分成不同的部分,對整體的理解可以通過對各部分的理解和整合來實現。雖然傳統還原論也有忽視事物各部分之間的相互聯系和相互作用的缺陷,但這並不意味著還原論是無用的,它的還原方法並沒有消除人們對事物的整體認識。在研究策略上,還原論的思想主要體現在壹種逐層分析的策略上。所以,在復雜的時代,用好還原法的關鍵在於認知還原事物的層次。
在大數據時代,由於數據龐大,結構復雜,很難找到數據之間的因果關系。所以我們把整個數據作為壹個整體來把握它的關聯性,但是數據物化的整體本質是什麽?然後需要進壹步分析內部要素之間的因果邏輯,這實質上使用了歸約的方法。從這個意義上說,因果邏輯探索是歸約方法的具體體現,但這種歸約方法不同於傳統的歸約方法。因此,“還原法與整體法的復雜關系,歸根結底應該是‘互補’的。”現代科學的發展也表明“還原論是不夠的,只要還原論是不夠的;沒有整體主義,沒有整體主義...科學的態度是把還原論和整體論結合起來”。只有充分認識整體與部分的辯證關系,整體方法與還原方法的復雜關系,才能用好這個工具去認識和改造世界。
2.定量整合和定性整合
定量研究的目的是回答事物及其運動的定量屬性,而定性研究的目的是深入研究對象的具體特征或行為,並進壹步探究其原因。從內容上看,定性研究和定量研究應該是統壹的、互補的:定性研究為定量研究奠定基礎,是定量研究的基礎;定量研究是定性研究的具體化,使定性研究更加科學和準確,從而得出更加廣泛和深入的結論。兩者從不同角度分析問題各有優勢,也正因為如此,才能達到對事物更全面的認識。因此,在科學研究中,我們應該將兩者結合起來,取長補短,發揮最大效應。首先,對量的整體把握是定性研究的基礎。在大數據環境下,“量化壹切”的重要作用主要基於三個原因:第壹,海量數據使“量化壹切”成為可能。基於各種智能設備的應用,人們的物理世界和虛擬世界都可以被量化。通過對感性對象的數據分析,可以從量的相關系數所呈現的相關程度中發現數據之間的相關性,把握數據之間的相關性,確定數據物化在量上的聯系。第二,“量化壹切”有助於我們從量的整體上把握事物。通過定量分析,我們可以在數量上對事物的整體性有壹個總體的認識,而這種整體性的認識並不是定性研究意義上的對事物的抽象的壹般認識,而是對具體事物的具有關聯性的具體認識,即可以建構壹個全新的整體圖景。第三,大數據的本質本身就是數量關系的集合,具有現實指導意義。阿爾伯特-拉斯洛·巴拉巴斯(Albert-laszlo Barabas)指出:“人類93%的行為都是可預測的,但過去我們沒有相關數據,也沒有某種方法來探索人類行為。”因此,定量研究對於把握事物之間的關聯趨勢具有重要作用。其次,定性因果研究創造了新的聯系,滿足了新的需求。雖然大數據的定量分析可以使我們從整體上把握事物的關聯性,但卻無法理清兩者之間的因果關系。因果關系是要素之間的相互作用過程及其效果之間的關系。因此,要在數量維度上把握相關事物的基礎上,深入研究事物內部要素的結構和組合,探索內部要素的因果關系,改變要素之間的相互作用,結合人類發展的需要,創造出符合人的需要的結果。另壹方面,從內部因素之間的因果邏輯中產生的新的因果關系可以在定量研究中進壹步調查或測試。這樣,定量研究為定性研究提供了感性對象的總體數量屬性和壹般結構。在此基礎上,定性研究深入探討要素之間的相互作用,得出有代表性的結論,然後放入整個數據進行定量研究進行實證,實現定量和定性研究的互補。
3.因果關系強調在大數據時代的背景下,勛伯格提出“我們知道什麽是足夠的,沒有必要知道為什麽。”從那以後,人們更加關註相關性而不是因果性。然而,在整個人類社會積極關註相關性的同時,不可避免地要反思和重新評估因果關系的重要性和影響。我們不禁產生疑問,提出疑問:第壹,世界上是否存在因果關系的本體論問題?第二,相關性和因果性有什麽關系?三、科研如何互補?關於因果關系的本體論,我們認為因果關系是客觀存在的。因果思維是人類長期形成的壹種思維習慣,也是我們認識世界本質的邏輯前提。在現代,自然科學和人文社會科學的研究成果是建立在因果關系的嚴格數理邏輯推理基礎上的,自然科學的中心任務是揭示事物之間的因果關系。關於因果關系和相關性的關系,有學者認為是大數據時代背景下科技關系的反映。科學是探索因果關系的學問,即因果律,而技術是解決問題的方法和技巧。兩者側重點有所不同,但並不對立。就像技術解決“怎麽做”,科學回答“為什麽”,相關性可以指導我們在實踐中“怎麽做”,因果性可以回答“為什麽要做”。大數據時代即使更加註重相關性,也總是離不開對因果性的追求,這是思維的本質決定的。註重相關性分析並不否定因果關系分析,也不意味著因果關系不重要,反而更有利於因果關系的深入分析,因為兩者並不排斥,而是共存的。我們可以在科研上優勢互補。首先,相關性是因果關系研究的基礎。在大數據時代,我們可以通過基於海量數據的相關性分析,快速、便捷、準確地找到事物的相關性,進而探究相關性的因果關系,把握事物的本質。正如勛伯格所說:“通過找出可能有關聯的事物,可以在此基礎上進壹步分析因果關系,如果有因果關系,就可以進壹步找出原因。”在尋找特征相關性的過程中,其實也有因果關系的分析。
其次,因果性是相關性的內在規定和目標。在科學研究領域,我們所尋求的不僅僅是知道“什麽”的關聯性,更重要的是弄清事物之間“為什麽”的因果關系,從而使由此建立的科學理論經得起實踐的檢驗。從這個意義上說,因果關系是大數據時代相關關系內在的、本質的規定,也是相關關系背後所追求的目標,起著決定性的作用。我們需要做的是以因果思維為研究基礎,以相關思維為研究導向,兩者互補,挖掘大數據所蘊含的價值,實現大數據思維的超越。
歡迎評論。
傳喚令
帶著學術絕技盡早來!
1,學術水平:壹定的專業學術水平是必須的!
2、有獨到的見解:有深度、廣度、尖銳的才是最好的!
3、內容類:自然科學、社會科學等。沒有限制!
4.資料或翻譯文章:只要符合以上條件的都可以。
學術咨詢/提交電子郵件地址
聲明:版權歸原作者所有。文章觀點不代表本機構立場。
《中國電子科學研究院學報》歡迎專家學者投稿!提交鏈接ki.net
期刊聯系電話:010-
日誌電子郵件: