【中國智能制造網 學術論文】隨著信息技術和網絡及各類傳感設備、海量存儲技術的飛速發展,數據的定義和收集方式產生了革命性的變化,大數據應運而生。
改善大數據技術潛在問題 揭秘其背后的認識論問題
相比傳統分析方法,大數據技術擁有無可比擬的優勢,然而大數據技術所引發的一系列關于認知論的哲學難題——大數據的假設及倫理問題——同樣不容忽視。John Symon和Ramón Alvarado 2016年發表在《大數據與社會》(Big Data & Society)的論文《我們可以信任大數據嗎?把科學哲學運用在計算機軟件上》(Can we trust big data? Applying philosophy of science to software)表示:在很多情況下,道德與認識論問題密不可分。解鈴還需系鈴人,只有盡可能弄清大數據如何影響并改變了認識論,才能從根本上改善大數據技術潛在的問題。例如,通過大數據技術我們可以知道什么?這些技術的局限性在哪里?以及大數據的“新”到底體現在哪里?
有關大數據的主流文獻常常表現出對科學哲學和認知論的不同看法,結論均基于一個假設:大量的數據及通過大數據分析發現的模式是獨立于理論基礎的。換句話說,很多大數據學者錯誤地認為數據量越大,分析結果就越可靠,而理論立場可有可無。這種研究大數據而不考慮當代科學哲學的做法既不明智也不可取。大數據的核心在于如何使用大數據技術來捕捉和分析數據,而大數據技術多涉及算法,我們只有充分理解各種算法的局限性和風險,明白這些算法會如何引致以及引致什么樣的誤差,才能決定到底多大程度可以對這些算法施以信任、加以限制。
文章首先介紹了大數據的定義并試圖解釋大數據的局限性,然后就以往研究對大數據的批評進行了概述,并接著論證為什么科學哲學和社會認識論與大數據技術息息相關。解決認識論擔憂的好辦法是參與到計算建模與模擬的科學哲學辯論當中?;赑aul Humphreys提出的“認知模糊”,作者表示,大數據的“認知模糊”關鍵在于大數據技術對錯誤管理和錯誤檢驗的忽視,而錯誤問題同時也是大數據認識論的一個重要特征。要改善大數據認識論的缺陷,就必須正視誤差的影響?;谶@一考慮,文章就誤差檢驗與糾正的主要特性及軟件誤差和路徑復雜性之間的關系進行了闡述,并介紹了誤差檢驗的常規統計方法(如Mayo的嚴格檢驗及模擬驗證),以及當處理大數據的軟件系統受到高度制約時這些誤差檢驗的缺陷。后,以谷歌流感趨勢為例,文章進一步討論了大數據技術的局限性,尤其是局限性的根源。
那么,我們可以信任大數據技術嗎?文章表示,這不僅僅在于軟件的開發與修正本身,而更加在于認知對軟件的開發—修改—更新這個循環過程的指引作用。大數據技術是科學哲學與社會認識論爭辯的產物,在運用時不應脫離科學哲學思想的指引。缺乏認知則會大大限制我們發現錯誤的能力。
總而言之,大數據技術作為一種工具不可避免地存在局限性。從本質上講,這些局限性反映了大數據技術背后理論的缺失。更重要的是,這些局限性清晰地表達了大型軟件系統的常規誤差監測、修正與評估對內在認識論的挑戰。
原標題:解鈴還需系鈴人:大數據技術背后的認識論問題
版權與免責聲明:
凡本站注明“來源:智能制造網”的所有作品,均為浙江興旺寶明通網絡有限公司-智能制造網合法擁有版權或有權使用的作品,未經本站授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明“來源:智能制造網”。違反上述聲明者,本站將追究其相關法律責任。
本站轉載并注明自其它來源(非智能制造網)的作品,目的在于傳遞更多信息,并不代表本站贊同其觀點或和對其真實性負責,不承擔此類作品侵權行為的直接責任及連帶責任。如其他媒體、平臺或個人從本站轉載時,必須保留本站注明的作品第一來源,并自負版權等法律責任。如擅自篡改為“稿件來源:智能制造網”,本站將依法追究責任。
鑒于本站稿件來源廣泛、數量較多,如涉及作品內容、版權等問題,請與本站聯系并提供相關證明材料:聯系電話:0571-89719789;郵箱:[email protected]。