大數(shù)據(jù)亦有弊:數(shù)據(jù)量劇增 需要“智能遺忘”
【編者按】據(jù)國外媒體報道沐亏,在經(jīng)濟領(lǐng)域和人類行為的大量數(shù)據(jù)采集中鸳辈,存在著一個違反直覺的弊端盹组,而這會使我們忽略歷史的教訓(xùn)弓呵。大數(shù)據(jù)的問題之一是太過于關(guān)注當(dāng)前,而忽略了即使最近的過去哄避。茉漂、 大數(shù)據(jù)也有弊端: ...
據(jù)國外媒體報道,在經(jīng)濟領(lǐng)域和人類行為的大量數(shù)據(jù)采集中誉简,存在著一個違反直覺的弊端碉就,而這會使我們忽略歷史的教訓(xùn)。大數(shù)據(jù)的問題之一是太過于關(guān)注當(dāng)前闷串,而忽略了即使最近的過去瓮钥。、
大數(shù)據(jù)也有弊端:數(shù)據(jù)量劇增 需要“智能遺忘”
你或許很熟悉這樣一個統(tǒng)計結(jié)論:世界90%的數(shù)據(jù)是過去幾年里產(chǎn)生的烹吵。事實上骏庸,過去三十年中,全世界的數(shù)據(jù)量大約每兩年增加10倍——遠(yuǎn)遠(yuǎn)超過了計算機領(lǐng)域的摩爾定律年叮。
這樣的信息增長速率會帶來一些問題具被,其中之一便是現(xiàn)時的數(shù)據(jù)量總是遠(yuǎn)遠(yuǎn)超過即使最近的過去。想象你正在通過一本相片簿回顧人生的頭18年只损,假設(shè)在兩歲時你有兩張照片一姿,如果信息增長速率與世界數(shù)據(jù)量相同,那么在你6到8歲時跃惫,你會有驚人的2000張照片叮叹;10到12歲時有20萬張照片;而在16到18歲時溺联,照片數(shù)量會達(dá)到2億張济问,相當(dāng)于在最后兩年中,每秒有3張以上的照片捻境。
當(dāng)然吝殖,這并非是全球數(shù)據(jù)增長情況的完美類比。首先炸鹅,世界大部分?jǐn)?shù)據(jù)的增長源于有更多的人創(chuàng)造出了更多的信息來源帚颤,同時伴隨更大伟杂、更精細(xì)的格式。不過饮噪,有關(guān)比例的觀點還是成立的名挪。如果你像前述的例子那樣回顧以往的記錄,或者試圖進(jìn)行分析膏姨,那距離越久遠(yuǎn)的過去就會變得越無關(guān)緊要绵笆。
這就是目前采集和分析大數(shù)據(jù)時所面臨的問題。當(dāng)你開始以更長遠(yuǎn)的視角往前回溯時橙喘,會發(fā)現(xiàn)近期的事情太多时鸵,而以前的事情太少。短視是結(jié)構(gòu)性的渴杆,對短期趨勢的過度估計是壓倒性的,同時卻忽略了歷史的經(jīng)驗教訓(xùn)宪塔。
為了理解這個問題的重要性磁奖,需要考慮社會科學(xué)中有關(guān)“近期偏差”(recencybias,又稱近因效應(yīng))的研究發(fā)現(xiàn)某筐。近期偏差是指在判斷趨勢時比搭,認(rèn)為未來事件與近期體驗更加類似。這可以說是某種“可利用性法則”(availabilityheuristic)——不恰當(dāng)?shù)匾宰钊菀妆恢X到的信息來作為思考的基礎(chǔ)南誊。這還是一種普遍的心理學(xué)特征身诺。舉例來說,如果在你居住的地方抄囚,過去幾年中夏季都異乎尋常地寒冷霉赡,你可能會認(rèn)為夏天正在變得更冷——或者說你當(dāng)?shù)氐臍夂蛘谧兝洹J聦嵣厢M校悴粦?yīng)當(dāng)把任何東西都塞到數(shù)據(jù)里分析穴亏。你需要有一個長遠(yuǎn)的視角,才能認(rèn)識真正有意義的氣候趨勢细周。在短時期內(nèi)毯创,你最好不進(jìn)行任何猜測。不過谒酌,我們之中又有誰能真正做到這點呢苫七?
現(xiàn)實生活中大部分復(fù)雜的趨勢正是如此:股票市場、經(jīng)濟發(fā)展遮结、企業(yè)的成功或失敗尼送、戰(zhàn)爭或和平、國家關(guān)系曾负、帝國的崛起和衰落等等时憾。短期分析不僅不夠扎實渊喘,而且毫無益處甚至?xí)碚`導(dǎo)「牍埃看看2009年金融危機即將到來的時候拨才,還有那么多經(jīng)濟學(xué)家信誓旦旦地宣稱這一事件不會發(fā)生。認(rèn)為從那種時間尺度的數(shù)據(jù)就能做出扎實的預(yù)測谓苟,本身就有很大的問題官脓。
我們還應(yīng)當(dāng)記住,在決定哪些數(shù)據(jù)是保存還是刪除的時候涝焙,新穎性往往會成為主要的考慮因素卑笨。舊的淘汰,新的進(jìn)來仑撞,在這個搜索算法本質(zhì)上偏向于新鮮事物的數(shù)字世界中赤兴,這是明顯的趨勢。從高等法院的裁決隧哮,到所有的社交媒體服務(wù)平臺上桶良,我們到處都可以看到已經(jīng)失效的網(wǎng)址。對當(dāng)前的偏好已經(jīng)滲透到我們身邊幾乎所有的技術(shù)中沮翔,大多數(shù)人已經(jīng)習(xí)慣用個四五年就把原本光鮮亮麗的機器拋棄陨帆。
我們需要更好地確定哪些數(shù)據(jù)值得優(yōu)先保存。怎么辦采蚀?這不僅是一個如何更好保存舊數(shù)據(jù)的問題——盡管這并不是個壞主意疲牵,想想我們現(xiàn)在還有什么東西能保留10年的。更重要的是榆鼠,這個問題關(guān)系到確定哪些東西值得優(yōu)先保存岭复,如何在知識的名義下,確定哪些信息最有意義规倚。
或許我們需要的是“智能遺忘”:讓我們的工具變得更會放棄最近的過去纲秫,從而在整體視角上保持更大的連續(xù)性。這有點像是重新組織一本相片簿肢有,盡管加上了更多的數(shù)學(xué)方法单步。什么時候兩百萬張照片的價值比兩千張照片更低?什么時候較大的樣品覆蓋的范圍反而較谢列簟且奔?什么時候細(xì)節(jié)水平能提供有用的質(zhì)疑證據(jù),而不是虛假的自信络骤?
許多數(shù)據(jù)集是無法縮減的此腊,而且在完整的情況下才最寶貴,比如朵令,基因序列羊捧、人口統(tǒng)計學(xué)數(shù)據(jù)众巷、地理和物理學(xué)的原始觀測數(shù)據(jù)等〈逗溃科學(xué)性越弱凌箕,數(shù)據(jù)規(guī)模與數(shù)據(jù)的質(zhì)量更可能呈現(xiàn)負(fù)相關(guān),此時時間本身就成為更加重要的過濾工具词渤。我們?nèi)绻蛔屑?xì)選擇過去保存下來的有價值牵舱、有意義的東西,那它們就會悄無聲息地淹沒在如今日益增長的噪音之中缺虐。
今天的企業(yè)芜壁、個人和政府機構(gòu)都能夠獲得比以往(甚至就在幾年前)大許多數(shù)量級的數(shù)據(jù),但這些數(shù)據(jù)并沒有獲得更多的處理時間高氮。利用越來越高效的工具慧妄,董事會成員、首席執(zhí)行官剪芍、政府官員等決策者可以就已有的信息提出更有意義的問題塞淹。單純的堆積不是問題的答案。在一個數(shù)據(jù)量越來越大的時代紊浩,如何選擇不知道哪些事情窖铡,與選擇做什么事情一樣重要柒汉。
聲明:本網(wǎng)站所收集的部分公開資料來源于互聯(lián)網(wǎng)绒催,轉(zhuǎn)載的目的在于傳遞更多信息及用于網(wǎng)絡(luò)分享,并不代表本站贊同其觀點和對其真實性負(fù)責(zé)监昏,也不構(gòu)成任何其他建議斜州。本站部分作品是由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳承副,對此類作品本站僅提供交流平臺愁逝,不為其版權(quán)負(fù)責(zé)。如果您發(fā)現(xiàn)網(wǎng)站上所用視頻冻菌、圖片敷忠、文字如涉及作品版權(quán)問題,請第一時間告知荚砍,我們將根據(jù)您提供的證明材料確認(rèn)版權(quán)并按國家標(biāo)準(zhǔn)支付稿酬或立即刪除內(nèi)容崎北,以保證您的權(quán)益!聯(lián)系電話:010-58612588 或 Email:editor@mmsonline.com.cn四洗。
- 暫無反饋

編輯推薦
- 2025新年特刊:打造新質(zhì)生產(chǎn)力灭红,智啟未來新篇章
- 定義制造業(yè)未來的數(shù)控加工中心技術(shù)專題
- 航空航天及交通領(lǐng)域先進(jìn)制造技術(shù)應(yīng)用專題
- 解碼消費電子產(chǎn)品生產(chǎn)的數(shù)字化之路技術(shù)專題
- 精密智能機床口注,助力制造升級技術(shù)專題
- 汽車輕量化驅(qū)動下的零部件加工應(yīng)用專題
- 高性能銑刀實現(xiàn)高精加工生產(chǎn)技術(shù)專題
- 航空航天發(fā)動機解決方案專題
- 高效齒輪加工生產(chǎn)技術(shù)方案專題
- 金屬加工液的性能不止?jié)櫥夹g(shù)應(yīng)用專題