“大數據”為什么不是宣揚的那樣精彩？

2013-07-29

[ 導讀 ] “大數據”是時下流行的一個術語，是解決技術世界最難解的問題的一站式答案（目前已經變成三個X級別了）。這個詞通常用來指分析大量信息數據的科學技術，以檢測模型，收集意見并預測復雜問題的解決方法。

“大數據”是時下流行的一個術語，是解決技術世界最難解的問題的一站式答案（目前已經變成三個X級別了）。這個詞通常用來指分析大量信息數據的科學技術，以檢測模型，收集意見并預測復雜問題的解決方法。聽起來可能有點枯燥，但是大數據的作者們覺得從防恐到結束貧困再到拯救地球都不是什么大的事情。

“當大數據成為敦促全球性問題的解決辦法之一時，帶給社會帶來巨大的益處，比如探氣候變化，根除疾病，推進良好治理和促進經濟發展。”Viktor Mayer-Schnberger和Kenneth Cukier在名稱很謙虛的《大數據：將改變我們生活、工作、思想的革命》一書中預示。

不管數據是來自iPhone手機，雜貨店采購清單，網上交友記錄，或是整個國家的匿名健康記錄，只要信息量夠大，運用我們的計算能力將數據解碼，從中獲得的結論將是不可計數的。即使奧巴馬政府也很吃驚于這個新趨勢，5月9日稱企業家，研究員和公眾“從前不能獲取或管理的數據”現在成為了“開創性”的寶藏。

“我們推動個人創新和發現的一個舉措就是讓大量的美國數據有史以來第一次如果公開，易于獲取。有才能的企業家們正在利用這些數據做的事情讓人感到相當驚奇。”奧巴馬總統說。

但是大數據的確是像宣傳的這樣神奇嗎？我們能夠相信這么多的個體和英雄將為我們照亮人類行為的隱秘世界嗎？外交政策雜志邀請麻省理工學院公眾媒體研究中心的KateCrawford探討數據背后的故事。——編輯。

“如果有足夠的數據，數據將自證。”

完全沒有可能。大數據的推動者們想要我們相信，大量的數據庫和代碼后，是人類行為模式的客觀通用解釋，比如消費，犯罪或恐怖行為，健康習慣，還有雇員生產率。但很多大數據的作者不去冷靜地思考弱點。數據并不能自我證明，不管數據規模有多大，數據集仍是人類設計的產物。阿帕奇云計算軟件框架等大數據工具并不能讓人們的思維避免偏移、中斷或出現錯誤假設。在大數據試圖反應我們居住的社會的真實情況時，這些因素特別重要，然而我們經常被愚弄，認為計算結果比人類的的觀念更客觀。大數據與個體知覺和經驗一樣，有同樣多的偏差和盲點。但有一個錯誤的看法，認為數據越大越好，關聯性等于因果。

舉例來說，大數據喜歡分析來自社會媒體的數據資源，而且其中必定有很多信息有待發掘。我們被告知，推特數據告訴[FS:PAGE]我們人們離家較遠時比較高興，周四晚上最不高興。但是有很多理由問一下這個數據真正要反映的是什么。首先，我們從皮尤研究中心知道只有16%的美國在線成年人使用推特，這個人數不能作為有代表性的樣本——他們更多傾向于年輕人和城里人，而不是普通人群。其次，我們知道很多推特用戶使用自動回復程序“bots”，還有虛假帳戶或半人工帳戶——使用“bots”和人工共同控制的帳。最新估計數據表明有2000萬虛假帳戶。因此，在我們進入推特感情評估這個方法的雷區前，先問問這些感情是人們自己的表達還是自動設置的。

但是，即使你確信推特上的大多數都是有血有肉的真人，也存在確認偏向的問題。比如，IBM使用社會信心指數大量分析了推特關于參賽選手的信息，預測2013年澳大利亞網球公開賽中誰將是社會媒體中“最積極的”選手。結果是維多利亞·阿扎倫卡列在第一。但推特上很多人批評阿扎倫卡使用醫療時間超時，引起爭議。所以，推特們是喜歡她還是討厭她？很難相信IBM的計算是正確的。

一旦解決了垃圾數據的問題，我們來考慮一下計算本身是如何偏移的，急急忙忙地劃定范圍，寫程序，迎合需求。

人權組織也指望利用大數據來幫助理解沖突和危機。但同樣存在數據與分析的質量問題。邁克阿瑟基金最近為卡耐基梅隆大學的人權科學中心提供了為期18個月17500美元的資金，用于調查大數據分析如何改變人權實情調查，比如通過“可信度檢驗”對來自危機地圖儀CrisisMappers,目擊者Ushahidi,臉譜Facebook，YouTube等網站的聲稱侵害人權的事件進行分類。中心主任JayD.Aronson指出“研究機構和人權組織使用數據時，出現了嚴重的問題，對數據來源鋇有責任。很多情況下，報告事情的人們的安全是否由于新技術的應用而進一步得到保障還是因此受到威脅，并不清楚。”

“大數據不存在不同社會團體間的歧視。”

很難。大數據聲稱客觀性的另一個保證是大數據中對少數群體的歧視較少，因為原始數據不受社會偏見干擾，使得分析在量級很高的數據中進行，因此避免了群體歧視。但大數據常常就是為了這個目的而進行的——將個體分離并劃到不同的人群里——因為它有能力聲稱不同人群的行為如何不同。例如，最近的一篇論文指出科學家們如何運用他們關于人種的假設來設計大數據基因研究。

正如阿利斯泰爾克羅爾所寫，用大數據分析價格歧視分析的可能性引起了有關[FS:PAGE]民事權利的嚴重關注，這種行為歷史上稱為“劃紅線注銷”（將某些顧客劃出貸款對象范圍）。在“個性化”的紅色標題下，大數據可以用來隔離特定社會人群，并區別對待，這是法律明文禁止企業或人們去做的。公司可以選擇通過在線廣告向那些家庭收入可觀或銀行信用記錄良好的人推廣信用卡，而其他人完全不知道能夠獲得這種有選擇性的信用卡。谷歌甚至有一項動態估價的專利：因此，如果你過去的購買記錄表明你很有可能購買昂貴的鞋子，下一次你在線購買鞋類產品的起價可能會相當高。現在雇主們試圖將大數據應用到人力資源管理，通過分析雇員的每一個敲擊行為和拍打行為，評估如何使雇員的生產效率更高。雇員或許根本不知道有關他們的數據有多少正在被收集，用來干什么。

歧視也會發生在人口統計領域。比如，紐約時報報道說Target幾年前即開始收集其顧客的個人檔案，現在擁有的采購趨勢方面的數據量很大，某些情況下足可以僅僅根據一個女人的采購記錄來預測她是否懷孕了，并且有87%的把握。文章中提到的Target統計人員強調這將如何幫助公司加強對準父母的市場營銷，可以想象，這些結果也會以其它的歧視方式被利用，可能嚴重影響社會公平，當然不有隱私。

最近，哥倫比亞大學對58000個臉譜網的好惡數據進行研究分析，分析結果用來預測非常敏感的用戶個人信息，比如性取向，種族，宗教和政治觀點，個性特點，智商，幸福程度，使用上癮藥物，父母婚姻狀況，年齡，及性別等。記者湯姆·福斯基注意到這個研究，說“雇主，房東，政府機構，教育機構，私人組織能夠輕易地獲取敏感度如此高的信息，他們有辦法歧視對待和懲罰個人，個體卻沒有辦法反抗。”

最后，想想在實施法律條文過程中的隱藏的事情。從華盛頓特區到特拉華州的紐卡斯爾縣，警察開始使用大數據的“預防性監控”模型，希望能給未破的案子一些調查線索，甚至有助于預防新的犯罪。不管怎樣，將警力活動重點放在大數據檢測到的“熱點地區”是冒著另一種危險，進一步指責社會群體是可能的罪犯，將不同的警務行動制度化成常規作法。正如某位警察局長所寫，預防性監控盡管確定地避免了種族和性別歧視，但使用該系統而不考慮各種影響的實際后果可能是“惡化警察與社區的關系，讓人感覺缺少程序上的公正，被控告按種族定性，對警察的合法性造成了威脅。”

“大數據是匿名的，因此不會侵犯隱私。”

完全錯[FS:PAGE]了。盡管很多大數據的提供者盡力把個人信息從人群數據集中去除，重新鑒別身份的風險還是真實存在的。手機數據總體上規模大，看起來沒有個人特征，但最近有一項針對歐洲1500萬手機用戶數據的研究表明，只要四個控制點就足以識別出一個人95%的信息。研究員注意到，人們在城市間穿梭的方式有其獨特性，但考慮到可以從大量的公眾信息數據中導出很多內容，使得隱私“引起更多關注”。多虧有Alessandro Acquisti這樣的研究機構，我們知道如何通過交叉分析公共現有數據直接猜出個人安全社會保險號。

但是，大數據的隱私問題遠遠不只是通常的身份重新識別風險。當前，賣給研究公司的醫學信息也有風險，可能被用來追蹤你的個人身份。關于個體化用藥，有很多議論，有人希望處方藥和其它治療方法可以目標個性化，從提高醫學角度講，這個前景很美妙，但基礎是掌握個人細胞遺傳信息，但有這些信息有很大的風險被不當利用或泄漏。盡管象RunKeeper和Nike+這樣個人健康數據采集裝置發展迅速，但應用大數據提高衛生保健的實踐仍然是渴望高于現實。

擁有大數據的能源生產商們正在收集其它的私人信息，比如智能電網SmartGrid。通過分析大量的用戶能源用量數據，看起來可以促進能源輸送到家庭和公司的效率。這個項目前景廣闊，但也面臨巨大的隱私風險。它不僅能預測我們需要能源的數量和時間，而且每分每秒都有大量的數據信息流失。據英國海上金融工業的消息，世界上百分之一的事物與每個個人一樣易于受到個人數據公開化的攻擊。

“大數據是科技的未來。”

部分是對的，但還有很多事情要做。毫無疑問，大數據為科學發展提供了一條新的途徑。我們只需看看希格斯玻色子的發現即可，成果來自歷史上最大的網格計算工程，歐洲核子研究委員會使用云上文件傳送系統HadoopDistributedFileSystem來處理所有數據。但是，除非我們能夠識別并應對大數據在反應人類生活時的內在缺陷，否則我們可能讓主要的公眾政策和商業決策建立在錯誤的假設之上。

要應對這些內在缺陷，數據科學家們開始與社會學家合作，社會學家長期以批判的眼光與數據打交道：評估數據來源、數據的收集方法、數據應用涉及的道德倫理問題。隨著時間的推移，這意味著找到一條新的途徑，將大數據方法與小數據研究結合起來。這遠遠超過了廣告和營銷使用方法，如焦點討論或A/B測試（測試中，給用戶兩個版本的設計或[FS:PAGE]產品，看哪一種結果證明更有效）。而新的方法組合還會提出人們為什么做事的問題，而僅僅總結出事情發生的頻率。這意味著吸收了社會學分析和民族學的深度見解，還包括追溯信息檢索和機器學習的內容。

科技公司早就意識到，關于人們如何對待他們產品，為何如此，社會學家能夠提供更有力的觀點，比如施樂公司的帕洛阿爾托研究中心雇用人類學家的先驅薩奇曼先生。接下來，各領域的計算機科學家、統計學家、社會學家之間的合作將更加豐富——不僅檢驗彼此的發現成果，還會提出根本不同類的問題，而且更加尖銳。

想到關于我們的信息每天都在被大量地收集——包括臉譜點擊率，GPS數據，醫藥處方，網飛的數據列——我們必須盡早確定誰是可以信任的，他們使用我們的數據的目的何在。有一個事實無法逃避，數據從來不是中立的，很難做到匿名。但我們可以利用不同領域的專業知識更好地確認偏差、差異和假設，進而應對隱私和公平方面的挑戰。

標簽：

大數據

【聲明】物流產品網轉載本文目的在于傳遞信息，并不代表贊同其觀點或對真實性負責，物流產品網倡導尊重與保護知識產權。如發現文章存在版權問題，煩請聯系小編電話：010-82387008，我們將及時進行處理。

亚洲男人的天堂在线播放,久久99精品久久久久久清纯,日本乱人伦片中文三区,亚洲精品中文字幕乱码三区,777亚洲熟妇自拍无码区

“大數據”為什么不是宣揚的那樣精彩？

相關文章

大數據等構成的人體信息物聯網將改變未來醫療模式

依托大數據物聯網開展防汛工作

治理PM2.5推行智能型環保云計算大數據首當其沖

大數據和分析解決方案如何在數字時代徹底改變業務?

互聯網趨勢下，物流倉儲如何“玩”好大數據

相關文章

推薦文章

熱門文章

上一篇

下一篇

亚洲男人的天堂在线播放,久久99精品久久久久久清纯,日本乱人伦片中文三区,亚洲精品中文字幕乱码三区,777亚洲熟妇自拍无码区

“大數據”為什么不是宣揚的那樣精彩？

相關文章

大數據等構成的人體信息物聯網將改變未來醫療模式

依托大數據物聯網 開展防汛工作

治理PM2.5推行智能型環保 云計算大數據首當其沖

大數據和分析解決方案如何在數字時代徹底改變業務?

互聯網趨勢下，物流倉儲如何“玩”好大數據

相關文章

推薦文章

熱門文章

上一篇

下一篇

依托大數據物聯網開展防汛工作

治理PM2.5推行智能型環保云計算大數據首當其沖