大數據不等于信息,更不等于智慧
我時常聽創業者說自己的公司每天會生產/記錄很多的數據,雖然他們暫時還沒想明白怎么用這些數據,但把這些數據都先存起來了。他們經常還說,通過這些數據他們的產品/服務將得到很大的提升,仿佛這些數據就是公司的救世主一樣。我不想討論這種觀點正確與否,但想在這里解釋兩個關于大數據的常見誤解:
一、數據不等于信息
經常有人把數據和信息當作同義詞來用。其實不然,數據指的是一個原始的數據點(無論是通過數字,文字,圖片還是視頻等等),信息則直接與內容掛鉤,需要有資訊性(informative)。數據越多,不一定就能代表信息越多,更能不能代表信息就會成比例增多。我們來看兩個簡單的例子:
備份。很多人如今已經會定期的對自己的硬盤進行備份。這個沒什么好多解釋的,每次備份都會創造出一組新的數據,但信息并沒有增多。
多個社交網站上的信息。我們當中的很多人在多個社交網站上活躍,隨著我們上的社交網站越多,我們獲得的數據就會成比例的增多,我們獲得的信息雖然也會增多,但卻不會成比例的增多。不單單因為我們會互相轉發好友的微博(或者其他社交網站上的內容),更因為很多內容會十分類似,有些微博雖然具體文字不同,但表達的內容十分相似。
二、信息不等于智慧(Insight)
好吧,現在我們去除了數據中所有重復的部分,也整合了內容類似的數據,現在我們剩下的全是信息了,這對我們就一定有用嗎?不一定,信息要能轉化成智慧,至少要滿足一下三個標準:
可破譯性。這可能是個大數據時代特有的問題,越來越多的企業每天都會生產出大量的數據,卻還沒想好怎么用,因此,他們就將這些數據暫時非結構化(unstructured)的存儲起來。這些非結構化的數據卻不一定可破譯。比如說,你記錄了某客戶在你網站上三次翻頁的時間間隔:3秒,2秒,17秒,卻忘記標注這三個時間到底代表了什么,這些數據是信息(非重復性),卻不可破譯,因此不可能成為智慧。
關聯性。我們曾經對關聯性的重要性進行過解釋。這里不再贅述了,無關的信息,至多只是噪音。
新穎性。這個和我前文舉的那個社交網站的例子類似,不同的是,這里的新穎性很多時候無法僅僅根據我們手上的數據和信息進行判斷。舉個例子,某電子商務公司通過一組數據/信息,分析出了客戶愿意為當天送貨的產品多支付10塊錢,然后又通過另一組完全獨立的數據/信息得到了同樣的內容,這樣的情況下,后者就不具備新穎性。不幸的是,很多時候,我們只有在處理了[FS:PAGE]大量的數據和信息以后,才能判斷它們的新穎性。
說了這么多,是想表達,其實我們手上有用的數據并沒有我們想象的那么多--大數據本身就是個耍噱頭的詞。在如今這個年代,一個普通的創業公司每天就能生產1GB以上的數據,稍微大一點的公司每天生產的數據都以TB來技術。但在花錢進行大數據分析之前,我們要意識到,數據不代表信息,更不代表智慧。
相關文章
大數據等構成的人體信息物聯網將改變未來醫療模式
一條項鏈可以實時監測人體心肺功能、一個戒指可以監測呼吸脈搏等指標、一副眼鏡可以監測精神疾病患者狀況……記者20日從成都舉行的2021第二屆四川康復治療及產業論壇上獲悉,由大數據、云計算、有限傳輸與無線傳輸相結合構成的人體信息物...
依托大數據物聯網 開展防汛工作
記者從白云區綜合行政執法局獲悉,為確保轄區安全度汛,該局充分利用大數據、物聯網技術,開展職責范圍內防汛搶險的應急綜合調度、指揮、協調工作,以有效應對汛期突發事件、緊急或特殊情況。該局以白云區“數字城管”系統平臺為基礎,依托...
治理PM2.5推行智能型環保 云計算大數據首當其沖
兩會期間,全國人大代表、廣東省家電商會會長、TCL集團董事長李東生接受采訪時一句:“北京昨天的霧霾還很重,今天天氣很好,北京的天氣比較講政治。”的玩笑逗樂了在場所有記者。
大數據和分析解決方案如何在數字時代徹底改變業務?
如今的技術在不斷地發展。無論是自動駕駛汽車、機器人還是重型自動機械,技術只會隨著時間的推移而變得更好。然而,很多技術在很大程度上依賴于數據、各種規模和類型企業的信息,以及解釋這些數據和信息的高級分析技術。由于大數據在推動組織數...
互聯網趨勢下,物流倉儲如何“玩”好大數據
前段時間電商物流界兩位大佬的“數據之爭”在網上鬧得沸沸揚揚,其他因素先不說,單說引起此次紛爭的“大數據”,已經是互聯網時代一個不得不思考的問題。早已有人斷言:得數據者得天下。巨沃成立至今一直專注于倉儲物流供應鏈的管理與訴求...