劉權:大數據時代下的信息安全分析
由中國計算機用戶協會、中國互聯網協會指導、比特網和IT專家網主辦、比特CIO俱樂部承辦的第五屆中國CIO年會,在國家會議中心隆重開幕。本次年會主題定位新技術浪潮下的IT變革。聚焦熱點技術,關注企業應用,引領IT變革。

在今日下午的大數據專題論壇上,中國電子信息產業發展研究院信息安全研究所所長劉權在發言中稱,大數據時代來臨,雖然目前業界關于大數據的定義、定位還有爭議,但他認為大數據影響到了產業鏈的各方各面。
劉權稱:“從廣義來講,大數據產業鏈貫穿了數據整個生命周期,從產生、采集、存儲,這和整個鏈條是有點相似的,從狹義來看,大數據的產業鏈主要涵蓋數據的管理分析、呈現和應用的環節。從產業鏈條,既包括硬件也包括軟件和信息服務,硬件、軟件和信息服務,在座的都不太陌生,但是我們統計,從大數據銷售收入來看,軟件、硬件、信息服務,這里面信息服務比重相對來說比較高一點,服務占到44%,硬件占到了40%左右,應該說服務還是比較高的,里面軟件相對來說要比較低一點。”
以下為劉權現場發言實錄:
劉權:非常高興今天有機會跟大家介紹一下我們有關在大數據方面研究的情況。聽了兩三位同志大數據他們的一些見解,聽完之后有一個問題,大數據的概念究竟是什么?似乎聽完之后在業界當中還是有些分歧,今天再給大家講大數據帶來的信息安全,有關大數據基本情況,簡單給大家做一個匯報。
我介紹內容從以下四個方面,一個是有關大數據的定義、內涵和特征;第二,畢竟是IT人士,在信息化發展到這個階段,未來大數據是每個企業或者將來IT行業不可避免;第三,看其他公司尤其傳統的IBM、EMC他們正在做什么,包括小型的新型的IT公司,他們在做什么,有可能對咱們企業來講,有啟發。最后,給大家介紹大數據帶來的安全敏感點。
第一有關大數據的概念,尤其今年3月份,奧巴馬提出大數據以來,大家說得比較熱,真正提出來的是2005年,IBM出版了一本書叫做《無所不包的數據》,如何改變和業務以及人們的生活。我們需要看到一點,這個大數據是不是就是一個數據的累計,就是大規模數據的概念,這塊我的理解和剛才這幾位企業人士的理解有點不太一樣。從目前來看,大數據目前已經成為普遍的現象,從我們底下幾個數據可以看得出來,全球數據總量目前這幾年呈現指數級的增長,人類過去三年里,數量比以往400年還要多,目前信息總量兩年翻一倍,到2020年全球電子設備存儲在爆增5.42ZB,這個ZB是2的70次方,目[FS:PAGE]前咱們現在大家接觸比較多的是TB的概念,ZB在數據統計當中是最高的。
目前來講,2011年,全球被創建和復制數據總量達到1.8ZB,這樣的一個概念。同時,對于企業級來講,企業級的用戶它的數據量也是在快速增長,由43.5%的企業,每天產生數據生成量100GB,現在互聯網公司包括電商企業,他們每天生成量超過50ZB,目前這個數據產生量還是非常龐大的。
第二個背景,在2011年6月份,麥肯錫有一本書《大數據下一個創新、競爭和生產力的前沿》。第三次熱朝,在今年3月份美國政府把大數據研究和生產計劃提高到國家的層面推薦它,包括日本新一輪IT振興計劃,也是把大數據發展作為國家層面戰略提出來,大數據在西方發達國家來講,他們還是高度重視的。
究竟大數據的概念是什么?我們的理解是,大數據不僅僅是咱們目前一般理解上的數據的概念,我們的理解是大數據其大小超出了典型數據庫軟件的典型、存儲,這個概念可以看到,大數據這個背景下,傳統的數據分析軟件都是時效的,具備了這樣的特征情況下,我們理解這個數據是目前業界所理解的大數據的概念,也不僅僅是目前電商企業累加起來產生的數據多一點。所以說大數據有些人給它的定義,大數據是自從計算機出來,又一次信息產業革命,從這點來講,也印證了大數據的概念對產業帶來的革命對技術的創新,在傳統的數據庫的分析軟件,在大數據背景下都是時效的。
隨著時間的推移,可以說大數據的規模肯定是增長越來越快,數據規模也在實際增長,對于不同的行業領域,不同的應用而言,大數據的規模也是不同的。到目前為止,有關大數據確切的地位是什么?業界還沒有完全準確的定義。我們理解大數據,應該說它直接的代表是從咱們一般形式上觀察,是數據集合靜態的對象,但事實上來講,大數據并不僅僅是大規模數據的集合本身,而指的是技術、對象、應用來說的,目前的軟件分析和采集能力,從技術角度來看,大數據技術從各類型大數據中快速獲得有信息的技術信息系統。大數據要求咱們在龐雜而煩亂的數據當中,能夠快速的通過數據分析找到有價值、有規律的東西。
大數據集合集成獲得有價值的,剛才幾位專家提到了,大數據當中有關鍵的技術就是集成技術、平臺技術,怎么樣集成多方技術能夠快速的從大數據當中找到它的有價值的信息。另外,有幾個明顯特征,體量大,大家不用再說了,從每個電商和互聯網來講數量都是非常大的。Facebook300億條信息,這個數據量都是非常龐大的。類型多,這一點,也是大數[FS:PAGE]據典型的特征,咱們傳統的數據庫當中,往往是結構化的,在目前來講,咱們現在的數據庫當中,所存儲的主要是半結構化或者是非結構化的數據,比如說現在在智慧城市當中,對有些接入口的流媒體,接視頻或者音頻等的這樣非結構化的數據,對他們來說占的空間很大,這樣的分析也是非常麻煩的技術。
從統計來看,全世界目前來講,結構化的數據增長率32%,非結構化數據63%,預計在2012年底,非結構的數據占的比例達到咱們互聯網75%。未來要處理的大多數的數據是非結構化的,對非結構數據怎么樣存儲,怎么樣分析,怎么樣快速找出有價值的東西來,這是應對或者處理大數據要考慮的典型的問題。
第三,這一點,剛才樂蜂網提到了,除了的時候速度快,給你一個龐雜的數據庫,如果對當中領導或者其他客戶需要你從中挖掘出來他們感興趣的幾個點,你要持續三年或者五年,這個價值已經沒有了,因為信息或者數據它的價值與時間是有關系的,他們要求你怎么樣在幾秒甚至幾分鐘,快速的抽取出有用的東西來,對大數據的分析,時間上了解是非常的迫切的。
第四,這也是我們在討論的時候,對大數據也是有爭議的地方,大數據的價值究竟高還是低?大數據需要保護還是不需要保護?大數據本身是不是關注它的安全問題?這個在目前來講,業界爭議還是非常大的,好多數據都是公開的數據,它的量非常大,它的價值非常低,不需要關注它的安全問題,有些人認為大數據本身也沒有太大的價值,這是有些人的觀點。另外一些人的觀點來講,用大數據當中經過對它的分析,信息量是非常高的,但是分析的結果可以說對一個國家的經濟運行或者對一個企業或者對一個行業,這個影響還是重大的。
舉個例子,前一段時間,家樂福和沃爾馬,在超市銷售商品過程當中,數據的管理系統或者它的銷售系統的數據都是傳到國外,傳到法國和美國,這個問題會不會對中國的經濟安全帶來負面影響。從這個案例當中大家可以分析到,傳授這些東西,比如說賣的日用品,對于單個產品來講,價值很低,假如說你對它整個規模累加起來之后,對大規模的數據進行分析,確實它能夠反映出來區域商品的走勢可以說,全國采購成本在什么地方?他們都會找出一些痕跡或者找出一些證據來。大數據本身價值有沒有還是沒有?價值高還是低?這個在業界爭議還是非常大的。大數據本身密度相對比較低的,但問題在于,如果從大數據當中能提煉出或者去分析,找出規律性的東西,它的價值是非常高的,這是對大數據的理解。所以說導致[FS:PAGE]出來大數據是不是需要保護,有些人認為大數據本身量非常龐大,不經分析,它里面有價值的東西很少,對大數據本身不需要保護。但有些人觀點考慮到,因為它的數據量很大,雖然說價值低,但是有價值的東西,有規律的東西還是非常高的,在業界有兩派。
接下來簡單介紹一下,作為IT人士,有關大數據,大數據時代確實已經到來,在這塊對IT企業到底做什么事情?介紹大數據的產業鏈和關鍵技術。從廣義來講,大數據產業鏈貫穿了數據整個生命周期,從產生、采集、存儲,這和整個鏈條是有點相似的,從狹義來看,大數據的產業鏈主要涵蓋數據的管理分析、呈現和應用的環節。從產業鏈條,既包括硬件也包括軟件和信息服務,硬件、軟件和信息服務,在座的都不太陌生,但是我們統計,從大數據銷售收入來看,軟件、硬件、信息服務,這里面信息服務比重相對來說比較高一點,服務占到44%,硬件占到了40%左右,應該說服務還是比較高的,里面軟件相對來說要比較低一點。
剛才幾位業界人士提到,有集成技術,關鍵技術包括數據處理,數據的呈現,還有數據集成技術,通過數據分析技術來講,這里面包括數據挖掘、商業智能技術、遺傳算法、神經網絡等,這里面對分析技術來講,傳統智能的或者說比較先進的一些數據分析方法在這里面有所體現。從處理技術上來講,最主要的是非結構化的,呈現技術來講,主要包括可視化的技術,展示技術等等,此外,剛才還提到了最關鍵的平臺集成技術。
接下來,其他的企業做什么,其他的企業做法有可能給在座的各位有所啟發,業界人士現在有一個觀點,大數據所能帶來的商業價值,每個人是引領作為20世紀計算革命下巨大的變化,這個也是最近不久在研討會上專家談到的,現在大數據的出現,對互聯網加上物聯網等等,這個對整個IT業界的沖擊或者革命性的作用來講,這個作用更大,大家對大數據里面給業界帶來的革命性的或者給產業帶來快速增長,有一個新的增長點,這個作用都是很高的。現在包括傳統IT企業,新型的IT企業,他們認識到企業的價值,大數據的價值,所以說他們在大數據里面不管是傳統的IT企業,還是其他的新的IT企業,都是在這個里面做出了一些部署。
接下來簡單給大家介紹幾個企業,他們究竟在做什么?
在業界來講,大數據里面,大家提到了不外乎就是IBM、惠普、戴爾等這幾家工業,IBM在大數據時代,他們還是做好充分的準備,尤其這幾年他們的做法。2009年IBM提出了優化戰略、大規模數據的處理,2011年IBM應對海量數據[FS:PAGE]平臺進行多項創新,在今年的3月16號,IBM論壇上,IBM正式提出大數據的概念,IBM在大數據里面確實本身是信息服務商,在這里面有一些自身的核心技術的積累。
另外,它確實也對大數據,從高層認識上非常關注,也包括今年5月17號,IBM正式在中國市場發布了智慧的,推出了完整的方法論,從信息的分析結果到業務成果的整體途徑,IBM將這種方法叫做3A五步,學習和轉型,IBM為用戶提供了軟硬件產品服務。今年9月份IBM大數據戰略發布會上,又全面進行了升級,業界率先提出了大數據平臺架構,為行業企業選擇構建大數據基礎方案提供了全面的支持。
從2009年4月份,一直到2011年,包括今年3月份、5月份、9月份,今年短短半年,對大數據概念進行兩次更新,最初的概念到整個行業完整服務的解決方案,尤其最近提出大數據平臺的概念,這一點在業界還是得到很好的反響。這個大數據平臺有四大核心能力,包括提到的Hadoop系列,流計算、數據長度加上數據的整合與治等等,全方位都提出來解決方案。Hadoop這個系統領域當中,它代表的產品主要是Infosplere Streams,在這個里面提出普通的Hadoop開源工具,在可用性、安全性得到了大力提高,在流計算領域代表的產品,包括在信息整合和治理方面,他們都推出了整體解決方案。
Oracle做最大的改變,從傳統的軟件到現在提出來,他們是軟硬一體化,尤其在今年年初提出來一體化的概念,在業界反響還是很大。
EMC,在座的各位不是太陌生,這個企業很典型的存儲行業,在35%左右的,應該說多年來都是排行第一的,長期與IBM、惠普遠遠拋在深厚,EMC出場收入連續十五年,占整個市場的22.6%,這家公司在存儲行業,傳統存儲領域非常有競爭優勢,但是在應對大數據時代的到來,EMC他們確實動作也是比較大的,EMC在應對大數據這塊,重點是采用了兩個戰略,第一是抓研發,第二抓并購,每年投入25億美元,收購資金20億美元。在收購其他企業的時候,EMC和其他的公司,EMC在收購的時候,是豐富的現金去支持企業的發展,而不是去改變現在企業的業務架構,在收購的同時不改變企業的戰略,這一點對被收購的企業快速增長補充了一個現金流,從這兩年收購的情況看效果還是比較好。
EMC在云計算為平臺大數據戰略也是EMC在大數據時代,他們最早的一個企業,像比競爭對手來講,關注大型的機器和大型管理軟件,EMC主要采用云計算開放式、集成式進行處理。這兩年EMC在大數據這塊動作也是非常頻繁的,在今年5月21號,EMC Word大會上一[FS:PAGE]次性推出42個產品,去年1月份以來,已經推出了41款產品,現在不到兩年的時間,現在已經推出了83款,EMC在大數據的領域,應該說它的創新步伐非常快。
第四個就是惠普,剛才惠普同志也介紹了,不再多說了。
傳統的IT企業來講,他們在應對大數據時代到來,他們都做了充分的準備,在大數據時代確實非常看好,并投入了大量的人力和物力,也把大數據的戰略和提升核心競爭力關鍵措施之一。
對幾家新型的公司來看,簡單舉幾個例子,這里面只能證明一點,風險投資或者有關大數據處理的公司,風投還是非常看好的,Spluek公司,4月19號在納斯達克交易口上市,這也是大數據公司第一家上市公司,融資2.29億美元,上市首日超過了32億美元,從市場的反映情況來看,現在在美國市場出現暴漲情況,目前非常少見。
對于Birst公司,成立時間很短,2004年成立,2012年5月2號完成了4600萬美元的風投。
這是做云筆記的公司,成立于2007年,
這幾家公司對風投行業來講,他們都是很容易的獲得了高額的風險投資,不管對傳統的IT企業還是對于新型弱小的IT公司來講,大家都是非常看好EMC,都是看好大數據行業,對新型的比較弱小的企業來講,這個股票市場和風投都給出了滿意的答卷。
剛才已經提到未來不可避免的,不管是對于互聯網公司也好,還是提供IDC服務的這些公司,大數據是咱們將來不可避免,也是一定遇得到的事情。對于大數據時代,這個企業應該怎么去做?這些風險應該有多大?大數據究竟需要不需要過多關注它的安全問題?在業界目前來講,有兩塊觀點,作為我們研究團隊來講,對于大數據它的安全性,應該還是得到初步的重視,大數據當中確實里面的信息含量比較高,雖然說里面的價值密度相對來說比較低,但是對它里面還是涉及到敏感信息,隨著現在快速處理這樣一些技術的出現,快速得到有價值的信息或者風投分析出來有關企業敏感氣息。所以我們認為對大數據大家還是應該去關注它的安全的問題,它的安全風險主要體現在以下幾個方面:
第一,大數據更加容易成為網絡攻擊的顯著目標,從近兩年所發生的一些互聯網公司的用戶帳號的信息失竊情況來看,大家可以發現,一般失竊的量都是非常龐大的,也就是說,大數據當中數據量比較大,它的信息量也比較大,所以黑客更加樂意去攻擊,因為相對來說成本是比較低的。
第二,大數據當中加大了隱私泄漏的風險,畢竟是大數據,對一個企業在數據存儲和部署的時候,有些時候容易交叉存儲,把敏感[FS:PAGE]信息一不小心部署到公開的或者不應該部署到服務器上,更容易加大隱私的泄漏。
第三,大數據對于現有的存儲和防范措施,這點是不言而喻的,大數據數據量比較大,對于現在的存儲和目前安全防范措施可能提出新的挑戰。同時,大數據分析技術也容易被黑客利用攻擊當中去。
第四,大數據可能成為高級可持續的載體,APT這兩年提的比較多的詞,有一個顯著特點,這個病毒代碼非常強大,有攻擊目標很難隱藏期間,對于龐大的大數據來講,這樣的惡意軟件隱藏在數據詞當中很難發現。所以說有可能大數據成為高級的可持續APT的攻擊載體,這一點可能是需要大家非常注意的。
相關文章
大數據等構成的人體信息物聯網將改變未來醫療模式
一條項鏈可以實時監測人體心肺功能、一個戒指可以監測呼吸脈搏等指標、一副眼鏡可以監測精神疾病患者狀況……記者20日從成都舉行的2021第二屆四川康復治療及產業論壇上獲悉,由大數據、云計算、有限傳輸與無線傳輸相結合構成的人體信息物...
依托大數據物聯網 開展防汛工作
記者從白云區綜合行政執法局獲悉,為確保轄區安全度汛,該局充分利用大數據、物聯網技術,開展職責范圍內防汛搶險的應急綜合調度、指揮、協調工作,以有效應對汛期突發事件、緊急或特殊情況。該局以白云區“數字城管”系統平臺為基礎,依托...
治理PM2.5推行智能型環保 云計算大數據首當其沖
兩會期間,全國人大代表、廣東省家電商會會長、TCL集團董事長李東生接受采訪時一句:“北京昨天的霧霾還很重,今天天氣很好,北京的天氣比較講政治。”的玩笑逗樂了在場所有記者。
大數據和分析解決方案如何在數字時代徹底改變業務?
如今的技術在不斷地發展。無論是自動駕駛汽車、機器人還是重型自動機械,技術只會隨著時間的推移而變得更好。然而,很多技術在很大程度上依賴于數據、各種規模和類型企業的信息,以及解釋這些數據和信息的高級分析技術。由于大數據在推動組織數...
互聯網趨勢下,物流倉儲如何“玩”好大數據
前段時間電商物流界兩位大佬的“數據之爭”在網上鬧得沸沸揚揚,其他因素先不說,單說引起此次紛爭的“大數據”,已經是互聯網時代一個不得不思考的問題。早已有人斷言:得數據者得天下。巨沃成立至今一直專注于倉儲物流供應鏈的管理與訴求...