鄔賀銓:大數據時代的發展趨勢
以“從大數據中挖掘大價值”為主題的“第二屆中國大數據應用論壇”于2013年7月21日在北京大學英杰交流中心陽光大廳隆重舉辦。本次活動由北京大學信息化與信息管理研究中心和北京大學CIO班教務辦公室主辦,北達軟協辦,CIO時代網承辦。各企事業單位信息化負責人、北大CIO班學員及有關媒體代表200多人薈萃于此,對大數據的眾多議題進行了熱烈討論。
中國工程院副院長、院士、國家信息化專家咨詢委員會委員鄔賀銓先生首先以“大數據時代的發展趨勢”為主題發表了精彩的演講。鄔院士的精彩觀點包括:大數據必然催生大帶寬;云計算將改變互聯網流量和流向,大數據將驅動大量部署的對等連接,網絡節點位置從信源中心向能源中心擴展;大數據呼喚智能化的處理和分析。以下為演講實錄:

中國工程院副院長、院士、國家信息化專家咨詢委員會委員 鄔賀銓
尊敬的北大的各位老師、各位專家、各位CIO,很高興來參加這次論壇。最近這幾天好像有點“CIO熱”,上個禮拜Gartner在北京有CIO論壇,明天在上海也有CIO論壇,大數據論壇也是到處在開。今天的標題是“大數據應用”,我知道今天后面的幾位報告人會講到大數據在教育、醫療、商業等等方面的應用,所以我這里就只講一下大數據時代的ICT趨勢,會講到四個方面的問題:大數據浪潮的到來、大帶寬發展的趨勢、大網絡布局的演變、大數據挖掘的挑戰。
第一,大數據浪潮的到來。綠色圖表示每個網民人均每個月下載流量,1998年每個網民一個月只需要一兆流量,2003年就需要一百兆,2008年就是1G,到2014年每個月要10個G的下載量。右邊的圖是講全世界互聯網流量累計達到1EB所需要的時間,2001年需要一年,2004年需要一個月,而今年只需要一天。2012年去年全世界互聯網一天的信息量大概是1EB,可以刻滿1.68億張DVD,。現在全世界新產生的數據量每年增加40%,每兩年數據翻一番。2012年、2013年產生數據量總和是人類有歷史以來到2011年產生數據量的總和,兩年的數據量等于一萬年的總和,這個數據規模為1.8ZB,假如把這個數據裝在32G的IPad上,要裝575億個,把這些iPad摞起來,可以摞起兩座中國的長城。2020年全球數據將達到40ZB,如果將數據裝在光盤上,這些光盤總重量等于424艘尼米茲號航母。所以說,大數據時代到來了。
大數據有網絡數據、企事業單位數據、政府數據,網絡數據自媒體數據(比如社交網絡、博客、微博等)[FS:PAGE],有日志數據(比如搜索引擎,大家上網等等都會留下很多足跡),還有富媒體數據(視頻、音頻等等),每天的數據量很大。比如淘寶每天數據量就超過50個TB;新浪微博晚上高峰的時候一秒鐘就要接收100萬以上的響應請求;百度每天大概處理60億次搜索請求,幾十PB;中國聯通每天記錄用戶上網條數,一秒鐘記錄83萬條,一個月大概是300TB;國家電網信息中心目前累計收集了2PB的數據;北京公交一卡通,每天用公交一卡通的旅客有4000萬刷卡記錄,而北京地鐵每天乘客1000萬,把這些數據每天收集起來分析數據可以用于改善北京的交通狀況,優化北京的公交線路。
最大的流量是視頻。美國TouTube網站一分鐘有72小時的視頻上載,到2016年互聯網上的忙時流量是720Tbps,相當于全世界有6億人同時看不一樣的高清電影。到2016年每3分鐘互聯網傳送360萬小時視頻,相當于全球已經生產的全部電影。這個電影用什么量衡量呢?如果一個人要看3分鐘所傳送的電影,需要34年不吃飯、不睡覺才能看完。最近兩個月在TouTube上載的視頻量是美國三大電視臺--ABC、NBC、CBS自1948年以來24/7/365連續播出的內容,可以看到視頻流量非常大。
大數據無所不在。圖中是美國的一家醫院(UPMC),一年能收500TB數據;倫敦有200個交通攝像頭,每天是8TB數據;倫敦才200個,北京有八十萬個攝像頭,數據量要比倫敦大得多了。還有其他方面的數據量,大數據無所不在。就監控而言,很多城市的攝像頭多達幾十萬個,一個月的數據就達到數十個PB。北京公安局規定,所有超市,只要有開放食品架的,全都要裝高清攝像頭,能清晰的拍攝到走在架前人的臉部,以防投毒,防用針管裝艾滋病毒、傳染病毒打到液體里等,那么產生的數據就更大了。飛機的汽輪機產生的數據是Twitter的七倍,例如波音787,它每一個飛行來回可產生TB級的數據,美國每個月收集360萬次飛行記錄;監視機隊25000個引擎,每個引擎的數據一天產生588GB;空客380軟件有10億行,每30分鐘產生10TB的數據;風力發電機裝有測量風速、螺距、油溫等多種傳感器,每隔幾毫秒測一次,用于檢測葉片、變速箱、變頻器等的磨損程度;一個具有500個風機的風場一年會產生2PB的數據。這些數據用于預防性維護,可使風機壽命延長3年即達到18年,每年每風機的成本將降低17%。根據上面監測的統計,今天所有企業的信息存儲總量已達2.2ZB,未來幾年將年增67%。
大數據的應用很多,比如淘寶,通過采集淘寶網[FS:PAGE]上成交額比較高的390個類目的商品價格來搞出淘寶的CPI,比國家統計局公布的CPI更早的預測到經濟狀況。為什么?國家統計局統計的CPI主要根據是剛性的物品;比如食品,經濟好、經濟不好,人們都要吃飯,因此差別不大。可是淘寶上都是買化妝品、電子產品、服裝,經濟不好就會少買,因此淘寶CPI更能反映價格走勢,一般來講比我們國家統計局公布的CPI,能提前一個月到半個月預測到走勢。中央首長到了淘寶看了以后就說“你們每天把淘寶的CPI送到中南海”。最近經濟情況的下行壓力很大,很多中小企業貸款很難,因為他們沒用擔保。阿里公司根據在淘寶網上中小公司遭遇的狀況,篩選出財務健康、誠信企業,不要他們擔保,阿里放貸300多億元,壞賬率僅0.3%。去年公布的四大商業銀行壞賬率是這個數字的13倍。商業銀行是有擔保的,而阿里沒有擔保。
Google把5000萬美國人頻繁的搜索跟美國疾控中心流感數據進行比較,一個地方發生流感肯定有很多人在網上搜索這些詞匯,因此根據這些詞匯出現頻率可以判斷這個地方出現流感,Google在2009年的甲型H1N1流感出現時,它比美國疾控中心提前幾個月發布公告。Google前雇員創辦了Climate公司,從美國氣象局獲得幾十年的天氣數據,并與各地的農業狀況、土壤狀況關聯起來,尚有需求的農場主說“誰問我明天種什么能賺錢,我告訴你,如果我說錯了,我的賠償要比保險公司還要更高。”到現在為止,據說他們從來還沒賠過,不像我們國家的農民只是根據簡單的判斷,今年豬肉貴了,明年大量養豬,明年豬肉就便宜了,然后年豬肉又貴了。所以農業上的大數據應用是很有幫助的。
第二,大帶寬發展趨勢。大數據必然驅動大帶寬,這是全世界國際互聯網干線的流量狀況,根據美國的預測顯示,2010年比2009年全世界的數據量增長了62%,按這個推斷,10年國際互聯網流量要增長1000倍,美國自身的互聯網流量也是10年增長1000倍。這個曲線是全世界骨干網的流量,無論亞洲金融危機還是其他危機互聯網,流量都不受影響,依舊保持高速增長。首先是光纖瀏覽,早年的是模擬的頻分復用,90年代開啟了光纖復用,當時叫數字的時分,TDM,當時一對光纖傳2.5GB的三萬電話電路;波分復用,一對光纖不僅僅可以傳一個波長,可以同時傳輸多個波長,叫做波分復用。一對光纖在工程上已經傳送1.6TB,相當于2000萬電話電路。光纖通信雖然還可以采用更多的光纖技術,做到一對光纖傳輸16個TB,兩億電話電路。當然隨著干線容量增加,[FS:PAGE]我們希望系統更靈活,所以光互聯網就出來了。總之,光纖傳輸能力十年擴大1000倍,目前來看還有很大發展空間,而且現在光纖光纜成本很低,中國生產世界一半的光纖光纜,同時也消耗了世界一半的光纖光纜,10年前中國的翻新光纖一公里賣到兩千多人民幣,去年報價是53元一公里光纖,現在光纖比面條便宜,極大地支撐了寬帶化發展。可以看到,95年的時候數據總容量比較小,只有2.5G到10GB,波分數量也只有8到40個。到2010年可以看到,信道單波長已經做到100G,信道容量做到15個、50個波長。到2020年單波長要做到1T,總容量還會增大。右下角的圖是中國聯通169的網絡,可以看到它每年都在擴容、增長。隨著大數據時代來臨,運營商還要大量的增加光纖容量。
另外,不單是干線容量增加,我們也希望用戶節路帶寬增加,所以新的運營商會推動“光纖到戶”,實際上“光纖到戶”是廣義的,并不真正是’光纖到戶”,而是光纖到大區、光纖到大樓。在中國光纖到了一個大樓之后剩下的路線很短了,也可以傳高比特率。現在光纖傳輸用的是無源光網絡,從局域端到用戶端是一個光纖,快到用戶家門口進行分支,這里面向行叫10分,下行是廣播式的。這樣用戶的帶寬能做到,現在可以上到100兆。說了光纖,除了有線,我們希望無線也是寬帶的。第一代移動中國通信在90年代的時候中國就退網了,那個時候是模一的電路交換,帶寬比較差,現在大家比較多用的是第二代移動通信,它是GSM CDMA,帶寬當時只有幾百K,3G帶寬是Mbps,現在中國基本上都是增強型3G,幾十M。前年上海世博會上周圍搞了眼鏡型的3G,也叫LTE實驗,現在在全國已經有16個城市在開展實驗了。最近,工信部預計今年年底可能要發4G牌照,4G是在LTE基礎上有進一步的改進,高速移動時就可以支持100M,低速在家里可以不要網線1G下載(這是峰值),在中國4G牌照沒有發放的時候國際上已經開始第五代移動通信標準的研究了,第五代移動通信希望能夠使用戶享受到在運動狀態下也能享受到1G峰值速率。當然每一代移動通信都是革命的,第一代移動通信蜂窩小區靠頻率不同區分用戶,叫做FDMA頻分多址。第二代移動通信GSM是靠時分區分用戶,叫TDMA時分多址,從第二代開始,第三代移動通信有CDMA的是碼分多址,現在到第四代移動通信叫OFDMA,是正交頻分多址,把頻率的時間的、空間的因素都利用起來,使得移動通信的峰值速率平均每年加倍,10年1000倍。提高移動通信的峰值速率,當然這里面要付出很大的代價。你們可以看到[FS:PAGE],早年GSM只有kbps,后來到100k,到3G是Mbps甚至是10M量級,現在到LTE開始是百兆量級,隨著移動通信峰值速率越來越高,我們的終端能力也越來越強,來不斷提升終端的寬帶化的能力。當然了,要提升這個能力現在面臨很多挑戰,比如說當手機離基站很近的時候,它可以直接從基站獲得信號,當手機回到家里,可能樓的墻壁鋼筋水泥太厲害了,這個時候穿不過去了,就要加上室內中繼來接力,如果你在馬路上當然你很靠近天線時沒問題,當遠離天線時要發展終端到終端,也就是你拿著手機走在路上,你沒打電話、上網,但是不知不覺當了第三者,當了別人的二傳手。回到家里,最好轉到WIFI上,節省帶寬和頻率。總體來說,未來我們需要通過多點協作、多個基站服務一個用戶,通過中繼、各種天線以及終端的接力以及異構的網絡來支撐移動通信的寬帶化。比如說這個基站是回龍觀,很多人晚上會住在那,晚上基站會很忙。而白天這些人都上班了,回龍觀那邊用手機打電話、上網的人少了,基站忙閑不均,有潮汐效應,怎么辦呢?把每個小區基帶處理部分集中起來,成為一個基帶池,每個蜂窩小區只剩下射頻,如果某個蜂窩小區的資源富裕可以調整給另外一個小區用,當然了形成基帶池的好處不僅僅實現忙閑調配,而且有利于運營商集中調控,節省能源,也有利于基站選址。現在老百姓環保意識比較強,不希望自己的樓頂放基站天線,一方面大家抱怨信號不好、希望基站加密,另一方面老百姓又抱怨這個可能會對身體有影響。但實際上,中國移動通信環保標準是全球最高的。
第三,大網絡布局的演變。從圖上可以看到,這是數據中心,整個高度是數據中心的總量,綠色部分是數據中心使用云計算的比例。我們可以看到,到2015年一般以上的數據中心都會用到云計算,連增22%。過去沒有人談云計算,80年代談數據庫、90年代談IBC,現在談云計算。實際上云計算應該更準確的是云服務,當然未來會發展成什么?不知道。云計算底層有一個基礎設施,像我們很多企業把它的數據庫托管到運營商那里,這就使用了云計算,使用了IaaS系統。IaaS里頭有數據中心、存儲器、服務器,如果僅僅這樣還不夠,對運營商來講,無非是“數字房地產”。運營商希望進一步在上面增加開發工具,叫PaaS,可以提供JAVA、Web2.0一些開發工具、中間件等等,企業可以租用這些開發工具,開發企業要的一些軟件,比如說數據挖掘等等。對于一些小企業而言,根本沒有開發能力,因此干脆直接租用你的軟件,這是SaaS。比如說現[FS:PAGE]在談大數據分析,哪個企業都希望大數據分析,但是每個企業去買這些數據分析軟件是很不劃算的,因此租用第三方的分析軟件可能是一個方向。當然更進一步的有Business,有能力的企業可以在上面更多的開發。所以云計算并不是為大數據而誕生的,但云計算正好適應了大數據的需要。
另外一點,網絡節點位置要從信源中心向能源中心擴展。我國有20個省市制定云計算規劃,大規模數據中心建設成為各地發展熱點,11個省市云計算投資均超過100億元。內蒙要建云計算中心、他說他那里有煤、能源,而且氣侯比較好;重慶市長說,別看我這里熱,但是長江水比較冷,可以拿來降溫,而且這里沒有地震,我這里要盡云計算中心。按照工信部等八部委2013年1月14日發布的《關于數據中心建設布局的指導意見》,中國的數據中心要考慮氣候環境、能源供應,建議我們國家的云計算中心向高緯度地區集中,也就是內蒙、西北這些地區。過去的數據中心放在上海、北京、廣州這些地方,而將來數據中心一半是云計算中心,而它們更多要放到內蒙、西北,也就是說網絡結點位置會從信源中心往能源中心拓展,實際上云計算會改變互聯網的流量和流向。
另外,由于數據量非常大,過去運營商并不是每個省線路都互相直聯的,往往通過北京互聯,有些通過上海、廣州。現在中國電信ChinaNet網絡每個省之間都直聯了。為什么?因為數據量太大了,所以希望網絡要扁平化。過去我們都說什么東西都到IP層做交換,隨著數據發展以后我們希望的路由器容量會很大,一個純IP電的Tpbs的路由器,一個端口就一千瓦,功耗很大,如果光的類型的交換,一個端口才25瓦,而且大數據里面大量的數據是過路的,而不是落地的,因此現在改變了互聯網的格局,凡是能在光層上做的交換絕不在電層上做,凡是能在MPI(層上做的交換絕不在IP層上做。過去我們常說什么東西都在要IP上交換,現在IP要變成包裝,能不在IP上交換的絕不在IP上交換。你可以看到,這是大數據的發展。另外,過去的路由器本身具有轉發和控制功能,也有節點控制功能、業務控制功能,每個路由器都是獨立的,也是自我的,它根據來的數據來選路,但是這樣的方式很難適應大數據時空動態性,大數據產生的位置、發生時間可能是不均的,也不平衡,如果動態需求希望我們的網絡也是動態的,那么傳統路由器剛性的設計很難適應動態需求,因此現在提出SDN(軟件定義網),希望把路由器里頭操作系統提起來,然后把路由器控制集中,這樣造成[FS:PAGE]網絡操作系統,而路由器就剩下傳輸與轉發功能,這是執行機構,可以根據網絡需求來集中調用配置,可以使網絡變的更柔性化,這是軟件定義網,能實現轉發與控制分離。
大數據推動城域網體系的演變,早年我們都是大計算機連大服務器,后來常常很多時間提的是客戶服務器,計算機連到服務器。當一個熱門的節目所有終端都希望下載的時候,這個服務器就是瓶頸。因此就出來了P2P,也就是說,各個終端能力都很強,每個終端沒必要全部下載下來,每個終端只下載其中一部分,各個終端下載不同的部分然后相互交換,我們叫做Peer-to-Peer,現在很多發現這個體系架構也需要改變了,因為大數據的出現,一個終端到一個服務器之間很多數據不是一個服務器能裝得下的,當一個終端接入到一個服務器的時候,可能需要調用其他服務器存儲數據來支持,因此最近五年我們國家接入網流量帶寬增長了6倍,而城域網流量增長了22倍,有更大流量在服務器之間交換。也就是說,網絡的體系會從客戶服務器的垂直架構向服務器之間的水平架構優化。大數據推動了城域網體系的演變。
另外,由于數據量很大,所以現在Google、雅虎、亞馬遜、騰訊、新浪、百度都紛紛的把它的數據通過CDN寫到不同地方。騰訊總部在深圳,可是它把很多服務器放在北京、廣州、上海等等,甚至分散到很多省,目的是縮短用戶接入到服務器的距離,所以內容分配網應用而生,最近發展得很快,內容分配網會對整個互聯網流量流向產生重大的影響。走了捷徑,那么省間長途流量就可以下來。所以內容分配網拉近了信源和用戶的距離。全球互聯網去中心化,這個圖是全世界用戶互聯網帶寬,國際互聯網帶寬是增加的,但是比例是下降的。左上角的圖就是美國全球各個州到美國的國際互聯網的流量,除了上面的線是拉丁美洲,下來之后略有回升,其他的亞洲、歐洲、美國互聯網國際流量比例是下降的,也就是說絕對值增加、相對值下降,這是因為很多東西只需要就近訪問,并不需要跨洋越境了。
第四,大數據挖掘的挑戰。大數據技術涉及到數據采集、數據存儲、數據計算、數據挖掘、數據呈現、數據安全等,涉及到很多環節。比如說挖掘就需要對數據進行清洗,進行合并、壓縮,要轉換格式,然后進行統計分析,知識發現以及可視化處理。然后找出它的關聯規則,分類、聚類,排序列,優化路徑。這里涉及到一大批的數據挖掘的軟件,簡單來說,首先是MapReducers,左邊的圖上很多數據,不同顏色[FS:PAGE]表示不同類型,首先通過Map把這些數據進行分類,不同業務類型的數據分到不同的存儲服務器里頭,這樣就是為了簡化運算,在分類過程當中數據是要加標簽的,同時要把重復的去掉,這是進行大數據的預分析前的一些操作。另外,大數據需要有很多服務器。曾經有人認為買高端服務器才可靠,后來Google首創利用低端的服務器,它認為沒必要用高端,只要用低端服務器就夠了,而低端服務器可靠性不好,怎么辦呢?冗余配置。就是把一個數據拷到三個服務器里頭,三個低端服務器的價格仍然比一個高端的服務器便宜,這樣一來既提高可靠性又降低了成本。所以大數據的分析需要分布存儲和冗余備份。還有Map Reducers要通過映射、調度,最后把結果歸納起來得出我們要得結果。大數據跟過去的分析不一樣,過去的數據都是存下來,存到靜止的數據庫里頭,然后再分析。而大數據每時每刻都有,比如說幾毫秒就要送一個數據出來,飛機引擎也是不斷的送數據出來,數據根本沒有停止的時候,我們不可能等數據停下來再來分析,我們必須一邊走一邊分析,怎么辦呢?過去的分析是靜止的,叫做“帶數據進程序”,現在的分析是在活動的,也就是“帶程序進數據”。所以大數據分析也會帶來很大的挑戰。
另外,更難的挑戰是非結構化的數據。所謂結構化就是說可以用文本表格等方式來表達,即便文本表格表達從語意理解還是比較難的。比如地震的時候,網絡上為了監控輿情,看看究竟是正面的評論多還是負面的評論多,有一條信息說“當他發現他兒子還活著的時候,他抱頭痛哭。”按照分析,“痛哭”肯定是負面的。但實際上這是正面的。這是因為什么呢?要讓計算機懂得人的感情,這就難了。文字的分析況且這么難,那么對照片的分析就更難了,要通過OCR掃描出里面的文字,把文字作為標簽加到照片上。照片還好說一點,而視頻分析就更難了,你怎么找這個人?去年1月份周克華在南京殺了人,當時攝像頭把他拍下來的,南京市調出幾十萬個攝像頭視頻,拍多長就要看多長,沒有分析的辦法就靠人看,所以這是很慢的。因此大數據互換智能化的處理、智能化的分析。
另外,大數據需要虛擬化和可視化。舉個例子,上海江蘇路,路上有很多攝像頭,每個攝像頭背后連一個電視屏幕,在交通管理中心的一面墻上放了很多屏。當然了,再大的墻壁也放不下全上海這么多交通攝像頭,所以只能10秒鐘顯示一條馬路的攝像頭,這些都是分離的,一個一個看很難看出問題。我們希望通過軟件把這條[FS:PAGE]馬路的攝像頭合成一個視頻,只要看這個視頻就知道全馬路攝像頭的狀況了。當然只有一條馬路還不夠,我們還要把它合成全上海一幅圖,就像上海市領導坐著直升機俯視上海一樣,看到上海市整個城市里頭,在東京北緯某個緯度,在某個時刻段,哪段路交通堵塞。大數據,無論數據有多大,無論是PB還是TB,最重要結果都應該非常直觀的一幅圖。
Gartner公司在發布2012-2016的IT發展趨勢,有五點:大數據、云存儲、移動應用、社交網絡、網絡安全。我們可以看到其中最主要的是大數據。大數據推動ICT發展的時代,云計算、移動互聯網、下一代互聯網、大數據、物聯網、社交網絡,我叫做“大智移云”,你可以看到這些新的信息技術適應大數據新一代發展。
最后,寬帶化、移動互聯網、物聯網、社交網絡等催生大數據,大數據預示信息化發展進入新階段,大數據是信息化新浪潮的結晶。為適應大數據的需求,光纖通信和移動通信加速寬帶化。大數據加快了云計算、CDN和對等直聯(或NAP)節點的部署,網絡節點位置從信源中心向能源中心轉移,信源中心向用戶靠攏,互聯網顯現去中心化。大數據挖掘對數據采集、存儲、分析、決策、呈現和安全等技術帶來大挑戰。謝謝大家!
相關文章
大數據等構成的人體信息物聯網將改變未來醫療模式
一條項鏈可以實時監測人體心肺功能、一個戒指可以監測呼吸脈搏等指標、一副眼鏡可以監測精神疾病患者狀況……記者20日從成都舉行的2021第二屆四川康復治療及產業論壇上獲悉,由大數據、云計算、有限傳輸與無線傳輸相結合構成的人體信息物...
依托大數據物聯網 開展防汛工作
記者從白云區綜合行政執法局獲悉,為確保轄區安全度汛,該局充分利用大數據、物聯網技術,開展職責范圍內防汛搶險的應急綜合調度、指揮、協調工作,以有效應對汛期突發事件、緊急或特殊情況。該局以白云區“數字城管”系統平臺為基礎,依托...
治理PM2.5推行智能型環保 云計算大數據首當其沖
兩會期間,全國人大代表、廣東省家電商會會長、TCL集團董事長李東生接受采訪時一句:“北京昨天的霧霾還很重,今天天氣很好,北京的天氣比較講政治。”的玩笑逗樂了在場所有記者。
大數據和分析解決方案如何在數字時代徹底改變業務?
如今的技術在不斷地發展。無論是自動駕駛汽車、機器人還是重型自動機械,技術只會隨著時間的推移而變得更好。然而,很多技術在很大程度上依賴于數據、各種規模和類型企業的信息,以及解釋這些數據和信息的高級分析技術。由于大數據在推動組織數...
互聯網趨勢下,物流倉儲如何“玩”好大數據
前段時間電商物流界兩位大佬的“數據之爭”在網上鬧得沸沸揚揚,其他因素先不說,單說引起此次紛爭的“大數據”,已經是互聯網時代一個不得不思考的問題。早已有人斷言:得數據者得天下。巨沃成立至今一直專注于倉儲物流供應鏈的管理與訴求...