鄭皓:推動云計算應用-Hadoop開源平臺
雅虎北京全球軟件研發中心首席架構師和研發總監鄭浩演講全文:
前面幾位精彩的演講,我今天主要的重點在于Yahoo在云計算上的應用。大概的綱要一開始介紹Yahoo的戰略,可以看到Hadoop和Yahoo的定位。后面重點在Yahoo的應用,Hodoop和Yahoo之間的關系。
我們先談談云計算對Yahoo的重要性。Yahoo是全球最大的網頁之一,目標是為一萬個網民服務,這些網民在Yahoo上有很多活動,根據他們最有個性化,對他們提高。這實際上是互聯網的最終目標,我們可以看到對Yahoo最大的挑戰是數據的量,Yahoo的資產和平臺,Yahoo十多年累計下來的上百不同的資產平臺,里面數據量達到上百個數據量,用戶可以看到是上億的用戶,存儲對象上億。Yahoo emile的用戶這是對我們很大的挑戰。
Yahoo怎么使用云計算平臺。如果按照歷史傳統云計算平臺,我想大家聽了好幾位講員的報告,我們的提高在哪里,我們可以很快很有效的處理海量數據。你可以看到Yahoo在全球十幾個國家廣泛的產品,還有很多小的數據點,用云計算方法可以有效提高降低我們的花費,很多項目用同樣的內容。Yahoo看新聞個看郵件。另外大規模大規模促進創新和科學研究,我們科學家有時間,有能力很快地做出很多新的產品。開元社區,我們Yahoo跟其他公司不同,我們云計算是全社區,全社會的一個提高,大家共同提高,我們對開元社區有支持和有合作。
云計算的戰略,Yahoo很多數據量是我們私有的數據,在短期時間內對我們是很重要的一點,我們需要對云計算優化,我們用戶遍布全球各地。另外對數據處理和服務的環境,我們希望不管對一般的工程師,還是研究人員,還是科學家,都能提供很好的數據處。我們核心剛提到,驅動創新,對互聯網生死存亡的關鍵,最后成熟之后將核心技術開源,這是我們Yahoo付出多年的努力,我們希望跟業界同時共享。
Yahoo云內部架構,這是我的數據,對我們來講數據是我們的關鍵。通過我們數據,用云計算的方法為數據服務。我們收集大量的信息數據放回到中心存儲部門,存儲部門它的好處讓我們能夠每天處理大量的數據。對業界的挑戰,大家實際上都很了解,在新的時代,海量的數據怎么通過海量的數據提高我們對產品的要求,對用戶的了解。我們發現我們大量優質的數據,積累在很少數人身上。我們從大量數據當中挖掘有用的數據是很大的挑戰,數據量不是問題,關鍵是什么數據是有用的,怎么在有用的數據找出可以直接運用在產品時候。數據成為當時的競爭[FS:PAGE],怎么從數據當中提高我們產品。這里面可以用搜索日志,通過廣告點擊率,通過社交關系等等等等從里面汲取有用的數據。怎么有效做到這一點是在競爭當中存亡的關。
Hadoop是什么?是文件系統和并行執行環境,讓用戶便捷地處理海量數據。Apache軟件基金下面的一個開源心目。可以看到這幾年合作的發展,07年代只有三個用戶,08年已經很難屬了,09和2010年,到明年這一頁已經放不下了。這里面可以看到很多大公司和小公司,可以看到對不同階層公司的影響。這里面國內企業很多,為什么沒有列在上面,我們希望大家能夠增加Hadoop的合作關系,能夠廣泛地推廣出來。
Hadoop逐漸成為主流云計算的平臺。從海量數據研究到模型到優化,我們進入商業收入主流,就是Hadoop很大的提高。
Yahoo和Hadoop密切關系。Yahoo是Hadoopw最大的用戶,最大的測試者,最的貢獻者。還有我們發布了YahooHadoop的公開版,我們貢獻了所有在Hadoop為上的工作給Apache軟件基金會。我們持續積極地投入到Hadoop開發中。為什么Yahoo是Hadoop最大的用戶,這張圖可以看出,硬件規模上升,內部用戶也在上升。最大的測試者,Yahoo很大的團隊,專門負責測試里面有不同方向的測試。Yahoo最大的貢獻者,里面70%的Patch是Yahoo提供的。為什么Yahoo選擇Hadoop,第一是數據規模,每月超過6億的獨立用戶,每天產生數十億的transaction,PB級別的數據。分析和處理數據非常關鍵,更低的成本需求,使用低成本的通用硬件,多項目之間共享資源,在大規模集群上快速完成新的實驗,每天需要處理許多硬件故障,Hadoop為這一基礎架構可以滿足這些需要,當然在Hadoop上有很大的投資,以至于對它的提高。
Yahoo使用Hadoop的時間表,2004年是初版,2006年啟動,09年兩個超過1000節點的研究集群,08年每天載入數據量達到10TB,09年12個集群,2010年對公開版提高。Yahoo使用Hadoop的趨勢,跟互聯網的發展趨勢很符合,他們總的節點數量,增加是一個直線增加,另外一點最后的發展,超過直線增加,對企業的效應帶來很大影響。另外總的存儲完全超過總的節點數量,存儲數量我們的用戶。第一個是Yahoo首頁,首頁對Yahoo特別重要,如果對首頁用戶處理,怎么產生企業效應,是對我們公司的效益是直接相關的。這里面舉個例子,是右上角,這一塊你可以看到,我們叫FrontPage,這個點擊率是很高的,重點一點每天實施性很重要。如果延遲很多的話,對這個應用差別很大。這里面可以看到廣告,廣告優化有兩個方向,第一對用戶體驗,[FS:PAGE]如果總是給客戶跟他們沒有相關的對用戶有大的影響,第二廣告優化,怎么提高對廣告商的效應,所以可以看到用戶,每個用戶都需要發放最相關的廣告。
另外還有很多其他的應用最上面的應用,這里面圖片的應用。最上角中心的位置是首頁最關鍵的位置,這個位置點擊率最高,這邊放的是最新新聞,我們新聞根據對用戶分析,對新聞利用分析,反應都是按秒計算,你鼠標走過以后可以里面沒有的信息顯示出來,郵箱使用現在最大的障礙就是垃圾軟件,我不知道大家對垃圾軟件數據有沒有理解,我們流量有95%有郵件流量是垃圾軟件,只有5%是有用戶想看的。我們現在能做到把95%的垃圾軟件,99%能刪除掉。關于內容的優化,Yahoo是全世界各地收集大量信息的平臺,這里面對內容的處理,有對語言的處理,相關性的處理,這都是很重要的。這是利用云計算平臺實現的,首頁我想大家可以看到幾點,一個是大量的數據,大量的用戶,很多不同方面應用。這里面也是用Hadoop構造數據庫,可以看到列表有有幾個例子,一個是用Hadoop以前一個是用Hadoop之夠的比較,如果每天更新數據不可能,用了Hadoop只要20分鐘就可以做出來。另外語言方面,用Hadoop以前是提高效率,用Hadoop是開放腳本,是代表我們對用戶,我們接受到用戶的量增加很多,以前是軟件的工作人員做,我們很多研究人員直接可以寫腳本做實現。對他們來講是很大的提高。我們開發的時間,用Hadoop以前是兩到三個星期時間,這套系統不可以重復使用,因為專門為這個項目開發的,用Hadoop以后就兩三天,而且這個可以重復使用。這幾個比較可以發覺,數據量增加,我們真正的開發量開發能力都成倍地增長。
所以剛剛提到Yahoo度Hadoop的應用,Yahoo這么大的公司已經實現Hadoop的應用了。我們現在走了第一步叫筋斗云,能夠為大量用戶提供方便。就是09年、Yahoo和惠普和英特爾聯合發起的。好我剛才從Yahoo云計算的策略到應用,最后和業界共享和學術界共享的方式,這是我報告的結束,我想大家有問題,可以提問。
提問:問一個問題,和你講的不太搭,Yahoo和阿里巴巴有合作,你們現在跟阿里巴巴的合作進展怎么樣?
鄭浩:阿里巴巴是我們很重要亞洲合作伙伴,Yahoo在中國品牌是阿里巴巴負責運行的,跟阿里巴巴合作對Yahoo企業很重要。從企業上,產品上都有合作,對于在北京Yahoo的研發中心,我們跟阿里巴巴保持在技術上合作。最重要的關鍵提供對Yahoo技術的提供,Yahoo核心市場都在做。
提問:你最[FS:PAGE]核心的有結構化,用Hadoop構建結構化數據用的什么方法?
鄭浩:Hadoop對Yahoo的應用,實際上有好幾個非開源的平臺,是應用結構化
和非結構化的存儲。我們現在的重點在海量數據的處理,像我們內部的平臺,其他平臺也在討論,是不是有開源的機會,希望跟業界共享。謝謝!
提問:Google用Hadoop做什么?
鄭浩:外界有很多數據的比較,最關鍵云計算上一個很大的關鍵是處理的數據,并不是在于本身的效益,更在于數據處理方式,在性能比較的時候,很多時間你的瓶頸,更多是你自己實現的數據處理。所以我剛才提到的,我們發現性能提高,在于在云計算這種架構上實現。計算的開發的時間縮短,最后怎么提高運行。Google在Hadoop的應用,我不能代表Google講話,可以找Google的工作人員提問。我鼓勵大家在云計算上很多新的方法大家可以考慮這個,我覺得有做專利的潛能,有了專利更能提高云計算的應用。
劉鵬:再次感謝鄭浩架構師的演講!我們今天的報告到這里簡單總結一下,前面講過判斷云計算三個標準,一個標準是它的服務資源到在本級還是在云端,第二可擴展形成到底是跟蹤級還是小時級。科技資源共享云,如果我們把資源共享到這個云上,是要很大的存儲空間。賽科云港電子政務云,包括金融云這些能夠很充分地共享,可以很好擴展也是云。包括鴻蒙,大量的網站,上百萬這樣的網站呈現,需要一個是在云端,另外需要很強的擴展能力,也可以認為他就是一個云,Hadoop是云計算的鼻祖這個領域是做的很好的。
我們今天這個報告做很好,到這里就結束了!謝謝大家!
相關文章
5G如何使云計算更加前衛
在2020年突出其來的疫情改變了人們的工作和生活,很多組織的員工不得不在家遠程工作。由于發生這種變化,網絡流量已從城市商業區轉移到家庭環境。隨著大量人員遠程工作,曾經只能在企業辦公樓或園區采用的應用程序和數據如今需要從任何...
智能家居技術與應用的未來發展趨勢
無論是互聯網還是專用網絡,你知道通過遠程控制連接和操作多個家庭設備是什么感覺嗎?不只是指你的計算機、平板電腦或手機,而是指日常使用的每一種家庭設備或技術,例如廚房用具、家用電器、熱水器、燈、百葉窗、寵物喂食器,而且這個列表還在...
低速無人車在郵政快遞末端配送領域的應用分析
低速無人載貨車在郵政快遞末端配送領域正嶄露頭角,各市場主體紛紛加大研發并部分投入試驗使用。本文通過對比無人車配送與其他末端配送方式的優劣勢,并結合無人車自身特點,討論其規劃設置的基本要求,設想其主要服務模式,探討未來普及需要解...
電力物聯網應用場景廣闊 迦南智能持續創新競爭優勢明顯
2020年7月17日,創業板上市委2020年第4次審議通過了寧波迦南智能電氣股份有限公司(簡稱“迦南智能”、代碼“300880”)的上市申請,作為能源計量與服務的綜合供應商,迦南智能有哪些優勢亮點呢?下游應用場景廣闊機遇與...