百度陳尚義:大數(shù)據(jù)到了價值挖掘階段
2014-05-22 12:18:00 來源:環(huán)球網(wǎng) 說兩句 分享到:
第六屆中國云計算大會于2014年5月20-23日在北京國家會議中心拉開帷幕。百度技術(shù)委員會理事長陳尚義的演講主題是“百度大數(shù)據(jù)引擎”,他回顧了大數(shù)據(jù)的發(fā)展歷史,從2011年的4V界定,到2012年的政府立項,再到2013年的行業(yè)間交流合作,再到現(xiàn)在的傳統(tǒng)行業(yè)紛至,大數(shù)據(jù)以成為當(dāng)下最火的技術(shù)。他認為大數(shù)據(jù)到了一個價值挖掘的階段。

百度技術(shù)委員會理事長 陳尚義
以下為演講實錄:
非常高興有機會跟大家一起交流一下百度的大數(shù)據(jù)引擎,這是上個月剛剛對外發(fā)布的一個計劃或者行動。
剛才王博士的講話給我留下了一個非常深刻的印象,他提了一個問題,說現(xiàn)在講云計算已經(jīng)不怎么時髦了,現(xiàn)在講大數(shù)據(jù)比較時髦,過三個月之后,不知道什么東西更時髦。在這里我想試圖回答一下王博士的問題,所以我今天講的題目就叫“大數(shù)據(jù)引擎”,如果明年我還在這里講的話,我一定會跟大家講人工智能,跟大家匯報一下百度人工智能最大的進展。
大家也許知道,上周五,我們在大西洋彼岸,設(shè)了一個百度的硅谷研究院,其中有一個實驗室,我們聘請了原谷歌的一位工程師加入我們,明年希望能夠跟大家匯報我們工程方面的進展。現(xiàn)在我們給大家講一講這個時髦的話題,就是百度的大數(shù)據(jù)引擎。
我匯報分為四個部分,第一部分,我覺得大數(shù)據(jù)已經(jīng)到了一個新的階段,為什么這樣講呢?我記得在2011年前后,其實那個時候并不是說云計算和大數(shù)據(jù)是相對排斥的,那時候我記得很清楚,CSDN的劉總就講了它們之間的關(guān)系,當(dāng)時是跟我們的首席科學(xué)家探討的,那時候我們已經(jīng)看到了云計算和大數(shù)據(jù)之間的某種關(guān)系。
一、 大數(shù)據(jù)發(fā)展史
當(dāng)然,那時候有一個現(xiàn)象,大家都是在談?wù)摯髷?shù)據(jù),試圖對概念進行理解。讓我印象比較深刻的就是大家試圖解釋四個V是什么含義。當(dāng)時僅僅是談?wù)劧,?dāng)時有很多的會議,還有大數(shù)據(jù)專業(yè)委員會。
有一個朋友問我一個問題,現(xiàn)在大家都關(guān)注云計算,但是政府沒有關(guān)注,緊接著2012年前后,政府開始部署大數(shù)據(jù),標(biāo)志事件就是各地省政府和地方政府都把大數(shù)據(jù)作為戰(zhàn)略,提到非常高的高度,我印象中咸陽新區(qū)等,還有國家一些重大科技專項和科技計劃項目把大數(shù)據(jù)列入支持對象。這時候開始,政府開始關(guān)注云計算和大數(shù)據(jù)。
第三個階段,大家就開始找自己的數(shù)據(jù)資源,以及它能創(chuàng)造什么價值,就是大數(shù)據(jù)的價值探索。我記得比較清楚的是大家都互相交流,有數(shù)據(jù)的企業(yè)或者是行業(yè)找有數(shù)據(jù)處理能力的企業(yè)交流,有數(shù)據(jù)能力的企業(yè)反過來去找數(shù)據(jù)資源豐富的企業(yè)進行交流。這個時候,他們對數(shù)據(jù)資源的開發(fā)利用進行了探討,一個標(biāo)志性的東西就是跨界的交流。
現(xiàn)在我認為大數(shù)據(jù)到了一個價值挖掘的階段,我有機會接觸到全國做數(shù)據(jù)方面的一些企業(yè),但是都是打著大數(shù)據(jù)這么一個招牌去談?wù)撍麄冊跀?shù)據(jù)方面所做的工作。但是,很顯然他們已經(jīng)在做實實在在的一些事,這個是我們目前2014年所處的這么一個階段,在這個階段里頭,我認為他們存在著一些問題,我這里講的是誤區(qū),或者說是一些現(xiàn)象。這個現(xiàn)象不見得是不積極的,至少說明我們對數(shù)據(jù)價值的認識已經(jīng)到了非常高的地步,而且我們也提出了很多具體的實際行動。比如說他們把過去我們所做的輿情分析、把過去我們做的BI都進行了大數(shù)據(jù)挖掘,所用到的傳統(tǒng)技術(shù)也不是今天大家坐在一起討論的大數(shù)據(jù)方面的一些新的技術(shù)和方法。
所以,我們把數(shù)據(jù)當(dāng)做大數(shù)據(jù),把傳統(tǒng)的技術(shù)當(dāng)做大數(shù)據(jù)的技術(shù),他們挖掘這個數(shù)據(jù)價值,他們?nèi)狈Υ髷?shù)據(jù)所必須面對的挑戰(zhàn),它的這些新的特征。
在這個階段里頭,我們最需要做的事情,就是我們必須得看到真正的大數(shù)據(jù)不是那樣,真正的大數(shù)據(jù)一定是高速成長的,它的成長速度,大家都知道現(xiàn)在的摩爾定律,它的膨脹速度是你不可想象的,對成本的壓力是你不可想象的。這是第一個。第二個,我們必須要開發(fā)新工具和新平臺,去滿足大的數(shù)據(jù)規(guī)模和高速膨脹的需求,這是我們需要想到的,而不是說我們停留在過去所做的關(guān)于數(shù)據(jù)方面的一些工作而滿足。在剛才我說的第四個階段,迫切需要做這樣一些事情,克服我們的誤區(qū),然后才能贏得一個新的機會。這是我匯報的第一個方面。
二、 行業(yè)大數(shù)據(jù)面臨的挑戰(zhàn)
第二個方面,跟大家介紹一下通過我們和行業(yè)的交流,因為剛才講了,我們其中有一個階段,我們跟很多的傳統(tǒng)行業(yè)交流,如何挖掘大數(shù)據(jù)的價值,因為他們知道百度是一個大數(shù)據(jù)處理企業(yè),他相信我們可以幫到他們。所以在交流過程中,我們也實實在在感覺到各個行業(yè)面臨的一些問題。
行業(yè)挑戰(zhàn)1:數(shù)據(jù)孤島,價值未知
第一個困難就是數(shù)據(jù)孤島,大家有沒有想到所有的數(shù)據(jù)產(chǎn)生,都有它的第一個作用,否則,它不會產(chǎn)生。這個數(shù)據(jù)都積累起來,最后它一定有第二個作用、第三個作用,比如說百度的相冊里存了很多關(guān)于我們每一個網(wǎng)民存放上去的各種圖片,當(dāng)圖片積累到一定程度的時候,我們就可以發(fā)現(xiàn)當(dāng)年流行的那個趨勢是什么。我每天早上有一個習(xí)慣,起床以后站到窗戶照一張照片,對生活做一個記錄,但是多了以后,我每天把照片放在一起的時候,我很容易的就發(fā)現(xiàn)這一年天氣變化的軌跡,我甚至可以預(yù)測未來的趨勢,這就是第二個和第三個作用。
還有一個就是行業(yè)數(shù)據(jù)如果不和其他的數(shù)據(jù)進行聯(lián)合、進行交易的話,它的數(shù)據(jù)價值是非常有限的。比如說銀行的數(shù)據(jù)如果不跟互聯(lián)網(wǎng)搜索數(shù)據(jù)結(jié)合起來的話,那它純粹只是做銀行原來的事情。比如說保險數(shù)據(jù)如果和醫(yī)療數(shù)據(jù)不結(jié)合起來的話,它們之間的價值流失就會很多。總而言之,數(shù)據(jù)存在著孤島現(xiàn)象,他們對自己數(shù)據(jù)價值的認知存在著一些誤區(qū)。
行業(yè)挑戰(zhàn)2:數(shù)據(jù)累積,成本劇增
第二個挑戰(zhàn),就是數(shù)據(jù)的累積,真正的大數(shù)據(jù)成長速度是指數(shù)級的,所以給我們帶來的挑戰(zhàn)很大,包括我們的IT成本。右邊這是一個真實的服務(wù)器增長的速度,5年漲25倍,基本上按照摩爾定律在增長。我們相信在座的都知道,這意味著什么?比如說一個大型的醫(yī)院現(xiàn)在是100臺服務(wù)器,三年以后就將近1000臺服務(wù)器,這對系統(tǒng)成本的壓力是巨大的,如果你不好好利用的話,那這些數(shù)據(jù)會成為你一個很大的負擔(dān)。
行業(yè)挑戰(zhàn)3:技術(shù)瓶頸,智能缺失
第三個挑戰(zhàn),就是我們要迎接大數(shù)據(jù)下一個階段的話,你必須要有很強大的技術(shù),這些技術(shù)我可能現(xiàn)在并不知道它是什么技術(shù),必須有強大的技術(shù)、必須有強大的平臺、必須有數(shù)據(jù)挖掘這些智能的東西,發(fā)現(xiàn)數(shù)據(jù)的價值規(guī)模,才能夠各個行業(yè)的需求。
這是我講的三個方面,即使你有錢買得起那么多處理器,但是你的成本可能受不了,你的計算能力可能達不到。第二方面是從海量、超大規(guī)模的數(shù)據(jù)里,比如說百度從PB數(shù)據(jù)里如果找到想要的數(shù)據(jù),在一定時間內(nèi)找到,你就需要非常強大的數(shù)據(jù)管理,然后再網(wǎng)上是缺乏數(shù)據(jù)智能技術(shù)。
三、 百度大數(shù)據(jù)實踐
第三部分,跟大家匯報一下百度在大數(shù)據(jù)方面所做的一些工作,有的大家可能已經(jīng)知道了,有的可能還不知道。第一個方面,由于數(shù)據(jù)規(guī)模的迅速膨脹,大家知道因為百度天生就是大數(shù)據(jù)企業(yè),從它成立第一天開始就收集全網(wǎng)的數(shù)據(jù),這個數(shù)據(jù)的增長速度,我們感受非常的深刻。所以,我們在后臺必須得做很多的工作和準備,一個是規(guī)模大,另外一個是成長快。這種情況下,我們必須得有一套辦法來節(jié)省成本,提高部署效率,才能夠滿足大規(guī)模數(shù)據(jù)超高效的價值。
我們使用ARM服務(wù)器,在特定領(lǐng)域,比如說在存儲為主方面,它有它獨特的作用,它效率比較高。另外一個就是用圖形處理器代替CPU,同時,我們在整機柜服務(wù)器,顧名思義是把很多服務(wù)器放在一個柜子里,這樣處理起來會很快。由于高速的數(shù)據(jù)增長需求,我們必須提高部署的效率。再一個就是萬兆交換機,使得我們作布線方面,節(jié)約成本方面提高了很多。
再一個就是在數(shù)據(jù)中心方面,數(shù)據(jù)中心方面規(guī)模是第一位的,我們現(xiàn)在建了很多大型的數(shù)據(jù)中心,北京、山西、內(nèi)蒙建了超過十萬臺,70萬個CPU,4000舞臺服務(wù)器,數(shù)據(jù)中心亞洲第一,現(xiàn)在PUE1.32,最佳的達到1.16。一年下來,由于采用了服務(wù)器方面、數(shù)據(jù)中心方面,把各方面根據(jù)百度的優(yōu)化和機制,使得我們的成本降到50%。
百度在大數(shù)據(jù)方面實踐還有很多,有搜索,這是百度的老本行。我想提醒一下,這個跟傳統(tǒng)的搜索結(jié)果不一樣的是,過去的搜索是你點關(guān)鍵詞,出來若干鏈接,如果你覺得是好的,就結(jié)束這個搜索。如果你不滿足這個需求,就要往下去找。這個搜索不是這樣,這個例子是說“中國好聲音”這么一個關(guān)鍵詞,出來的結(jié)果是什么呢?是關(guān)于《中國好聲音》比較權(quán)威的描述,底下小圖片是里面的歌手,右邊是跟《中國好聲音》相似的節(jié)目,比較好的滿足了用戶的需求,提高了用戶體驗,節(jié)省了用戶的時間,別看小小一個變化,背后是大數(shù)據(jù),因為要從上千億網(wǎng)頁里頭知道《中國好聲音》是一個節(jié)目,以及和這個節(jié)目相關(guān)的其他節(jié)目,以及節(jié)目當(dāng)中的歌手,要從海量的數(shù)據(jù)里把這個關(guān)系找到,建立一個知識庫,我們叫知識圖譜。大家不妨可以體驗一下,可想而知背后的大數(shù)據(jù)處理提出了極高的要求。
還有一個,百度的商業(yè)模式是后代有人做推廣,俗話叫廣告,他們要給百度付錢。他投廣告不能亂,一定要精準的,根據(jù)用戶的關(guān)鍵字,他的廣告投放要有相關(guān)性,這樣點的人才沒有白費錢,廣告的投放商才省錢。這個背后也是大數(shù)據(jù),因為要對用戶的行為進行仔細的分析,使得廣告投放的結(jié)果和用戶搜索關(guān)鍵字之間具有相關(guān)性。
再一個就是在大數(shù)據(jù)的驅(qū)動之下,剛才我講了,明年我們會講到人工智能,目前百度在人工智能方面已經(jīng)走得很遠,這是一個例子,語音,F(xiàn)在很多百度的用戶已經(jīng)知道,無論是搜索還是其他方面都可以提供語音的支持,但是背后是大規(guī)模的數(shù)據(jù)對語音識別的模型進行訓(xùn)練,所以我們才有優(yōu)勢,所以我們才在過去一兩年的時間里,我們剛剛起步就迅速地突破了所有的約束。
人工智能方面另外一個就是圖片搜索,你輸入一個圖片要找到相似的圖片,比如說你輸入一張照片,然后就可以找到全網(wǎng)的關(guān)于你的照片出來,這項技術(shù)跟語音識別技術(shù)有點類似,后面是大規(guī)模的模型訓(xùn)練的結(jié)果。左邊搜出來的基本上都是形狀顏色相似的照片,右邊這個是另外一個很強大的競爭對手,他們出來的結(jié)果。
還有自然語言的理解,還有翻譯。自然語言的理解對客戶來說非常重要,為什么?網(wǎng)民的搜索是隨心所欲的,這是一個很強大的挑戰(zhàn)。翻譯也是一樣,過去是基于規(guī)則的翻譯,基于規(guī)則的自然語言的理解,現(xiàn)在已經(jīng)敵不過我們基于統(tǒng)計的自然語言的理解,背后是大數(shù)據(jù)和技術(shù)在做支撐。
百度還在另外一個方面做了實踐,就是做預(yù)測。這里有一個網(wǎng)站,是rtends.baidu.com,大家可以去看看,我們對一些事情可以做比較準確的預(yù)測。
大家看電視也好,看別的新聞也好,可能都知道百度在今年春節(jié)期間非常生動、非常形象的描繪了春運人口的遷徙情況,為什么我愿意在這里分享?因為我被震撼了。中國春運人口遷徙是人類歷史上規(guī)模最大的遷徙,我們看到的是這張圖,但是背后它有數(shù)據(jù)的采集、存儲、處理和展現(xiàn),大家都知道數(shù)據(jù)的展現(xiàn)本身就是大數(shù)據(jù)的一個核心技術(shù)。
四、 百度大數(shù)據(jù)引擎
最后跟大家分享一下百度的大數(shù)據(jù)引擎。這是大數(shù)據(jù)引擎的示意圖,這個圖怎么看呢?我告訴大家一個技巧,首先我們看中間一塊,就是黃色、綠色、藍色,這是大數(shù)據(jù)引擎本身,然后我們再看上面和下面,下面是百度的數(shù)據(jù)、行業(yè)的數(shù)據(jù),上面是行業(yè)的價值、行業(yè)應(yīng)用。然后再看每一個核心的部分都有三個向上的箭頭。
我解釋一下,內(nèi)核三個部分,第一個部分就是開放云,開放云大家可能都不陌生,過去我們在移動上已經(jīng)做了移動開放,就是百度開放平臺,即百度云,我們對中小開發(fā)者已經(jīng)開放有幾年了,在這上面有幾十萬個開發(fā)者,有很多的應(yīng)用,已經(jīng)取得了成就。這里頭的開放云除了內(nèi)部之外,還包括對行業(yè)進行開放,包括這種分布式的存儲、計算等等。
然后再往上面一個是數(shù)據(jù)工廠。數(shù)據(jù)工廠顧名思義是對數(shù)據(jù)進行加工,有大量行為點擊的數(shù)據(jù),要把它變成結(jié)構(gòu)化的、較小的數(shù)據(jù),從超大規(guī)模的數(shù)據(jù)里迅速找到所需要的數(shù)據(jù),這是數(shù)據(jù)工廠部分的功能。
最上面百度大腦,這里頭有百度所有的關(guān)于數(shù)據(jù)方面的智能,這個相當(dāng)于機器人的智力水準,它能認出一張照片上的是人還是貓,就是想把數(shù)據(jù)變成智能的,或者說通過大數(shù)據(jù),以它為基礎(chǔ)開展人工智能的工作。
底下是百度的數(shù)據(jù)加上行業(yè)的數(shù)據(jù),這個行業(yè)也可能是一個行業(yè),也可能是幾個行業(yè),這樣既克服了數(shù)據(jù)孤島問題,同時又解決了數(shù)據(jù)聯(lián)合起來創(chuàng)造更大的價值。
向上的三個箭頭分別表示我們系統(tǒng)上運行的每一個層次都可以單獨對外開放,開放云的技術(shù)指標(biāo),在數(shù)據(jù)的規(guī)模方面,剛才已經(jīng)講到了,百度的數(shù)據(jù)未來還會迅速增長。在數(shù)據(jù)中心的規(guī)模方面,我們已經(jīng)達到的超過10萬臺。然后在數(shù)據(jù)工廠這個層面,如果你是高并發(fā)、查詢結(jié)果比較大的話,在一秒之內(nèi)能夠掃描100個GB,反過來如果是小規(guī)模的查詢,并發(fā)比較高的話,能達到10萬qps。
在深度學(xué)習(xí)方面,百度的這個機器可以無時無刻,24小時不間斷學(xué)習(xí),可以告訴大家,我們有200億的參數(shù),它是世界上規(guī)模最大的人工神經(jīng)網(wǎng)絡(luò)。
剛才講了半天大數(shù)據(jù)引擎,它由三個部分組成,開放的云加上數(shù)據(jù)工廠,加上百度大腦,這個引擎對行業(yè)來講有什么意義呢?我們看一看幾個例子,第一個,我們對跟旅游行業(yè)結(jié)合,我們就可以比較準確的預(yù)測某一個城市的熱度和某一個擁擠的程度,在預(yù)測一個景點的時候可以提前到兩天。
然后百度和健康產(chǎn)業(yè)結(jié)合的話,我們也會產(chǎn)生新的價值。比如說我們和中國疾病控制中心簡稱CDC合作,我們就能準確的預(yù)測到某種疾病蔓延的趨勢。右邊這張圖有兩條曲線,一條是紅色的,一條是藍色的,這兩條線的變化走勢非常相似,這就是預(yù)測和實際結(jié)果的對比。過去我們有一個比較粗糙的數(shù)據(jù),就是百度的搜索數(shù)據(jù)加上醫(yī)院收集到的臨床數(shù)據(jù)進行預(yù)測,未來我們還會更加精確,因為我們有更多的數(shù)據(jù)可以供預(yù)測,比如說我們有人口遷徙的數(shù)據(jù),也多種APP的數(shù)據(jù),地區(qū)的數(shù)據(jù)等等,這些數(shù)據(jù)都可能被用來做疾病模型的趨勢預(yù)測。
還有一個是跟商業(yè)的結(jié)合,所有用大數(shù)據(jù)精準營銷的,都可以用這種引擎,它背后是大數(shù)據(jù)的支持?梢钥纯催@個例子,左邊是各種在線的數(shù)據(jù),用戶用百度知道、百度空間,通過對用戶行為的研究,來精準的投放廣告。右邊是說零售商或者是他們自己用購買的數(shù)據(jù)來進行商業(yè)決策,然后他們的每一個客戶體規(guī)精準化、個性化的服務(wù)。兩者互為影響,使我們的廣告更加精準,使他們的商業(yè)服務(wù)更加個性化。
總而言之,百度在大數(shù)據(jù)方面積累的能量,是我們積累的技術(shù)平臺,未來百度的這些能力和平臺會繼續(xù)為各位合作伙伴提供服務(wù),這是我們的網(wǎng)站,大家如果感興趣的話可以去上面了解更多。非常感謝,謝謝大家!
編輯:周濤
參與討論
我想說
相關(guān)新聞
頭條推薦
頻道推薦
央廣出品
熱門圖片

央廣網(wǎng)官方微信

央廣網(wǎng)科技