今天,云棲大會(huì)·深圳峰會(huì)在深圳如期舉行,這是今年云棲大會(huì)的第一站,雖然規(guī)模不及阿里主場(chǎng)杭州的云棲小鎮(zhèn),但按照慣例,每屆云棲大會(huì)阿里都會(huì)發(fā)布一系列重磅產(chǎn)品,這次也不例外。
本屆云棲大會(huì)的主題是“飛天 · 智能”,和去年10月杭州站的“飛天·進(jìn)化”相比看似沒有太大的變化,但很明顯的是,無論是主題演講還是會(huì)場(chǎng)展區(qū),人工智能已經(jīng)取代云計(jì)算成為了出現(xiàn)頻率最高的詞,而其最新發(fā)布的機(jī)器學(xué)習(xí)平臺(tái)PAI2.0當(dāng)之無愧成為了大會(huì)的焦點(diǎn)。
有趣的是,在大會(huì)前一天,騰訊剛剛發(fā)布了DX-I深度學(xué)習(xí)平臺(tái),根據(jù)騰訊官方的介紹,DX-I將基于騰訊云的大數(shù)據(jù)存儲(chǔ)與處理能力來提供一站式的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)服務(wù),隨著阿里機(jī)器學(xué)習(xí)平臺(tái)PAI2.0的發(fā)布,兩大平臺(tái)孰優(yōu)孰劣便引起了一陣熱議。當(dāng)然,兩款產(chǎn)品都是剛發(fā)布不久,要下結(jié)論,還需要等待第三方應(yīng)用的檢驗(yàn)。
但本著求知探索的精神,雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))還是找出了PAI2.0與DX-I之間一些微妙的差異。
定位
毋庸置疑,DX-I和PAI2.0分別是騰訊和阿里人工智能戰(zhàn)略的重要組成部分,PAI2.0還是阿里NASA計(jì)劃發(fā)布后的首款重磅產(chǎn)品。但從字面上就可以看出,二者定位還是有一定的差異。
雷鋒網(wǎng)從騰訊內(nèi)部人士得知的信息是,DX-I更注重深度學(xué)習(xí),而PAI2.0則是包含深度學(xué)習(xí)在內(nèi)的機(jī)器學(xué)習(xí),因此PAI2.0的輻射范圍會(huì)更大,換言之,如果你如果使用的不是深度學(xué)習(xí)算法和模型,那么DX-I就失效了,但你可以選擇PAI2.0。
當(dāng)然,換個(gè)角度看,在深度學(xué)習(xí)火爆的今天,DX-I可能會(huì)保持更高的專注度。
根據(jù)阿里官方的信息,PAI2.0可以支持Tensorflow、Caffe以及MXNet,用戶可以通過拖拉拽的方式可視化的操作組件來進(jìn)行試驗(yàn)。
DX-I也支持三大深度學(xué)習(xí)框架,不過這三個(gè)框架是TensorFlow、Caffe以及Torch,除了這一點(diǎn)區(qū)別之外,它也支持可視化的拖拽布局,即拖即用。
不過,PAI2.0還提供了邏輯回歸、隨機(jī)森林、GBDT、KMeans等常規(guī)的機(jī)器挖掘算法,以及文本分析和圖算法。
底層計(jì)算資源的支持
對(duì)于底層計(jì)算資源,PAI2.0提供了云端異構(gòu)計(jì)算資源,包含CPU、GPU、FPGA。在GPU方面,PAI2.0可以靈活實(shí)現(xiàn)多卡調(diào)度。
DX-I主要基于騰訊云的GPU計(jì)算平臺(tái),和異構(gòu)計(jì)算相比還是略顯單薄。
不過,對(duì)于深度學(xué)習(xí)而言用GPU來計(jì)算也有一定的優(yōu)勢(shì),綠米聯(lián)創(chuàng)首席算法工程師曲曉峰告訴雷鋒網(wǎng),“深度學(xué)習(xí)可以輕易的通過GPU提升準(zhǔn)確率和并行加速,其它方法都還沒有這樣的效率?!彼^續(xù)指出,很多其它算法也可以不斷迭代優(yōu)化,但沒法達(dá)到深度學(xué)習(xí)這樣地高效充分利用GPU的并行性。
曲曉峰表示,“異構(gòu)計(jì)算的優(yōu)勢(shì)在于絕對(duì)運(yùn)算量要求高的那些傳統(tǒng)應(yīng)用,例如氣象、核爆模擬、渲染等。其劣勢(shì)是,異構(gòu)計(jì)算為了可以調(diào)用不同的底層對(duì)于算法的要求較高,現(xiàn)在缺乏殺手級(jí)的領(lǐng)軍算法。”
內(nèi)部測(cè)試以及應(yīng)用情況
據(jù)雷鋒網(wǎng)了解,從PAI1.0開始,該機(jī)器學(xué)習(xí)平臺(tái)已經(jīng)在阿里巴巴內(nèi)部使用了2年?;谠撈脚_(tái),在淘寶搜索中,搜索結(jié)果會(huì)基于商品和用戶的特征進(jìn)行排序。通過使用參數(shù)服務(wù)器,淘寶可以把百億個(gè)特征的模型,分散到數(shù)十個(gè)乃至于上百個(gè)參數(shù)服務(wù)器上,打破了規(guī)模的瓶頸。
而DI-X在騰訊內(nèi)部使用了一年,其主要用于游戲流失率預(yù)測(cè)、用戶標(biāo)簽傳播以及廣告點(diǎn)擊行為預(yù)測(cè)等。以用戶行為預(yù)測(cè)為例,借助DI-X平臺(tái),可以方便的拖拽出一個(gè)BRNN Encoder模型(雙向循環(huán)神經(jīng)網(wǎng)絡(luò)編碼器),從用戶自身和用戶圈子好友的行為序列數(shù)據(jù)中提取出基礎(chǔ)特征,進(jìn)行棧式自編碼(Stacked Auto-Encoder)模型的訓(xùn)練,充分利用RNN的模型特點(diǎn),得到比常規(guī)模型更精準(zhǔn)的行為預(yù)測(cè)效果。
不難發(fā)現(xiàn),PAI和DI-X都是經(jīng)內(nèi)部測(cè)試成熟后才對(duì)外開放出來的,只不過相較而言,PAI是一個(gè)更加成熟的產(chǎn)品,其已經(jīng)在廣東省氣象局和華大基因等機(jī)構(gòu)實(shí)現(xiàn)了應(yīng)用。
因此,從多個(gè)維度比較的結(jié)果來看,兩個(gè)平臺(tái)很難一分高下,主要還得看應(yīng)用場(chǎng)景,如同Tensorflow、Caffe和MXNet這三大主流的深度學(xué)習(xí)開源框架:Tensorflow的優(yōu)勢(shì)是開源算法和模型最豐富;Caffe則是經(jīng)典的圖形領(lǐng)域框架,使用簡(jiǎn)單;MXNet在分布式性能上表現(xiàn)優(yōu)異。