2019年7月24日,阿里云峰會開發(fā)者大會在上海開啟。在開源大數據專場上,阿里巴巴集團副總裁、阿里巴巴計算平臺事業(yè)部總裁賈揚清向開發(fā)者們就開源技術和社區(qū)以及服務商業(yè)的模式等方面做了精彩介紹。
賈揚清指出,阿里希望通過開源會議包括開源開發(fā)者的活動進一步幫助國家和人工智能與開源開發(fā)者社區(qū)更有效地進行溝通,把整個開源的技術再往上提升一個量級。
以下為賈揚清現場分享全文實錄:
一直以來自己都是在做AI這方面的工作,我從畢業(yè)之后最開始在谷歌做相關的研究,后來又在facebook做人工智能架構這方面的工作,我應該是一個人工智能開發(fā)者加上大數據的使用者這樣一個身份。
今年3月份的時候,我發(fā)現咱們國內的技術分類最近幾年發(fā)展的非常非常好。同時這樣的環(huán)境又是給大家提一個非常好的開發(fā)、利用、跟商業(yè)部署的一體化的環(huán)境,所以我特別榮幸并有機會在阿里云能夠跟大家一塊來建設開源的生態(tài)和開源的社區(qū)和開源的商業(yè)。
從AI的角度來說,大家都會覺得已經到今天為止整個開源是非常深入人心的事情,從2013年的時候做可配單,非常多的非常優(yōu)秀的人工智能的框架到今天大家已經非常耳熟能詳了。
2015年的時候Google推出來Tensorflow應該說是現在最流行的大規(guī)模的可以商業(yè)應用的人工智能的框架。前年的時候,我們在facebook推出了PyTorch1.0這樣的框架,來實現更加靈活的從科研到部署的環(huán)境。應該來說前面幾年人工智能整個的發(fā)展適合開源的社區(qū)跟大家接觸開源共享的精神是分不開的。
從整個開源社區(qū)的角度來看,我們會看到全球整個社區(qū)是非常非常蓬勃發(fā)展的,這是我們所總結出來的數據。今天我們總共有3100萬的用戶在get ?up上活躍的進行各種軟件的開發(fā),210萬個組織建立了全球大概9600萬個倉庫那么多的開源的項目。我們還可以看到很多內容都是2018年的時候新增的,2018年的增長速度超過很多年的總和。
????從全球的趨勢來看,開源是一個大勢所趨的軟件發(fā)展一個方向,之前咱們經常在說和咱們在國內在開源的心態(tài)上面是一個什么樣的發(fā)展,我們可以看到星空院有這樣的報告,之前我們覺得開源是國際上大家玩的比較好咱們國內剛剛起步的東西。我非常開心特別驚訝的發(fā)現在國內咱們其實今天開源的整個心態(tài)也是非常深入人心的,從企業(yè)角度來說超過一半的企業(yè)都已經選擇開源的商業(yè),而且有很多企業(yè)通過社區(qū)來了解開源的軟件,把開源納入自己的技術體系當中去??偣步咏?0%的企業(yè)認為開源是非常自然選擇的解決方案。這一點是非常振奮人心的事情,跟咱們在全球看到的需求是一致的。
????從阿里云的角度來說,我們對于開源的定位是什么樣的?阿里有兩個說法,一個是自主可控。我們在前面十年之內非常驕傲的一點是建立了從底層大規(guī)模的管理和資源的優(yōu)化到上層的解決方案和大數據平臺。我們通過自己的業(yè)務反哺技術的需求做了一套非常好的解決方案,同時我們又是兼容開源的,運用不同開源不同的戶外項目,打起一整個自主可控的大廈,同時我們在開源領域做了非常多的共享,所以今天有機會給大家分享一下我們做的事情。
????首先我們是擁抱開源的態(tài)度,這基本上奠定了我們阿里云或者現在所有云廠商的基石。再往上,我們在這樣的環(huán)境下面不斷地貢獻我們的技術力量到這些項目當中來,無論是從支持開源,還是我們一線的同學都非常熱情的投入到開源的項目當中。
????另外一個開源一定程度上離不開經濟規(guī)律的控制,也就是說我們今后開源還是需要提供價值。今天我們看到非常多的基礎架構已經挪到云上的時候,云其實是開源軟件可以實現商業(yè)價值對接企業(yè)商業(yè)活動的非常好的解釋。這是我們阿里云在開源這個方面一直在考慮的,即從最開始擁抱開源到最后的跟開源共贏商業(yè)價值。
????從擁抱開源來說,從阿里巴巴整個淘寶這些業(yè)務開始,到今天在阿里云上面向企業(yè)提供INS和Caffe的服務,我們的底層都是借鑒了非常多或者使用了非常多的開源的項目,從服務器到大數據方面以及最新的人工智能的應用。如果沒有這些開源項目的話,對于我們來說要構建一個完整的業(yè)務系統(tǒng)是非常困難的事情,我們非常感激,我們也非常熱切的在和開源的整個系統(tǒng)做擁抱。
????在這樣的基礎上,我們發(fā)現我們對于開源的應用和自己業(yè)務整個的流程一起跑起來之后,我們會發(fā)現非常多的具體的開源的項目當中可能當時沒有考慮到的事情,我們知道開源其實很多時候從一顆種子開始都是我們開發(fā)者內心有一個想設計一套系統(tǒng)或者設計一套項目的方法。
我們有非常巧妙的設計和非常深思熟慮的架構思考等等,對于開源很多設計會起到一個反饋的效果。我們發(fā)現在阿里這樣大規(guī)模業(yè)務上面經常會長出一些對于開源怎么樣來走或者怎么樣來改進的想法。所以我們整個對于開源社區(qū)的貢獻一個非?;钴S的態(tài)度,從阿里自己的統(tǒng)計來說,我們有非常大的自己所建立的開源項目,或者我們對于現有開源項目的貢獻。
基本上總結來說,今年在國內TOP10的項目當中,阿里占其中6個,像Flink就是我們非常自豪的擁抱和被開源的項目。在這樣的基礎上面,我們如果只是關注大數據和人工智能這一塊,我基本上到現在為止向社區(qū)貢獻了超過大概一百萬行的代碼。
同時,在這個過程當中我們阿里非常優(yōu)秀的工程師逐漸的開始被開源的社區(qū)所接受,開源社區(qū)也邀請阿里的同學們作為確定這些項目下一步方向的參與者,我們有大概超過50個從業(yè)者從最底層的存儲的ORC項目到Spark、Flink等等這樣項目當中。
我想講一個例子,為什么我們能夠對于開源做一些比較深入的思考和貢獻,這跟我們實際業(yè)務當中的壓力是有關系的。
我們提到Flink,Flink是雙11的時候在底層做流式計算當中中流砥柱的框架,雙11是怎么樣的概念?十年之前我們剛開始雙11的時候,我們的體量非常少,幾千個商家?guī)兹f個用戶在上面就可以了,那個時候對于系統(tǒng)的壓力不是太大,隨便部署一個流計算的產品就可以了。
但是雙11從去年到現在我們發(fā)現已經有幾億的用戶在上面,非常大規(guī)模的在做購買、瀏覽這些事情。基本上咱們后臺的同學特別緊張的,在前一天23點59分的時候就在那兒看著,這對于每一個在雙11的時候看著這個系統(tǒng)的同學都是一個非常大的心理挑戰(zhàn)。
????這個導致的結果是什么,開源很多的設計我們逐漸發(fā)現說有很多設計并沒有太關注那么大體量下的壓力等等,所以我們在上面開發(fā)了非常多的優(yōu)化,這些優(yōu)化一方面可能在一個小的場景下面,也許之前大家并沒有太關注。但是如果我們要來考慮商業(yè)化的話,每個公司到大了之后都會免不了會發(fā)現問題,現在人工智能方面我們也發(fā)現類似的情況。
當年我們最開始做Caffe,做Tensorflow,做Pytorch這三個上一代人工智能框架的時候,很多設計是帶著學術界的影子的。后來我們經過那么多年的工業(yè)界和學術界的一起錘煉之后,我們發(fā)現新的框架,比如說像Tensorflow、pytorch開始逐漸的來考慮到工業(yè)界的大規(guī)模、彈性、高性能特征。部署的時候在多種環(huán)境下,在端上,在云上,在手機端等等的部署環(huán)境成本。
這樣的巨大業(yè)務體量和業(yè)務的錘煉給我們開源的社區(qū)提供了很好的反饋和貢獻。從大數據和人工智能這幾方面,第一個剛才提到的流計算,支撐了我們阿里在雙11這樣的實時計算和分析的場景當中非常大的任務,另外在人工智能這邊,我們有集團內和云上都有的產品叫做PAI,PAI是基于開源框架做深度優(yōu)化和整合的平臺。我們在上面完全兼容了Tesorflow跟caffe的語法。同時,如果需要做模型的分布式懸鏈和部署的時候,我們可以通過底層的優(yōu)化,比如說通訊庫的優(yōu)化,底層跟CPU、GPU跟體系結構相關的優(yōu)化等等,來實現更快的快速訓練和更容易的部署。
????從大數據來說,今天不光是Flink流計算,還有傳統(tǒng)的像hadoop,Spark等等這樣的產品。我們在云上面有一個平臺,可以非常完美的對接大家在大數據場景當中所遇到的需要承接開源的計算模式,可能還需要把自己的技術架構搬到云上來,但是不改變上層的軟件應用系統(tǒng)。
????我們還感覺阿里云是賦能商家實現商業(yè)價值的平臺。一個非常好的例子是ElasticSearch,ElasticSearch有商業(yè)化的公司去做落地,我們跟ElasticSearch有非常好的合作,我們在阿里云來提供這樣的產品,來提供企業(yè)級的服務,讓我們解決像平臺、管控、部署等一系列的問題,這樣的模式使得開源的軟件更加的軟件,也使得整個生態(tài)更加的完整。
????怎么樣把它部署到我們實際應用系統(tǒng)當中去?今天我們看到很多企業(yè)的應用都逐漸把整合的流程搬到云上,甚至開發(fā)者也遇到這樣的情況。當年我們剛開始做AI的時候,大家買一個機器,買一個GPU放在自己的寢室里面。北方同學很開心,因為北方機器很熱,南方同學就很不爽了因為很熱。這就是我們提供的價值,我們今天在云上做開發(fā)非常方便,從企業(yè)角度來說我們在云上實現這樣的開發(fā)之后,需要做多個國際的部署,今年阿里云在國際上面大家可能所需要到的地域都有非常多的資源來幫助大家部署自己的應用,部署自己的產品,這樣的云計算能力加上開源的能力是非常有意思的方向。
????從大數據跟人工智能角度來說,我們做什么事情呢?第一我們繼續(xù)擁抱開源的系統(tǒng),阿里云、阿里集團有這樣非常有意思的設置,基礎團隊同時支持集團內部的應用和云上的應用,這樣有什么好處呢?我們集團相當于阿里云就是最大的用戶,我們自己做的東西自己在用,在有這么大用戶的情況下,我們可以保證自己技術和產品是很不錯的。
????另外,像Flink這樣一個項目,進一步把我們所有的東西回歸到開源上面來。Flink最開始是由一個德國團隊開發(fā)的,我們跟他們合并之后做一個非常大的項目,我們內部把blink的項目和blink的社區(qū)來做一個非常好的整合,把自己做的改編的成本推到社區(qū)當中去。在這樣的過程當中我們發(fā)現了自己的開發(fā)跟開源社區(qū)的開發(fā)當中有一些非常有意思,無論是好的經驗還是壞的教訓,譬如在Flink上面,我們發(fā)現自主開發(fā)的時候很多時候是以非常迅速的迭代方式來做的。
從開源共贏的角度來說,我個人的觀點不一定對,我發(fā)現今天咱們國內的開發(fā)者對于開源有非常大的熱情,但是如果我們來看底層對于大家開發(fā)者的支持來說怎么樣來做CI,怎么樣做更好的測試,怎么樣做更好的代碼托管以及開發(fā)者的社區(qū)交流等等,這一系列的都是像阿里云這樣的公司能夠給大家逐漸的來提供的一些服務。
我們也希望通過開源這樣的會議包括開源開發(fā)者的活動等等,進一步幫助咱們國家和人工智能和開源開發(fā)者社區(qū)更有效的跟大家溝通,把我們整個開源的技術再往上提升一個量級,這也是我們從技術角度非常愿意做的事情。
????今天非常感謝有這樣的機會能夠給大家齊聚一堂討論開源的事情,今天有很多合作伙伴來向大家介紹大數據的項目、人工智能項目,非常感謝大家今天能夠來參加這個活動,謝謝大家。
您也可以關注我們的官方微信公眾號(ID:ctoutiao),給您更多好看的內容。