2016年,AlphaGo擊敗職業(yè)圍棋冠軍李世石,勾起了所有人對(duì)人工智能的熱望。
時(shí)隔6年,OpenAI發(fā)布通用型對(duì)話機(jī)器人ChatGPT,以超出預(yù)期的表現(xiàn),開啟了新一輪AI熱潮。
距ChatGPT發(fā)布不到3個(gè)月,國內(nèi)外廠商紛紛發(fā)聲,有的宣稱已掌握ChatGPT相關(guān)的大語言模型技術(shù),有的宣布將推出類ChatGPT產(chǎn)品。誰將打造出中國的大語言模型,成為一個(gè)極其熱鬧的話題。?
實(shí)事求是地說,AI行業(yè)自2016年以來,從極盡繁榮到資本退潮,再到歷經(jīng)數(shù)年低谷,已經(jīng)歷一輪“過山車”式的發(fā)展。在這一過程中,清晰而見的是,AI行業(yè)的比拼,比的不是誰的“調(diào)門高”,也不是誰更會(huì)“炒熱點(diǎn)”,而是誰有“真本事”。
毫無疑問,百度在人工智能領(lǐng)域是跑在最前列的那個(gè)。日前,百度對(duì)外宣布,其打造的文心一言將在2023年3月正式上線。然而在中國,騰訊、阿里、京東、科大訊飛等無數(shù)廠商都在進(jìn)軍AI領(lǐng)域,為什么百度能夠做出與ChatGPT同屬于大語言模型技術(shù)范疇的文心一言?
大語言模型的艱難進(jìn)階
如果用一個(gè)詞形容大語言模型的誕生與迭代,那就是“艱難”。
2016年前,人工智能理解人類語言的主流技術(shù)是采用小模型處理某個(gè)具體任務(wù),如下圍棋、機(jī)器翻譯等。這一階段,人工智能既無法勝任多種任務(wù),也需要面對(duì)海量的數(shù)據(jù)標(biāo)注難題。?
為了改變發(fā)展瓶頸,人工智能領(lǐng)域亟需優(yōu)質(zhì)模型替代傳統(tǒng)模式。幾乎同一時(shí)期,國內(nèi)外AI科技企業(yè)紛紛加入了AI大模型的探索,在國內(nèi),百度站在AI行業(yè)的最前端,率先推出知識(shí)增強(qiáng)語義理解模型文心ERNIE,而在國外,OpenAI則基于Transform模型,推出了生成式預(yù)訓(xùn)練語言模型GPT-1。?
全新的AI大模型不再需要進(jìn)行繁重的人工數(shù)據(jù)標(biāo)注,經(jīng)過參數(shù)的微調(diào),也可執(zhí)行生成文章、代碼、機(jī)器翻譯、問答等各種通用任務(wù)。
但此時(shí),新的難題又出現(xiàn)了。一方面是模型參數(shù)量劇增,比如GPT-1參數(shù)量飆升到1.17億,2019年推出的GPT-2參數(shù)量為15億,而到2020年的GPT-3參數(shù)量已高達(dá)1750億;而百度文心ERNIE最初的參數(shù)量約1億,迭代到文心ERNIE 3.0 Titan時(shí)也已飆升至2600億。
另一方面,AI大模型的深度學(xué)習(xí)與持續(xù)學(xué)習(xí)則是另一道難關(guān),要讓機(jī)器理解人類的不同指令,生成高質(zhì)量答案,處理更多通用任務(wù),甚至在與人類的互動(dòng)中,可持續(xù)回答用戶的問題,也可以質(zhì)疑和拒絕不適當(dāng)?shù)膯栴},這就需要模型上的不斷優(yōu)化。
2022年,OpenAI將GPT-3升級(jí)至GPT-3.5,除了增大參數(shù)量之外,又引入了人工數(shù)據(jù)標(biāo)注,以及采用人類反饋強(qiáng)化學(xué)習(xí)(RLHF),不斷地與ChatGPT聊天,生成答案與反饋答案質(zhì)量進(jìn)行模型優(yōu)化。
而百度文心ERNIE則沿用了海量無監(jiān)督文本與大規(guī)模知識(shí)圖譜的平行預(yù)訓(xùn)練算法及兼顧語言理解與語言生成的統(tǒng)一預(yù)訓(xùn)練框架,在此基礎(chǔ)上,加入了可控學(xué)習(xí)和可信學(xué)習(xí)算法。同時(shí),百度還首創(chuàng)了大模型在線蒸餾技術(shù),使其可在若干個(gè)學(xué)生模型中同時(shí)訓(xùn)練,既壓縮了參數(shù)規(guī)模,也進(jìn)一步提升AI大模型執(zhí)行任務(wù)的準(zhǔn)確性。
透過ChatGPT與百度文心ERNIE的進(jìn)階不難發(fā)現(xiàn),要做出大語言模型,“入場券”的價(jià)格其實(shí)巨高無比。
一來,大模型飆升的參數(shù)量,意味著入局者必須具備堅(jiān)實(shí)的算法、算力、數(shù)據(jù)支撐能力和充裕的資金投入。以ChatGPT來說,其每日需消耗的總算力約3640P,預(yù)訓(xùn)練數(shù)據(jù)量45TB,一次性的訓(xùn)練費(fèi)用便高達(dá)8.4億美元。
二來,技術(shù)門檻同樣不可小覷。要做出大語言模型,僅僅具備單種AI能力遠(yuǎn)遠(yuǎn)不夠,自然語言處理(NLP)、模型優(yōu)化技術(shù)、搜索技術(shù)等等,同樣不可或缺。對(duì)絕大多數(shù)AI科技公司而言,無論是算法、算力和數(shù)據(jù)支撐能力,還是資金實(shí)力,亦或者是技術(shù)能力,都是難以承受之重。
百度憑何做出文心一言?
既然大模型的研發(fā)與迭代如此之難,為什么百度可以做出“文心一言”?這得益于百度在AI領(lǐng)域長期的戰(zhàn)略定力,由此造就其綜合性的AI實(shí)力。
早在2013年,百度CEO李彥宏便對(duì)AI的想象空間充滿信心。彼時(shí),百度深度學(xué)習(xí)研究院落地,正式開啟了漫長的AI征程。
在過去十年中,百度在AI領(lǐng)域一直保持著持續(xù)的壓強(qiáng)式、馬拉松式的投入,累計(jì)投入資金超過1000億。長期的投入,帶來量變到質(zhì)變的飛躍,百度從芯片層到框架層,從模型到應(yīng)用層,進(jìn)行AI全棧技術(shù)布局,沉淀技術(shù)的綜合優(yōu)勢。
?
從模型層來說,百度早在2019年就已經(jīng)推出知識(shí)增強(qiáng)語義理解模型文心ERNIE,并登頂刷新了全球權(quán)威數(shù)據(jù)集GLUE榜單。2019年以來,ERNIE模型歷經(jīng)多次迭代,已進(jìn)化至文心ERNIE 3.0 Zeus,其參數(shù)量高達(dá)2600億,比GPT-3的1750億還高,成為全球最大的中文單體模型。?
更大的參數(shù)量,通常意味著AI大模型的功能更齊全,匹配結(jié)果更精準(zhǔn)。正因如此,文心ERNIE 3.0 Zeus支持多種自然語言理解與生成式AI,且學(xué)習(xí)、理解、生成任務(wù)效果也處在業(yè)界前列。
在自然語言處理領(lǐng)域,百度作為中國最拔尖的企業(yè),幾乎沒有任何一家公司可以看見它的尾燈。隨著文心ERNIE的不斷迭代,自然語言處理技術(shù)與AI大模型搭配,可以充分提升人工智能與自然語言的交互能力,讓機(jī)器變得更聰明,這也正是百度能夠做出文心一言的關(guān)鍵原因之一。
當(dāng)然,文心ERNIE模型的運(yùn)轉(zhuǎn),需要算力、算法和數(shù)據(jù)等基礎(chǔ)能力加持。在中金互聯(lián)網(wǎng)行業(yè)首席分析師白洋看來,百度在AI三要素——算法、算力和數(shù)據(jù)方面都擁有領(lǐng)先優(yōu)勢。?
在算力和算法上,百度目前擁有陽泉、徐水、定興三個(gè)云計(jì)算中心。以陽泉智能云數(shù)據(jù)中心來說,其一期項(xiàng)目承載的服務(wù)器就達(dá)到了16萬臺(tái),項(xiàng)目完全建成后,可承載24萬臺(tái)服務(wù)器,由此為文心ERNIE提供大模型運(yùn)行的底座能力。
在數(shù)據(jù)上,百度作為扎根中文語境下的搜索巨頭,歷來是“更懂中文”的企業(yè),而對(duì)中文與中國文化更透徹的理解,使文心NRNIE模型的預(yù)訓(xùn)練,更能結(jié)合中文搜索的真實(shí)數(shù)據(jù)與用戶需求理解進(jìn)行,從而造就其更適合中文與中國市場的特色。
也就是說,百度不僅能夠做出類ChatGPT產(chǎn)品,其打造的文心一言更有望對(duì)前者實(shí)現(xiàn)局部超越。如在搜索上,百度基于真實(shí)數(shù)據(jù)與用戶需求理解的優(yōu)勢,能夠讓文心一言的檢索增強(qiáng)提升時(shí)效性和準(zhǔn)確性;文心ERNIE模型知識(shí)增強(qiáng)大模型的屬性,也可以使其基于知識(shí)增強(qiáng),提升多輪推理對(duì)話;而本土化AI大模型的特點(diǎn),則注定了文心ERNIE模型擁有適配國人需求的先發(fā)優(yōu)勢。
技術(shù)能力與基礎(chǔ)設(shè)施之外,百度在AI領(lǐng)域的長期探索,底氣在于其業(yè)務(wù)的健康與充裕的研發(fā)資金儲(chǔ)備。根據(jù)百度2022年財(cái)報(bào)顯示,其營收達(dá)1236.75億元,歸母凈利潤同比增長10%達(dá)到206.8億元,Q4營收330.77億元,歸母凈利潤更是同比大漲32%,達(dá)到53.71億元,增長態(tài)勢極其明確。基于此,百度2022年投入214.16億元進(jìn)行核心技術(shù)研發(fā),占到了百度核心收入的22.4%。
AI大模型的探索,可以說是一場漫漫長征。在這場征途中,科技企業(yè)需要保持堅(jiān)定的戰(zhàn)略定力,也需要保持多維度綜合實(shí)力。
中文互聯(lián)網(wǎng)開啟“二次增長”
近年來,互聯(lián)網(wǎng)流量見頂已是明顯趨勢。國家統(tǒng)計(jì)局?jǐn)?shù)據(jù)顯示,2022年3月移動(dòng)互聯(lián)網(wǎng)用戶已達(dá)到11.83億,基本接近飽和狀態(tài)。AI大模型的大規(guī)模應(yīng)用,為互聯(lián)網(wǎng)的“二次增長”注入了一劑“強(qiáng)心針”。
對(duì)傳統(tǒng)搜索引擎而言,大語言模型的出現(xiàn),是一次顛覆式的創(chuàng)新。它改變的既是搜索方式與呈現(xiàn)形式,還有AI生成的內(nèi)容模式,用戶只需用自然語言交互即可獲得精準(zhǔn)答案,或者產(chǎn)出AI原創(chuàng)內(nèi)容,這都將帶來全新的搜索體驗(yàn)與效率提升。
除此之外,大語言模型在辦公、云計(jì)算、智能駕駛等多種場景中應(yīng)用,也有望助推這些行業(yè)的轉(zhuǎn)型升級(jí),激發(fā)其增長潛力。比如微軟在Office、Teams等方面,正在整合引入OpenAI的技術(shù),目標(biāo)指向的便是辦公場景的升級(jí)。
面對(duì)OpenAI與微軟的來勢洶洶,谷歌不得不緊急迎戰(zhàn),因?yàn)閮烧咴谒阉鳂I(yè)務(wù)、AI領(lǐng)域等多個(gè)層面是直接競爭對(duì)手。而谷歌推出基于其人工智能技術(shù)的聊天機(jī)器人Bard,也被視為是在拉響“紅色警報(bào)”。
然而,在太平洋的另一端,百度與谷歌的處境其實(shí)截然不同,它更像是受益者角色,而非被挑戰(zhàn)者。一方面,百度一直是國內(nèi)AI領(lǐng)域的龍頭,經(jīng)過十余年的AI全棧布局,如今其在AI各個(gè)領(lǐng)域都打造出關(guān)鍵自研技術(shù),如最底層的芯片“昆侖”,深度學(xué)習(xí)框架“飛槳”,預(yù)訓(xùn)練大模型文心ERNIE模型等。?
另一方面,作為國內(nèi)搜索巨頭,百度天然具備AI大模型最好的商業(yè)應(yīng)用場景——搜索。未來,百度的文心一言將率先接入百度搜索中,為用戶提供更準(zhǔn)確、更高時(shí)效性的搜索服務(wù)與智能生成服務(wù)。
對(duì)此,李彥宏信心十足稱,“技術(shù)已經(jīng)到了臨界點(diǎn),類似ChatGPT這樣的技術(shù)如何運(yùn)用在搜索場景上,未來一年,在這方面我們非常有機(jī)會(huì)”。
而在更多AI應(yīng)用場景中,百度也提出要基于“AI大底座”,賦能千行萬業(yè)的發(fā)展。在云服務(wù)方面,百度的文心一言與百度智能云結(jié)合,假設(shè)某個(gè)行業(yè)需要AI知識(shí)圖譜,便可以通過AI與云技術(shù)的耦合實(shí)現(xiàn)快速調(diào)用。
在智能駕駛上,百度將文心一言與產(chǎn)業(yè)結(jié)合,也將帶來極為可觀的體驗(yàn)與效率提升。比如當(dāng)文心一言應(yīng)用于汽車的智能語音助手,就有望實(shí)現(xiàn)更自然的語音對(duì)話體驗(yàn),應(yīng)用到智能駕駛系統(tǒng),則有望提升語音指令識(shí)別,提升駕駛的安全性與樂趣性。
此外,百度還將把文心一言作為平臺(tái)對(duì)外對(duì)外開放,供第三方開發(fā)應(yīng)用。目前來看,包括吉利汽車、紅網(wǎng)、每日經(jīng)濟(jì)新聞等超過400家互聯(lián)網(wǎng)、媒體、金融、保險(xiǎn)、汽車、企業(yè)軟件等行業(yè)的頭部企業(yè)已接入文心一言,多元化的AI生態(tài)體系已初見雛形。
事實(shí)上,在人工智能領(lǐng)域,百度的增長一直頗為穩(wěn)健。從其財(cái)報(bào)數(shù)據(jù)來看,2022年Q3,百度非廣告收入已經(jīng)達(dá)到65億元,同比增長25%,而這恰是得益于百度智能云與AI業(yè)務(wù)的驅(qū)動(dòng)。
如今,AI產(chǎn)業(yè)方面,百度智能云已連續(xù)四年占據(jù)AI公有云市場第一;AI出行上,百度旗下的蘿卜快跑穩(wěn)居全球最大自動(dòng)駕駛出行服務(wù)提供商,后者累計(jì)訂單量超過200萬單,Q4累計(jì)訂單量56.1萬單,更是猛增162%;而在AI生活上,百度App12月月活用戶再創(chuàng)新高,達(dá)到了6.48億。種種跡象都表明,百度在人工智能領(lǐng)域正在結(jié)出商業(yè)化碩果。
而隨著文心一言的即將亮相,百度的增長潛力更是被諸多券商一致看漲。美銀證券指出,百度文心ERNIE與ChatGPT特質(zhì)相似,是自然語言處理、計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)、知識(shí)圖譜等多種AI能力的結(jié)合與融合。?
麥格理認(rèn)為,百度可見的上行驚喜是將推出類ChatGPT的文心一言,并預(yù)計(jì)其2023年經(jīng)調(diào)整經(jīng)營利潤率將提高2.4個(gè)百分點(diǎn)至18.3%。?
業(yè)績上的增長預(yù)期之外,當(dāng)我們抽身看向更高的層面會(huì)發(fā)現(xiàn),百度文心一言的出現(xiàn),還有其更為深遠(yuǎn)的時(shí)代意義。經(jīng)歷十余年的產(chǎn)業(yè)競速,人工智能行業(yè)其實(shí)已經(jīng)來到了“拐點(diǎn)”時(shí)刻。而作為中國人工智能領(lǐng)域的代表,百度打造出的文心一言,不僅將重新定義搜索入口,“引領(lǐng)搜索體驗(yàn)的代際變革”,也將為更多人帶來模式創(chuàng)新的契機(jī),以AI助力互聯(lián)網(wǎng)打開全新的想象空間,成為助推千行萬業(yè)向上增長的“助燃劑”。
(完)
2021-12-16 電科技發(fā)布了 《羅永浩劃定重返科技界目標(biāo):AR/VR/MR,下一站元宇宙?》的文章
2021-11-17 電科技發(fā)布了 《愛奇藝2021Q3財(cái)報(bào)發(fā)布:總收入76億元 會(huì)員營收43億元》的文章
2021-11-05 電科技發(fā)布了 《將3A大作帶入大屏場景,樂播攜手天翼推出云游戲主機(jī)》的文章
2020-03-23 電科技獲得了沐晨的關(guān)注