前不久的人機(jī)圍棋大戰(zhàn),最終人類頂尖棋手李世石以 1:4 不敵 Google 出品的人工智能 AlphaGo。
其核心原理采用了多層神經(jīng)網(wǎng)絡(luò)對(duì)圖像信息進(jìn)行分析,同時(shí)運(yùn)用深度學(xué)習(xí)技術(shù)總結(jié)規(guī)律,最終得出戰(zhàn)勝人類高手的棋著。
實(shí)際上這套原理還能夠應(yīng)用在別的領(lǐng)域,就比如上個(gè)星期登陸 MindTalk 線場(chǎng)的圖普科技,每天利用人工智能對(duì)圖片和視頻進(jìn)行超過 3 億次的鑒別,利用計(jì)算機(jī)的能力來發(fā)掘圖像信息中的價(jià)值。
超過 500 家企業(yè)都是他們服務(wù)的用戶,其中更是包括了七牛云存儲(chǔ)、秒拍、小咖秀、戰(zhàn)旗 TV、唱吧等一系列非常知名的產(chǎn)品。
互聯(lián)網(wǎng)的開放不僅帶來了自由,同樣也成為垃圾信息的溫床。最為人熟知的一個(gè)職位叫做“鑒黃師”,代表人物自然是“唐馬儒”,但實(shí)際上“唐馬儒”再多也滿足不了現(xiàn)在對(duì)于圖像鑒別和挖掘的需求。
最好的例子就是前不久爆出的“直播造人”,視頻和直播類內(nèi)容的興起使得對(duì)內(nèi)容的鑒定需求呈幾何倍數(shù)增長。
圖普科技 CEO 李明強(qiáng)
垃圾信息的問題在互聯(lián)網(wǎng)的文字時(shí)代也同樣存在,但相對(duì)比較好解決:不斷在后臺(tái)更新關(guān)鍵字就可以完成屏蔽。但圖片和圖像相對(duì)復(fù)雜的多,正如圖普科技 CEO 李明強(qiáng)所說:
直播這樣的信息對(duì)于鑒別的實(shí)時(shí)性要求太高,同時(shí)在線的直播數(shù)量大,一不小心違規(guī)的東西就上線了。
這個(gè)過程傳統(tǒng)的解決方案是通過人力完成,所需要的人數(shù)會(huì)與主播成一個(gè)比例。通常都是好幾百人坐在屏幕前面持續(xù)對(duì)閃過的畫面進(jìn)行篩選,如果發(fā)現(xiàn)不符合規(guī)定就進(jìn)行人工處理。
相比之下,圖普科技給出的解決方案則更為簡單:上傳圖片(視頻直接截圖),我給你分析,然后把結(jié)果交給你。
篩選的維度豐富:色情識(shí)別、暴恐識(shí)別、是否旋轉(zhuǎn)、顏值、人物類別、廣告識(shí)別、是否戴眼鏡、頭發(fā)長度、車身顏色、車標(biāo)品牌、服裝風(fēng)格、服裝美觀度等等。如果你還有別的需求,圖普可以為你量身定做。
使用流程也非常簡單,將圖片或者影像的截圖發(fā)送到圖普的云處理端,然后就能夠接收到來自云端的處理結(jié)果,并且在返回的信息內(nèi)還包含了更多關(guān)于圖片的信息,比如“圖普有多(百分比)確定這張圖片是色情圖片、圖片里的人顏值有多高(百分比)”。
這些復(fù)雜的維度即便是人也要花上個(gè)幾秒鐘來確定,而圖普所能達(dá)到的成績是 99.5% 的圖片都能夠在 1 秒內(nèi)獲得鑒別的數(shù)據(jù)反饋。
一般不是說計(jì)算機(jī)看不懂圖片的么?圖普究竟用了什么黑科技?
同樣的一張魔方圖片圖片,人眼看到的是一個(gè)魔方,而計(jì)算機(jī)看到只是每個(gè)代表每個(gè)像素點(diǎn)的數(shù)據(jù)。 雖說人對(duì)于圖像的識(shí)別能力也是日積月累形成的,但如何教會(huì)計(jì)算機(jī)看“懂”圖片一直是個(gè)難點(diǎn)。
“懂”這個(gè)字非常關(guān)鍵,日常我們會(huì)遇到的驗(yàn)證碼就是個(gè)很好的例子。對(duì)于最簡單的文字驗(yàn)證碼,計(jì)算機(jī)能夠通過分析圖片中的像素點(diǎn)的顏色數(shù)值,然后形成一定的筆畫結(jié)果,最終轉(zhuǎn)化為文字。
所以人們就開始對(duì)驗(yàn)證碼進(jìn)行不斷的升級(jí),從更換、抽象字體到給驗(yàn)證碼加上其他干擾元素等等,12306 的圖片勾選就屬于驗(yàn)證碼中比較強(qiáng)力的一種。
8 張小小的圖片,里面展現(xiàn)了不同的物體,然后根據(jù)提示勾選其中一個(gè)或幾個(gè)才能通過驗(yàn)證。剛推出的時(shí)候瞬間所有搶票軟件都啞火了,后來他們想出一個(gè)辦法:通過數(shù)據(jù)請(qǐng)求獲得所有的圖片驗(yàn)證碼,然后仍然是通過人工進(jìn)行歸類,最終刷票需要驗(yàn)證的時(shí)候通過圖片原始數(shù)據(jù)就知道應(yīng)該勾選哪幾個(gè)了。
這種方式并沒有真正看“懂”圖片,只是利用人工完成了必須的鑒別環(huán)節(jié),如果這個(gè)驗(yàn)證碼的數(shù)據(jù)庫足夠大并且一直保持更新,破解就將變得非常困難。
只分析圖片原始數(shù)據(jù)這種方法在應(yīng)對(duì)復(fù)雜顏色圖片的時(shí)候非常無力,比如之前通過鑒定圖片中肉色的比例(根據(jù)像素點(diǎn)信息來判斷)來排除黃色圖片的某軟件。結(jié)果是各種黃牛的圖片也變成了色情圖片,還有將兩根火腿腸看成大腿的結(jié)果。
人工在鑒別的準(zhǔn)確度上肯定有優(yōu)勢(shì),但人不同于機(jī)器,總是會(huì)疲勞的,而且錯(cuò)誤幾乎不可避免,還需要付出大量的成本和時(shí)間進(jìn)行管理。
既然沒有辦法直接將人腦識(shí)別圖像的流程代碼化,那么只好從頭跟人類學(xué)習(xí)了:通過識(shí)別大量的圖片來形成電腦的自我認(rèn)知。在上周的分享中?CEO 李明強(qiáng)是這樣概括的:
最核心的原理與生物訓(xùn)練的比較類似——應(yīng)激反應(yīng),一種是獎(jiǎng)勵(lì)一種是懲罰。做對(duì)了就強(qiáng)化他然后獎(jiǎng)勵(lì),讓他不斷強(qiáng)化重復(fù)自己對(duì)的行為;做錯(cuò)的就去懲罰它,然后削弱他。
將上面一段換成技術(shù)名詞就是:有監(jiān)督的深度學(xué)習(xí)技術(shù)。
當(dāng)然首先需要給計(jì)算機(jī)裝備一個(gè)能夠不斷學(xué)習(xí)、自我成長的平臺(tái):多重神經(jīng)網(wǎng)絡(luò)。這個(gè)技術(shù)詳細(xì)解釋起來相當(dāng)復(fù)雜,概括起來就是計(jì)算機(jī)會(huì)將原來單個(gè)、零散的分辨率數(shù)據(jù)結(jié)合起來,從不同的維度進(jìn)行分析,比如顏色、相似度、局部特征等,同時(shí)與之前積累的數(shù)據(jù)進(jìn)行對(duì)比,最終捕獲其中的規(guī)律,將圖像中的信息提取出來。
這是一個(gè)不斷成長的過程,與我們嬰兒時(shí)期父母親自教我們辨認(rèn)圖像如出一轍。當(dāng)然計(jì)算機(jī)的效率要高的多,同時(shí)還能夠獲得很多已經(jīng)預(yù)先經(jīng)過篩選的數(shù)據(jù),讓“學(xué)習(xí)”過程具備了先天優(yōu)勢(shì)。
所以在圖普科技提出的解決方案中存在這樣一個(gè)流程:如果計(jì)算機(jī)對(duì)于自己的判斷自信度達(dá)不到 99.5%,圖像數(shù)據(jù)就會(huì)返回給用戶本身,由人工進(jìn)行二次判斷,不僅最大程度的保證了效果,同時(shí)還能從人給出的判斷結(jié)果對(duì)規(guī)則進(jìn)行修正。李明強(qiáng)還給出了自己的看法:
人工復(fù)審這個(gè)方式是我們的首創(chuàng)。因?yàn)槿斯ぶ悄艽嬖谝粋€(gè)陷阱:你可以用人工智能很快的完成事情的 50%。比如很多 Demo 都能夠獲得很好的效果,但實(shí)用的時(shí)候又很不靠譜。
所以我們需要告訴用戶我們負(fù)責(zé)的 50% 確定能做好,我們不確定的 50%,你自己人工看一下。這樣問題就可以完美解決,當(dāng)然未來完全不用人工也是我們的努力方向,這個(gè)準(zhǔn)確率會(huì)像曲線一樣無限逼近,只要能夠越來越節(jié)省人力,我覺得我們的目的就達(dá)到了。
在問及視頻內(nèi)容的興起,以及對(duì)圖普未來發(fā)展的影響時(shí),李明強(qiáng)回答到:
人工智能只是手段、工具,視頻的爆發(fā)是必然的。
內(nèi)容肯定是從簡單到復(fù)雜、從靜態(tài)到動(dòng)態(tài)、從不可互動(dòng)到互動(dòng)性、從分時(shí)到實(shí)時(shí)這樣一個(gè)趨勢(shì)去發(fā)展的,所以移動(dòng)視頻這個(gè)爆發(fā)不是一個(gè)暫時(shí)的現(xiàn)象。
以后互聯(lián)網(wǎng)里的內(nèi)容很可能大部分都會(huì)以視頻語音這種人類最本質(zhì)的溝通方法進(jìn)行傳播,像文字這種類型的數(shù)據(jù)反而需要學(xué)習(xí)和理解。這就使得圖像識(shí)別成為新的信息鏈接關(guān)鍵點(diǎn)了。
傳統(tǒng)互聯(lián)網(wǎng)中的信息主要存在于文字當(dāng)中,他們的鏈接方式主要是超鏈接,通過無數(shù)個(gè)超鏈接,這些內(nèi)容形成了一個(gè)龐大的庫。但是落在圖像身上之后,超鏈接的錨點(diǎn)就丟失了,因?yàn)槟銢]有辦法直接知道兩個(gè)內(nèi)容是否關(guān)聯(lián)、那些內(nèi)容是關(guān)聯(lián)的。用李明強(qiáng)自己的話來說就是:“圖像識(shí)別技術(shù)在現(xiàn)在這個(gè)圖像和視頻時(shí)代,將會(huì)成為一項(xiàng)基礎(chǔ)服務(wù)。”
所有內(nèi)容都需要各種各樣圖像識(shí)別的接口,從各種維度去分析圖像和視頻,這樣子才能夠構(gòu)建以圖像和視頻內(nèi)容為主體的互聯(lián)網(wǎng) 2.0 時(shí)代。
李明強(qiáng)還拿了他們一類非常典型的客戶——視頻網(wǎng)站/直播網(wǎng)站來舉例:利用圖普的技術(shù)對(duì)用戶的上傳的內(nèi)容進(jìn)行分析,然后將獲得的反饋與用戶連接起來。甚至于更夠成為精準(zhǔn)廣告投放的根據(jù)。而圖普科技的價(jià)值就在于:
在即將到來的圖片和視頻內(nèi)容時(shí)代,為企業(yè)提供各種連接能力和增值服務(wù),構(gòu)建圖片視頻時(shí)代的新互聯(lián)網(wǎng)業(yè)務(wù)模式。
當(dāng)人類輸?shù)羰兰o(jì)圍棋人機(jī)大戰(zhàn)之后,中國涌現(xiàn)出了好幾個(gè)人工智能項(xiàng)目(包括同樣著眼于圍棋的人工智能項(xiàng)目“異構(gòu)神機(jī)”),韓國還專門從政府中撥款扶持人工智能的產(chǎn)業(yè)發(fā)展。
對(duì)于為何人工智能最近呈現(xiàn)出一種全面爆發(fā)的態(tài)勢(shì),李明強(qiáng)這樣回答道:
人工智能有三個(gè)關(guān)鍵,一個(gè)是數(shù)據(jù)、一個(gè)是計(jì)算能力、還有一個(gè)是算法,這 3 方面正好最近都成熟了。因?yàn)樗幸囟嫉烬R了,所以呈現(xiàn)出了一個(gè)大爆發(fā)的現(xiàn)象。
人工智能的最終目的是讓機(jī)器正開眼睛,去理解真實(shí)世界。
不過對(duì)于火熱的“新風(fēng)口”——人工智能創(chuàng)業(yè),李明強(qiáng)還是表示除了一種謹(jǐn)慎。他認(rèn)為類似圖普的人工智能平臺(tái)已經(jīng)比較成熟了,但仍然存在很多機(jī)會(huì)。
如果想利用人工智能這個(gè)角度切入創(chuàng)業(yè),還是需要先從人或者行業(yè)的角度去出發(fā)。究竟有哪些東西可以通過人工智能的方式去優(yōu)化,提高效率,降低成本。這樣才是符合商業(yè)路徑的。
?
2021-11-29 圖普科技發(fā)布了 《中國人工智能商業(yè)落地百強(qiáng)發(fā)布 AI視覺公司圖普科技入選》的文章
2021-11-29 圖普科技發(fā)布了 《圖普科技CEO李明強(qiáng)入選《財(cái)富》2018年中國40位40歲以下商界精英榜單》的文章