互聯(lián)網(wǎng)上每天都會(huì)產(chǎn)生大量?jī)?nèi)容,對(duì)互聯(lián)網(wǎng)公司而言,內(nèi)容類(lèi)服務(wù)很可能因?yàn)楸O(jiān)管人力問(wèn)題而在審核方面出現(xiàn)風(fēng)險(xiǎn)。截止到今年5月,中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)舉報(bào)中心接到網(wǎng)民舉報(bào)淫穢色情網(wǎng)站20114件次,12321舉報(bào)中心已要求應(yīng)用商店下架處置了337款不良應(yīng)用。
政府部門(mén)對(duì)互聯(lián)網(wǎng)公司的監(jiān)管力度不斷加強(qiáng),開(kāi)發(fā)者為了規(guī)避風(fēng)險(xiǎn)需要花費(fèi)大量審核人力。自建信息過(guò)濾功能或增加審核人員又會(huì)增加產(chǎn)品和服務(wù)外的支出,給前期開(kāi)發(fā)造成額外壓力。
傳統(tǒng)的內(nèi)容審核需要依賴(lài)大量的人工來(lái)實(shí)現(xiàn)?,F(xiàn)有的信息過(guò)濾系統(tǒng)也大多停留在關(guān)鍵詞程序匹配層級(jí)。隨著讀圖時(shí)代的到來(lái),信息的傳遞更多的是依賴(lài)于圖像和視頻,簡(jiǎn)單的文字過(guò)濾并不能滿(mǎn)足內(nèi)容審核的需求。
隨著計(jì)算機(jī)視覺(jué)(Computer Vision)技術(shù)在近幾年的突破式發(fā)展,基于深度學(xué)習(xí)的圖像識(shí)別技術(shù)開(kāi)始成熟,使機(jī)器代替人工完成大部分的信息審核工作成為了可能。
然而,計(jì)算機(jī)視覺(jué)領(lǐng)域是技術(shù)含量非常高的領(lǐng)域,不僅在技術(shù)層面有著嚴(yán)苛要求,還需要大量的訓(xùn)練數(shù)據(jù)的積累、復(fù)雜的圖像識(shí)別算法、昂貴的硬件系統(tǒng)和相應(yīng)的工程化開(kāi)發(fā)的支持。雖然Google、Facebook以及國(guó)內(nèi)的百度都有自研的機(jī)器智能系統(tǒng),但都沒(méi)有對(duì)外公開(kāi)。
尤其對(duì)中小開(kāi)發(fā)團(tuán)隊(duì)或個(gè)人開(kāi)發(fā)者而言,它們往往沒(méi)有人工智能方面的工程和技術(shù)能力,但又有處理大量圖片數(shù)據(jù)的需求,這個(gè)矛盾該怎么破?專(zhuān)注于圖像識(shí)別和視覺(jué)檢測(cè)的人工智能企業(yè)——圖普科技,則用他們的技術(shù)很好地解決了這個(gè)問(wèn)題。
圖普科技基于深度學(xué)習(xí)理論,打造了業(yè)內(nèi)首個(gè)內(nèi)容審核云平臺(tái)。通過(guò)建立圖像識(shí)別云,通過(guò)針對(duì)目標(biāo)特征專(zhuān)門(mén)訓(xùn)練的素材庫(kù)和識(shí)別模型來(lái)甄別存在的違規(guī)圖片。以開(kāi)放的云API平臺(tái)填補(bǔ)了市場(chǎng)空白,企業(yè)無(wú)需聘請(qǐng)人工智能識(shí)別的專(zhuān)家組建研發(fā)團(tuán)隊(duì),通過(guò)接入API調(diào)用識(shí)別服務(wù)即可。這在極大程度上降低了行業(yè)應(yīng)用圖像識(shí)別服務(wù)的門(mén)檻,使得更多互聯(lián)網(wǎng)企業(yè)使用人工智能圖像識(shí)別技術(shù)成為了可能。
調(diào)用了圖普云API后,用戶(hù)登錄審核云平臺(tái)后可以復(fù)審圖片,使機(jī)器習(xí)得相關(guān)標(biāo)準(zhǔn),返回越來(lái)越符合個(gè)性化標(biāo)準(zhǔn)的結(jié)果;同時(shí),圖普開(kāi)放了模型訓(xùn)練接口,允許用戶(hù)重新定義的分類(lèi)標(biāo)準(zhǔn),通過(guò)數(shù)據(jù)標(biāo)注完成對(duì)機(jī)器的訓(xùn)練后,產(chǎn)出新的分類(lèi)結(jié)果。
與傳統(tǒng)的人工審核方式相比,機(jī)器判別最大的問(wèn)題在于“誤判高”。如何讓機(jī)器識(shí)別低于人工的誤判率,做到“0誤判”,是對(duì)機(jī)器可靠性的考驗(yàn)。圖普科技采取的方式是對(duì)問(wèn)題進(jìn)行分割為確定的和不確定的兩部分,確定的部分交給機(jī)器,不確定的部分交給人工。對(duì)于機(jī)器確認(rèn)部分的精確度是99.5%,超越了人工,可以完全替代人力無(wú)需復(fù)審。對(duì)于疑似部分機(jī)器則會(huì)根據(jù)可能性排序。疑似部分僅占總圖片量的5%-15%,這部分即使需要人力,也可以按照概率從高到低來(lái)審核,大大提高復(fù)審效率。
對(duì)于機(jī)器學(xué)習(xí)來(lái)講,影響其整體表現(xiàn)的主要取決于三個(gè)要素:算法、GPU的計(jì)算能力以及海量數(shù)據(jù)的訓(xùn)練。教會(huì)計(jì)算機(jī)理解這個(gè)世界需要大量的圖像數(shù)據(jù),圖普科技在做好算法和工程的同時(shí),與國(guó)內(nèi)頂尖云存儲(chǔ)供應(yīng)商七牛云以及國(guó)內(nèi)最大的即時(shí)通訊云服務(wù)商融云合作,并且已經(jīng)接入迅雷、花瓣網(wǎng)、酷狗、比鄰等平臺(tái),有了大量的樣本積累和實(shí)際應(yīng)用基礎(chǔ)。目前,圖普科技的樣本數(shù)量已經(jīng)過(guò)億,每周會(huì)對(duì)樣本庫(kù)做一次版本升級(jí),將新識(shí)別出的樣本加入其中。隨著日益增長(zhǎng)的數(shù)據(jù)庫(kù),圖普的機(jī)器學(xué)習(xí)算法會(huì)更加準(zhǔn)確。
目前,圖普科技已在多個(gè)領(lǐng)域打造了原創(chuàng)性的識(shí)別技術(shù),包括色情圖像和視頻鑒別、小廣告過(guò)濾、場(chǎng)景與人物識(shí)別、暴恐內(nèi)容過(guò)濾(即將上線(xiàn))等。圖普機(jī)器人日處理圖片、視頻量可達(dá)億萬(wàn)量級(jí),幫助運(yùn)營(yíng)團(tuán)隊(duì)節(jié)省超過(guò)90%的人力成本。
一直以來(lái),人工智能被人們賦予了太多想象。隨著納米技術(shù)、生物技術(shù)等呈幾何級(jí)數(shù)加速發(fā)展,科幻電影中的情景已經(jīng)離我們?cè)絹?lái)越近,人機(jī)互動(dòng)、人機(jī)共存的時(shí)代已經(jīng)全面來(lái)臨。正如著名的奇點(diǎn)大學(xué)校長(zhǎng)雷·庫(kù)茲韋爾(Ray Kurzweil)所說(shuō),“那是一個(gè)人類(lèi)與機(jī)器并存的時(shí)代,但機(jī)器要比人類(lèi)出色許多,它們被賦予了強(qiáng)大的人工智能,足以承擔(dān)許多之前必須依賴(lài)人類(lèi)去完成的任務(wù)?!?/p>
內(nèi)容審核的云時(shí)代已經(jīng)到來(lái),我們正跨越人工智能的奇點(diǎn),迎接著圖像識(shí)別技術(shù)給工作和生活帶來(lái)的改變。