IOS 10 的Photos用AI做什么?
?
在剛剛結(jié)束的舊金山召開的2016年蘋果全球開發(fā)者大會上,蘋果軟件工程高級副總裁 Craig Federighi 講述了新的照片管理功能Photos。
?
在IOS 10的照片中,蘋果利用深度學(xué)習(xí)和計算機視覺技術(shù)完全修改了照片應(yīng)用程序,通過人臉識別和物體識別自動識別識別圖片內(nèi)容,給相冊中的人物分類。并且,新增的“記憶”照片功能,可以基于照片中的位置、人、場景和主題聚集在一起,然后選擇音樂配以創(chuàng)建“短期、中期、長期”的視頻或者電影。
例如,它會識別與旅行相關(guān)的所有照片,將它們集中置于一個相冊,也許命名為“家庭度假”;或者說它會識別散落在相冊各處的母親的照片,并將他們分組集中起來。
?
Apple Photos與Google Photos、Microsoft Photos有哪些差異?
?
簡單來說,對圖像的深度學(xué)習(xí)算法是通過多層的神經(jīng)網(wǎng)絡(luò)不斷的提取圖像的高層次抽象具有強表達能力的語意層次的特征,即去偽存真的過程,有了很好的特征,就可以很好的對圖像進行各種處理。
機器視覺領(lǐng)域以前提特征的方式大多為人工設(shè)定的方式,而現(xiàn)在深度學(xué)習(xí)的方式是通過大規(guī)模的數(shù)據(jù)讓算法自己去學(xué),人的設(shè)定總是有局限的,而現(xiàn)在的深度學(xué)習(xí)可以在大規(guī)模數(shù)據(jù)的幫助下學(xué)出人無法設(shè)計出的特征,這也是深度學(xué)習(xí)的魔力來源,當(dāng)然現(xiàn)在一個基于深度學(xué)習(xí)的產(chǎn)品系統(tǒng)是非常復(fù)雜的,其還會結(jié)合時序信息,上下文的建模來達到驚人的能力。
?
無論是Apple,Google,Microsoft photos里面使具體技術(shù)細節(jié)我們無從探知,畢竟這是這些公司關(guān)于人工智能的機密技術(shù),但是我們還是可以從其提供的功能表象,再結(jié)合正在機器視覺領(lǐng)域掀起革命的深度學(xué)習(xí)技術(shù),對其背后的技術(shù)原理進行一番猜測。
無論是按人臉,地理位置,記憶分組,其背后本質(zhì)上都是 image classification,clustering,sorting, tagging等機器視覺任務(wù),現(xiàn)在流行的深度學(xué)習(xí)技術(shù)(無論是深度卷機網(wǎng)絡(luò)CNN還是LSTM長短時記憶網(wǎng)絡(luò))近兩年來在此類任務(wù)上取得了驚人的成績,諸如Apple,Google等IT巨頭公司必然大量儲備了此類技術(shù),同時加上去獨一無二的海量數(shù)據(jù)和用戶運用場景,使得這些公司可以運用這些深度學(xué)習(xí)技術(shù)將看起來很酷炫的機器視覺任務(wù)推向大眾。
?
Google于2015年率先推出了基于人工智能的photos產(chǎn)品,其可以將用戶圖片聚合于people,places和things這三個類別中,Apple在剛剛結(jié)束的WWDC上推出的photos也緊隨其后,推出了類似的功能,如人臉識別,和按官方稱的按memories進行分組(里面也包含預(yù)測location功能,同時能在map上顯示出來),具體不同的業(yè)務(wù)場景取決于各個公司對其客戶使用方式的把控,但是從業(yè)務(wù)邏輯和功能背后的技術(shù)上看并沒有顯出太大差異。
由于Google是一家互聯(lián)網(wǎng)導(dǎo)向公司,在云計算上有非常強的實力,所以Google photos是使用云的方式對客戶圖片進行存儲和各種人工智能的處理,這樣的方式使得Google可以使用其云端強大的計算能力去進行很復(fù)雜的運算處理,從而達到非常智能的效果,但是客戶需要將其照片同步至云端,這會帶來一些隱私的問題。
而Apple作為硬件為主體的公司,將人工智能的功能運行在其公司的移動設(shè)備是其達到最到效應(yīng)的方式也是最自然選擇,所以Apple的photos的智能處理運行于本地,這就使得用戶不需要連上云就可以享受到這些功能,這極大打消了用戶的隱私方面的擔(dān)憂,這確實是Apple一個很大的賣點。
另外,Apple在本地,尤其移動設(shè)備上,運行人工智能算法是具有很大意義的。如何在有限的計算資源上達到高性能和低功耗,是其著重考量的點,當(dāng)前深度學(xué)習(xí)在模型能力探索到一定階段后(變深變強),學(xué)術(shù)界和工業(yè)界的注意力慢慢也轉(zhuǎn)向模型大規(guī)模使用的層次,即變小變快——
?
蘋果的人工智能在本地運行的背后應(yīng)該很大依賴于現(xiàn)在學(xué)術(shù)界正在重點關(guān)注的研究領(lǐng)域,模型壓縮 (model compression),也就是在稍微損失準(zhǔn)確率的情況下,讓所需計算量大幅度降低,使得深度學(xué)習(xí)的模型可以運行在計算能力受限的設(shè)備上。
這方面是一個巨大的挑戰(zhàn),至于Apple是否有獨有領(lǐng)先學(xué)界業(yè)界的黑科技使得photos做到低功耗高性能的運用,這就不得而知,所以Apple的photos本地運行深度學(xué)習(xí)算法更加令人期待。
?
同時我們也不能忘記IT另一個在深度學(xué)習(xí),機器視覺技術(shù)上有深厚積累的微軟,微軟也有類photos產(chǎn)品,但是可能由于其并沒有太強的用戶場景,其photos并沒有作為一個獨立的產(chǎn)品推出,所以沒有引起太大關(guān)注,考慮到微軟在此方面非常好的技術(shù),對此感到有點遺憾。
?
圖像識別技術(shù)在移動端應(yīng)用,究竟難在哪里?
?
目前,圖像識別技術(shù)是基于深度學(xué)習(xí)算法多維度解讀圖像內(nèi)容,需要強大的計算能力來支撐機器的程序運行。即使是比較簡單的深度學(xué)習(xí)圖片識別,比如在2012年的ImageNet大賽上的也需要上億次的運算,而在四年后的今天,深度學(xué)習(xí)算法對一張圖片進行解讀都需要進行幾十億的運算,甚至上百億,但是這些都是在云端進行的運算,并且有專用的硬件系統(tǒng),所以能夠在較短的時間內(nèi)進行高速大量的運算。
?
根據(jù)我們的自己的經(jīng)驗,圖普科技的圖像識別系統(tǒng),每天進行超過9億張的圖片識別,并且還需要較高的識別精確度,這對于模型的優(yōu)化、計算能力、帶寬的傳輸效率等要求都是非常的高。
?
但是手機端的本地計算不同于云端計算,如果在手機端進行如此高速、大量的運算,在算法層面技術(shù)難點主要還是在于這三個方面:
第一、模型的復(fù)雜程度,也就是模型的聰明程度、準(zhǔn)確率、精確度等;
第二、計算時間,指計算一張圖片需要花多長時間;
第三、功耗,指的是計算一張圖片需要消耗的手機電池的電量。
并且手機的電池的續(xù)航能力一直是各個產(chǎn)商想要攻破的難題,所以如果缺乏適配于手機端的計算能力,直接在手機上跑幾十億次的運算,可能只理解幾張圖片,手機電池就會被耗光。
?
另外,對于硬件能力的提升也是一大重點,怎么設(shè)計出更好的硬件去支持現(xiàn)在的深度學(xué)習(xí)算法,從而降低功耗、加快速度,我想Apple作為有硬件閉環(huán)的公司,在硬件上應(yīng)該做了很大的定制化和創(chuàng)新, 使得基于人工智能的photos產(chǎn)品可運用在手機端,這也是Apple相對于其他互聯(lián)網(wǎng)巨頭得天獨厚的優(yōu)勢,不要忘記Apple是硬件導(dǎo)向的巨頭。
?
目前的人工智能基本都是在可控性較好的云端,而移動設(shè)備的計算能力和能耗都還不夠好,所以可能計算結(jié)果沒那么精準(zhǔn)、計算速度沒那么快,但若移動設(shè)備裝配上人工智能的能力,無論是商業(yè)市場上還是真正改變?nèi)祟惖纳钌?,想象力是巨大的。所以Apple、Google和Microsof還是會選擇將圖像識別技術(shù)應(yīng)用在手機端上,他們本身就是手機服務(wù)商,有這樣的市場需求,他們自然會開始重視深度學(xué)習(xí)在端上的應(yīng)用,相對于其他的手機應(yīng)用,這是他們將深度學(xué)習(xí)系統(tǒng)全部應(yīng)用在端的一個集合。比如說蘋果的硬件包括手機、iPad、watch、Mac等,其所有的深度學(xué)習(xí)應(yīng)用的程序和接口都是一樣的,擁有統(tǒng)一的神經(jīng)網(wǎng)絡(luò)庫。
?
畢竟移動端的應(yīng)用更加貼近人類的生活。只要有市場需求,就有發(fā)展,正如我們現(xiàn)在的手機能力比當(dāng)年登月的芯片的計算能力高了不知道多少倍,那些芯片幫助人登上了月球,而我們現(xiàn)在卻用更好的芯片刷微博。其實也是在說,技術(shù)發(fā)展得確實非??欤赡墁F(xiàn)在覺得不大可能的事情,一兩年后可能人人都會在談?wù)f論道。
?
iOS 10的Photos推出,還有更大的意義
?
但是這項自動將相冊分類功能看上去好像只是錦上添花的工作,如果這個功耗太大,而且準(zhǔn)確率還不夠高,就會得不償失,用戶就不希望這個功能消耗更多的電量,甚至于很多客戶寧愿不要,因為他們肯定知道會消耗電量。
?
但是我們圖普科技的技術(shù)控們還提了個問題,其實大家還會在擔(dān)憂一個“隱私”的問題,因為一個太智能的東西在幫你打點東西,大多數(shù)人是會有隱私被侵犯的感覺,所以智能更適合做一些不太敏感的分類,不然相冊里有一些黃圖,系統(tǒng)告訴你是黃圖并且自動幫你歸類,人會沒有安全感,同時會產(chǎn)生恐懼,最后對整個產(chǎn)品喪失信任,而且現(xiàn)在公眾確實還不大適應(yīng)人工智能,還需要接受的時間。
?
但是人工智能、圖像識別在手機端的應(yīng)用也是很廣泛的,在進入移動互聯(lián)網(wǎng)時代后,智能廣告、推薦已經(jīng)從輔助路徑轉(zhuǎn)變到了主路徑上,比如說手機淘寶,其首頁的商品推薦已經(jīng)個性化,很大程度上提升了首頁的分發(fā)能力;而今日頭條新聞客戶端,其主打特色也將智能推薦的資訊內(nèi)容放入了產(chǎn)品主路徑等。這些智能推薦引擎用大量的細分內(nèi)容協(xié)助廣告主細分了不同的用戶,更精準(zhǔn)得進行廣告投放。
?
除此之外,現(xiàn)在也是一個移動視頻應(yīng)用爆炸增長的時代,一個較大的直播平臺的用戶量在高峰期可以同時幾千萬、甚至上億人在線,但是目前直播獲益方式還是以與網(wǎng)紅分成為主,圖普科技表示,如果通過圖像識別對主播進行分類,可以得出直播平臺的內(nèi)容是否健康,或者給主播打上標(biāo)簽,平臺是否需要培養(yǎng)和扶持一些比較稀缺、受歡迎的主播?;蛘吒鶕?jù)直播的視頻內(nèi)發(fā)出的所有圖像信息,包括人物、地點、活動、事物、背景等,在以人工智能技術(shù)作為基本支撐下,可以幫助用戶智能搜索所需信息,像KTV 、餐廳、教室等,機器人可以根據(jù)用戶偏好,智能推送相應(yīng)直播視頻,幫助直播企業(yè)更好地進行用戶互動運營。這些都是可以提高產(chǎn)品和用戶體驗,或者企業(yè)想將這些信息流量變現(xiàn),均可按企業(yè)需求定制。
?
2021-11-29 圖普科技發(fā)布了 《中國人工智能商業(yè)落地百強發(fā)布 AI視覺公司圖普科技入選》的文章
2021-11-29 圖普科技發(fā)布了 《圖普科技CEO李明強入選《財富》2018年中國40位40歲以下商界精英榜單》的文章