6月23日凌晨消息,香港中文大學(xué)教授湯曉鷗、王曉剛及其研究團(tuán)隊(duì)上周宣布,他們研發(fā)的DeepID人臉識(shí)別技術(shù)的準(zhǔn)確率超過(guò)99%,比肉眼識(shí)別更加精準(zhǔn)。
湯曉鷗領(lǐng)導(dǎo)的計(jì)算機(jī)視覺(jué)研究組 (mmlab.ie.cuhk.edu.hk) 開(kāi)發(fā)了一個(gè)名為DeepID (深分證)的深度學(xué)習(xí)模型, 在LFW (Labeled Faces in the Wild)數(shù)據(jù)庫(kù)上獲得了99.15%的識(shí)別率。
LFW是人臉識(shí)別領(lǐng)域使用最廣泛的測(cè)試基準(zhǔn)。實(shí)驗(yàn)表明,如果僅僅給出人臉中心區(qū)域,人用肉眼在LFW上的識(shí)別率為97.52%。
在此之前,湯曉鷗的研究組開(kāi)發(fā)了一個(gè)基于高斯過(guò)程的人臉識(shí)別技術(shù)GaussianFace (高斯臉),取得了98.52%的識(shí)別率。這也是計(jì)算機(jī)自動(dòng)識(shí)別算法的識(shí)別率首次超過(guò)肉眼。
DeepID將GaussianFace的人臉識(shí)別世界紀(jì)錄又向前推進(jìn)了一個(gè)臺(tái)階,首次超過(guò)99%的LFW識(shí)別率。
人臉識(shí)別是計(jì)算機(jī)視覺(jué)和人工智能研究領(lǐng)域一個(gè)重要挑戰(zhàn),在公共安全、執(zhí)法、移動(dòng)互聯(lián)網(wǎng)和娛樂(lè)領(lǐng)域都有大量應(yīng)用。它也成為檢驗(yàn)人工智能是否可以在解決某些特定智能問(wèn)題上達(dá)到甚至超越人的重要測(cè)試基準(zhǔn)。
湯曉鷗的研究組在人臉識(shí)別領(lǐng)域有十幾年的研究經(jīng)歷。他們從2011年開(kāi)始開(kāi)展深度學(xué)習(xí)方法的研究工作,在2013年達(dá)到了92.52%的識(shí)別率。過(guò)去一年,他們將這一數(shù)字提高到99.15%,
今年早些時(shí)候,湯曉鷗和王曉剛的研究組曾發(fā)布了一套基于深度學(xué)習(xí)的人臉識(shí)別算法,在LFW上取得了當(dāng)時(shí)最高的97.45%的識(shí)別率. 與此同時(shí),F(xiàn)acebook(64.37, -0.13, -0.20%)發(fā)布了另一套基于深度學(xué)習(xí)的人臉識(shí)別算法DeepFace,在LFW上取得了97.35%的識(shí)別率。
DeepFace需要700多萬(wàn)人臉數(shù)據(jù)作為訓(xùn)練。而DeepID僅使用了20萬(wàn)張人臉數(shù)據(jù)以及數(shù)臺(tái)Nvidia(18.47, -0.46, -2.43%) K40 GPU。目前,湯曉鷗實(shí)驗(yàn)室的三個(gè)人臉識(shí)別算法占據(jù)了LFW識(shí)別率的前三名,而FaceBook的DeepFace排在第四。
湯曉鷗認(rèn)為,人臉識(shí)別領(lǐng)域還有大量的工作需要做,很多算法需要在實(shí)際應(yīng)用中得到不斷的改進(jìn)和提高。他的實(shí)驗(yàn)室已經(jīng)基于最新的技術(shù)突破制作出完整的一套人臉圖像處理系統(tǒng)SDK,包括人臉檢測(cè),人臉關(guān)鍵點(diǎn)對(duì)準(zhǔn),人臉識(shí)別,表情識(shí)別,性別識(shí)別,年齡估計(jì)等各種基礎(chǔ)技術(shù)包。
湯曉鷗計(jì)劃把人臉識(shí)別技術(shù)免費(fèi)提供給Android、iOS及Windows Phone開(kāi)發(fā)者;在這套FreeFace-SDK的幫助下,開(kāi)發(fā)者能夠在手機(jī)上開(kāi)發(fā)基于人臉識(shí)別的各類(lèi)應(yīng)用。此外,湯曉鷗還希望利用用戶(hù)反饋進(jìn)一步提高算法的準(zhǔn)確率。
除人臉識(shí)別外,湯曉鷗和王曉剛的研究組的另一核心研究方向是深度學(xué)習(xí)。他們?cè)O(shè)計(jì)了多個(gè)深度學(xué)習(xí)模型,可被用于研究計(jì)算機(jī)視覺(jué)領(lǐng)域的許多重要問(wèn)題,包括人臉對(duì)準(zhǔn)、行人檢測(cè)、姿態(tài)估計(jì)、人體圖像分割、車(chē)型識(shí)別、大規(guī)模人群監(jiān)控、通用物體識(shí)別和檢測(cè)、互聯(lián)網(wǎng)圖像檢索等。
深度學(xué)習(xí)被認(rèn)為是過(guò)去十年中人工智能領(lǐng)域的最大突破,在計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別、自然語(yǔ)音處理等領(lǐng)域有許多應(yīng)用!堵槭±砉た萍荚u(píng)論》將其列入2013年10項(xiàng)最具突破性技術(shù)。
深度學(xué)習(xí)試圖模仿人腦如何利用神經(jīng)網(wǎng)絡(luò)來(lái)感知世界。它的成果很大程度上受益于近年來(lái)出現(xiàn)的大數(shù)據(jù)和基于GPU的并行計(jì)算。百度(175.94, 1.44, 0.83%)2013年建立了深度學(xué)習(xí)研究院;同年12月,F(xiàn)acebook在紐約創(chuàng)建了深度學(xué)習(xí)人工智能實(shí)驗(yàn)室。2014年,谷歌(556.1, -0.26, -0.05%)4億美金收購(gòu)深度學(xué)習(xí)創(chuàng)業(yè)公司DeepMind Technologies。(彥飛)