快捷搜索:  test  as  test and 1=1  test and x=x  test and x=y

【惊】百度IDL院长林元庆:击败最强大脑王昱珩

本周五《最强大年夜脑》着末一场人机大年夜战——视频捕捉影像的人脸识别完美谢幕。着末一场比赛中,小度战平人类顶级微不雅辨识高手王昱珩。至此小度以两胜一平的好成就进入年后的脑王大年夜战。我们专访了百度深度进修钻研院院长林元庆,请其解读视频识别的关键技巧点及全部小度团队的幕后事情。

作为机械之心新栏目 AI Talk 的一部分,我们对此次视频专访的内容进行了剪辑,完备采访可见下面翰墨收拾版本。

机械之心:此次视频识别主要应用了哪些技巧措施?识别历程的实现路径是如何的?

林元庆:我们的系统首先对视频里呈现的人脸进行检测和跟踪。直不雅的来讲检测和跟踪,便是系统去看视频里有几小我的人脸各从容哪里,是怎么移动的。系统在这个检测跟踪历程完成之后,在每小我的人脸图片里遴选几张质量对照好的去做下一步的人脸识别。经由过程随后的识别历程识别出这些照片中的人详细都是谁。

机械之心:对视频内容进行布局化阐发时,若何用有效的特性对内容进行表达?

林元庆:着实我们这个系统主要由两部分组成,一部分是实现检测和跟踪,别的一部分便是人脸识别识别。我们都是经由过程深度进修的措施进修出有用的特性。今朝在特性提取上,我们很少运用工资设计的特性去对内容进行表达,大年夜部分的特性都是运用深度进修,从海量数据里,经由过程机械进修去学到这些有效的特性。

机械之心:与静态识别比拟,动态人脸识别有哪些差别?主要寻衅是什么?

林元庆:动态人脸识别比静态更为艰苦,动态的人脸识别里必要能检测出不合角度的人脸,而且动态的人脸整体质量偏低,有些帧的图片以致会是隐隐的,由于动态的环境下人是有移动的。那么在这些寻衅下,我们必要有对照好的检测算法,在很多单帧的静态图片里检测出人脸图片质量对照好的图片,然后用这些质量对照好的图片去做下一步的人脸识别。主要的寻衅也在这里,怎么更好的检测出人脸以及怎么判断出质量对照好的可以用于识别的人脸图片。别的,动态识别的视频每一秒有 30 帧,这里的又一个寻衅是若何做到人脸实时检测。在静态人脸识别里,你必要做的只是处置惩罚一张图片;而动态的环境下你有很多图片,那么怎么快速谋略,怎么选择出质量最好的图片以致多帧的进修交融都是必要仔细斟酌的。

机械之心:这一技巧练习时对硬件、数据要求高吗?所应用的样本量规模和练习光阴的环境是如何的?

林元庆:我们现在开拓出的这套人脸识别系统,在设计时分外斟酌弱光前提下和有遮挡前提下人脸识别的实现。此次比赛里所用的人脸识别系统,是经由过程两个步骤来实现的。第一步是通用人脸识别模型的练习,我们花了很大年夜力气来做。比赛系统里的模型,我们是用大年夜概 200 万小我,统共 2 亿张的照片来练习的。2 亿张照片本身是一个异常大年夜的数据,必要异常大年夜的谋略量和异常好的算法,能做到这一点借助了百度的 PaddlePaddle 平台,经由过程 PaddlePaddle,我们可以在多台机械上实现高效的并行谋略。在这一步我们获得一小我脸识别根基能力异常好的通用模型。有了通用模型,下一步便是实现在不合的场景下的人脸识别。第一期的人机大年夜战,比的是跨年岁的人脸识别,这一期比的场景是有暗光和遮挡的场景。我们在通用模型之上会分外去筹备一些跟这个情况邻近的数据集来进一步练习通用模型,着末获得弱光和遮挡情况下较好的人脸识别系统。后面的这个数据集比拟之前的通用模型的数据集就小很多了,这样的数据本身也对照难网络,我们着末的数据集大年夜概是 1 万人的量级。

机械之心:王昱珩在答题历程中着实悛改谜底但终极改错了,机械会呈现类似的问题吗?

林元庆:机械可能不太会呈现(这种环境),由于独一输入给机械的便是图像或视频信息,机械经由过程算法将要斟酌到的身分已经都斟酌了,着末是获得一个置信度也便是 Confidence Score,分数对照高的会被机械觉得便是精确谜底。虽然分数也是综合了异常多身分,但机械没法子再回去想出别的一个分数来。就像我们第一期里双胞胎的环境,机械着末抉择什么分数便是什么分数,没法子再改。人不一样,除了看图像还会遐想到一些信息,终极进行综合考量,但这会带来好结果也会有不好的结果。

机械之心:据说由于和王昱珩比赛而加班加点进级了算法,详细是做了哪些进级呢?

林元庆:我们做系统进级不是由于要和王昱珩比赛,是我们蓝本就计划要做。所做的进级着实是针对此次比赛的内容—有遮挡的人脸识别。在此次比赛中,要识别的人脸可能戴口罩、戴墨镜以致戴帽子,若何处置惩罚这些有遮挡的人脸图片,在人脸识别领域里照样悬而未决的问题。针对遮挡环境,我们也特地设计了一些对照新的算法。比如我们将人脸分为 7 个部分,每个部分的遮挡环境都是根据那个部位在深度进修的输出特性来描述这个部位被遮挡的程度,根据不合部位遮挡程度的不合决策出哪些部位是可以有效供给人脸信息的,进而可以用于人脸识别。简单来讲,便是让模型懂得不合部位被遮挡的环境,然后根据环境来应用这个部位的信息。我们练习的是一个端到真个模型,输入照片后系统自动获得不合部位的遮挡信息,着末做综合决策。

机械之心:在这一历程中,小度若何用到推理能力?今朝具备的推理能力水平若何?

林元庆:小度在其余方面可能会用到更多的推理能力,比如说自动驾驶。但在人脸识别方面,它的推理能力照样对照低级,比如我们会去阐发哪一些部位可能被遮挡,这些部位必要如何根据这些信息作出着末的判断。从不合方面获得的信息进行互相感化也是必要经由过程数据和模型去进修出来,是以,在模型设计时就会涉及一些对照基础的推理能力,让小度经由过程数据去进修。

机械之心:要得到抱负的识别结果,对人脸角度和像素分辨率都有什么样的要求?

林元庆:着实我们在阁下转向 45 度之内都能做到异常高精度的识别,但假如角度太大年夜,比如说半脸就会很难了,精度会下降。从上往下看或从下往上看,也属于对照难的,高低 15 度阁下还对照好处置惩罚,但假如角度太大年夜,难度就会对照大年夜。当然,我们也有计划再扩展算法。比拟像素分辨率,着实更紧张的是图片质量,假如图形都糊了,人都很难分辨出五官,(对机械来说)就更难了。但只要有足够的分辨率,放大年夜之后你还能看到五官,比如说眼睛能看到瞳孔,基础上照样能够识别的对照好,质量越高肯定识别越好。当我们做系统(整体设计)的时刻,着实可以设法主见子前进画面捕捉的水平,比如摄像头可以装得低一些,从一体化的角度来斟酌怎么才能取得对照高的分辨率。比如说在一些机场,为了能在人途经期捕捉人脸进行识别,他们把摄像头放在一个大年夜屏幕上,人走过的时刻经常会看一下屏幕,这样就有可能捕捉到一小我脸稍正的画面。

机械之心:节目中第一题和第三题,小度都答对了,但第二题被形容错得很离谱,是什么缘故原由造成的?

林元庆:错的很离谱可能指的是,精确谜底是一个比拟较较胖一点的人,然则小度给的谜底是一个胖瘦正常的。这是由于小度可能看的不单单是脸型,看到更多是比如鼻子的外形、嘴角的外形,对小度来说,它根本没有信息来判断人的脸型是不会变的,举个例子来讲,像我们在第一期跨年岁识别里看到,人的脸型完全是会变更的,小度无法得知它看到的这个照片跟库里的照片比拟,只是几天或几个星期、几个月之前拍摄到的,它只能从原本进修出来的信息里进行判断。着实我们 IDL 工程师们后来仔细去看了却果,除了脸型(胖瘦)身分之外,着实也挺难确定那小我是不是便是着末的人,经由过程电视仔细看照片也很不轻易,反倒是小度的谜底的嘴型更靠近真实谜底。

机械之心:在百度,这项技巧今朝仍旧停顿在技巧钻研阶段照样即将成为一个产品化的系统?

林元庆:之前,人脸识别主要照样用在百度已有产品覆盖到的场景里,包括全网的人脸搜索、图片的人脸搜索,在百度之外做的异常少。然则从 2017 年开始,我们有计划要把百度人脸识别系统在公司之外用起来,包括我们现在跟景区在做的人脸闸机系统,旅客进景区今后就可以刷脸收支,这在乌镇已经落地。在安警备畴,水哥曾帮山东省公安厅从监控的视频里找到罪犯,但水哥只有一个,而这个系统着实已经可以做到异常好的识别精度,我们也盼望它能够在更多的安警备畴用起来。我们盼望技巧能获得广泛的利用,这也是我们今年必要努力的紧张偏向,争取把我们的技巧落地到更多的实际生活中。

机械之心:能否回首一下此次小度人机大年夜战的筹备历程?比如团队筹办了多长光阴?涉及到哪几个部门的共同?中心碰到过什么状况,若何办理的?

林元庆:8 月尾,节目组到百度来约请我们参加,当时他们说盼望做跨年岁的人脸识别和声音的识别,还带了一些测试数据,我们在一个会议室里面现场做了识别精度的测试。(当时)在跨年岁人脸识别方面做了 8 组测试,结果是对了 7 组,是节目组当时很震动,感觉百度的人脸识别技巧确凿做得很好。事实上,当时我们还没有针对这个产品场景做过优化。此次提前测试之后,节目组在同时打仗的海内几家人工智能领域的公司中选择了我们。

关于到底要不要参加,我们斟酌了一两个礼拜,对我们全部团队来说,参加照样有必然风险。一方面,我们对自己的技巧很有信心,也想看看百度颠末这几年人工智能的积累,跟人类顶级选手比水平若何,即便输掉落对技巧的人来说也没什么,由于我们做实验也有掉败的时刻;但另一方面,这些选手很强,现场比拼确凿没有十全的把握,我们照样会有压力。

抉择参加之后,我们成立了一个二十几小我的课题组。着实这个项目异常繁杂,不单单是算法,还包括人脸识别、声音的识别,我们为了节目的意见意义性还做了一些技巧的展示,比如与主持人、贵宾的互动,此顶用到的是个性化语音合成等等。大年夜家都在一个会议室里面做封闭开拓,除了技巧开拓我们还要跟节目组和谐。为了让不雅众更轻易理解,要做很多事情,公司内部涉及到很多跨部门协作,IDL、AI 平台部、语音技巧部、系统部、品牌部、众测等。必要百度众测帮我们网络很多半据,必要海量的谋略必要 GPU 的调配,包括共同节目播出做的 H5 页面让大年夜家来亲身段验技巧...... 总之,一个比分背后有异常多筹备事情。

机械之心:在全部三期节目录制历程中,团队的状态是如何的?接下来对小度的体现有什么预期?

林元庆:重中之重的是算法,也便是系统的精度,我们核心成员不停在加班,常常忙到 3、4 点才回家,无意偶尔早上 7、8 点,回去睡一觉就回来再继承。由于着末异常异常首要,大年夜家遭遇的压力很大年夜,我们第一期在最强大年夜脑节目录制现场,我站在后台,节目组的人开玩笑说,元庆看着你好首要,我说是很首要。小度对错一道题,对付科学家来说跟寻常的实验一样,我们做科学钻研常常也会给人家做 Demo,一样平常是面对几十人到几百人做 Demo,压力也会蛮大年夜的,但此次要做的 Demo 是展示我们的技巧,面对是几切切上亿人,这个压力可想而知。

我们现在赢了两局平了一局,根据节目规则,我们会进入脑王决斗,我们收到的看护是脑王决斗会在 3、4 月份举行。我们会再从新开始备战,但详细是什么节目内容,我们现在还不知道,独一知道的是着末一期可能整个是人机大年夜战,并且可能会安排 3 个选手跟小度 PK,这又给我们带来异常大年夜的压力。节目给出的极度场景,比如跨年岁识别,我们之前着实没有做过,我们对人脸识别理解很深、技巧也做的很好,但能在多大年夜程度上把这些根基能力用在极度环境中,我们都是没有十全把握的。不过,比拟(几个月之前)接下这个项目的时刻,经由过程两个月筹备,我们现在再去测这套人脸识别系统,比如给 10 个测试例子,小度已经做到完全比我们要好很多的程度。是以我们对脑王决赛充溢信心,也异常等候。

「AI Talk」 是机械之心最新出品的视频访谈栏目,旨在约请国内外人工智能顶级专家分享对技巧和行业的不雅点,为大年夜家出现更为直不雅、富厚的内容。

本文由机械之心编译,转载请联系本"民众,"号得到授权。

------------------------------------------------

加入机械之心(全职记者/训练生):hr@almosthuman.cn

投稿或寻求报道:editor@almosthuman.cn

(责任编辑:南海鳄神)

您可能还会对下面的文章感兴趣: