受访者 | 黄飞跃,优图实验室总监
记者 | 夕颜
出品 | CSDN(ID:CSDNnews)
「AI 技术生态论」 人物访谈栏目是 CSDN 发起的百万人学 AI 倡议下的重要组成部分。通过对 AI 生态顶级大咖、创业者、行业 KOL 的访谈,反映其对于行业的思考、未来趋势的判断、技术的实践,以及成长的经历。
本文为 「AI 技术生态论」系列访谈的第二十二期,对话国内一流计算机实验室——腾讯优图总监黄飞跃,回顾优图实验室成长历程,畅谈计算机视觉技术进展和未来发展趋势。
百万人学 AI 你也有份!今日起点击阅读原文报名「2020 AI开发者万人大会」,使用优惠码“AIP211”,即可免费获得价值299元的大会在线直播门票一张。限量100张,先到先得!
12 年前,清华大学博士毕业的黄飞跃加入腾讯刚成立不到一年的腾讯研究院,带着 5 个人的小组,第一个项目是做一款名为“QQ影像”的桌面处理软件,但由于团队都属于 IT 直男,对于产品一窍不通,于是首个项目以并不尽如人意的结局告终。
12 年后,当初的 5 人团队已经扩大到 数百人的规模,成为计算机视觉领域鼎鼎有名的优图实验室。但细算起来,优图正式成立的时间其实在 2012 年,这一年,黄飞跃带领的这支团队更名为“优图”,他作为优图团队的负责人,带领这帮人成为国内计算机视觉大规模应用最早的一批从业者。
如今,做计算机视觉的人不会不认识优图这个名字,尤其是人脸识别技术和产品,优图的名声更是响亮。作为腾讯消费互联网业务背后的“隐形 AI 战队”,优图实验室与 腾讯 AI Lab 和微信 AI 团队一起,并列腾讯 AI 三大人工智能团队,为包括 QQ、微信、腾讯微视等消费互联网产品提供技术支持。
优图在做什么?
2018 年,腾讯宣布战略转型升级,拥抱产业互联网,优图从腾讯内部的一个技术团队开始走向前台,通过腾讯云等对外输出视觉 AI 能力。
黄飞跃对于优图的定位,就是一个计算机视觉相关技术的研发和落地的实验室,从最开始的图像压缩,到后面的人脸识别,再往后的人体识别、OCR 等一系列技术,优图从最初的围绕腾讯公司内部的需求提供技术支撑,到现在依托腾讯云等产品对外输出产品和解决方案。
有人会好奇,优图到底都做了些什么。实际上,从腾讯内部到 ToC,优图的AI技术早已渗透到我们的日常生活中,留心观察的话会发现,我们平常用到的微信刷脸支付、人脸识别对比、随申码、健康码、微众银行等 App 的人脸核身等,背后都是优图在做技术支撑。比如在微信小程序申请民政服务,检测人脸时出现的蓝色、绿色等不同颜色的光谱,其实就是在做活体检测,确认是否是本人操作。
天天P图
黄飞跃表示,最近一两年,短视频、泛娱乐场景的视觉AI需求比较旺盛,为此优图打造了一系列泛娱乐方面的解决方案,包括美颜美妆、人像分割、趣味合成和生成、人脸融合和变装等,你平常打开的美颜软件,说不定就有优图的存在。
让笔者印象比较深刻的,还有在寻找走失儿童场景中,优图可以实现跨年龄人脸识别,一两岁时丢失的婴儿,丢失十几年之后的儿童也能被精准识别,这样的“黑科技”也是优图研发的。
了解计算机视觉技术的人应该知道,跨年龄人脸识别对于数据量和模型训练来说都是巨大的挑战,为了充分的从数据中学习人脸自然的跨年龄变化规律,腾讯优图提出了基于 DDL(分布式蒸馏学习法则)学习策略的正则化迁移学习策略。基于该策略,算法模型可充分进行跨年龄人脸识别学习,从而让困难的跨年龄识别更加可靠和精准。用这项技术,腾讯成功帮助警方找回多名被拐超过十年的儿童。
“救人一命胜造七级浮屠”,可以造福、方便人类的事情,正是所有技术人的追求,因为这让我们所做的事情变得有了意义。
优图的技术“家底”有多厚?
各种场景下的应用, 当然离不开底层技术的支撑。从团队成立之初做图片压缩,到后来转到人脸检测和识别,优图不断洞察新技术趋势,积淀下清晰的技术发展路线。
黄飞跃在清华大学读研读博时,所学专业除了人脸识别和人脸检测之外,还包括人头 3D 重建、人体动作识别等技术。黄飞跃回忆,那时候人脸识别与现在相比有着巨大的差异,十几年前,火爆的专业是网络工程等方向,计算机视觉方向在当时是冷门。
黄飞跃也承认,当时学术的不成熟导致整个计算机视觉产业链不完整。现在,我们已经可以通过深度学习技术,为很多计算机视觉问题找到很好的解决方案,比如人脸检测识别,我们能够从几百人的合照中找到 99% 甚至全部的人脸,有遮挡也可以做到,但在当时,深度学习还没有起来,大家更多的是做偏研究的事情,和实际业务结合较少,采集数据难度大,算法在实际应用中效果差,只能在特定场景和小范围内做有限的应用。
总之,当时的计算机视觉研究环境很恶劣,人工智能仍处于发展瓶颈期,体系建设没有展开。2008 年,黄飞跃毕业时也曾纠结过去做老师还是进公司,看了很多方向,选择了加入刚成立不到一年的腾讯研究院,起初是跟着 leader,后来才带领着 5 人小组,在迷茫中开始视觉AI的探索之路。
因图像压缩技术声名大噪
上文中也提到,最开始,这支团队负责一款名叫“QQ 影像”的桌面处理软件,这是一款和美图秀秀类似的图像管理编辑软件,既有工程又有黄飞跃学习的视觉图像处理的一系列的能力,所以他认为这两者的结合是一个机会。但这个项目做到 2011年,PC 端开始向移动端转移,但 QQ 影像是 PC 软件,所以失去优势,加上团队都是技术人员,缺乏产品思维,导致产品发展不尽人意。
QQ 影像
2010 年,黄飞跃和团队迁往上海。2011 年下半年,黄飞跃发现“图片二次压缩”技术可能存在极大的价值,可以广泛应用到腾讯内部的众多业务中,比如图片的存储与传输,可有效减少存储、降低带宽流量,为公司节省巨额资金及存储空间。随着研究的深入和技术的不断成熟,黄飞跃带着团队开始为腾讯内部其他团队提供图片二次压缩技术——可以将图片像素压缩 20%-30%,大大降低带宽成本。
此时,团队更名为“优图”——这便是“优图实验室”的前身。
优图的图片压缩技术为腾讯创造了巨大的价值,也为优图带来了声望。
转移到人脸检测识别方向
2012 年下半年,优图把研究重心转移到人脸检测识别方向,开始进行人脸技术研发和储备。此时正逢腾讯的组织架构调整,原本隶属于腾讯研究院的优图并到了腾讯社交网络事业群旗下。
2013 上半年,优图开始将人脸检测技术输出至 QQ 空间,同时将技术提供给推出爆款“武媚娘”妆容的“天天P图”前身——“水印相机”团队。2014 年,QQ 空间“面孔墙”全量上线,这是业界最早在大规模社交网络平台中人脸识别技术的应用。此时,黄飞跃带领的优图团队只有 20 人不到。
2014 年上半年开始,黄飞跃带领优图团队开始探寻大量人脸识别应用场景,和腾讯征信负责人挖掘人脸识别的一个创新应用,即通过自拍照和身份证照片比对,来确认是否是用户本人(人脸核身)。在成功打出微众银行这个线上人脸核身案例后,优图将技术逐渐开放给内部超过 50 个业务,并在 QQ、QQ 空间、QQ 音乐、财付通、微众银行、天天 P 图等明星产品中成功落地,也与滴滴、联通等企业达成合作。
随着业务的发展壮大,腾讯优图也从最开始的 5 人团队,成长为现在的百人以上的规模。
2018 年 9 月 30 日,腾讯宣布组织架构调整,隶属于 SNG 的优图实验室调整归属于 CSIG 云与智慧产业事业群。优图开始和云与智慧产业形成更密切的联动配合,通过腾讯云、微信等输出视觉AI能力,在金融、零售、政务、社区、物流、文旅等领域落地解决方案。
以上就是优图实验室大致的技术发展路线,在这个过程中,黄飞跃带领团队自主研发了很多创新性的计算机视觉技术和应用。
人脸识别算法迭代
黄飞跃回忆,自 2012 年下半年将重点转移到人脸识别上来之后,优图便开始积累人脸相关技术。那时,优图会使用一些传统的分类 PCA 等方法做检测识别,从而具备了基础的人脸相关能力,包括人脸检测、人脸五官定位、人脸识别这三要素。
2014 年以后,优图开始跟进深度学习相关技术潮流和趋势,最开始是用深度学习对齐传统的人脸方法。
黄飞跃认为,实际上人脸技术的演进有这几个点,其一是活体检测,优图做了人脸安全与身份核验、纹理检测、动作识别,以及自主研发的反光活体技术,即手机侧终端随机发出一系列不同的光,根据光照射用户的情况,和摄像头捕捉到的信息,判断是真的人脸还是一张照片、面具还是视频。这是人脸安全系列的技术演进。
其二是人脸识别规模的大幅提升,从开始的几千到几万的规模,现在到从数十亿规模中做人脸检测,背后依靠的是深度学习技术。
第三个特点是要结合实际业务场景,比如在疫情期间的口罩检测,就需要做算法和场景交互的设计调整。
八年成长路,不断积累“雪中送炭”的能力
从腾讯内部一个名不见经传的小组,到成长为一个颇有名气的AI实验室,优图花了八年时间,一路走来也并非一帆风顺,他们面临的挑战不仅来自技术层面,还有如何向公司证明技术的价值。
比如让这支团队声名鹊起的图像压缩技术发明之初,优图团队就面临着如何说服公司内部客户、合作伙伴和部门用这项技术的问题,为了与 QQ 空间团队合作,他们要经常跑到深圳,甚至长期派驻人员了解对方的需求。当时,QQ 空间团队关注的技术点很多,如何让图片显示更清晰,PC 端网页的相册照片如何更好地展示缩略图等,都是他们关心的问题,优图要做的不仅是要把技术“卖”给他们,还要根据需求给出具体的解决方案。好在团队成功完成任务,度过了团队成立之初的第一个大关。
2014 年是优图的一个拐点。在这个时间段,虽然优图与 QQ 空间的合作已经取得了一系列成果,优图研发推出的 QQ 空间面孔墙可以帮助用户按照人的维度来管理自己的相册、照片,整体的效果体验,包括准确度、指标都不错,但是实际上线之后,黄飞跃却开始思考另一个问题:优图团队的价值在哪里?因为这个能力始终是锦上添花,并不是雪中送炭,离不开的能力。于是,优图开始挖掘一些刚需、有价值的点。
黄飞跃想到了人脸识别。那时候团队已经开始主打人脸识别相关技术的研发,但是存在一定困难。2014 年下半年与微众银行的合作是一个契机。当时,微众银行开业,给自己的定位就是完全线下无网点银行,没有线下网点,线上开户只能通过人脸核身。但当时人脸核身技术层面上不成熟,这就给了优图难得的机遇,从 2014 年 9 月份开始合作,到 2015 年微众银行正式上线,优图攻坚了一系列难题,包括提高人脸活体的能力,防止人脸照片、视频攻击等,获得了微众的认可,把真金白银的业务交给优图。
八年走过来,优图的发展路线愈发清晰,聚焦于最核心的能力,比如人脸识别、人脸检测定位等,避免与其他团队的研发“撞车”;另外一方面,一些团队更多地侧重在优图基础能力之上做封装,如与 PCG 合作力,优图负责提供人脸检测配准的基础能力,PCG 在此之上研发美颜挂件等,提供美颜能力和解决方案。
计算机视觉迎来第二次高潮
以优图为代表,是国内互联网企业做计算机视觉技术研发与应用开发的缩影。在移动互联网时代,计算机视觉乘着东风,迎来第二次发展的高潮。
黄飞跃认为,移动互联网与计算机视觉之间是相辅相成的关系,这其中有几个原因,一个是正好深度学习的进展和移动互联网发展的时间重合,移动互联网时代的特点是手机上的摄像头,有了传感器,数据越来越多,UGC 数据量急剧增加,带来大量的需求和机会,因此整个移动互联网的产业链、市场空间远远大于 PC 互联网,因为计算终端无所不在,摄像头获取数据的设备无限大,市场很大会带来更多发展的机会,相关的企业也将越来越多。
然而,我们应该清楚,计算机视觉技术现在还处于发展较前期的前阶段,能够解决一些问题,但是更多地是做到识别模式,而不是理解,也就是偏感知层面,最终还需要向认知层面努力,建立起对图的深度理解,但目前从技术层面上来说还没有一个特别好的解决方案,跨越感知和认知之间的鸿沟将是一个艰难的过程。
谈到计算机视觉未来的发展趋势,黄飞跃表示优图将紧跟行业产业的趋势,目前他比较关注的是 5G,5G 将使流量带宽越来越大,手机终端计算能力越来越强,多媒体的处理、短视频也可能出现更丰富的表现形式。另外,AR/VR、短视频等也将成为计算机视觉应用较多的场景。
更多精彩推荐
地方普通院校的计算机专业「科班」学生如何突围而出?| 原力计划
看似毫不相干,哲学与机器学习竟有如此大的交集?
文科出身敲出 Instagram,被小札“挤”走,建新冠追踪网站,这个程序员有点牛!
降低预测过程计算成本,这些NLP模型压缩方法要知道
这些常见的分布式存储系统,你是否都了解?
京东智联云云原生实践,告诉你何为监控和日志的黄金法则
你点的每个“在看”,我都认真当成了喜欢