查看: 12559|回复: 0

第215期IT龙门阵实录:人工智能在安防领域的应用和技术突破

[复制链接]
发表于 17-3-15 14:31:14 | 显示全部楼层 |阅读模式
时间:2017年3月14日晚上
地点:海淀区中关村西路36号创业大街昊海楼九层
主题:人工智能在安防领域的商业化和技术实践

1.jpg

范路:大家晚上好,不知道大家都吃饭了吗,我刚才在楼下已经吃过了,吃了烧饼。

我们IT龙门阵还再继续艰难往先走,现在应该是215期,从今年开始我们学员组要在做跟人工智能相关的,我们最近已经做过了人工智能跟无人驾驶汽车,人工智能跟医疗,包括语音识别,包括旅游等等这样跟人工智能相关的都做过了,这个行业里头有一个算是大佬级的公司,在很早很早以前大家都特别关注说他们在图象识别领域里面非常有经验,忽然有一段时间没有什么特别多声音出来了,最近又冒出来说搞的非常好,但是中间可能是我个人没有特别多关注的原因。这个就是格灵深瞳,他们一直在做图象识别,很早很早以前就开始做图象识别。在大家还没有开始讲什么人工智能,什么深度学习,什么都没有讲的时候,他们就已经开始在做这件事情,那么在去年,大家都在很努力在炒这件事情的时候,他们在很努力的干活,然后现在我们今天非常有幸能够请到格灵深瞳的赵总CEO,你们去年好像还换过一次,还发生过一次这样的故事,请他来给我们讲一下,他们在整个过程中在别人都没有看到这一块领域,他们为什么能冲进来,对吧。然后在大家都在努力去做2C的时候,他们去做安防,去做这样一个真正能赚钱的声音,然后请他来给我们讲一讲这块的故事,人工智能在图象识别领域里面的应用,有请赵总。

2.jpg

    赵勇:谢谢潘总的介绍,谢谢大家这么晚跑到这来听我唠嗑,我的那个讲课形式就是我在讲的时候任何人都可以让我停下来举手然后问我问题。今天我看到很多熟悉的朋友,包括一些我们的同行,我们之前也在某些业务合作过,我也很开心看到我们一位投资的股东,其中一位朋友也来今天这个现场,我记得几年前2013年我刚从美国回到北京的时候,我在融资的时候就见了两个投资人,后来一位投了我们的投资人就跟我说,他说有一次我去拜访公安部的一位高级领导,在他的办公室里面看到一个很大的电视墙,这个领导非常得意的说,在我这个电视墙上我可以看到全中国每一个城市的摄象头的画面,至少是主要的摄象头的画面。当时这位投资人就说,这到底有多少摄象头呢,但这个数字是国家机密,这个数字当然是非常非常巨大的。当时这位投资人就问,这位领导说那你怎么知道哪是你想看的,他说我不知道,但是当有人打电话来说出事的时候,我就必须看这个画面。

    所以当时投资人就跟我说,这显然是一个巨大的问题,现在公安有太多太多摄象头了,这个问题应该被人工智能的技术去解决。所以我们在公司成立的初期,我们就在非常仔细的去挑选我们应该进入的领域。今天我如果再回首来看的话,就格灵深瞳有一段时间我们做了很多的尝试,大家可能听过宇视科技,是一家无人驾驶汽车的公司,前因特尔(00:03:54)是这家公司的CEO,大家可能不一定每个人都知道的,这个公司是从格灵深瞳分拆出来的。这里面有很多技术是格灵深瞳从2015年就开始研发的。

    我自己对安防、医疗、汽车都很感兴趣,但是这些领域他们成熟的时间是不一样的。我觉得人工智能不是一个行业,肯定不是,它有点像章一般种能量,比如说水或者电,当它流入到不同行业的时候,会去滋养这些行业,会变得更强大,效益变得更高,它是这么一个东西。所以我觉得不存在一个所谓的人工智能公司,它一定是某一个行业。但这些不同的行业,我觉得他们成熟或者说他们被人工智能催熟的时间是不一样的,我感觉有点像一个家里面有好几个孩子,有老大有老二,但不是每个孩子都是同龄,有些孩子会先发育成熟,有些会晚一些。从经验来看,我可以跟大家分享的是安防监控绝对是人工智能最先大规模产生商业价值的行业,并且我觉得,其实从去年已经看出来了,在今年我想有数据的产品可能在安防行业,比去年至少有一个十倍的增长。

    之后像无人驾驶汽车,我估计还需要几年,人工智能医疗概念当然很热了,但是我觉得还要产生商业价值,我觉得还需要相当长的时间。在来到这之前,我今天下午都在泡在协和医院,我们最近也在对这个领域很关注,但是当你了解的越多,你就会越意识到,人工智能要在医疗领域,我觉得有很多很多事情还要做,医疗行业里面所有事情都会慢得多。今天就给大家分享一下人工智能在安防领域里面的一些发展。

    我本人是以前大学研究生毕业之后去美国念博士,后来到一个2C的公司谷歌工作,也做了一些2C的产品。当我刚回国的时候,当投资人告诉我说,你应该关注安防领域,我之前也想过安防,但是我对安防是一无所知的,从来没有进入公安局,从来也没有被逮捕过,也从来没有被人偷过,没被人抢过。所以对这个行业是一无所知的,就知道说现在满街的摄象头,这就是安防行业。我其实花了几年时间试图对安防行业有一个全面的了解,今天这里当然有很多专家,但是对于不是安防行业的专家来说,我给你们推荐一个特别快的方法去了解安防行业,你只要打开海康威视的官网,就可以很快了解这个行业,打开海康的官网,如果你看一下这个网站叫“关于我们”,就这个页面。那么海康对自己的定位写的是很清晰的,海康对自己的定位其实写的很清晰的,海康威视是以视频为核心的互联网解决方案提供商,以视频为核心,他他强调的是以视频为核心。如果你打开海康的产品和主页,你会看到,网络摄像机、模拟摄像机、数字摄像机、摄像机配件,显示与控制产品,存储产品,传输产品,编解码产品,这全部是跟视频有关的,视频的生产是由相机完成的,视频的编解码是为了把这个数据更有效的存储,设想的存储就不用说是录像机。所谓显示产品,为什么要做显示产品,因为监控布局有很多大屏幕,所以(00:07:25英文)。其实这就是一个问题,今天就是海康已经变成全世界排名第一的安防监控公司了,中国可能也是全世界拥有安防监控摄象头最多的国家了。我的一位在全世界排名第一的硬盘公司的朋友告诉我说,他们公司大约50%的硬盘产量流到安防监控的行业,所以我觉得安防监控绝对是一个大数据行业,光从他所占用硬盘的数量就可以看出来。

    有意思的是,就是4K作为一个摄像机的分辨率,它因为更清晰,但是为什么很多年来一直不能推广,我觉得可能最直接的原因就是存不起,你想现在大家还在普及高清,就是要求(00:08:15)时代,这已经占了全世界50%的硬盘了。4K以上他单侦存储量是高清的四倍,那全世界要生产200%的硬盘,才能满足安防行业的需要,这个显然是支付不起的。那么我们现在这个行业已经被视频(00:08:30英文),我们所有的问题或者是需求,我觉得基本来自于视频本身,就是我们有这么多视频的信息,如果就把它存在那,反正你也看不过来,那其实挺浪费的。我觉得好莱坞把问题想的很清楚,所以我给大家播放一两个小影片,

    00:08:50-00:10:00播放影片)

    这个影片来自于《速度与激情七》的一个片断,你在这里面可以看到人的检测,人脸的识别,车辆的检测,跟踪和识别,当然还有大数据,能知道你在一个地理信息的平台上,能看到这个跟踪的结果。这个技术在两年前被电影上放出来的时候,非常非常酷,大家都以为它是科幻,这个里面这个系统的名字叫“上帝之眼”。但是其实我觉得在最近一两年,这个影片演的东西,基本上都会变成现实,当然不见得会这么酷,有这么动感的音乐,但整个使用的过程是非常接近于你在电影里看到的这个样子。

    那么这个其实就是用户想要的东西,因为用户装了这些安防系统,他想要的不是去看录像,他想去看情报,但想获取情报是不容易,当你有这么多数据的时候。安防监控的数据我觉得是价值最低的数据,你装一个摄象头,比如放在这个地方,可能这里十年也不会发生一个案件,那这里每一秒存的录像其实就是白存了,但问题你不知道什么地方会出事,什么时候会出事。所以它的数据量特别大,可是它的效率又特别低,在这些数据里面找线索,基本上是一个大海捞针的过程。

    但是我给大家看下一个影片,我觉得就更酷了。
    00:11:00-00:11:40播放影片)

    这是一个片头,是一个电视剧美剧叫《疑犯追踪》(00:11:49英文)。这个里面演的什么情节,就是有这么一个神秘的系统,每天在看监控数据,在看通话记录,在看什么信用卡的交易记录。它能够自动的筛选出嫌疑人,一些人要么就是恐怖分子,要么就是犯罪的嫌疑人,然后他就直接报一个社会安全号,简单的说就是身份证号码,给这个电视剧的主人公,这个就更牛逼了,自动把犯罪的行为给挑出来。那么我想这个东西如果真的发生出来的话,那警方肯定是最想要的,但是这个事情以今天来说还有相当长的距离。但是我认为,人工智能进入安防领域以后,已经开始慢慢具备一些可能性,它不是由用户给用户让你帮我找这个人,而是慢慢演变成在有些情况下,它会自动筛选出嫌疑人,告诉你说这个就是嫌疑人。我待会儿也会简单提一下。

    我们这个(00:12:45英文),就像这张表格里画的,以前都是以视频为核心的,经过人工的分析,最后得到情报。人工智能进入这个领域之后,我们都期待说以后它是以结构数据为核心,所谓结构数据就是说这些原始的数据被人工智能分析过以后,把它的目标筛选出来了,把它的行为分析出来了,这些东西都是可以被快速的检索,可以被大规模去分析的,经过大数据挖掘并应用,最后我们就自动得到,或者说至少半自动得到有意义的情报,这个是我们希望在人工智能到这个领域里面帮助发生的事。

    那么在这个安防里面,其实总重要的目标就一个,就是人,只不过是不同形态的人,比如说人脸,比如说人体,比如说他们通话的内容,比如说手机信号的位置,比如说他开的车辆。当然跟视频有关的,就是人脸、人体、车辆。

    我们先来看一下车辆,我们大概从去年开始,应该是前年开始去研发车辆的识别,我跟大家介绍一下这个背景,今天各种监控的摄象头,其实有些摄象头很早就已经智能化了,可以去自动的识别车牌号码,有些时候大家在某些省开车的时候,它的高速公路上,一穿过那个灯就一闪,然后你的车牌号码就被识别出来了,这也算一种早期的智能化。这种摄象头叫卡口或者叫电子警察。什么叫卡口或者电子警察,就是用户一般会用分辨率特别高的摄象头,就是500万的摄象头,它不是视频,它就是照片,然后它就连着某中触发的方式,早期的时候甚至会在公共平台去挖线圈,后来算法改进了,就变成视觉触发,他拍一张照片,然后用算法把车牌号码识别出来。而且这个摄像机为了它的视角比较明显,因为那时候算法不够好,所以他为什么简化算法,他就搭一个龙门架,然后每一个摄象头就调成针对各个车道,这个事情已经广泛的发生了。

    但是我今天讲的不是这个,我今天讲的就是监控摄象头,监控摄象头就是那种便宜的,随便找个电线杆就能搭起来的,然后就用视频的摄象头,然后它产生的数据的视频,分辨率也不能太高,要不然存不起,刚才说了存不起。

    那么像这种数据就是一个典型的路边监控摄象头,这种摄象头数量非常非常多,比如在咱们北京,电警跟卡口总共有2000个,但是路边的监控摄象头有20万个,也就是说如果我们把监控摄象头也只能化起来,那么我们对整个城市道路的把控的能力就会增强一千倍,这个意义是很巨大的,如果我们对一个人的行为,车辆轨迹行为特别特别密的话,我们能很精确的时间他拐了哪个弯,在哪停了,这个人在哪下车的上车的,全部连起来了。以前这种电警跟卡口还都是在一些重要的点位上去做一个很稀疏的材料。

    但是这种监控摄象头有一个问题,它的分辨率也不是很高,有的时候角度也不是很理想,既有正面的也有背面的,甚至有的时候是纯侧面的,然后他也没有补光,下雨的时候,拥挤的时候,就很挑战。现在我们针对一种所谓的监控摄象头,开发的人工智能的软件,可以实现的是首先是车牌号码,这就不用车了,然后他的车型车款生产年份,用英文说这是(00:16:27英文),就是厂商型号和他型号所在的年份,你可能会问为什么干这些事,因为车牌号一查,不就清楚了吗。如果你是跟犯罪分子打交道,你就要意识到犯罪分子很少用真的车牌号,所以必须得识别这些都是,不仅如此,就是这个车的年检标是怎么贴的,你仔细想想,贴年检标的时候,肯定不是一个标准化的过程,所以几乎每个人贴年检标都是不一样的,这种贴法就形成了每个人类似于指纹的东西。还有你的这个车里面放了什么装饰物,这小小的细节,可能一般老百姓不会注意,犯罪分子也不会注意,但是到了关键的时候,就可能变成一个关键的线索。包括一些无法用结构化的名词去描述的事,我们也做了很多搜图的事,就比如说这个车,有的时候这个车的前盖上有一坨鸟粪,你想那也是一个指纹,不是所有车的鸟粪都在同一个地方。当你要在很多辆很大的数据库里面去搜索一个同型号车的时候,你知道车牌号码不可靠,那你就搜其他东西,那这个信息就变得很重要了。

    所以我们现在开发的这套系统,现在已经可以支持4400种不同的汽车,包括他们的颜色,包括他们的型号、种类,而且既可以从前面识别,也可以从后面识别,就是看一下这个车屁股,或者看一下车头,都可以识别。

    我认为这个技术基本上已经到了很实用化的程度,尤其在今年已经到了很实用化的程度。这里面很重要的一件事就是模糊识别,就是你不能期待任何时候把每个车都识别的特别特别精确,我给你举个例子。像这条街,这其实是一个监控摄象头,它既不是电警也不是卡口,如果是电警跟卡口的话,(00:18:13),你像这个摄象头,一个摄象头可以看八个车道,今天又是晚上,又下了雨反光,强光特别强烈。坦率的说,我们每看到一个车,也不一定知道车牌号是什么,你把这个画面停下来,根本看不清车牌,但至少我可以猜出它的厂商、它的型号,最次我们可以猜出它的颜色。那么这些信息,当它作为一个信息的来源,注入到你的大数据系统里面以后,其实经过连续更多的节点数据的组装,你是可以发现很多线索的。不像以前,整个大数据系统就是基于一个指标车牌号码,反正每个车型的车牌号码都会到数据库里面,然后就根据车牌号码去检索就行了,现在你的节点会密很多。

    再比如说这个例子,像这个例子就是可以看到很拥挤,可以看到这边有个半透明的区域,每个车的位置都可以检测出来,当这些车在动的时候,这些表也在动,那么你在识别他的身份同时,你把他们的行为也识别出来了。如果这里面出现了非法换道,或者是逆行你就知道了。你注意看这些检测的结果,在远处的时候,我们知道这个是车,这是个白色的车,这是一个厢式车,三厢车。但靠近近处的时候,它的车型车款车牌号码就识别出来了,模糊识别在这里面发挥了特别大的作用。比如说这个车牌号码识别,大家认为车牌号码其实没什么好说的,但事实上,当你在这种分辨率的情况下,很多时候你把这个画面停下来,你用肉眼去看这个车牌号码,是似是而非的,我们都只能猜,我们自己曾经做过竞赛,拿出很多照片来,然后让人去猜,让我们算法去识别,结果是不一样的。等到这个车越开越近的时候,我们再看谁猜对了。这个事情人工智能已经远远超过人了,肯定是比人猜的好要准的,就算偶尔有一个猜错了,但是当你背后的大数据支持模糊识别的话,那这个仍然是非常有用的信息,你可以说这是一个白色的桑塔纳,车牌后面七位数字有四位数字我大概猜出来,剩下三位不确定,那么这些都是非常非常有意义的东西。但这个东西要用起来,不光是算法本身,你一定要把它放在一个非常有能力的大数据平台里面,去做这种非常复杂模糊的检索,它的效果才能发挥出来。

    我给大家一个简单的示范,这是我们一个车辆大数据的平台,然后这里面其实有很多功能,比如说数据检索、大数据分析,然后一些战法,一些报警制控,一些监控管理等等。比如说我先测一下机动车,这里面有二轮车三轮车,我选一些数据,选一个范围的数据,然后我选一个车的类型,比如说品牌,看奥迪吧,在中国也比较多,奥迪A6L,然后你就去搜,它就把它所有认为是A6L的车就点出来了,你点每一辆车,他就可以把你带到地图里去,你可以进一步去搜索它其他时间出现的东西,很精准的可以出来,你可以换一个品牌。

    有意思的是,我们甚至可以去,比如有一个人说我感觉我被跟踪了,谁能告诉我是不是真的被跟送了,那你来找我,然后我帮你查一下。我们就可以算出来,在过去的一个月的时间里面,是不是真的有辆车以很高的频率出现在你后面,而且当你能够找到那些车的同伙车辆,那些车是不是又跟其他的车在一起,这就是一个小小得技战术,一个战法。那么公安在破案的时候所有几十类这样的战法,所以这些东西都要放在你这个平台里面去,这样公安其实以前都得人工去,(00:21:00英文)这些技战法,现在他只要用鼠标点一点,这些功能就可以自动的呈现出来。

    那这些是车,我们先来看看人,毕竟人还是最重要的。我们来看这个视频,大家动辄都在说人脸识别,但是先别着急,谈完人脸识别我们最后再谈。我们今天大多数安防监控的摄象头,其实是这个样子,在这样的视频里面,你说能做人脸识别吗,我们客户都说,赵总,你能不能把我们现在存量的摄象头把它智能化,让我们开始做人脸识别,但是我们后来考察了很多城市,基本上认为这是一个伪命题,大多数普通的监控摄象头就是这样,是看不太清楚人脸。但是看不清楚人脸,也是有价值的,你直说能够看到他人体大致的模样。那么在这种情况下,我们就要对每一个人身产生很多标签,加起来差不多有几十种标签,比较显著的标签就是他的性别,他大概的年龄阶段,然后他穿衣服的颜色和纹理,上半身是什么,下半身是什么,他衣服的形态,比如说是裙子还是牛仔裤,然后他手里拎着什么包,是单肩的是双肩的,这包是什么颜色,是斜挎的还是背在背上的,他有没有拎孩子,有没有拎着箱子,有没有戴眼镜,有没有戴口罩,等等这些东西。那么这些信息结构化以后,放在数据库里面其实有的时候也很重要。比如说他丢了孩子,这个孩子穿着绿颜色的上衣,红颜色的裤子,你就先按这个搜,小女孩、女、绿颜色上衣、红颜色的裤子,没搜到,但有人报案了说,我看到一个红颜色上衣的中年女性抱着一个孩子,那好,那就搜女性、中年、红颜色衣服、抱孩子这四个属性,那就可以很快定位这个人的位置,这个就是人体的一个结构化。

    我们现在来看一下人脸,这个就是格灵深瞳动态人脸的展示,就是任何摄象头,这个摄象头是市面上非常普及的摄象头,当人们从这走过的时候,他们的面部就会被抓取下来,然后进行人脸比对和识别。那我要提一下的是,这个概念当然比较直接了,但事实上用这种方法去做人脸识别是相当有限的,就是如果大家去海康的网站上去找智能相机,他里面有一个品类叫“人脸抓拍机”,在“人脸抓拍机”里面现在有五个型号,基本上都是基于高清的相机做的抓拍机,如果你要把这个型号的(00:24:55英文)打开来看,里面有一个很重要的参数,叫“有效识别宽度”,也就是说一个相机大概能看多宽,在这个多宽的地方里面,能够识别出来一个可以被有效识别的脸。我发现海康他写的是2.5米,这五款相机都是2.5米,这意味着什么,1920个象素在横向上,海康认为只能够去管住2.5米,你更远的地方当然更宽了,但那个人脸太小了,你更近的地方也能看的更清晰,但它变得更窄了,所以2.5米是海康标出来的。我做过一个算术,假如说一个人的左耳到右耳宽度是20厘米的宽,那差不多海康认为,他抓的脸要达到150个象素的宽度,我其实是比较认同这种做法的。就是人脸识别是有边界的,无论某些公司怎么去吹,我们也作为人脸识别做的比较精确的公司,无论公司怎么去(00:25:58英文)自己,人脸识别真是有边界的。

    我注意到有些公司说,我们的人脸识别可以做到一分之一的误差,这一定是有边界的,我先不怀疑他是不是说谎,有的时候我们也觉得是一分之一。我给你举个例子,我们的静态人脸识别系统,在某一个省厅里面去部署,然后那个省有4500万的成年人有身份证的人。当时我们把那个系统部署好以后,当警方就用它搜索,比如说一个逃犯,一个照片嫌疑人,他想知道这个人的身份,他如果把一张质量比较好的照片,放在那个系统里面去,大概有一小半的几率,我们把正确答案排在第一名了,就是说警方把这个人找到,后来发现第一名就是这个人。

    当时我们的同事因为在公安内网里面,其实不能够把那个拿出来用,但是他可以放进去,我那同事就测试了一下,他就把他上大学的时候来自于那个省同学的朋友圈里的照片给上传出去,看看搜出来的是不是这个同学,就把身份证搜出来了,在这种情况下百分之百第一名就是他的同学。但这有个前提条件,就是他上传的是一张质量很好的照片,分辨率也很清晰。但是在安防很多时候,你的照片不是那么清晰,这些都是理想的情况,说真的,很多时候你的正脸只有比如50×50的象素,那么根本不要提一分之一的错误率了,远远不到这个,大家要考虑这个平台。

    所以我觉得比如我们再回到海康来,海康的人脸抓拍机来说,那么2.5米其实只能做,我认为只能做走廊型的场景,或者做一个通道型的场景,或者做一个门口。那么想把这样的技术普及在公安最关注的大街小巷,我觉得还是比较困难,所以我觉得在这个层面上是需要创新的。

    其实我们对人脸识别也投入了很大的精力,比如说人脸识别能够对抗阳光的光线的变化,角度的变化,表情的变化,甚至是一部分遮挡,比如说戴着墨镜,或者是戴着口罩。那么就光看表情这块,我们其实也做了不少尝试,有一段时间我们搞了一个比赛,请我们员工去用不同的表情去挑战我们的人脸识别系统,看谁的表情做的如此夸张,以至于我们的人脸识别会失败。那么这块坦率的说,我来解释一下你们看到的是什么,这是一个现场的画面,然后这里有一个普通的USB摄象头,在这里面抓脸,然后这个女孩梳了好多发型,把刘海弄上去,看有没有影响,然后她的脸抓下来之后就放在这,这些脸就放在我们公司的数据库里面去搜,这里面有很多数据,比如说是我们远距离相机在野外,或者在室外抓的脸,在这里面去做比对,这个系统现在是比较稳定,比较成熟。

    人工智能一定必须得前端化,至少一部分前端化,为什么,就是人工智能可以放在后台,放在服务器里面,放到数据中心里,然后把所有的数据都导过去,然后再去识别。但是你想想看,这个视频是什么概念,一个视频高清视频搜了以后,你为了画面好一点,你至少弄个2兆才能满足吧,很多时候都用4兆,像北京200万的摄象头,什么带宽可以撑得住呢。像一个普通的城市,他至少也有十几万摄象头,不要说十几万了,我们算算千兆除以2兆,理论上才能够通过(00:29:55),但除去协议的(00:29:57英文),其实最多是200路,你就把一个千兆的因特尔给撑爆了。那么今天的官网里面当然有些城市,比如说像发达城市,比如说深圳,他大规模的,他的区公安局都会上万兆因特网,他万兆因特网也没有多少。所以如果我们不把智能放到前端去,人工智能根本没有机会去普及的,绝无可能,所以大家必须把摄象头变成智能的。

    那么在这个过程中,该怎么样去分配呢,我看到一些有趣的产品,我发现有些公司的产品甚至把人脸识别,人脸比对都放在摄象头里面了,我个人是不认同这种做法的,我认为云计算显然是有云计算的好处,比如说第一个分享,你可以在服务器里面放非常好的硬件,非常好的算法,一般来说非常好的算法都不便宜,那么它的好处就是我这会儿可以服务这段数据,待会儿我可以服务下一段数据,我这会儿可以服务这个摄象头,待会儿可以服务另外一个摄象头,可以分享,我一个服务器可以去识别来自于一百个摄象头的。所以通过分享他可以把成本降低,但你如果想把同样的算法拷在摄象头里面,那么摄象头的成本会变得很高。所以所有放在摄象头里面的算法,不得不采取某种程度的模型压缩也好,算法简化也好,但是客户对精度的识别要求是无止境的,所以我认为识别这块其实放在后台挺好,可以分享,而且容易运维,而且升级迭代快。

    但是像视频的目标检测,是绝对放在摄象头里面,什么叫目标检测,就是这走过来一个人,这出现一张脸,这路过一辆车,这个检测算法一定要放在前端,因为你并不知道什么时候会有这个物品过来,所以你要不在这做的话,你所有的视频都传到后台去。我们叫检测跟踪,就是那个物品出现了,它在这里面移动,然后把它跟踪起来,然后在这个过程中挑选一些比较好的视角,最后拿出来两三张代表,然后拿回去识别。然后这样的话,你的视频就用不着传回视频中心了,你可以传在分布式的VR里面,你传回数据中心的,只有你面部的截图,或者车辆的截图,那这个数据量是很小的。

    比对就更加不应该放在摄象头里面,为什么,识别不应该放在摄象头里面还有一个原因,你想每一家的视频算法都不一样,识别的过程无非是把一个图象转化成特征的过程,但是每家的算法不一样,所以这个特征的格式也不一样,如果客户用了你的前端识别产品,就意味着他后端的比对都得跟你兼容,如果今年我采购了你的系统,就意味着明年我只能再采购你的系统,我不能用其他家的,对客户来说这不是一件好事。我永远认为照片是通用的数据语言,尤其是对计算机识别来说,所以我觉得只要大家都遵守这个规矩,比如说好我检测完一个人我把这张照片传后台识别去,那么所有的系统都可以兼容。

    比对就更不应该放在前端了,为什么,你比对的对象是什么,肯定是一些(00:33:16),比如说小偷、逃犯等等。那么这些东西其实是客户的核心数据和核心机密,他应该永远待在最安全的地方,不应该放在摄象头上,如果这个摄象头被人黑客了,其实有很多种方法来黑客这种东西。有人说我放的不是原始嫌犯的照片我是放了经过我处理以后的特征,假如说我是个逃犯,就特想知道警方有没有关注我,那么我就黑客这个摄象头,我人往这一站,我看这个摄象头是不是往外发任何信号,这其实也是一种机密情报泄露,所以我觉得虽然各个厂商都有一个冲动说,我把这个产品全部给做到顶了,但是我觉得从客户角度来讲,这个其实不是明智的做法。如果我们这里面有公安用户的话,甲方的话,我也想趁这个机会请你们把这个问题想清楚。

    我觉得特别有必要跟大家来讨论一下,人脸识别算法到底有多强大,因为这一直是一个无论是资本也好,无论是产业界也好,(00:34:25)也好,或者说是媒体,自发群众也好,特别关注的一个问题。每次讨论到这个问题的时候,我听到都是不专业的答案,或者就是彻底是谎言,我们知道这个工程技术问题,如果你不限制边界的话,或者不讨论数字的话,其实都是耍流氓,所以我觉得想趁这个机会把这个问题讲清楚。

    人脸识别有很多不同的用途,他们的结果必须伴随着这个环境场景和用法来讨论。第一种我认为也是相对来说技术门槛最低的,1比1的人脸验证,比如说马云先生在大会上去展示基于人脸识别支付的问题,我并不想讨论这背后的公司,或者这个公司技术做的不好,这个公司其实做的很好。但是这个问题的本质是不难的,因为他要回答这么一个问题,这个人是马云吗,而且这个库里面有马云的身份证照片,或者是类似的可以验证的照片,所以答案就是是或者否,就一个问题,那这个任务就结束了。这个应用我觉得是人工智能做人脸识别最先落地的技术,因为它的门槛是最低的。

    第二个是1比N的人脸识别,所谓的静态人脸比对,它的用法你提供一张照片,今天我把我们PR小非同学的照片放在这里,我想知道这个人是谁,他经常用途是这样,警方发现有一个人是嫌疑人,他从一个大楼里处理,结果这个大楼里死了一个人,这个人可能是嫌疑人,我要知道他是谁,他就从监控里面把他的脸抠出来,放在他全省的人口库里面去搜一下,看一下他是谁,以前没有这种手段的话,他只能到处去询问,或者是张贴一个通缉令之类的,现在可以在电脑上点点鼠标就完事。那要回答这个问题的话,其实不是一个问题,这取决于一个库有多大。假如说这个省有4500万人,那这个算法就干这么一件事,这人是张三吗,这人是李四吗,这人是王五吗,然后他回答4500个这样的问题。但是这还好,最难回答的问题就是他谁也不是,这个是非常非常难的,虽然这45000万人里面有一百万个人跟他长的极像,但你还能说他谁也不是,这是很难。所以像这种应用的话,它的问题是N+1个,蛋糕很大的时候,他出错的几率就高,但是好在这种静态人脸识别的使用频率是比较低的,我只有在破案的时候,关注这个人的时候,查这个人的时候,我才用一下,而且我是用搜索引擎的方式去用它。那么这个算法给我是一个搜索的列表,然后人再去验证,所以他有充分的机会人去帮助这个机器去做这个决定。有些时候当客户上传的照片只有40×40,那这个客户大概也可以接受一个结果,您只要把正确答案放在前一百名,我就谢谢你了。当他上传了一个特别清晰的照片的时候,他就希望说你前三名必须得在。

    我们来看动态人脸比对,什么叫动态人脸比对,就是问题是动态提出的。什么意思呢,M就是你看到的人脸的数目,N就是你库里面人脸数目,对于你看到的每一个人,你都得问这是张三吗,这是李四吗,这是王五吗,问一遍,然后你把所有人问一遍之后,你这个问题总数就是N乘以N+1个,简称M×N,是这么一个应用的场景。

    我们来看一下,每一台摄象头产生的问题有多少,假设每一个相机里面可以看到一万个面孔,你可千万不要觉得这个多,在中国根本不算多,像北京的地铁站客户告诉我,说我们每天每个摄象头看到20多个人,然后这个库,对比库里面有一万个目标,这个也还真不算大,我们很多客户的目标都比这个还要大,比如说(00:38:48)。那么这个系统每天要回答多少个问题,一亿零一万个问题,就是一亿个问题吧。假如说人工智能每回答一百万的问题会犯一个错误,那么在每一天在每一台相机上会犯一百个错误,也就是一百个漏洞,这就是现实。我刚才所用的所有假设并不苛刻,对于我们很多客户来说其实这都不苛刻。那么假如说客户上了一千台动态人脸识别,坦率的说这个数字可能也不算大,在北京已经有几百万摄象头了,上一千个人脸识别不夸张吧。光北京的地铁系统要想的上说就远远不止这些了。那么基于这个假设,在这个一千,就是一千亿的问题,如果是百万分之一的错误率的,每天就会产生一百万个误报,当一百万个误报产生的时候,客户肯定会崩溃的,这个东西就完全没法用了。

    那么简单的说,就是人脸识别处理简单的问题的能力已经很强了,我觉得静态人脸识别算是一个中等问题,但是动态人脸识别很难很难,很可惜的是人脸识别是客户最想要的东西,客户恨不得通过这个系统自动知道,每一个人,无论你是犯罪还是老百姓,你每一天的轨迹,这真的是一个规模巨大的物联网,我觉得有意义。

QQ图片20170315154522.jpg

    我对互联网的理解,就是这个网络上有很多人,有很多用户,有些人产生数据,有些人消化数据,比如说今天你很开心,我今天出门穿着我刚买的红裙子,美美的,然后你发了一个朋友圈。你可能意识不到,你刚路过一个路口,我们有个摄象头看到你了,他会说过去一个女的,30岁,穿着红颜色的衣服,但他不说美美的,同时他把你的脸抓下来,然后生成一个特征。然后你又走了50米,另外一个摄象头又把这事做了一遍。那么在这个物联网上产生内容的用户都是机器,都是人工智能,谁去消化这些数据呢,你只能自动去消化,我们人也消化不了。所以这个系统产生的数据量是巨大的,现在这套系统还没有真正大规模部署,真的一旦部署起来的话,如果我们说物联网是互联网一部分的话,那这个网络上热闹极了,而且我认为我们的技术体系,还有很多根本就没有准备好的因素在这,导致这件事情也不会立刻发生,我待会儿再仔细的解释一下。

    就是既然人脸识别有些动态人脸识别,尤其是用户最期待的动态人脸识别,没有办法,只靠算法成功的话,那么怎么办。我觉得有两件事特别重要,第一件事是大数据的挖掘应用,第二类是人类智能,我觉得人工智能一定要清楚,也不要轻易脱离人类智能这个事。

    我来解释一下为什么需要大数据的挖掘用应用。第一个原因就是随着结构化数据规模上涨,大规模智能系统产生的误报会上涨,以至于正确的情报会淹没在海量的误报里去。那么为了压制这些量的误报,就必须得上大规模多模态的数据,来帮助去分析这些问题。我来解释一下比如说多模态,这个比较容易理解,简单的说就是光靠人脸识别不行,但是你把其他信息引进来,可能就可以了,或者就好得多。

    那么多模态可以包含那些数据,其实我们的政府有很多很多数据,比如说手机信号,比如说wifi探侦,比如说云系统,说话,比如说消费记录,比如说车辆轨迹,比如说社交关系,这都可以帮助你。举个最简单的例子,如果我在北京看到一个人长的像一个逃犯,但是因为中国的人口太大了,这个人很有可能不是逃犯,只是跟逃犯撞脸的一个人。我们中的每一个人,只要你活在中国,很有可能在中国就会有另外20个人长的跟你太想像了,以至于你们的照片,连你亲妈都认不出来,我说的是事实,因为我经常在静态人脸比对系统,然后我在客户那玩,我自己也搞不清楚哪个人是真的,太像了。

    那么这就是事实,人脸作为一种生物信息,它并不像红魔那样如此具有独特性,(00:43:36英文),它没有那么厉害,但是如果我在这个地方看到了一个人,长的很像一个逃犯,而且我发现那个逃犯的手机信号在方圆500米以内,那基本一定是他。因为在这个范围内,再找到一个人跟逃犯像到这种程度是不大可能。

    再举一个例子好了,社交关系。比如说我和你是同事,数据库里面显示咱们来是来自于同一个村的,然后在另外一个省的一个街头,我是逃犯,然后看到了一个人像我,但他是我的几率还是很低,但是在短时间内又看见了你,他发现这两个人还有社交关系。那么我是我,你是你的几率就高了很多。我觉得这些事情还有很多线索可以去挖掘,把这个事情能够真正实现。但是要想实现这个事情的话,我们可以想象背后的数据系统是极其复杂的。

    而且我觉得人工智能刚刚开始有成功案例的时候,大家都很兴奋,好像把客户问题都解决了。但是我们现在,中间还有几个巨大的障碍,就说这个大数据系统,你仔细想一下,如果想监视一千个人脸识别,他每天承接的问题数量可能是万亿级别,而且每一个问题都伴随着他的照片,还有很多相关的结构化数据,这里面产生的文件数量,然后消息的数量,然后数据库的数量,然后检索的任务,多模态数据的交互任务,会使得我们的基础设施面临一个全新的挑战,我甚至认为这个挑战会超过阿里巴巴在双十一的时候面临的挑战,会超过12306卖票的挑战。我认为大多数人工智能公司根本就没有做好准备,而且我认为事实上有些大公司也不见得做好了相关的准备。如果这个领域要真的成熟,大数据的能力必须进入我们这样的公司,所以我想同行们还是要关注这个事,否则的话就是我们自己内部做过一些算术,这个系统真的不想去,标准太大了,一个几千路的级别,它所产生的运维问题就是极其可怕的。

    我想讲一下人工智能和人类智能,人工智能的优点速度快、成本低、技能可以复制、可以大规模部署、性能稳定、可以持续的提升,但它的缺点也是很显著的,它对复杂问题的应变能力是差的。比如说可能有一个人,低着头,角度不是很理想,对这个人特别熟的人其实是可以把他识别好,有句俗话说你就是烧成灰我都能认识,就是你背对着我,我都能认出你来,但是有个前提这个两人特熟。我们发现这种情况下,其实人工智能还是比不上人的能力,就是人工智能对于环境变化适应能力其实也不太好。比如说你用这个色彩的数据训练出来的人工智能,当你到夜间的时候,把这个红外光一打开,所有的图象没色彩了,它识别的能力又下降了。但是我发现人对这种能力的变化,虽然我们每个人都是彩色的眼睛,除非全色盲。但是当我们看黑白照片的时候,不太影响我们识别能力。事实上你仔细想,我们的眼睛从来没有一天见到过黑白图象,我们都是在我们的老照片里面才能见到这种人为造成的黑白图象,但为什么我们仍然对黑白图象有这么好的理解能力,这个就说明这个没有经过训练的过程,这个人真是挺厉害的。

    但人类就是优点完全是反过来的,它对复杂问题和环境变化能力适应能力强,可是它的缺点是速度慢、成本高,机能无法快速复制,不能大规模部署,性能不稳定,心情不好就不想干活了,累了速度就会下降。

    所以整个体系的流程非常简单,就是我们一旦上了人工智能体系,它就会产生海量的问题,然后被人工智能的引擎回答完之后,它会产生很大答案,但这些答案还是会有错误的,就算是百万分之一的错误,问题是这个问题的规模太大了,所以他还是产生了海量的错误,那这些错误如果我们找一个人去验证的一下,可能不是一个人。其实我的想象中,以后应该出现一个公司,他专门干这事,他就像什么外包中心,或者是一个(00:48:38英文),他有很多人就是专门去看人工智能系统产生的答案是不对的,至少不要产生离谱的错误,这样来的话他就可以产生可靠的答案。与此同时他把这些错误答案挑出来,那这些错误答案是有很高很高的价值。这些东西是我们所谓的(00:48:55英文),这些东西可以帮助你们反复训练和(00:49:00)。一旦这个循环建立起来了,随着业务量的增长,这个模型的能力会越来越强,它产生的答案就会越来越少,越来越精确,对人类的需求也会越来越少,因为这是一个健康的循环。我就特别期待用户能够接受这种模式,就是你购买一套系统,这里面大多数的人工智能,但是也捎带着一些人力的工作在这里面。

    这个光是安防工控,在自动驾驶汽车里面,在机器人里面,在人工智能医疗里面,其实都普遍有这种契机,必须有的时候在人补充一下。比如说我觉得英国有个公司叫(00:49:41英文),它做一种无人驾驶的快递车,就是在最后的一两公里,他帮你送快递,他的广告都做到高铁上去了,听说今年就要出货,然后我当时就纳闷了,我说我们宇视科技到现在,也都还没有让汽车能够很可靠的在大街小巷里开,因为汽车的成本还挺高的,一个公司做一个会送盒饭的东西,居然可以把这些问题解决了。而且在我看来(00:50:10英文),这个人行道的路况复杂度超过了马路上。后来闹了半天,这个公司是一个人机混合系统,就是他的每几十米看清路了就会点一下,然后这个机器就沿着这个点往前走,如果碰到了障碍物,它有避障的功能,他就停下,等人走过再走。但是到了关键路还是停下来,后台有人在遥控,(00:50:35英文),我觉得其实是一个很无奈,但是是一个合理的选择。

    最后一块够是我想分享一下,我们公司在去年做了一些有趣的产品,我自己在念博士的时候,就是专门去学计算机学还有运算影像学。在我的工作中,我其实经常发现大自然给了我们非常多的(00:51:05英文)。而且有意思的是,往往我们发现最后最有用的东西,都是从大自然里借鉴的,包括我们现在用的深度识别网络,这种概念其实也是几十年前人们从大脑的切片里面发现的规律,然后就好奇为什么这样的结构可以支撑复杂的思考,那我们可以不可以用计算机的方式,能够去建设类似的模型。

    我给大家介绍一下这个眼睛,这是一个人的眼球,不过动物的眼球差不多,都长这样。这其实是一个很好的摄象头,我们可以看到镜头,然后这个光圈,然后传感器,而且我们再仔细看一下,它还有个很好的镜头盖,镜头盖上还有一个防尘的东西。我认为这里面有很多很牛逼的地方,比如说这个镜头,液体镜头,牛逼吧,你知道我们想要看的比较远,你要买一个长焦的镜头,那里面几十块玻璃,然后每次要定焦的时候,里面有很复杂的东西,动来动去,而且变的不是很快。

    我们想一下人的眼睛多厉害,假如说一个人的平均寿命能达到75岁,我们从生下来到死,我们的眼球转多少变,改变多少次焦距,你在看书的时候,每一行字都在扫描,你在开车的时候,每一个道路牌、车道线、汽车、行人、自行车你都在不停的扫描。你在说话的时候,你的对象不停的在切换,眼睛转了多少遍,这是个机械系统。而问题是从来没有返修过,很少有人干这个事。所以人的眼睛,我觉得太牛逼了。

    但是我们来对照一下,这个眼睛,还有这个摄象头,这个是古老的摄象头,摄象头好象是1869年发明的,到现在也一百六七十年的历史了,但是它的成像原理坦率的说几乎没有变过,无非都是一个小孔成象的原理,只不过这个孔不是特别小,因为它的进光量太少了,所以它把孔放大了一点,孔一旦放大的话,你如果没有镜头,它就会失焦模糊,所以你让一个镜头能够让它聚焦,就是这样的。无非是在这个发展过程中有两个进展,一个进展是我们的感光的材料从一个化学胶片变成了一个半导体的芯片,然后我们这个镜头变得越来越复杂了,它可以实现更大范围的变焦等等。但成像原理根本就没有变过,还是这个数学公式。到今天为止,我们所有的相机(00:53:55英文)完全都是一样的,而且非常非常简单。

    一个三维的物体通过一个投影投到一个两维的平面上,然后照片就形成了,就这么简单。但这里面有个问题,你三维到两维转换的时候,你其实丢掉了一个纬度,那你丢失了一些信息,这些信息是什么,其实就是这个尺度的问题,如果不是这个手的话,很多客户以为这个车是真车,而且这个照片里面,这个车显得很大,可是它真的并不大,这个车显得比较小,可是它并不小。也就是你无法从一个两维的图片里面,精确直观的测量出来尺度,你想没有尺度就没有大小,没有距离,没有速度,没有加速器。如果你想分析一个事件的行为,那么这些量是非常非常重要的。

    我们来看一下动物怎么解决这个问题的,我们都长了两只眼睛,我还专门写了一个是“捕食者”,我觉得这里特别有意思,所有捕食者的眼睛都是冲前的,包括我们。为什么,因为这样的话,我们就可以用两个不同的眼睛,利用不同的视角去观察同一个物体。我们可以通过视差,我们能计算出这个物体的深度,我们就可以了解这个物体的尺寸,它的速度,我们跟它的距离,这对于我们在捕猎来说非常非常重要。但如果是被捕食的动物,比如说马、比如说骆驼,比如说羊。你看它的的眼镜长在侧面,它形成一个360度的全景,是因为它希望能够在吃草的时候,还能看到后脑勺后面跟过来的猎物。动物是很精明的事,这就是为什么猫科动物在捕食的永远都从后面跟上去,它也知道后面可能是一个主要的盲点。

    所以视差的原理,其实是一个在我们这个领域里面非常重要的一个技术,所谓叫(00:55:50英文),就是通过多视角来生成三维的感知这么一项技术。那么我们其实有一款产品,就是基于这个原理做出来的,这个产品叫“(00:56:07英文)行为分析云”。你看这个相机本身可以输出色彩和深度,这个深度可以帮助我们真的在分析图象的时候是在一个三维空间里去观察每一个人每一个目标。这样的话,我们就可以把每个人很好的跟踪起来,无论他是不是暂时被遮挡住,而且他们之间的位置关系我们可以算的很清楚。这是一个俯视图,这个地方是相机所在的,这个人就是这个地方,每个人怎么运动的,你是一目了然的。

    那么在肢体动作的级别,我们也可以去看他的胳膊腿在什么地方,有人以为说格灵深瞳你们是不是用了(00:56:47英文),然后就把这个东西做掉了,其实你可以自己去做一个实验,你去买一个(00:56:52引文),你把它放在一个监控视角,然后你看看结果是什么样,第一个他经常无法初始化,第二个当你身体侧着进来的话,他就永远无法识别,你去玩微软的(00:57:04英文),是不是有个过程,你得站在一个圈里,让他你站在那个圈里,他让你把胳膊打开,然后等他开始跟踪了,你再去玩这个游戏。那么我们在做这个算法的时候,其实使用了完全不同的方法,使得我们可以在任意视角下,任意动作的时候就开始初始化,几乎所有第一侦就开始跟踪了。

    有人说不是对,不是所有的动物都有两只眼睛,昆虫就有很多眼睛,人家是复眼。其实我要澄清一下,昆虫就算是复眼,它也是两复眼,它也是一对眼睛,复眼是什么概念。我们来想一下昆虫作为一个动物来说,它的视觉很困难的地方,就是直观的来看,你会发现所有昆虫的眼睛,很大,非常大,如果按这比例的话,一个牛的眼睛应该像脸盆那么大才对,昆虫为什么要长这么大的眼睛,是因为它们太小了。感光是需要光子能够打到你的传感器上,可是当你眼睛太小的时候,没有足够的进光量,所以它们那么小的体格必须确保自己的眼球足够大。但是我们都知道,如果你是相机爱好者,你会知道说你光圈太大,你带来的一个特点就是你的你的景深面小了,你只能再一个非常窄的地方聚焦了。但昆虫接受不了这个事,你想想看,那个蜜蜂去采蜜,它飞着的时候要看,前方50米有花,我要过去,所以它要看的比较远,但是当它采蜜的时候,他还能看清前面这根花蕊,它要上去把花粉给瓜下来,所以它的景深范围必须得很大。而且它个头太小了,你想我们现在长焦镜头,可以变焦那种,是不是都倍长,因为里面很多块玻璃,昆虫已经那么小了,它怎么在里面做这么多块镜头,怎么样可以在这么小的尺寸上提高进光量,产生很大的景深。以我现在所知的技术,只有一种方法,(00:59:12英文)。你用多个镜头拼接起来,在这个平面上去捕捉光场(00:59:18英文),光场是什么概念,就是在一个平面上,对上面平面某个象素,你要捕捉到这个象素进来的光,不同的颜色,而且是来自于每一个不同的方向,这是二维再加上平面XY,所以是四维。理论上如果你可以捕捉光场的话,你就可以在你的运算单元里面去模仿,任何光学镜头在这个光场里面处理以后的结果。那么这是一个大概从90年代开始,被关注的一个领域。

    事实上有一个加州的公司,斯坦福一个老师叫(00:59:50英文),是我们这个领域里面的一个大牛,他的一个学生,是个中国学生,姓李,他做的公司叫(00:59:55英文),它就是光场相机,它拍了照片以后,你可以不用管焦距的事,可以回家在软件里面再重新调焦距,这个叫(01:00:06英文)。那我是很感叹大自然的伟大,它们比我们还聪明,我们是精心设计出来的,人家就是进化出来的,所以我一直很怀疑进化论,这门精妙光学的算法可以被他们就这么进化出来了。

    最后我再分享一件事,就是跟人脸识别有关的,我要从一个案例入手,这个是一个非常经典的案例,这张照片是发生在2013年的4月15日,这是波士顿的爆恐案,那天是有个马拉松比赛,为什么这张图对我震惊很大呢,我看到这里很熟悉,因为我家以前就在那附近,然后附近发生爆炸案,然后我们一些朋友被炸伤炸死了,这个爆炸案里总共炸死了三个人,炸伤了几十个人,其中有个中国女孩是波士顿大学的。

    题外话,这个事情发生的时候我刚回国,4月份的时候,当时我招了一个实习生,叫李睿,他是麻省理工大学的博士生,我跟他说好了,他再过一个月,到5月份暑假开始的时候,就到北京来实习。结果爆炸案一发生的时候,就立刻打电话给他,我说李睿怎么样,神了,李睿跟我说,我现在正躲在桌子底下呢,他说这个恐怖分子跑到我们学校来了,我们整个楼就给关起来了,我现在也不知道外面发生什么事,我们灯都关了,我躲在桌子底下呢。

    有意思的是后来警方,就这两个人跑了,后来被人揭发出来了,然后警方去抓他们,结果这哥俩跑到麻省理工大学媒体实验室去了,而且还在那地方打死了一个麻省理工大学的校警,所以相当惊险。我想提的时候,当时案发现场只有这么一张照片,这是很显然是一张从监控摄象头捕捉到的照片。我们来观察这张照片,前面这个人因为离摄象头太近了,所以他的头是低下去的,而且他戴了一个棒球帽,所以看不清他的脸,他其实离摄像机我估计也就两三米,后面这个人离摄像机大概五六米,可是因为他的距离有点远,所以他的面孔也看不清理了。这个就是人脸抓拍相机尴尬的地方,你要远一点他的视角就还好,但是中间距离不足,近了头就低下去了,这是很尴尬的事。

    事实上这两个人离的都不远,但是我们一般相机想看清人脸是很肯定的。美国警方做法就是众包,他把这张照片放在电视台上,所有电视台滚动播放,然后希望民众可以提供线索,因为那天是一个很热闹的活动,很多人拍了很多照片,那个时候手机已经流行了,所以每个人都有手机可以拍照,然后像这张照片,这张照片,这张照片就是在36个小时以内,老百姓举报的照片。其中这张照片帮了大忙,正好这哥俩站在一起正面对着摄象头,通过这张照片他们俩被举报了。这哥俩正好是波士顿居民,是叙利亚移民,这是他们真正的生活状态,后来他们就被抓住了。

    那么这个事情给我一个比较大的震动,就是原来我们今天大街小巷的摄象头是看不清人脸的,所以我后来就专门针对这个问题发明了一个产品,我们看一下。
    01:03:40-播放视频)

1489532644789.jpg

    这是我们这个产品消息发布出来之后很多人有质疑,说是不是吹牛,然后有人觉得它太神秘了,其实现在到了一定时候,可能把这个东西仔细解释一下,它其实没那么神秘。

    我们人的眼睛刚才说很牛逼,我忘了提出一般件事,我们每一个眼球,它是一个宽的广角的镜头,单眼的广角大概160度,算是广角了。然后两个眼睛都睁开的话差不多190度,其实超过了180度,就比如说我做这个动作,我的手你们现在觉得在我耳朵后面,但我现在真的能够看到我的手。广角意味着什么,广角意味着,大家多在做这个实验,我跟你说一个好玩的事情,我有一个朋友,他是一个新疆人,他们那冬天特别冷,所以他有时候耳朵冻伤了,然后就冻了,他跟我说能够看见自己的耳朵,我到现在还没有验证过这个事。但是我后来仔细发现,我的确可以看到,怎么测呢,其实很容易,比如说你有一个平的墙,假如这边有个门什么的,你靠在这个墙上,因为你头的厚度,肯定这个角度已经到你后面去了,如果你认为你看见那个门,那就说明你可以看到后面去了。

3.jpg

    01:06:20英文),这么广的一个视角,证明你其实看不到多远,因为你的分辨率都被(01:06:25英文),但事实上不是这样的,我们的视网膜是一个半球形的,然后我们视网膜有一个地方叫黄斑,影英文叫FOVEA,我们这个产品英文叫(01:06:40英文),就从这来的。那么黄斑有多小,如果你把眼球的球心和黄斑连接起来形成一个圆锥的话,这个圆锥的角度是2.5度,我们可以做一个测试,后面那位先生,你离我其实可能有个六七米的距离,如果你盯着我的左眼,我站一个亮的地方,如果你盯着我的左眼看,不要移动你的眼睛,盯着我的左眼看,你发现你其实无法看清我的右眼,这就说明你的黄斑有多小,非常非常多小。但是我们75%的象素聚焦在黄斑上,我们20%的象素(01:07:28英文),在整个160度的广角上。所以如果把你的黄斑给毁了,你这个眼睛整个就是模糊的,你只剩下25%的象素,而且还抹开了。

    简单的说,我们的眼球上帝设计了两个镜头,两套光学系统,一套是广角的,一套是窄角的。而且这个窄角上面放了更多的严肃,而且这个眼睛,你说眼睛为什么长在长上,不长在胸上,不长在膝盖上,是因为眼睛产生的数据量太大了,你这跟线要连那么长,估计都不容易,所以眼睛是离脑子最近的器官之一。很粗的一个线就连到大脑里面去了,交叉一下然后在后面就开始处理的。我们脑子有70%的(01:08:11英文)是跟视觉有关的。我们的工作原理是什么,就是我们的广角虽然是模糊的,但这个画面传到脑子里面,它迅速的被理解了,它大概挑选了一些你应该仔细去看的东西,然后这个信号返回到你的眼睛,然后在肌肉系统瞬间去转动你的眼球,使得你把这个东西看清楚,而且你用了75%的象素,把那么小的一个东西看清楚。我们开车是如此,我们看书是如此,我们看任何东西都是这个道理,它里面有一个智能和光学的系统来回的反馈,共同来完成这个事。

    这个和我们现存的相机是完全不一样的,我们现存的相机都是镜头是固定的,然后把它看到的图象传回后面的算法里面去处理完了,它之间是没有互动的。我们就是无非干了这么一件事,你可以看到这个画面,首先我们有一个算法在广角相机里面去检测,检测人,比如说要是别人脸,我首先知道人在哪,你比如说这车里面有司机,过会儿这一群人走过来,这辆车走过来,这路上人来人往,这个足球场上有很多人,有观众有球员,这是地铁站门口。

    首先有个算法用很高的速度不停在检测广角里面的人,我们现在发现一个人离我们的相机,其实在一百米远还可以检测出来,这个算法还是非常可靠的。但是检测出来不意味着你可以看清他的脸。

    我来给大家看一下人的检测算法,其实我觉得从某种程度上已经超过人眼了,我给大家举一个例子,我们看一个录像,这个视频里面是我们办公室的停车场,有一个骑自行车过去,有一个女孩走过来,还有一个人着白衣服在树后面打电话,我反正看到三个人。有哪个朋友可以告诉我,你有没有看到更多的人,在这个画面里,这个人还在这个画面里。好,现在出来更多的人了,现在我再把这个视频播放一下,但是我把下面这个空白处给你们露出来,给你们展示一下我们广角系统检测出来的人。你看有个女的长头发,她现在在拨自己的头发,然后这是一次,这人在哪,在这,在房檐底下椅子上坐了一个人,我们一个同事,当时她正在校准相机,这还放了一个校准的板子。但这个人没有动,而且又比较远,所以大多数人眼都会把这个人漏掉。但是我们的算法可以在这个画面里把她在这个画面里面检测出来。

    就是这件事情发生了以后,让我们意识到说,我们其实连人检测的能力其实是不如相机运算的。所以我们造了一个相机,这个相机其实基本上就是两套光学系统,一套广角的,一套窄角的。但是我们这个窄角相机是不动的,因为动相机是一个很笨的做法,我个人觉得。虽然有很多公司做(01:11:32英文),相机本身就是一个挺重的东西,尤其你要加一个长焦的镜头,你老去动它,它很容易坏,而且它也不能动的很快。所以我事实上是用了一个镇静系统,能够快速的切换这个视角。

    给大家展示一下这个结果,这还是在同一个视角,其实我们现在这个相机已经有不少客户,但是我们不能把客户的数据拿出来给大家展示,所以只能给大家看我们办公室里的数据。你可以看到这个里面有几组人,有些人在这,有些人在这,然后这个算法就会去控制红色黄斑的区域,不停去观察不同的部分。然后在黄斑区域里面,我们就把人脸检测出来,从到后台去分析,这边就是动态的人脸识别的系统,其实原理就是很简单的。

    然后上个月大家都知道,北京下了一场雪,这是今年唯一一场雪,我们来看看人脸相机是怎么看雪的。那天下了雪我特兴奋,我说咱们出去看看雪吧,然后把他们哄到停车场里面去,我就录下了这张平面。其实我在做这个测试之前,完全没有把握它是不是完全就不工作了。但是你可以看到,至少从人脸抓取来说的话,它还是在正常工作,虽然有很多雪,而且我们来看识别这块,那天我戴着帽子戴着口罩,有的时候特别亮,你看这个识别还是蛮正常的。

    那么我个人觉得在安防监控人工智能的浪潮中,其实有三件事情必须做好,这个事情才真的能够帮助到我们客户,一个当然是算法,还有很重要就是硬件,我认为我们所有的硬件都应该重新去被智能化来设计。

    我们还是拿人脸抓拍来说,人脸抓拍今天可以去抓拍2.5米的宽度,显然是不够的,在中国既使是背街小巷的人行道,都有五六米甚至十米宽,难道客户不得不装四个摄象头去抓拍小街道吗。我觉得可能十年之后,我们在安防监控里用的所有摄象头都已经实现智能化了,至少大部分已经实现智能化了,可能我们面临的一个机遇,必须重新发明我们的相机。格灵深瞳绝对不会以人脸相机就停止了,我们会在这个方向不停的去创新,今年大家还会看到新的产品出来。它在性能上功能上在成本上都还会有一个巨大的进步,我自己感觉特别开心的就是,人脸相机在人脸抓取的控制面积和区域来说,我们跟行业现存的产品提高了十倍,就是从距离和同样视广角的情况下。然后像这种进步的机会,我觉得还会存在一段时间,所以请大家对我们拭目以待,今天就是我的分享,欢迎你们提各种各样的问题。

    范路:听完这个演讲以后,第一个感受是我们要做个好人了。在大街上你随地吐痰这种事太容易被抓住了,首先要规范大家各自的行为,然后我们出去开车的时候,经常以前说交规里面有很多条目其实是没法现场执行的,说变道,说对面开大灯什么的,都是说在发生交通事故以后才能判断,以后这些东西都会发生改变。那么我们看到了很多很多非常有趣的东西,特别在人脸识别,特别在最后人脸相机这个地方,真的是有很多仿生学的东西在里面,你带一个。

    赵勇:没有,个头有点大。
    范路:个头有点大,这个东西要多少钱。
    赵勇:这是个商务问题,我在公司也不负责商务。
    范路:我们大概看一下,这个东西是不是比5D4贵。
    赵勇:什么?
    范路:佳能5D4。
    赵勇:这个我还真是没法透露,就是我自己的希望还是说以后,我自己的愿望还是以后说这些成本会越降越低,以至于我们真的可以去说服客户,把所有的相机都升级为仿生学的人工智能相机,但这需要一个过程,因为我们的成本,包括市场的容量,我们的量一旦太大了,我们的成本就会大幅下降。

    范路:因为我是作为摄影爱好者,所以我就关心这个东西,我以后是不是自己能买得起。然后像您刚才讲到说,因为我们上了大量的视频以后,在以后整个存储这一块都会有巨大的压力,那么现在这一块基本上都是由政府和企业自己来承担的,还是说在这一块上开始云计算的机会。

    赵勇:绝对有,像海康就已经出了云计算视频存储的方案了,但是我觉得这可能还不够,因为它不光是大文件的存储,因为以前都是视频流,像在北京和上海,它的视频都是用分布式的方式存储的,因为它很成熟了,过去都是分布式存储起来,所以它基数很少,但如果你去新疆,你去西宁,你去贵州的话,你就会发现以前是偏远地区的地方,他们现在都是六网合一,然后很多不同单位他们的摄象头都是和网络连在一起,并且修建了大型的安防数据中心,这个数据中心里面,他的视频流至少已经实现了云存储了,但是我觉得这个还不够,因为一旦实现了智能化以后,它就不光是流了,它会产生大量大量很小的文件,很多很多的数据,要存在数据库里面。而且这种数据量规模其实大大超出了传统互联网的规模,但是我在安防行业里面,其实没有感觉到大家已经准备好了,说我们要把这种级别的(01:18:15英文),所以我觉得这块还有不少工作要做。

    范路:因为在大家看视频的时候,其实催发了一个新的行业,叫CDN。
    赵勇:对。
    范路:但是在大家存视频里面是不是也出现一个类似这样的东西。
    赵勇:对,它应该有自己独特的一套系统被开发出来,这块我觉得还是欠缺的。
    范路:还是有新的机会。

    赵勇:对,所以我顺便做个广告,有大数据的朋友,就是千万不要觉得只有互联网行业才是你们的主战场,人工智能行业才真正让你们能够发挥很大的作用。而且在这里面,你会接触到更有挑战性的问题,比如说以前你在阿里巴巴做云计算架构,你可能会发现,以后的安监控会给你呈现一个机会,你必须得解决一个更有挑战的问题,所以你要是在这里面有抱负的话,其实应该考虑到这家公司来工作。

    范路:好吧,你这还附带招聘,OK,大家还有什么问题要问的,先介绍一下自己。

    1:赵总你好,我是创客总部的同事,我们创客投资的项目也是镇和基金投的,和您还是同一个投资方。我问一个问题就是说,你刚才说在医疗健康这块人工智能可能是一个很长的时间,我想问一下这是为什么?谢谢。

    赵勇:第一个就是所有跟医疗有关的事情,就是(01:19:43英文),比如说在美国有FDA,中国有CFDA。然后一个技术的成熟,有好几个原因,第一个医疗问题全是小数据问题,不是大数据问题,你就比如说神经外科,你要解决一个脑子里面什么瘤子的问题,可能协和一年才碰到两百个案例,你怎么去弄足够多的数据去训练他,等你训练出来之后,然后你这个产品要做大量的临床验证。然后在医疗行业,整个的医药行业,或者说医疗器械的行业。就是当一个公司有一个主意,到他做出来成功,然后它进入临床验证,无论他们自己团队,还是投资商都做好思想准备了,十年,五年就算很快了,所以他本身的属性就是这样,所以它要花很长的时间。

    1:谢谢。
    范路:国内像我们这种投TMT的基金,五到六年就结束了,医疗行业基金至少十五年起。
    赵勇:对。
    范路:我们活不过这个事。
    赵勇:我觉得这块其实需要比较多长期的资本来投,我在美国看到最近有个公司拿到了1500万美元投资。他干了什么事,我本来特诧异,就是说美国一个很严重的医疗问题,就是医生开了药,病人不好好吃,然后还回来抱怨我没把他治好。那怎么样确保病人一定准时吃了药,而且是他自己吃了呢,他就做了一个APP,就是你每次吃药前,你把那个药拿出来对着摄象头,摄象头会自动确认一下,没错就是这个药,然后你把这个药放在舌头上,再拍张照,他有人脸识别算法,这进你嘴里了,他的数据就自动进入到一个数据库里面,医生就知道说这药你吃了,就这么一个应用,我本来觉得说这有什么意思,这个技术含量也不高,居然融了1500万美元。

    但后来我碰到了神经外科的医生,他们跟我说,这个是很重要的,因为我们很多病人老年痴呆,他就是会忘掉,他又记不起来这个事,所以必须发明一个工具帮助他们定时吃药。我这才意识到,但就连这个企业,他做这么一个简单的应用居然都得通过FDA的认证。

    范路:还有什么问题,后面。

    2:非常感谢赵总,刚才听你讲的,我就想了两各方面,我在中石油工作,对于一个在这种研讨会上面比较另类的公司,我和数字大数据结缘,起源于大概15、16年前,起源冈萨雷斯那本书,非常厚。我现在主业是用机器学习对大型的工业机组做生产运行维护与规划,然后此要方面,我们做了一些把行业数据技术和金融工具结合的一些方案。我刚才想到两个问题,一个是你把图象处理用到安防里面的时候,你可能要求用户区加硬盘,这可能会给他提高成本,你可能会对这种格式的要求和原来不一样,可能对于数据存储时间和原来不一样,就是说您觉得这个事该怎么做?和以前它的行业规范,和它的公司规范怎么做,这之间可能有很多不一致的地方,甚至有可能会有些抵触的地方,那么这个时候你怎么让他去接受你的观念,他要是骨子里不信,说服他是很难的事情。

    赵勇:我先回答这个问题,我害怕待会儿忘了第一个问题。您的问题是说,首先我想说明一下,人工智能肯定会使得用户存储的压力变大,他毕竟得存更多结构化的数据。但是事实上,这种数据的容量和原始的视频流相比还是微不足道的,比如一个视频,你在这个楼下装一个视频,(01:23:47),其实公安并没有这个。然后你这过去不少人,你把每个人的脸抠出来形成很多的图片,这些图片的量加起来跟这个视频流相比是微不足道的,而且因为这种方式的存在,以前用户的硬盘可能只能存三个月,这已经很了不起的,挺贵的,只能存三个月。现在你可以存三个月的视频,加上三年的人脸照片,这样的话警方有可能回到三年前去破一个案子,证明一个人出现在案发地现场。事实上他只要付出很少的(01:24:22英文),就可以产生更多长时间的证据和记忆,或者你把三个月往回推,推回到两个月28天,你剩余的两天去存那个移动化的数据,就好得多。

    那么存储在安防其实是有很成熟的标准,至少是中国,这个已经有行业标准了,所以这个在视频流这块,没有什么要说服客户的。但是对于结构化数据,就有一个问题,目前行业的确没有标准,而且我已经注意到这是一个问题,而且各地的建设都不一样,基本上提供商他建了这个系统,他自己系统正开发着就变成这样子。如果你要扩建的话,你必须把这里面的数据格式也好,小文件格式也好,都转换成平台支持的格式存进去。理论上来说是一个潜在的问题,也许这块也需要国家标准,但是我们很少需要说服客户接受这件事,客户很需要这些功能,所以他暂时也顾上。

    2:非常好,然后我再问第二个问题,就是刚才主持人说他在楼下买了一个饼,然后他的成本就直接转换给了卖饼的人,然后这个成果也其实被他本人完全吸收了,他再买一瓶水,可能这瓶水也被他本人完全吸收了。但是我估计像您这种企业,您去把您的业务推广给某三个一样客户的时候,您在后台会把他们三个成果放在一起,会去总结一些其他的东西。就是说每个用户都在借鉴一些用户的经验,也在分享自己的东西给别人,这个可能带来一个问题,就是我要是在可以接受的情况下,我越后用我可能越划算,我吸收了更多的经验,那这个东西怎么在用户里面去转嫁过去。

    赵勇:您的意思是说,先买的用户既承担了风险,而且付的钱更高,然后他的效果还不如后面的人。这其实是个普遍的现象,就好像我们现在今天讨论时候时髦玩意,比如说智能手机,可能你要是2001年就关注这个东西,你就会花特别高的价钱买那种不好用的手机,这个其实公安有这么一个属性,我想我们很多同行都会同意,公安有个特点,就是每一个公安局长都想成为国内领先的单位,把他们的先进体系战法推广到全国各地去,其他省市同行们来参观学习,公安部列了一个重要的科研项目,他们又获了一个奖,其实能帮助客户创新,帮助客户最先解决他们的问题,客户是很欢迎的,很少有客户说我先用了我吃亏了,我后买了我沾便宜了,我觉得这个比较说,因为您的确是外行,你这些顾虑其实在这个行业并不是现实的。

    不过石油行业,能源行业,其实是安防一个很重要的市场,我如果没记错的,安防行业在能源行业里至少有10%的市场,但他关注的是完全不同的问题。

    范路:我印象里你原来在谷歌是做谷歌眼镜,然后在谷歌眼镜发布的时候,他们谷歌是讲了一个话说,因为人脸识别的精度已经高到了让人恐怖的程度,所以我们把这个功能加进去了,现在你在做这块人脸识别,虽然对于公安局来说是一个很开心,可以极大提高效率的事情,但是对我们走在街上是不是感到不安。

    赵勇:谷歌眼睛没有成功,肯定不是因为人脸识别变成一个顾虑,谷歌眼镜没有成功是因为它是一个失败的产品,它有问题。
    范路:是。
    赵勇:人脸识别显然是一个顾虑,但是我觉得在很多情况下,还是有很多情况下人们可以接受,我当时是个技术员,谷歌眼镜这个就是我们几个人想出来的。当时我们想法就是如果有一天有个设备能够看见你看到的东西,能够听见你听见的东西,能够连接到互联网,连接到整个人类的知识库,也连接到你个人私人的数据库,那它变成一个助手来帮助你。那我们觉得这种东西可能挺好玩的,但是在它发展过程中,的确产生了很多隐私方面的顾虑,有人说不行,我不能跟你聊天,你还带一助手。这个项目的名字叫谷歌眼镜之前,在内部叫(01:29:00英文),就是翅膀,英文的意思本意是僚机,就是战友在旁边跟我一块飞。但实际上它在美国的意思就是狐朋狗友,就是咱们哥俩去泡妞,咱俩演一出剧,你耍一流氓,我把姑娘救出来,然后我就把姑娘骗到我了,你就是我的(01:29:25英文)。

    然后当时为什么起这个名字,就是我在念研究生的时候,我宿舍有个哥们,天天在网上跟姑娘聊天,他聊天能力特强,因为有百度谷歌,这个姑娘如果喜欢政治,那个姑娘如果喜欢艺术,他就立刻跟人家很深入的对话,然后不停的搜索内容,然后聊的特好,他就约出来的成功率很高,但每次见面都失败了。就是在现实中见光死的几率就是百分之百,然后他就抱怨说,怎么没有一个东西能够把这个搜索引擎,就我戴在眼睛上,我觉得不这么干。所以当时我就把这个主意想出来了,告诉我的同事,我同事就说这在美国旧叫(01:30:05英文)所以我们就设计了一个产品,后来发现如果一个男的任何时候都带一个(01:30:12英文),大概别人也不太愿意跟你在一起。

    范路:是,这个我觉得谷歌眼镜还是它的运算能力还是没有达到所需要的要求,其实就像诺基亚最早开始出摄象头的手机一样,但是现在谁也想到现在一只手机有两千万象素,但是大家最后也就习惯了,当时还是有很多人说,比如说在日本,所有照相机是不可以取消声音的,在中国你可以做静音拍摄,在日本是不行的,所以大家现在已经习惯用这种东西去生活了,大家还有什么问题。

    3:赵总您好,刚才您介绍了人脸识别有静态的识别有动态的识别,动态的识别是关于人体计算量比较大吗?整个应用还是数量,但是目前安防领域或者公安领域,用户对这块需求还是比较强烈的,不知道整个安防领域具体有什么样的实际的方案上面有些具体的,或者格灵深瞳有什么样的思路或者说解决了什么问题?

    赵勇:对,其实我刚才已经部分提到这个问题了,就是动态人脸识别现在是公安在智能化过程中是主要需求,它比车辆识别的市场或者需求要强劲得多。但是当客户简单的说,这个问题太难了,规模太大了,在这个时代想这个问题工作的话,要么就是上多模态的方式,要么就是更大规模的数据,比如说举个例子,像北京平均每个地铁站据说有一两百个摄象头,其实我们管理方还有每张车票的记录,假如一个人从这个车站进,从另外一个车站出来,他可能一进一出,可能就被几十个摄象头看到。那么他要在几十个摄象头跟前角度表情光线都不太一样,如果在这种情况下,他每一次都被说这个人太像张三了,那么他是张三的几率就大大提高,这就是通过大规模数据的方式,多模态我是跟你提过了,另外我还是孜孜不倦在去规劝我们的客户,说你把你问题的规模控制一下,你不要指望在每一个地方去对全国所有的数据库,你在这个地方时你特别关注谁,你就是对他的。

    比如说你有一个逃犯,他们家住哪,他媳妇住哪,他狐朋狗友住哪,他单位在那,这些可能他常去的地方,你就把这附近布控好,这个地方尤其关注这个,他就非常,你非要在所有地方去检测所有的逃犯,其实你就会面临大量的误报。简单的说,就是使用各种手段把你的库消减裁减,其实多模态的数据也是为了裁减这个库,我觉得如果把这些方法做到,或者说客户慢慢接受这个现实,用一种理性的态度去使用这个系统的话,其实特别管用,事实上人脸识别系统在很多地方已经出了很多战果。

    3:谢谢。
    范路:还有什么问题,这边。
    4:您好,我想问一下,就是你们大数据平台,包括你们人脸检测的摄像机,大概在什么地方用过?第二个问题,实际上我们关心,第二还有一个问题,你们这个产品确实很好,但是海康他的渠道很强,而且以前在很早的时候,叫(01:34:10英文),他们是做的挺好的,后来海康他们很快就模仿了。对于这块我想问的想了解一下,你刚才说你那个在世界500万人口,是不是在贵州省的地方,但是我知道贵州省是在桑康给他们做的,我想大概了解一下这个,因为我关注的你们公司也很久了,以前你们有同事也到我们那交流过。

    赵勇:是这样的,如果是商务问题,我今天不方便在这个时候说具体的,如果你是我们客户,请到我们公司来,我们肯定会给你介绍我们现在已经做的案例,无论是我们的数据平台,还是我们的人脸相机,我可以(01:34:54)已经卖出去一些,并且在不少地方已经测试,但是我如果说的太清楚,海康第二天立刻去找克隆出来了,所以商务问题不适合在一个科技交流场所给大家宣布这件事,所以请你谅解。

    第二个就是说竞争,其实说实话我们跟海康也会机会合作,我去年也会拜访了胡总,我们聊了很长时间,对我的帮助特别大,非常非常崇拜他。但是这个(01:35:22英文)非常大,国家的安全,中国这么大的一个国家,规模这么大,我相信是有我们空间的,尤其是当这个行业在从以视频为核心的行业转向以智能为核心的过程中,也许会给我们机会,所以我们还是对这个事觉得很有信心的。
    至于你说模仿,这个我是没有办法,我跟你说句实话,有一个很大的公司,我不说哪家了,已经开始模仿了,并且邀请我们同事去,在中国就是这样。

    3:已经模仿出来了。
    赵勇:反正已经在模仿过程中了,而且我们知道既有创业公司在模仿,也有大公司在模仿,所以我们已经准备好了,但是我想这就是为什么你在这个行业里不停的创新。而且说实话,中国的发展,就是靠十几年来我们在招商引资过程中不断的模仿外企。到了今天,我们一定会被别人模仿,这个模仿也是推动整个行业进步的动力,如果都不肯模仿了,全世界可能任何产品只有一个品牌,所以如果有机会被海康模仿,对我来说是一件荣幸的事,其实现在就很荣幸,但不是海康,也许会,我也不知道,希望不是。


    3:海康三月份发布会已经出来了。
    赵勇:对,我看到了深瞳系列了,但我不觉得深瞳系列跟我们是同类产品,这个没有什么,这个概念是通用的,这个不能被专利,但是我们见过一个大公司真的差不多直接模仿,直接拷贝,还请我们去看,这个有点过分。
    范路:好,后面。

    4:赵总您好,我是来自毕马威投资并购部门,今天听了您讲人工智能在安防领域的应用启发非常大,所以我就想到,咱们人工智能目前在金融投资领域是否有相应的一些应用,以及格灵在这方面有没有相关的考量?因为我看到在美国那边,高盛好像目前已经投了几家相关的人工智能方面公司,比如说交易大厅当中90%交易人基本上已经被替代掉了,而且像IPO这样比较难(01:37:59英文),他已经把它标准化到147固,所以我想了解一下,目前您在金融领域一些考虑,以及国内做的比较好的一些公司有哪里?谢谢。
    赵勇:坦率的说,我很多朋友找我聊这个问题,但是格灵深瞳目前为止在这个方向没有做任何尝试,第一公司能力是很有限的,我们还是尽量聚焦,其实我们聚焦这方面做的并不是很好,你看我们还做无人驾驶汽车,这些事。但是我想评价一下,在金融领域的应用,我觉得这里面有两类问题,第一类问题金融领域有短期的一些交易,实际上是很严重,就是和其他竞争对手斗,那这个意味着什么,就意味着你的算法本身,你研究的不是一个客观的自然现象,你研究的是你的对手,当你的对手是人的时候,好,那他代表这个阶段里的竞争对手以及规律,你的机器人学习系统也学了一套东西能打败他们,但是他们一旦被打败了,他们的做法就会改变,比如说他们也上了这套系统,所以很快人工智能就不是打人了,就是打其他公司人工智能。我觉得它不是科学了,科学研究一定是自然界固定的规律和本质的东西,但是你在这个领域去竞争的话,其实像最后就像下棋一样,就不停快速的演变,我觉得这个是我稍微有点感觉不是非常(01:39:30英文)的事情。因为你没有改进的空间,就是两边一直不停对你目前的漏洞进行攻击。

    但是还有一类投资业务,我觉得是有本质规律,你比如说在市场上这么多公司,我到底该投哪家公司,或者我对这家公司的看法怎么样,然后信息又特别的复杂,在中国的市场尤其还有很多假信息。在这种情况下,怎么样能够从更多数据里面帮你去梳理出核心的信息情报,帮你做一个判断,我认为肯定是人工智能可以帮忙的,但我觉得这里面的核心技术,其实是数据倾斜,然后自然语言处理,然后还有知识图谱的声称,这些都是其实不是格灵深瞳现在的技术核心所擅长做的事,格灵深瞳人工智能很多种类,这底下有感知层,这里面有视觉听觉,上面有认知层,有策略规划等等,而目前是认知层。所以我们现在的核心技术还是在感知层,尤其在图象这块。比如我们做自动驾驶汽车,他就既牵扯到感知层得人工智能,也牵扯到策略和规划方面的人工智能,但是我们自己现在还没有在这方面做很多事,如果你让我推荐什么公司的话,我暂时也不是特别熟。

    5:赵总好,我是一家做硬件的公司,我对您这个整个产品体验后端的东西有点兴趣,就是我想了解一下,你的数据在进入后端以后它的分析,比如说是通过云还是通过什么,还是说需要客户去新建一个全新的云来适应您的数据进行分析,还是说他原来的以前的东西就可以来去做这个事情,就这个问题。

    赵勇:今天在公安的客户那,已经有很多客户开始慢慢出现了比较好的条件,也就是看上去有点像数据中心的样子,顺便我要说一下,就是中国安防行业,他的基本预算单位是区县,北京就是区,有一个区公安局,它的安防建设主要是区自己的财政出来的。也就是他在建设的时候,这个机房大部分,除非像新疆反恐的地方,但是大多数地方建设都是围绕着区县或者一个地级市这样建设。

    现在的确我们现在整个后台领域主要分成四类,比如说运算的集群,就是要做人工智能运算,这一类目前大量使用的GPU,目前没有可以跟它竞争的方案,这些是GPV集群。然后接下来有文件系统,因为你要大量的小文件,我说的还不是视频文件,视频文件都存在类似于VR的,小文件系统。然后你接下来数据库,然后接下来你有搜索引擎,接下来你有应用层,所有的应用都是通过各种各样复杂搜索引擎的组合去(01:42:52英文)这些结构化的数据,或者去做小文件里面的搜图来实现。而所有的原数据又都是被GPU集群里面算法产出的。

    所以就是这个体系里面至少要包含这几块,并且当你规模变大的时候,你其实不能够容忍用一个比较死板古老的架构来处理这些事,所以他对架构的要求是很高的,在这里面我觉得一定要上大数据的方案,而且可能已有的方案还存在一些问题,我们现在之所以还可以混下去,是因为这个市场还没有那么大,等到普通客户数量上去的时候,这个挑战就会迅速的到来。
    范路:咱们北京的数据中心会集中化吗
    赵勇:数据中心集中化它的缺点就是带宽成本大,而且就像刚才说的,他的预算单位是区县级,就是每个区都也自己的公安局分局,分局里面都有机房,我看现在比较发达的城市,他的一个区的机房看上去都是几层楼那么大的,我觉得让我感到很震撼,就是中国的安防技术发展的这么快。

QQ图片20170315154526.jpg

    范路:政府也比较担心我们,但是中国其实你像各种项目的数字化,包括像银行,包括像税务,保险公司等等,他们一开始也都是以区县为单位,但是最终都是要逐渐集中在一起,最后至少集中到省一级。
    赵勇:其实并不是,他的数据架构都是连通的,我猜想公安部部长肯定有他自己的监控中心对吧,然后每个省的领导也有他的监控中心。这不意味着,就是他的数据都连通了,但不意味着所有的数据同时可以存到他的数据中心区,像今天的VR系统,都还是分布式的,就是他任何数据都还是存在本地,因为成本低,但是他全连通,所以高级领导可以看到下面每一个单位的每一个摄象头。
    范路:他现在是需要存一份,还是需要存很多份。

    赵勇:其实我觉得大多数情况我看的还是一份,因为这个数据价值太低了,而且又这么占地,所以你要把它再存两份,好像还不是很普遍。
    范路:存两份卖硬件的肯定会很开心,因为银行技术都是至少要存两到三份。
    赵勇:银行有专门的法规,其实银监会针对这些事情有专门的法规。
    范路:了解,好,那么我们今天是不是。
    6:我再提一个问题。
    范路:OK。

    6:非常荣幸也非常高兴听到赵总精彩的分享,我是来自云南云科基金,简单先介绍一下云投基金,其实也是一个非常年轻的基金公司,可能在创投圈名不见经传。但是2016年全国私募基金里面,(01:46:02)规模去年是排名第二的,大家可以去搜。现在我们在做创投投资,我们在清华大学,有点广告嫌疑了。

    范路:我们少做广告。
    6:刚刚在这边听到,其实我对这个项目特别感兴趣,能不能参与不好说,但我有个疑问,这个疑问就是,因为我们每个人都生活在这个摄象头之下,其实是有一定的忧虑的。比如说我自己,刚好跟赵总刚刚分享的,我是不是今天被跟踪了,我是不是被别人盯梢了,是有这种。还有一种我今天遇到某些领导,我可能是不是通过这个东西,利用黑客技术就可以就掌握他住在那,或者他经常出入哪些地方,会不会带来相应的一些问题,我不知道这个里面会不会有潜在的东西。

    赵勇:隐私问题是频繁被问到的问题,前端时间美国的CNA的主任,对这个问题这么表态的,他说在美国没有任何人有隐私,连你的记忆都不是隐私。我觉得其实无论你能不能接受,为了公共的安全,这是一个事实,我们的政府有非常非常强大的能力来了解各个层面的事情,事实上政府还认为这些能力还是不足以面临他现在的安全挑战,但当你在质疑说,我的隐私是不是被侵犯的事情。你可能没有意识到,你每天都在享受你的安全被保护的意图,中国是一个非常安全的国家。

    我举两个例子,我刚回国的时候,我一度挺抵触安防行业,我觉得是个侵犯别人隐私的行业,是一个非常(01:47:55英文),然后有一天我上街下楼,我看见一个女的跪在地上,前面放了一个(01:48:01英文),还有一个小女孩大概十岁跪在她旁边,我就好奇,因为她们俩的穿着不像是要饭的,然后走过去一看,这个女的老公十年前在街口被人给杀死了,然后那个杀人的人跳到一辆车上跑了,这个案子从来就没有破过,这么多年来,她们都定期的过来去寻访目击证人。

    我看那个照片,这个男的搂着他老婆,他老婆肚子是大的,这个女孩从来没有见过她的父亲,这是个人间悲剧,很显然这是在北京。在那个时候那个地方没有摄象头,今天我们客户告诉我们说,他们破案90%的线索都是来自视频。那么在有些城市,比如说上海,人命案的破案率已经是百分之百了。所以我那时候就意识到,没错,我们牺牲了一些自己的隐私,比如说我在街上被逛街的时候被摄象头看到了,但是我们的城市之所以这么安全,就是因为这些东西。

    再一个你可能没有在反恐前线,这个方面我还不能仔细说,就是因为我工作原因,导致我们了解更多反恐的一些形式和压力,其实是很严峻的。我们的同事在新疆工作期间,他去工作的时候就是因为那个地方发生了很严重的事,所以他才去那,结果就在他工作的期间,旁边一个县又发生了一个非常严重的事,然后他们都不敢上街。其实中国面临恐怖主义的威胁,一点都不比美国差,而且恐怖主义现在有国际化的趋势,也就是说会有国际商的恐怖分子逃到中国来干坏事,或者是培训中国的恐怖分子,把他们送回中国来干坏事。我们中国也有恐怖分子到其他国家干坏事,比如说去年圣诞节的时候,在土耳拉的卡拉就有一个维族的恐怖分子拿着一把机枪打扮成一个圣诞老人去一个酒吧里面扫射,死伤近百。所以今天我在这个行业,其实我有的时候是充满着成就感的,我觉得大家都抱怨说你侵犯了我的隐私,但有的时候我在想,你之所以还在喘气就是因为我们。

    6:就是利大于弊。
    范路:这个其实是这样,你上街被人杀掉,这个确实是很悲摧的事情,你说好不容易跟女同事搞个小暧昧然后就被拍下来,这个事也是很悲摧的。这个其实因为我原来在做安全工具的公司,在手机安全工具,我们也说在你的手机上也是没有任何隐私的,而且你不光是被国家看到,然后被所有的像猎豹、360所有安全公司都知道你在上面做的所有事情,所以其实我们还是要逐渐适应这种新的生活方式。

    赵勇:我还要补充一下,我们作为公司来说,其实我们只有提供工具的能力,我们给这个行业提供的价值,在于我们提供更的工具。政府现在拿这个工具可以保护我们,理论上讲如果有一些坏人的话,他也可以利用这个工具去作恶,所以在这个过程中,我觉得要提高公众的行为意识,就是怎么样在这个过程中去监管执法者,去监管这里面的数据安全性,我觉得这个是我们该关心的,而不是反过来,就是我们干脆不要发明这些工具,就好像汽车也撞死了很多人,难道我们就不要发明汽车吗。

    范路:最后两个问题,其他的没关系,你们可以在结束以后,然后再冲上来问一问。
    7:我想问一下,我目前听介绍,咱们这个活动,咱们公司是在医疗方面做了布局,刚才您讲的意思好像是有医疗这一块,战线太长,就是想核实一下,到底咱们是做医疗还是没做,考虑后面一些合作的机会?

    赵勇:回答这个问题就是很矛盾,一方面我们的投资人都希望我们聚焦一点,一方面我觉得这是很有价值的问题,所以是在关注这些问题。事实上我刚才差点害怕自己迟到过来,就是因为我从协和医院赶过来,路上车太堵了。

    我也可以稍微谈一下这块,我们其实和,我在很多地方其实展示过一些东西,就是我们去年和四川的那个医院,华西医院有过合作。这样的合作我们还再继续广泛跟更多的医院去做,就是在这个过程中,我找到一些很有趣的机遇,就是我发现大多数疾病等发现的时候都太晚了。比如说癌症,它从第一个变异的细胞开始,丧失了对自己成长规模的控制,然后最后变成了一个肿瘤。这个过程其实很长,八到十年,但是当你发现它是癌症的时候一定是最后一年,或者倒数第二年,其实我们有充分的时间可以去,如果我可以掌握它的话,就是早期诊疗的话,其实癌症完全可以当成一个慢性病,或者压根一早就替换掉,没有任何问题。不光是癌症,我们对癌症关注很多,其实你知道吗,在中国第一大杀手是心脑血管疾病,它比所有癌症加起来,杀的人还要多。但是心脑血管疾病也是一样,它其实有很多早期的特征,但是今天我们解决医疗问题主要的责任单位是医院,可是人们不舒服的时候也不会去医院,等你都不舒服了,基本上都已经晚了,尤其是重大疾病。

    我就拿消化道来举例子,你想一下你如果拿辣椒油滴到自己眼睛里肯定很疼,可是你吃火锅好像也还好,我们的消化道里面基本上没有多少感知细胞,所以当里面生了病变的时候,除了到最后那个瘤子都长到肠梗阻了,或者产生了大规模的出血,你都不知道。到了那一步,已经很晚了,可是你平时没事,你也不会去医院做肠镜胃镜,也不会去做核磁(01:54:38英文)。所以我觉得这是一个很难解决的问题,今天我们花了太多的科技去解决要救一个已经救不活的人。但是我们花在去早期监控人们健康状况的产品和科技太少了。那么我对那种离开医院的渠道,去做一些老百姓非常(01:55:04英文)一些技术,但这些技术可以提醒他有某些风险的机会,特别关注。正是因为我跟医院合作去解决癌症问题,我才发现我们解决大多数问题都有点晚,每个人都觉得说我去研究癌症治疗,肿瘤研究是最酷最尖端的医学,我觉得完全是错的,那个是在补救已经几乎补救不了的问题。我觉得整个医疗行业花90%的精力,去研究还看上去是健康的人,这样的话,这个结构会好得多。所以我们在这块,其实一直在做思考,也是在做一个尝试,只是还没有到要发布任何产品的时候,如果到的时候,我们肯定会第一时间就到您这来讲这个事。

    8:谢谢。
    范路:你们现在是主要是做医疗影像的,好吧,我们最后一个问题。
    9:赵总您好,我是北京大学研究生,我平时做可能就做这方面相关的研究,刚才听你讲的话,我有一个问题,就觉得可能现在的安防领域,还是以视频这种数据为主,但是我们不能排除可能十年二十年之后,真的不是以视频为主,或者一些其他的综合的数据,可能有其他的一些磁场之类的,这种多元数据,我不知道您是怎么看待未来的安防领域这种发展趋势,就是说未来的是不是还是只靠视频数据为主,还是说多元数据?

    赵勇:多元数据是很重要的,现在已经是多元数据了,每个公安局都有技侦、刑侦还有图侦,他们都是分别用不同的技术手段来解决问题来破案,只不过视频数据第一个大,你只要开始录,它的数据量远远超过其他的数据类型。第二个是我还是长期会看好视频数据,很简单,就是上帝已经决定了分配了70%的脑资源去处理视觉信号,这可能是有原因的,就是任何技术,你比如说生物深们识别,比如说指纹,比如说红魔识别,比如说人脸识别,甚至DNA的检测,但为什么人脸识别现在最受关注,因为其他方式那种数据对人来说不直观。警察去抓一逃犯,他手上那着这个逃犯的红魔,有什么用,他没有机会把这个红魔扫下来,他拿着这个人的指纹,我也不能掰开你的手指让我看看。但是我只要认得出来你了,我在这个自然社会上,人脸或者图象是人和机器可以直接对话的语言,这个永远都是这样。(01:58:15英文),我是觉得注定了视觉是我们在安防行业也好,在很多其他行业也好,它最重重要的信息,这块我觉得不会被磁场或者肽赫兹这些东西去取代。

    范路:最后一个问题在我手里,我需要了解他们在安全检测领域和安防有区别又有交叉,有没有进入,然后我们需要他们这样的合作伙伴是什么样的,同方威视项目投资评估,就是安全检测领域,在这个里面有没有介入。
    赵勇:没有,我想他这个可能指的是同方威视,就是在那个X光安检机的,我们没有,这个很不幸。如果有这样的合作机会,我们也很开心,尤其是同方威视,今年新疆采购了大量的X光机,到处都是安检,连饭馆里都开始安检了,饭馆酒店,公路旁边都有安检站。
    但是这里面产生了一些新的问题,我们也发现了,客户就说,你比如说地铁站,北京地铁站都要安检,但是看的人真的看了吗,里面真是藏了一些折叠刀,真的能被查出来吗,但是在机场管的严一些。
    范路:火车站也看了。
QQ图片20170315154530.jpg

    赵勇:对,火车站其实我估计会有很多的漏报,但是能不能用人工智能把这些东西做的更好一些,我是不停听到各种各样的讨论,只是我们还没有机会接触这样的数据。
    范路:因为这个其实会有很多新的图象格式,就是您在美国,像我们经常到机场,那个东西,但实际上最后出来也是个图象。
    赵勇:图象无所不在,看你怎么定义图象了,我在医院里看到全是图象,X光、超声波、CT、核磁、连你去验个尿验个血,比如说病理切片,他会形成一个显微镜波片,它在显微镜下也是影象技术,所以图象大概在医学领域里面占90%的检测范围,在安全领域里面什么都是到最后都变成图象了。

    范路:是,因为最后需要人看,了解,就是说我们看来后面可以做的东西还很多。
    赵勇:如果这个问题是同方威视问的,我欢迎你们明天到我们公司来好好聊一聊。
    范路:同方威视,他应该在群里面然后大家在群里面加好友,联系就好了,这个人应该离开了。好,那我们今天就到这里,非常感谢大家,如果刚才还有问题没问到的,待会儿可以自己上来问,谢谢大家。
    (结束)





4.jpg
您需要登录后才可以回帖 登录 | 注册

本版积分规则

© 2001-2014Comsenz Inc.

快速回复 返回顶部 返回列表