查看: 5571|回复: 0

第216期IT龙门阵实录:人工智能时代的大脑是如何打造的

[复制链接]
发表于 17-6-2 16:06:54 | 显示全部楼层 |阅读模式

时间:2017年5月18日晚上

地点:海淀区中关村西路36号创业大街昊海楼九层

主题:人工智能时代的“大脑”是如何打造的?

第216期IT龙门阵实录:人工智能时代的大脑是如何打造的

第216期IT龙门阵实录:人工智能时代的大脑是如何打造的

范路:大家晚上好,开开门以后稍微凉快点,我已经坐这冒半天汗了。现在要说什么最热的话,应该是谷歌IO,因为这个时候正好在美国正开,咱们现在是下午,他们那再过一会儿,第二天会场就开跑了,昨天就讲什么,昨天基本上就讲人工智能,各种网络(英),然后到苹果上来,各种各样事情基本都是在讲人工智能的事情。

这个事情像人工智能除了像谷歌、百度大场之外,在其他的小公司是不是有机会来做这个事情,我前两天看锤子发布会的时候,有一个公司比独角兽多两条腿,他们是三角兽,锤子发布会一的时候说成独角兽了,锤子今年发布会的时候终于把名字说对了。然后提供人工智能自然语言处理的算法。

如果要讲到很多的场景,其实是非常有趣的场景,但是在自然语言处理这些事情上,到底怎么把这些场景挖掘出来,到底是基础公司的事情,还是天才产品经理的事情,现在其实划的也没那么清楚,这个到底对我们有什么样的帮助,对我们整个生活有哪些改进,如何去挣钱,包括前两天出门问跟小米私价的事,我们也在想真正提供技术的公司,真正像和老罗合作这样,大家都感觉很开心,还是说每次都像小米这样,从头到尾也不说这事哪来的,从小米电视整个发布会完了以后,一句话没提,说这技术哪来的,到底应该怎么。做这些提供技术的公司,是不是有生存下去的方式。今天我们请到三角兽公司两位创始人跟我们讲一讲他们是怎么做这件事的,首先我们请马总,他们董事长兼COO给我们介绍一下人工智能的商业化。

马宇驰:谢谢各位,这个话题提到谷歌IO的事,我们是去年2月份成立的,叫三角兽是因为我们有三个联合创始人,我们三个,所以叫三角兽,今天我跟亓超参加,王卓然因为在出差没有来。去年我们2月份出来之后,谷歌的IO大会、FacebookIO大会,大约是在4月底5月初,我们是在那之前,大约提前一周多的时间拿到的天使、洪泰、和天善,当时也算是比较顺利,当时的谷歌和FaceBook开发者大会对我们来说是很好的,它给了我们一个在国内普及语义领域和人机对话这一块的东西,我们见天使的时候,见了12家投资人,有7家基本上完全不知道我们在说什么。等谷歌和FaceBookIO大会开完之后,投资人又回来,有一批投资人再去去关注这部分到底是什么。所以我们后来9月份又拿了preA轮融资,另外今天也很感谢TechWeb杨总这边,因为TechWeb说起来还是比较早,我2010-2011年是因特尔笔记本处理器公关负责人,那时候大家买笔记本说哪个快哪个好,AMD的,因特尔的好在哪,全网范围内超过80%的文章、活动、笔记本横评、所有媒体的机器,就是各家OEM厂商的最新的笔记本全是从我这出去的。所以这一次也是很感谢TechWeb这边,今天讲的是“人工智能商业化”的部分,这个部分一直来说有两个部分是大家关心的,一个是人工智能技术的泡沫,因为起的太猛,按亓超的话说啤酒倒的太快就会有沫了,第二部分是说起的太猛,大家认为说这个领域肯定会往前发展,有要起势头的一个领域,那它是不是能够真正能起势头,以及它在哪起势头,这是第二个事情。

今天我们也是一方面介绍我们自己,以我们作为一个案例的参考,另一方面这个是我们给锤子做的bigbang功能,这个展示是我们分词,应该这么说,大家会认为这是分词切割,我们把它叫语义片断切割,因为已经超越了分词层面的难度,分词就是很简单的,最简单来说咱们打字,你们、我们、今天、我要、参加、这就是分词输入法。这个部分是说前后相关,你去怎么来分。正确我们分完是这个样子。在锤子非常苛刻的条件要求下,我们能做到本地做到99%的准确率,因为锤子大家也知道和小米都是产品级的公司,可以认为他们在产品上选择合作伙伴,最后上线是他们市面上能够测到最强的,而且这个数据达到最好的,不然他们就不会上,一会儿再说出门问问的事情是怎么回事,这是跟锤子。说到这插一句,今天下午小米的发布会,小米4大家可能看到了,上面依然有我们,除了语义的部分,我们有第二个合作,是在小米4第三方平台给他们直接做了一个2C的应用,旅游信息的查询。

第216期IT龙门阵实录:人工智能时代的大脑是如何打造的

第216期IT龙门阵实录:人工智能时代的大脑是如何打造的

介绍一下我们公司,我们是一家人工智能语义公司,语义今年起的比较晚,主要是提供针对文本,提供的是对话式交互解决方案。大家可以认为这是一种AI的能力,不仅仅是提供单纯的技术输出,那个事就很窄,为一个项目。为B端合作,提供的是交互系统,提升人的效率,降低企业成本,这是最主要对于我们合作方的价值。这是我们目前的状态,我们是百度OS金牌合作方,目前为止应该是唯一的,大约在三周之前,百度和小鱼在家的发布会,我们第一个2C东西是通过那落地的,我们的聊天机器人,一会儿亓超会讲到,通过度秘OS那个系统,在小鱼在家硬件上直接就可以用到,就像今天下午我们做的旅游查询信息,通过在小米,在小米电视上可以直接用到,这是C端用户直接用到我们的东西,其他的是通过B合作方的东西,C段用户体验到我们的技术,比如锤子手机,我们是to b和to c是两条腿都在走。

我们是微软加速器的企业,腾讯加速器企业,新浪AILab合作方,新浪这个应该在下个月就会出来,还没有对外说,但是我们今天晚上就已经是交付了,光明网党媒,包括未来有几个党媒,光明网叫小明,未来还有几个小X这种,他们都叫小什么,是我们做的,扶贫办的政府部门,还有一些央企,这个是我们目前比较拿得出手一些大的。

这是我们之前的融资情况,2016年4月份、9月份、1月份分别有,天使是宏泰和天善,天善是百度任旭阳的,任旭阳也是现在百度新成立的投资部门的高级顾问,PRE-A是君联和赛富,A轮主要以产业投资人为主,恒生电子的基金,然后东方力网力的基金,再加上索道资本一家比较新的基金。

从目前需要普及一个领域就在语义,对于语义这个领域来说,说和不说对于我们来说只是入口的问题。我们跟语音是完全两个领域,划的非常清楚。语音大家可以理解成耳朵的嘴,ASR语音识别,TTS语音合成。语音现在领域几家比较大的讯飞、云之声、思必驰,包括现在的出门问问。比较大的公司还有哪些在做,腾讯、百度、微软、搜狗都在做,这个领域的技术壁垒突破了,所以基本上大家能够看到,新出的创业公司的可能性几乎不太存在,因为没有技术壁垒,拼的就是你之前发展的规模,你的资金量,然后你BD的程度,占有的市场,拼这个了,这是语音。

图像的部分一提到,像格灵深瞳、face++,商汤、包括叫意图还是叫什么。

提到语义虽然大家没有这个概念,语义处理的是文本,包括语音后面,图像后面,包括触碰反馈,你点滴滴,就是要打车,这些都是意图分析,各种各样的文本都是语义,语义是一个更后面的,你可以看成是大脑,眼睛是图像,耳朵和嘴巴是语音,然后语义是大脑,处理的更广。之所以在国内不被认知,因为什么,包括整个对话系统这么来说,国内这件事情发展的很晚,2015年的时候,百度度秘9月份才发布,小冰是2014年5月29日出来的,而小冰只是聊天,没有功能的部分,从度秘出街之后,可以认为在语义人机对话的部分,真正有了中文的落地产品,到现在不到一年半,所以在国内的积累非常的浅。

第216期IT龙门阵实录:人工智能时代的大脑是如何打造的

第216期IT龙门阵实录:人工智能时代的大脑是如何打造的

真正的人工智能我们觉得有两大核心,一个是海量数据,第二个算法模型,这个是大家应该是认知上觉得人工智能之所以吸引人的地方,希望达到一个像人的状态,最基础的部分是靠系统自学习这样的,而不是靠人最传统做标注,我们叫模板去写规则,以前都是这么来做的。现在这一块真正落地到,对应的是实际应用,大数据,不管你是公开的数据,还是垂直领域的数据,对应的是实际应用,实际的数据是对人工智能,你可以给他最大的给养。算法模型的基础是团队,在人工智能这个领域不会凭空出现一家没有积累的公司,完全不会,门槛非常高,只有团队才保证了我们在这个领域里面玩家的水平程度。

说到这,我在这还没有介绍我们的团队,刚才说主要是处理文本,我们团队是这样的,我们三个联合创始人,首先亓超是微软小冰的技术创始人,微软小冰这个东西是他从零发明的,项目当时是微软交给他一个很攻坚的任务,他是当时唯一的算法工程师。第二亓超做完小冰之后被百度请去空降T8的技术力量,从零做了度秘这一块的聊天。亓超,在BAT都做过,他在对话这个领域,一直做了十二年,我们都是八二年的,之前这个领域是冷门,自然语言也好,亓超很坚持在里面走了下去,最后在目前这个状态,市面上唯一两款落地的产品都是他从零做的,不是半路的出的。

第二个我的另一个联合创始人王卓然,英国回来(英)的博士,我的高中同班同学,出来之前跟亓超两个是百度度秘T8两个高级Lead,也是空降,做的是百度度秘的中控,你用度秘可以跟他聊天,你可以订餐订票订外卖订XX,体验他的服务,甚至有一部分人机混合的部分,这一块需要一个强大的中控,你可以认为是脑,你前面有人在提需求,后面有增添资源,我拿什么来满足你,那个中控是卓然写的。所以度秘这两块一个是功能类的中控,一个是聊天,这两块是他们两个从零构建的,后来他们两个还联合领导了一个人机混合部门,度秘后来招了200多个小姑娘,系统辅助人,或者是人辅助系统这一块,也是现在智能客服比较通用的一个部分。应该说来演变这个模式,他们两个在这一块的经验,是我们之所以能够出来,在技术壁垒上。我自己本人是一直在做市场品牌和公关的部分,做了十年的市场品牌企业,服务可口可乐,服务因特尔这些,然后做了三家公司,这是我的第三家公司,上一家徐小平投资的,第一家没有拿投资,自己去做了一个社会化媒体赚钱的事情。

这是我们三个,除了这之后,还有三个技术合伙人和一个战略合作合伙人,今天战略合作合伙人也在,他原来是美团和百度外卖最早的时候,负责战略合作的,美团外卖有四个人的时候就有他,也是我上一家公司的合伙人,剩下其他三个技术合伙人,一个是乐视高级算法的李彦,去年最早的时候跟我们在一起,也是相当于百度T8的级别,微软bing的陈华荣,在微软11年,2013年之前在美国是office的lead,回国之后是bing框计算的lead,在微软工作11年,第一次跳槽,是我们的合伙人。第三个是王宝勋,微软小冰的首席机器科学家,前首席,去年12月加入我们。基本上我们现在的团队可以认为是人工智能领域现任最强的一批力量,他们亲手经历了现在这个市面上最强的两款产品从零到一全部过程,亓超写的第一代,宝勋第二代到第四代的小冰,就是现在这一代。这个是我们的团队,目前有一半的算法工程师有一半来自微软,其余是百度腾讯乐视等的。

AI最大两个期待,咱们说前瞻性的,或者说在远景价值在哪,是用户体验升级和行业升级,都是不可逆的,如果说短期有人付你钱,或者短期你可以取得成功,投资人为什么愿意在你有可能一两年甚至两三年收支平衡不了的时候,投给你钱,这是因为长期他预期,这块为什么一定可以起,就是他一个趋势,因为是不可逆的,你用上之后好,像你用上电之后不会回家点蜡烛看书,就这种感觉。这个是一个必然的趋势所在。它带来两个是目前比较重要的,提升效率、节省成本。

第216期IT龙门阵实录:人工智能时代的大脑是如何打造的

第216期IT龙门阵实录:人工智能时代的大脑是如何打造的

从我们的角度,我们觉得人工智能不会完成的取代人,举个例子,原来拉车有马的时候有车夫,后来有了车有司机,交通工具再进化有飞机有船,一样要有开飞机的机长开船的船长,工具的进化都是为了辅助人,大幅度的提高效率,而不是为了取代人,可能相当长一段时间取代不了。

第二节省成本,节省成本怎么想的,原来你十个人干三个月的事情,现在有可能这十个人干三周就干完了,或者你需要五个人,剩下的部分人力的解放你可以用来做更多的事情,之前的鼓吹我们不同意是在哪,你代替了人,这部分人就没有用了,这个事情是这样的,你可以让他干别的,他解放了更大的生产力,可以做更多的东西。

第二个部分是依靠算法重构海量数据,目前我们说垂直领域也好,公开领域也好,数据很重要,结构化数据怎么样,国内目前90%的公司还是靠人工去标注,一个特别重的方式,打标签,我们是用算法。

第三个部分是精准用户画像,这个精准要超过现在咱们传统交易产生的,这种产生的精准,你要这么想,它是在对话过程当中,对话过程意味着我们在这聊天,你问我问题我回答,我也可以问你问题,这时叫用户,还不叫消费者,对用户的了解是建立在多维度的,你问我说你干吗叫什么名字,我也可以问你,你是男的女的,你是不是今天晚上这么晚上没有回家是不是在工作,或者你订一个票去哪里为什么之类的。可以多插一句你明天是不是出差,是怎么样,很多这种场景,精准用户画像的建立,更有意义。

人工智能技术我们在三大方向上非常领先,聊天、多轮对话、中控决策。这个领先是从目前来讲,我们在国内具备大约一年到两年的领先优势,因为在技术上是这样,你看NLP技术大家都知道,自然语言处理,很多年了在国内,中国也好,外国也好,都有很多年了。一直没有一个特别像样的产品落地,真正落地两个产品是小冰和度秘,NLP用于聊天,开放域聊天,亓超的开放域聊天这个技术是亓超从零开创的,用算法重新开创了这样一门技术怎么来做聊天这件事情。

第二个多轮对话,多轮是指咱们正常说订餐、订车、订票,一句话说不清楚,我今天要去上海,或者咱们举个小米的例子,我要看恐怖片,你是看日本的还是美国的,今年的还是去年的,血腥的还是科幻的,有很多你需要二次澄清确认,所以这一块也是一块。

第三个中控决策就是刚才说的大脑,具体来解释一下。这种聊天,度秘、小冰,聊天就是闲聊,随便说,国内其他的公司,包括大家知道小爱、涂灵等等一些做聊天机器人,他们怎么做的,是用模板配的,咱们正常聊天说这个话,三五百个问题高频大家都有,今天你怎么样了,你累不累,你是谁,你今天烦不烦,都有。每一个后面靠人写十句八句,或者是扒个十句二十句大约是万数量级别的库,都是这么做的,不信你可以测,我们测涂灵,所谓这些聊天对话都是用手工做的,特别快,俩小时就测完了。

小冰和度秘是一亿到两亿之间的语料库,这是一个质的区别,靠人是做不了这个事情,我们从去年出来,当时天使要这笔钱的时候,起屏技术的那个系统是当时小冰和度秘的起屏水准那个系统,目前我们系统是一个什么样的程度,学了差不多接近70亿语料,你们肯定会说百度和微软肯定也能做这个事情,为什么不做,他们是能够做。两个事情,一是他们大的方向,小冰就是聊天,小冰是品牌如何如何,度秘是做O2O的B环,之前做你个人的私人助手,去订餐、订车、订外卖,现在度秘走一个OS,做一个的系统平台。另一方面无论任何公司做这件事情特别简单,得有人做,比如说亓超原来在小冰,后来度秘要做这个事情,刚开始跑的时候觉得不太灵光,亓超过去这件事情很快是做出来,是要靠人来做。所以现在小冰和度秘跟我们也没有什么冲突,我们是他们的合作方,它的一个重点在于陪伴和引导,一个是情感陪伴,第二引导就是说聊天,聊歪的时候还可以往回带,聊一聊你说今天陪女朋友去吃饭,我可以说那你要不要订束花,要不要买瓶酒,你如果说要的话,给你推500米之内的花店或者超市,这些很顺畅就植入进去了。

第二部分是多轮对话,多轮对话主要是针对提供信息和提供服务的企业,我经常给大家举到最多例子是订票,因为这个事好做,咱们这么说,订票这件事情拿模板关键字就可以做了,不需要我们,当然我们退一步说,我们现在做的事情也用一部分标注的东西在冷启动的时候用,但这个差别在哪,你这个全用还是说用10%的问题,用模板关键字配不可拓展,这是特别重的,比如说今天咱们聊天有500个问题,聊的不错,500个问题配了3万个规则,相关性也好或者怎么样,500个问题带来5000个答案,有3万个规则摆在这,新增500个问题跟前面500个是不是要匹配,有相关性要去解冲突,这个东西是一个几何形式的上升,到某一个程度,人就已经不可能把这个东西做好。

举个例子,最简单大家看到智能客服领域,传统智能客服都是这样,大家可以发现,很多智能克服公司拿到A轮就200人及以上规模,就是需要大量的人力,包括小i做招商银行,不知道现在多少人,去年的时候投入接近一百人,扑在这一个项目上,你如果说你招商银行接下来去拿建设银行,如果你要做到跟招行一样的程度,很简单,不少于一百人,这个东西不能复用,因为人就是堆在这。我们做的是领域无关的可泛化统计对话框架,这个怎么理解,对于我们来说,近百个高频领域其实是五到六个框架,举个例子,比如说订餐订车订票订外卖电商,这对我们来说是一件事情,这样的话就会出现,我们现在正在强调从轻结构化到去结构化,数据最终一定是结构化的,这个怎么来解释这件事情,聊天更像是通用领域的知识,咱们什么都可以,垂直领域是多轮的,更像是在我们脑海里一些系统,比如就是语言,就是数学,就是物理。在这个情况下,很多领域的数据是不一样的,靠人去标注就是为了解决这个,我们是在语义的层面做了一套系统,不管是什么样的领域,他理解的基础和一些策略性的东西是一样的。比如说订餐订车订票外卖,最重点咱们最简单来说,就是你要到那个地方去找那个东西,找一个什么样的东西,只不过找的过程当中技术上线条有些不一样。这一块可以佐证的是什么,卓然那一块,我们没来那个联合创始人,他2013、2014年的时候第一套东芝用于电视和客服的对话系统,第一套是他带人写的,你想那是多早在国外,2013、2014年。然后等到后来,国外研究的都是可泛化,因为你想,在垂直领域我已经用好了,肯定是想,这有十个垂直领域,今天一个垂直领域一组人三个月做完,一年做四个,怎么扩大,同时可以都做,这是很正常的商业的思维逻辑,突破这个商业,我们这块目前是有。比如说现在看到我们的合作客户也是因为这个,同时进行的是并行在跑,其他的公司传统公司是做不到这个事情的,对我们来说,强调从轻结构化到去结构化。

中控决策强调的是挖掘和推荐,举个例子什么是中控,我经常举例子,说我要苹果,你跟这个系统说,有可能是数码产品,有可能你要吃一个苹果,还有可能范冰冰演了一个电影叫《苹果》,我后端既有聊天还有垂直领域,聊天返过来的东西要吃苹果,它可能返回来说吃水果有益身体,垂直领域电影说范冰冰这个电影给个链接,数码相机可能给你推荐一个苹果什么东西,这些都有,中控都可以看到。抽那一条去满足用户是中控决定,中控还可以前置看到你跟他聊的上下文,你这一句话上面对应的是什么,下面对应的是什么去判断,在整体的对话当中,你说我要苹果是一个什么意思,这个就是中控的能力,一个是挖掘。

第二个是推荐,就是我刚才举的那个例子,你开车我今天晚上约了女朋友吃饭,你要不要送一瓶酒,要不要送一束花,这就是潜在。满足及挖掘用户直接和潜在需求,这个是人工智能一个很大的意义所在。

这块我们壁垒在于这个跨领域的鲁棒性决策系统,这个特别简单理解,相当于你人脑子里有了很多领域的知识,但是你就是一个脑子,别人问你的时候,你要把它融会贯通起来,就需要你的理解能力足够强,你不能说你学了语文,读小说只读小说,读散文只读散文,这就很尴尬,这就是国内目前做中文的状态,这个时候这是我们的。

目前唯一在国内聊天有两个落地产品,小冰和度秘,中控只有一个产品,就是度秘,其他的中控,所谓的人工智能都没有建立起来的,我们跟华为跟腾讯大家能想到的巨头我们都聊过,他们正在建立。接下来是我们的三个领域,企业服务、IOT、泛娱乐。

企业服务是这样,主要是三大方向,一个是用于企业的品牌、市场、用户运营,给大家这样来解释,任何企业有四个出口,微信、微博、APP、官网,目前大家后面人在运营,运营者甲方本身,咱们说公司本身,大家能看到比如在微信上你说你跟他说一句话,他就引导你说回复1你看到什么,回复2看到什么,在微信上就是这个样子,你回复今天能看到今天的消息。在微博上无论是私信还是评论,如果不是小编回你,他不会主动。我们会把bot的能力,整个语义能力植这几个平台上。光明网的小明这个是在app当中,这个已经上线了,就是《光明日报》下载他的APP就能看到里面一个机器人,针对两会做了一个东西。一方面是挖掘了两会人物关系,另一方面挖掘这些领域内容的关系,党媒向我们开放了30几个媒体库去做这个事情。这个做起来主要是用来干嘛,你能更精准的,比如这个人的照片,一扫描就知道是谁,紧接着出来他关注的领域,他最新的一些内容。听上去特别像搜索,区别在哪,区别在于搜索引擎很多是关键字做出来的,咱们同样搜索,最简单理解这个事情,同样搜索IDG投资,很可能有投资人在这,了解IDG最近投了什么行业,我们要搜呢,我只想了解IDG对人工智能这一块投资是一个什么程度,但我们拎出来关键字都是IDG投资人工智能,无差,我们搜出来结果基本上也无差。你无论在百度上怎么用都是这个样子。

我们这块是针对整个精准推荐之后,大量自动的去匹配你能更精准找到真正你那个问题的意图,而且你可以用更像人话,不用自己去拎关键字这个事情去了解它,这块是我们一个优势所在。而且进一步说一下,这件事情的意义在哪,党媒用我们,这件事整个的效率,尤其在安防层面上,反映信息层面安全性能效率上提高,你要这么想,我们开两会每一年都是,今年也是,上午两会开代表,下午直接被带走了,网上所有东西需要撤掉消失掉,这些对我们很快的去,或者你新增一些新的东西。包括这是两会的,就在这,你看这个人物关系,他们是什么样的关系,在我们系统里是有,这个是我们抓到的,只不过在这上面不能体现什么样的关系,这个是中间他们关注的领域,他们的内容,这是当天的热点。所有这些是基于我们这一套对话交互式这么一套系统去做出来的,而不是传统意义上的新闻推荐,这是光明网的小明。

再继续说上一个,这个是腾讯的应用宝,是安卓的app商店已经上线了,腾讯把1%的流量引入到这个上面,各位手机里有安卓可以看一下,不是所有人都有,大概有一百个人有,他们定向及非定向的选择了一些人,那我们做了什么,这个app,我们把它做成了bot,怎么来理解这件事情,原来你像应用宝下载商店,就是我要看视频,给你推的就是爱奇艺视频,腾讯视频,XXX视频去下载。我们现在做的这个东西也是在应用宝里出现的,特别像小程序,或者特别像微信的公众号,你一点开它,就是直接对话框,你就可以跟他说给我来一个今天美女的视频,或者今天热点的视频,搞笑的视频,你就可以跟他说,你可以跟他说你是谁,你还能干什么,聊天功能都可以把一个APP变成一个bot,形式上是APP的下载,这么一个应用,变成了一个bot,在后面内容上,接口上没有任何差别,对应的都是他的库,这个带来什么好处,你今天这样说,我看变形金刚4,不需要我去下载某一个APP,下载几百兆,你直接跟他这个bot说话以后,看变形金刚4恩,他给你推个链接点开就看了,这是第一步。

第二步腾讯要做的是,鉴于我们交互能力,我们的交互能力是用在这,所有的APP要变成bot,这是我们的交互能力,针对他的合作方,我们提供能力输出,这就是我们的存活空间,腾讯对我们不构成影响,反倒是合作,因为他自己做起来很痛苦,头部APP超过两万,全部的APP30万,他们之前做的是一组人,一个月做一个,我们基本上三到四天一个同时做,所以就是在效率上的差别。

第二部分要做的是未来,应用宝会变成一个大的入口,所有的APP是他的内容方,大家肯定想说APP可能不干这个事,过去三个月到四个月,APP的下载量接近饱和,头部的APP新增下载量几乎可以认为是一条直线。但是对于APP来说,他希望新的流量引入,所以在这个层面上,APP是不建议这件事情,你只要给我新的流量就好,背后就是APP本身一家公司。未来就可以这样,你说我要看《我不是潘金莲》,他可能出的爱奇艺《我不是潘金莲》702P,腾讯《我不是潘金莲》1080P,你可以在上面点开就看了,你不需要去下载,这是对用户更好的一种体验,但是在之后,现在没有。

第三个部分是刚才说的企业服务当中前两个针对政府针对媒体,我们现在这一部分是新世界K11,售前售后,这个是做在了微信上,主要是售前售后类的,你可以认为一个商场的前台,服务台放到了微信领域,一方面你可以跟他聊天,第二部分我们开放问他,几点下班,不同的问法造成一样的结果。第三部分就是找餐厅,找餐厅最简单的一种就是星巴克在几楼,我们现在做的是什么,类似于这里有两幅图没放这个,比如说有没有适合朋友聚会餐厅,有的适合小孩吃的,朋友过生日送什么礼物好,因为他自己就是卖东西的时候,K11是新世纪一个高端的,这是我们给上海K11做的,高端的一个商场,未来中国会有六到七家。

企业服务我再说一句,在企业服务上面,再翻到前面这一页,金融保险类服务是一大块,我们上一轮投资人,恒生电子是战略性的引入他们二级市场,股票、基金、银行,接近90%交易系统是恒生电子提供的定制的。我们之前一直没有企业智能客服,之前拿了三千万的时候,我们拿了一千万,两千万,拿到三千万的时候,智能客服我们都没有销售,直到拿到八千万之后,一直到今年2月份回来,才开始动作,是因为我们觉得在这个领域,它没有门槛,智能客服,也是一个没有门槛的领域,大家都靠标注,靠堆人,靠BD,我们现在有这样资源支持之后,在这个领域以技术在更高一个维度切进去,解决两个方面的事情,第一是bot去解决一个回复人的事情,欧洲金融系统30%是bot来解答,电话打回去30%,中国人是多少,你可以认为是零,这个市场是空前的。第二部分是刚才说的bot,你今天500个问题问招商银行了,医一般张信用卡500个问题带来5000个答案配好了,我这张信用卡新出一个活动又带来500个问题和前500个问题相关,这是个灾难性的,招行有五个团队,加上小i的两个团队,一起来做这个事情,如果出一张新的信用卡,所有我刚才说的事情从头再干一遍,就这个状态,我们能做的是出一套语音系统,我管你是五百个问题,还是一千个问题,你今天出还是明天出,你输进来,出去以后85%以上是结构化的,人做的是那10%到15%的。给他去验证,比如说准不准,或者有一些相关性回答的好或不好,再有一些集体领域垂直信息去做标注,这个问题只能那样回答比较不错,人是干这个,从这个角度我们再切入,在这两块,目前来讲,我们有极大的竞争力,因为几乎从目前这个市场上没有遇到相关的竞争。这个是我们做的事情。

第二部分是IoT,IoT很好理解,智能硬件,就所有说的智能车载、家居、机器人、手机和玩具。在LOT上面,今年所有大家可以认为所有的厂商能够提出来叫名字的都在做智能硬件的东西,无论是音箱、机器人、车载XXX无人机,智能XX这两个字,智能两个字体现在系统内在,不体现在后面XX是手机还是音箱。大家关注也会了解,国内现在最猛的硬件,估值现在基本上5亿美元了,Rokid新出的,他的第一版出来的时候就是跟我们在合作,阿里系的,他也投了。这是小米电视,这上是一次发布会的照片,今天的发布会今天下午刚开,还没来得及放在上面,小米的找电影,如果说找电影不是一个特别复杂的事情,我要看《变形金刚4》,我要看《我不是潘金莲》,这个很容易做到,我们做的是什么,你可以问他说我要找精灵王子演的电影,精灵王子是《指环王》当中的一个角色,然后我要找冯小刚媳妇看的电影,赵薇最近有什么电影获了奖,今年获得奥斯卡奖的有什么电影,甚至是说错,《芈月传》说成半月传,是也能够找到,模糊语义的纠错,这一块都是我们来做的,甚至你可以问他大白是哪个电影里面的。

再多说一句上面,因为很多客户随着落地当中没有补充进去,这是前两周的PPT,包括锤子手机没有补进去,这一次老罗我们给他提供的功能,老罗介绍了两个20分钟,一个是智能语言拖拽,大家可能看了我们bigbang最开始演示是个什么,你要复制一段内容,你总要复制完了干点什么,咱现在你会发现复制只能选择很痛苦,在微信里来不能打伞整顿,咱说今天晚上来虫洞开会怎么怎么样,你要说建个提醒或者来虫洞这个地址很尴尬,复制完以后再怎么。通过我们的技术你直接点就好,点完之后这是地址,你想下一把文字直接放到打车或者地图当中就好。智能语义拖拽,我们把这个事再往前简单一步,把语义分析这个过程也保留了你也可以用,但是也在后台去呈现,任何一个文字一整顿直接拖完之后就拖到你想用的应用当中。比如今天晚上七点在虫洞,中关村创业大街哪哪,虫洞咖啡,你把这个东西这段话直接扔到百度地图里面,出来就是那个地图的定位,你直接扔到滴滴,就把那个都选好目的地,你就可以摁轿车,你直接扔到大众点评,出的就是这家咖啡的介绍,能明白我说的意思吗,就是把整个一套对文字的理解放在了后台非常快,时间、地点、人物、事件、吃喝玩乐这些关键,都在语义层面打通,你任何一段文字你想去干这件事,你只需要扔到你要干的那个APP里面,这事就解决了,这是第一个,智能语义拖拽,老罗介绍差不多20分钟。

第二个是bigbang的升级版,他的现场叫现用现炸,会介绍一大块往里编辑,现用现榨也很厉害,就是我们现在bigbang是这样,你在眼前这段文字念完之后炸开,你要想炸别的文字,退回去再炸,现在就是你炸开之后,只要你屏幕够长,你上下就着炸开那个界面来回扒,没有炸的那些瞬间都变成被炸好的。所以这块也是非常厉害的一个部分。包括老罗之前写错了他们PPT,把我们写成了独角兽,老罗说登门道歉,也确实来了我们公司,私下里我们来说这个事情,其实是一个正常人。锤子需要一个这样的领导人和对外融资也好,品牌也好,需要这么一个角色,所以他需要的是他在台上老罗或者龙哥的角色,私下里会认为,他就是一个挺务实的企业家,说话也好还是什么,就是一个正常人,不像在上面你听懂了吗,或者怎么样,不是那个状态。

第三个部分是泛娱乐,也是我们比较重要的一个部分,IOT在我们三大领域当中,目前来看和泛娱乐排在并列第二,甚至马上到第三的程度。IOT要这么说,国内的LOT领域,自己没有突破瓶颈,大家一直说亚马逊的echo卖了一千万台,我们去年出来创业的时候echo的销售量才四百万台,今年到一千万台。而且从投资人处得来的消息,这个数据是准确的,这是特别吓人的,因为今年一年的时间。但是大家要想一件事情echo的爆发,最开始不是因为它是一个智能XXX,最主要因为它是个音响,国外的人听音乐这件事情就像我们,不能要说吃饭,就像喝咖啡喷香水,这种是自然一部分。所以作为一个音响又是一个长的不难看,音质还不错,又有一些科技感,又是亚马逊渠道的,这是第一个他能卖出来。第二哥卖出来国外有一个用户的习惯,他们很多采买东西大家看到,美洲欧洲超市买一个礼拜的东西大包装,然后开车三四十分钟从小区到一个商场去,这是他们的习惯,定期采买定量的东西是一个很重要的信息,亚马逊是基于这个,我一采买就是两盒,比如说一磅重的牛奶十盒,每两个礼拜都是这样子,你在echo上特别简单,你跟他说一句就好了,就给你下单,不然你要跑。所以这两个场景决定了这件事情最开始不是因为要定这个东西,买了很好用,不定东西这个东西我也认了,后来发现又很好用,你当然会卖的很好。

国内这两个场景目前来说都缺失,大家能够看到叮咚和科大迅飞的音箱大概卖了几万台,最简单一个就是智能硬件卖了多少这件事情非常简单,不用看他们自己出了多少,京东、淘宝、苏宁这三打趣道,你就看底下那个评论,购买的评论,基本上我们可以默认为买了之后都会评论,因为送完积分,那个积分再返点到当前的,他一定会评论的,你这个评论几万条再除去这些水军,买了一些音箱之后他写了1500字的评论,这个打死我都不相信,这得多有时间,就是几万台,已经是国内卖的比较好的一种情况。在国内智能硬件的领域,如果说有一些东西能叫智能硬件,卖的最好的是什么,玩具,去年的火火胡卖了两百万台,今年有一些升级版的玩具,人家开个模,第一批量产的玩具十万到十五万台,就这个气势。

所以国内这个东西当然不是说他不好,他有一个这样培养市场,我们预计在今年年底,这个市场会至少普通的人,咱们老百姓会有一个大体认知,为什么我们的2B合作,2B能力供应商,我们看到市面上所有的大公司在干什么,你可以认为几乎是任何一家做硬件的公司在国内,都在做音箱,不管他们好与不好,都在做。换句话说到年底的时候,你可能会发现市面上卖的100台音箱有95台都打的这个旗号,不管后来真有还是没有,人工智能一二三四五这两五个点还是十个点,都敢往外说,但那个时候我们很高兴在哪,在那个时候用户一旦被教育了,第二步立刻就会来,就是好与不好,第一步没有无所谓,你没有我也没有,你觉得不好我也觉得不好。第二步大家都有了,就像大屏手机代替了按键手机一样,就是那两三年的时间迅速普及,你不用感觉你Low了,就是这种感觉,所以预计这件事情会在今年年底,明年年初发生,我们做的就是每一次在往前做这个商业的部分,我们希望在那个时候超过50%这样的智能硬件当中交互活动用的是三角兽的,有我们证明是好的,锤子和小米现在就证明这件事情,有我们就是最好的,这是刚才说智能硬件。

再一个我们做角色符合型的智能,三个部分,一个部分是游戏,先说游戏,游戏是比较大体的一个项目,腾讯的王者荣耀等等,第二个是二次元,就是动漫,这两个相关在哪,都是情节有、人有、形象有,但是一点扁平的,你认为它是死的,加上人工智能让它活起来,无论是APP、微信、官网还是做硬件,让它活起来。现在所有的这些粉丝经济在这两个动漫和游戏当中,以90和95后为主,他不像我们80后,或者再早一点70后,对这种没有概念,大家去看动漫和游戏的产业,有一个特别好的对比,一个日本二是台湾,日本要领先于台湾,台湾在这一块要领先于我们,在泛娱乐这块的发展,从各种综艺节目都能看出来,日本这一块已经发展的非常好,中国因为90后和95后的关系,他从小接触比我们更多的信息,这就是大的背景,为什么这说块有商业价值,他们起来之后,上学的时候花父母钱没有那么大消费能力,90后今年二十七八岁了,我们公司做运营一半,80%是是90年的,有了自己的能力。95后今年马上就22了,马上就要工作,他们的消费马上就上来,他们所有的兴趣爱好,所带来兴趣爱好的领域瞬间就爆发,像今年的快看都新融了资而且融的很大,就是因为这个,想象不到2.2到2.5亿的用户,不是我们能理解的一部分人。

第三个部分是真人的部分,真人偶像,你这么想,鹿晗、李易峰,咱们说最简单的,他现在微博微信上就是他的团队来操作,如果你每个人都有一个李易峰那个粉丝,签个名字都嗷嗷叫这种,有一个李易峰的声音录完,每天可以在你身边陪你说明,你说累了,他说好不要太辛苦,都是李易峰的声音,说的那个声音是很好解决,因为突破了。他跟你说什么,说的那个事情我们来解决,所以这块聊完之后,大家多会觉得投资人还小激动一下,可能我们最先做的只是稍微剧透一下,现在没有做,俞敏洪是我们的投资人,我们可能会把他拟人化做一个东西,这是我们三个部分。

第三个泛娱乐部分为什么把它放在这,没放在IoT那一块,其实它是IoT的,国外有两个大的硬件IP,echo和jibo,echo打的是服务类,有功能满足你,JIBO打的是性格类机器人,大家可以查一下,能查到,东方网力在国外投了JIBO,占了一部分股份,东方网力因为他的基金也投了我们,所以JIBO整个中文系统这一套,国内我们做的,做了一个年轻邪萌的男性,做到这个程度,今年1月份美国CES展台上,JIBO的展台有我们两个牌子。当然国内现在有很多公司也说能做,类似这种东西,基本上不能说百分之百,99.9%都是模板做的,现场展示的东西都是模板配好的,甚至有的背后是人操作的,就是这个程度。所以我们这个东西准备是一个偏长线,所预计会在今年年底之前,或者10月份左右,出一个让大家觉得这个东西还是个东西,是这个意思,而不是出来玩闹的。

这是我们目前的客户,已经合作的,基本上在市面上比较大牌的一些,跟我们都是合作方。

下面的部分亓超来讲一下,整个技术可能会稍细节一点,你就往简单里讲。

亓超:谢谢大家,很荣幸能参加这个活动,今天正好我觉得安排的特别好,这好比是马宇驰在上面先铺垫了我们要做什么,或者我们像拍一个电影一样,这个片拍出来什么效果,现在我们要看一个幕后花絮,这个片真正在拍的过程,真正在做什么事情,才让这个片拍出来,很像是这么一个承接,也特别感谢这次活动,我们俩是头一次共同在一个台上从不同角度说明梳理这个问题,希望大家从这里头能够有一个发散思维和讨论,以下的部分偏技术,也就是说我们背后这部分,刚才我们说谁不行,为什么我们行,真正要做事情讲道理,讲道理就是我们为什么可以做到,而别人做的不好,或者说我们应该怎么做,能比别人做的更好,以下的部分我是从这样角度来阐述。

第216期IT龙门阵实录:人工智能时代的大脑是如何打造的

第216期IT龙门阵实录:人工智能时代的大脑是如何打造的

首先这张图是我们一直来给大家讲解我们规划系统,所需要的技术多么广泛,以及它的每一项技术在这里能够体现他真正作用是什么,这个就像是像演员表,这个演员表是说我们拍出来是什么场景,对话系统落地之后背后是由谁来操作,或者说谁来出演这个角色做这样一个事情,这张图是从底往上去看,第一层是一些基础技术,所谓基础技术相当于我们将来做一个木工来讲打一个板凳,我需要一把锤子、螺丝刀等等这些工具,这项基础技术是我们去做做对话系统离不开的工具,我们需要去做非常深的积累,以及在这方面不断给他技术。这块很多时候衡量一个创业团队,特别是在AI团队里积累深不深,能不能做事情,很多情况下看他们在这些技术上的理解和积累程度是多少,否则就变成是这样一个感觉,他们在这个开元的系统里随便去玩了玩。这样一个结果很容易说我们去北影旁边门口到一些群众演员,搭一台子戏,感觉有点山寨的感觉,我们是希望达成一个专业的演员团队,在技术上要下功夫。

从左往右是深度学习,为什么需要在这里着重强调深度学习,因为刚才马宇驰这边也讲了,现在我们得益于是两个方面的进展,让AI或者相关的一些产业能够比以前更好的发展,这两个激战一个是数据的积累,我们有更多的数据,之前可能用到一些实际对话场景。另外一方面是技术类发展,在这里头着重要说一些深度学习的技术,当然我们遇到大数据的时候,传统的机器学习模型已经不可以去拟合这些数据,这个时候需要有一个更好的模型,从更多的参数去做这样一个拟合,这个时候深度学习的作用就会出现,但为什么这个深度学习在之前没有被人提出来,或者比较火的。其实这里面大家理解这个深度学习并不是一个新的概念,或者新的技术,早在70年代,就有这样一个技术,目前来说是一个叫做“旧瓶装新酒”的过程。在70年代的时候因为数据不够多,你再好一个模型,拟合再好,也没办法去发挥作用。目前来说加上一些计算能力,像GPU的能力,让这个技术得以比较好的发展,所以大家像听到比较多的AI相关的用词就是深度学习。无论是在图像上、语音上,还是文本上深度学习都做的非常不错,这样一个进展。

另外一块是增强学习,这个增强学习可能大家第一次听到这个概念是阿尔法狗人机围棋比赛的时候听到的这个概念,其实像对话或者人机需要去做一些操作过程里,都是一个博弈的过程,比如说我们在人机对话里,第一个方面要做开放领域聊天,这个目标机器希望赢得人越来越长的对话,那是他的目标。像这种任务对话,机器想要解决这个问题,所以这种东西都是要有驱动机器去解决和处理这些东西为原则,这些东西都是用到增强学习在动态做一些调整,策略的调整,所以会用到这样一些技术。

第三个部分更多说是自然语言的处理,这一块自然语言的概念大家会比较混淆,什么是自然语言,其实在术语里,自然语言很拗口,说白了就是咱们人和人之间的对话,都叫自然语言,说这个概念是为了区别程序员用来编程的这些语言,像java等等这些语言,这些变成语言是没有歧异的,自然语言里对话充满了歧异。刚才也举了苹果,在不同的语境和上下文里面代表意义是非常不一样的,另外一些可能会在这里头处理的事情,在自然语言还要中英文或者多语言的一个问题,在这里头三角兽目前来说其实处理很多技术并不区分哪种语言,我们面对的更难的语言环境是中文,因为中文这一块不太像英文这一块,有很多结构化的语法或者句法,在中文里你随便组几个词都能理解,咱们在学习小学的时候,会去学习怎样组词怎样造句,在英文里面可能会学一些从句,或者语法关系,但很少说语文有一个很成型的语法体系,倒装,特别山东人特别爱说倒装话,对及其来说,你如果安装这个非常混乱的模板去理解这样一个句子的话你会遇到很多困难。

第216期IT龙门阵实录:人工智能时代的大脑是如何打造的

第216期IT龙门阵实录:人工智能时代的大脑是如何打造的

因为我初级阶段做的课题是句法分析,比如十几个词的句子你可能有一千多种解释,在句法层面上,所以它主要问题在于自然语言主要解决这个歧异,比较麻烦的一些事情。当然自然语言处理分成好几个步骤,包括分词、词性、实体识别、实际是包括像一些地名、机构名、人名等这些词语,包括句法,刚才也提到了我们中文是没有太好一个句法体系,但是我们会做一些浅层句法去做一些依赖关系和修饰关系上的判断。

这块是我们做语义理解非常重要的部分,首先要识别一句话的意图,在这个意图下,我要去挖掘一些关键信息,刚才提到bigbang那个技术,其实用到两个部分,第一个部分我们用到分词跟AI技术,另外一部分我们在今年最先的发布会里面提到语义拖拽,我们是用了解析的技术,这部分很像是我们在微信里遇到一句话,像是你的朋友约你晚上吃饭,在中关村创业大街WWW咖啡,五点然后不见不散这样一句话,发给后端的处理,首先他要去判断他的意图是说,我是一个约会的意图,这个意图下我希望把时间、地点和人物等等信息抽出去,这两部分会分成两个技术来去做,第一部分我们叫做意图分析,第二部分叫做语义的解析,这部分都会在我们对话里还是在实际场景用处比较多。

第五个部分是信息检索,这块可能大家一听到概念就会想到百度,但其实除了网页以外,能索引到的数据非常好,例如说电影的数据,电影导演的数据,甚至说餐厅的评论,都可以被索引起来,这些索引的原因是我们刚才也提到,我们希望把很多结构化的数据去结构化,或者说减轻对结构化的依赖,那么这个情况下我们要做一个召回,这个召回最好的工具就是信息检索技术。

最后一部分数据挖掘,目前来说我们有两部分数据需要去进行处理,第一部分是结构化和半结构化的数据,这一部分举个例子什么样的数据是这样的一些数据,比如说一部电影,我们很容易从豆瓣或者一些网站上去扒到这个导演是谁,演员是谁,但是有些数据经过简单处理,就能变成非常干净的一些结构化的数据,但是有些数据会比较难处理,像是纯文本数据,例如从新闻里扒取一些事件,从新闻区扒取某个人关注一些点,或者某几个人的关系,这个好比举例刚才在两会光明网的报告主题里面,我们挖掘了雷军和谁关系比较大,在这里面我们需要对纯文本处理,因为没有地方去呈现,董明珠和雷军是有这样一个实体关系,我们建立一个结构化数据,所以这样数据都会从纯文本里面大量挖掘这样一些关系,所以这部分我们也会去配上一些必要的技术。所以任何一个做对话技术的公司,如果这几部分是缺失的,那我相信他一般是一个半成品或者一个比较山寨的东西。

我们为什么能做这个东西,市面上做对话的比较少,因为刚才马宇驰也说,对话在之前是比较冷,能够做这个方向,并且能坚持做这个方向的人非常少。这个方向有这么几个相类似的场景,工程师是可以用做这个事情,第一搜索引擎,因为搜索引擎公司会大量处理大数据、文本、语义和排序之间的算法。另外一个是做推荐系统,所以我们合伙人,你可以看到一方面陈华荣是来自微软搜索引擎的背景,另一个合伙人是来自推乐视荐引擎的背景,所以我们在这里头做这样一些技术积累,是机遇之前一些工作和项目经验去做这个事情。

另外一点做对话这一块,其实还有一个对定义的问题,这里也提到一些事情,就是从涂灵开始就有人开始畅想,怎么让机器跟人之间自由对话,来理解人说话的方式或者背后的意义,到现在来说都几十年了,依然没有达到这个目标。但是目前我们在这三四年里面发现越来越可以接近这个目标,这个事情也是说我们在这里面要有一些定义,要理解的清楚比以前要更好,在这些问题的定义,可能会说我们去配模块,我去配关健词,去做这样一个响应这种关系,现在我们是依靠数据,用数据的表示,我们希望用机器去学习人和人是怎么对话的,在这个关系学到之后,我们用于线上,去来复现它,这样一个关系系相当于咱们有两个小孩,这个小孩一开始的时候所有对话能力是来自他和他的父母朋友之间的对话,然后在这个对话理解之后,他会在他一些场景去复用,这个很像一个小孩成长的过程,当然这个小孩在近期又有能力去阅读,学习这个非对话的处理,这块也是我们正在做的事情。

刚才在手机上看到一个消息,我们在做一个事情,有很多时候我们客户会给我们提一些理想化的需求,例如说给我们一篇计划行业从业一本书,我们希望这个机器能够把这个书理解了,去参加这个从业考试,当然这个非常值得期待,并不是说很长时间这个事情是多么容易干,但是非常难做,刚才我们一些情况会发现,在某些简单考试,我们可能达到80分,这些理解是对纯文本的理解,不光是我们去搜集人和人的对话这样一个数据,能够达到80分我相信已经是高于一般人的水平了这样一些情况,当然在这里头是不是这就能通用,我觉得还有很长一些路要走,但是对于具体某些行业,或者某些这种纯文本,我们可以做到相对好的程度。

再往上就是一些子系统,或者说子模块,这些子的模块是由下面这几个技术组合出来的,这个好比说我们做一桌子菜,其中某一个菜是土豆丝,这里头土豆丝会要土豆起码得有,这个可能需要自然语言处理这个元素,还有可能需要一些辣椒这些都是,这些东西拼成一个菜,变成他可以去响应一个更大的事件,把它组合成一个更大的系统。从左往后这些模块,对对话来说都是非常重要的。我也不过多解释这个事情,从语义解决、决策过程、平面系统、知识库和逻辑推理到线下结构化分析,这些东西都是对话系统必不缺少的部分,缺一不可。

再往上是一个子系统,这个子系统我们会把子模块组成开来,组合起来形成这样一个完整的系统,每一个子系统都可以单独对外提供这样一个服务,去响应,我们常见这个里头也会是一个产品形态,例如开放域聊天。小冰那个主要的产品功能是聊天,聊天希望是开放域,所谓开放域不限制语音,你跟他说什么话,这个情况就像是(英)刚出来的时候,你可以问他天气,或者问你可以问他今天是几号,等等这些固定问题,但是超出这些问题,他就给你搜出结果。但是开放域聊天的作用是我不希望这个对话中断,当我没有办法给你提供服务,或者你压根不是要这个服务的时候,依然能够跟你顺畅聊下去,所以它在这里起到这样一个作用。

第216期IT龙门阵实录:人工智能时代的大脑是如何打造的

第216期IT龙门阵实录:人工智能时代的大脑是如何打造的

另外是检索式问答,我们会做很多像百度知道知乎,或者说专业一些论坛里面问答的搜集数据来提供这样的问答和匹配以及相应,例如举个例子,天空为什么是蓝色的,这个是做问答必须举的一个例子,你能回答这样的问题,你就要搜集大量的问答数据然后做响应,深度问答这块跟他的区别,我们会在有些问答做一些结构化的抽取,例如说一些名人和明人之间的关系,名人属性之间的关系,变成整个叫知识的图谱,这样的产品很像是咱们之前说的一些知识体系,构造这种知识结构化的数据,才提供了一些问答和结果。

垂直领域对话刚才马宇驰也表达了,他是以任务驱动为目标,他跟你开放域聊天的区别在于,例如说我们去一个餐厅想点菜,把这个菜点完是我的目标,我跟服务员之间发生对话,都是为了把这个目标去完成,我不想太废话,我希望最快的状态去完成那开放域聊天,我希望人和机器聊的越多越好,聊的越顺畅越好,这两个相当于一个服务员,或者说一个是你的朋友的角色,我们希望一起人跟人一样有不同的角色,不同场景充当更好的作用。

用户画像这块是我们为了让这个对话系统做的更好,我需要去了解,就像一个好的销售人员,他并不是上来给你做推销,他还要机遇对你的了解,和对你偏好的收集,才会在合适的场景去做这样一个推荐,所以用户画像是按照我们这次推荐的目的,比如说我们给一个人推荐一个裙子,跟我去卖保险显然不是一个样子的推荐体系,卖裙子我可能希望知道她喜欢的颜色或者款式。卖保险我可能希望知道他家里有几口人,他孩子多大,他上几年级,这样有针对性去做,所以用户画像一定是根据我们推荐的场景去构造,没有一个大而全的用户画像,话题的引导像我们在平时人和人对话,朋友之间也好,同事也好,还是跟其他人,我们不能就是这一个事来回回答,一直转着圈来说。所以话题之间转移和引导是非常必要的对话手段,能够让这个对话持续下去。

上面这两个是API的分装,就不多说了,就是把我们现在这些系统分装成一个对外可以提供服务的接口。

整体来讲,一个对话系统抽象来讲会分成四个部分,第一部分是刚才说的智能聊天,提供无障碍沟通的渠道,是智能的体现之一,我们认为它是对话系统标配的模块。第二部分是智能信息,有点类似于像百度的搜索,或者某个问答的一个问答机器人,但是他希望给在某些场景下满足他的信息需求,例如说今天天气怎么样,我希望提供天气的结果,我希望查找,帮我推荐一个餐厅,可能也会帮你去从大众点评找你喜欢或者适合你的餐厅。另外一个是智能服务,最近也会是线下的一些负多,比如我去真正把交易的环节打通。最顶层是主动推荐,这三个部分偏被动,就是等着用户的需求来,另一部分是偏主动的推荐,我们希望在这个对话里无障碍插入一些可以推荐的事情,无论是对话的话题还是服务还是信息,刚才也举到这块稍微多说一点,为什么我们觉得这个推荐非常重要,在很多场景下,在人机对话这个圈里,有很多人觉得问答系统就是一个对话系统,但是我们其实在做完小冰和度秘两个产品之后,我们发现其实这样问答相关的内容,占的是很低的,可能只有个位数,其实这个也很容易理解,就是我活了三十多岁了,很少有机会能让我想起来问天空为什么是蓝色这句话,其实在日常场景里,你都没有办法去问别人这句话的时候,你怎么能渴望人来问机器人这句话。所以这种情况下,大家有时候在做这种对话机器人的时候,有可能就会走偏了,认为是一个我把百度知道这种数据索引了,我就可以做这种聊天机器人,但我觉得完全把问题理解错了,但是这个时候,并不是说你这个问答知识是没有用的,当合适场景下,你可以希望你把你的知识吐出来,例如说这样的对话经常被问答,今天天气不错,天空很蓝,这个时候机器人可以反问一句,说你知道天空为什么是蓝的吗?把这种知识的推销出去,可能更会加深这种消化,或者在儿童场景里,我们经常会被遇到提一个需求,你要帮我去回答这样的问题,最高的山是珠穆朗玛峰,或者说最好的沟是什么海沟,这个名字我记不住,我怎么让机器人去回答,他希望儿童会经常问这个问题,但其实我家孩子从来没问过这个问题,但我希望我的孩子在跟机器人对话的时候,今天我很开心,我要去爬山了,这时候机器人能够去反问他,你知道世界上哪座山是最高的吗?来去帮助孩子被动接受这件信息,而不要等着孩子主动来问你,因为可能这一辈子都等不到,这个时候我们主动推荐是非常好的一件事情。

目前这边再往下就是真的是更偏技术,我去大概简略去扫一遍,如果有兴趣咱们可以在线下继续讨论,这个是整个对话系统,中控部分的一个架构图,从上往下是这样一个流程,用户出了一个问题,我们可能要做快速预处理,这个快速预处理包括分词、词性标注,等等一些预处理的操作。很多像我们合伙伙伴,这一部分写了非常好的名叫去毛刺,就是口语化里一般很多信息是没有用的,这种毛刺会影响你下面一些处理,所以在这个过程你先去把一些毛刺去掉。第二部分中控这个还有两个作用,第一个是负责模块的分发,分发到各个下游服务,由下游服务再去做响应,另外一个就是下游服务结果都会反馈给中控,由中控来去决策,他决策的依据去比下游服务决策极具更充分,因为他能看到所有的东西,包括每个服务返回的结果,以及历史的对话和用户的模型,所以由他来做预决策,刚才说我们判断一个苹果该由一段视频来回,还是一个水果提供商来回,还是说是一个新闻来回,这决策部分是交给中控来处理的。

开放域聊天架构图简单来说会分成两部分,第一部分是线下数据处理,线下处理我们会从互联网上,由人和人发生对话可能的论坛、社区、BBS这样一些网站去挖掘这种公开的可以被所有人看到的对话数据,这个数据在我们这有500亿的规模,我们经常会问到,该是说你们做这个对话系统这个事,跟百度和微软,你们劣势是在数据上,其实我们不这么认为,因为百度是把这些网页,他可能积累了很多网页数据,但是这种对话数据实际上在网页里面你要进一步挖掘,所以这在块谁也也吃亏,反而我们走的会更快,因为我们专注做这个事情,不断去搜集和整理这样数据,我们会做的更好。就好比说如果是一个五星级酒店和一个餐旅小馆,餐旅小馆能不能竞争过五星级酒店,我觉得这个事不可比,为什么,因为大家都是要买菜都是要做饭,没必要说你家买得菜能买到,我家买不到,这个事情我觉得不可能,这块经常会被问到这个问题,就是数据会怎么来,刚才说我们跟百度、微软一样公平竞争,从各种论坛网站挖掘这种数据,我们大概有500亿组的数据,500亿组的数据相当于什么级别,就是两个人之间的对话,只要他俩不停,就算一组,500亿组,足够让机器人需要和发现很多人和人之间的对话和聊天的规律。

第二部分是数据的清洗,因为500亿的数据看似非常多,但是大部分很多情况下需要做一个清洗和处理,比如说在这里头,我们做对话,不太会用字幕数据,因为字幕数据,大家可能会觉得你为什么不用字幕数据,字幕数据这种没法用,因为字幕当演员说这个话的时候,有很多背景信息是没有在字幕里。比如说他说我不喜欢,他不喜欢什么,你不知道,因为影片里去演的,所以寨这里头有很多数据的噪音,在我们挖掘的公开网络上的数据也会体现,所以这部分数据清洗工作也非常重要,能够把这些有用有价值的数据沉淀下来,是数据清洗必备的手段。这里面就提到数据挖掘工具和数据并行处理的能力,这个东西小公司大公司也会经常拿来区别,我们在这个机器上投入是巨大的,我们第一次融资天使轮我们就勒紧裤腰带,买了一台,后续我们逐渐勒紧裤腰带,上了更多搭建了自己的机房,有很多时候我们创业公司你说大数据的,搞深度学习的,第一他有GPU,我觉得怀疑,另外他所有东西都是用阿里云计算,不是说这个成本问题,我相信他用不了,没有那么多钱能够用那么昂贵的机器去做预算,所以我们从很早开始就有自己的机房,搭建自己的机群的处理,来去处理这个事情。其实这块像大公司会很有钱砸机器,像百度IOP部门,他投资了两千万人民币买了两百台GPU,但其实这些资源不一定能被用,因为我在那发现只有十分之一的机器是在用,这部分我们够用就好了,不用说土豪似的,我囤了很多地,这些地都得种上菜,这个事是不一定的,你按需去做,按需去搞就好,另外一些是在文本这块,不像语音,那么需要耗用机器资源,毕竟处理的维度上会轻很多,所以在这个情况下,在这块大公司小公司也可以做到无差别的状态。

另外一个事情就是检索化,把数据检索放到一个索引里去,线上分成三部分,解决三个不同的问题,一块过来,比如说是谢谢,第一个我们要解决的问题是在我们刚才线下去挖掘这样一些语料里,去找跟他相等或者约等的问题,比如说“非常感谢、非常谢谢、谢谢”等等跟他说法不一样,但是表达意思一样,或者连说法都不一样的问题,每一个问题都会对应到历史上每个人回复这个问题的N个回复。第二个问题是解决,我这些回复相关的问题,相关的问题它的回复对应了问题是不是能够去回复相应语音上的意思,还是以“谢谢”为主。第二个问题要解决并不是看两个句子相不相等,我应该找到是“不客气、不用谢”,他应该存在这种回复关系的其他句子,第二部分解决是这样一个问题。第三部分我们要解决是分享的问题,其实聊天机器人很多,除了刚才提到有一些很历史技术依赖受限或者模块关键词去配的技术。还有一类机器人是靠这样方法来做,就是万能回复,所谓万能恢复就是“呵呵、哈哈、不知道”,这三句话可以回复所有的,因为都会相关。再举个例子,比如说我们有一个机器人可能是偏佛学的机器人,他可以会说阿弥陀佛,你只要看怎么解读他说的话,都可以理解他的话,比如说阿弥陀佛也可以万能回复。就很像咱们去算命,大师给你说了一句话,就看你怎么解读,这句话我们认为是万能回复,这种事是所有人都会相关,但是他不会让你这个对话可持续下去,假设说你这个人不管是女神还是女汉子,她老“呵呵”这句话也没什么意义。所以第三部分就是让对话持续下去,不光是系统,我们希望这个对话偏有趣偏营养偏结合场景和实践,我们不能说对大姐说大哥,我不能说今天是晚上,我不能说早上好,等等一些非相关性的问题需要出现。当然也会跟更多用户画像做结合。

刚才这部分是说检索式的聊天,他也是说在产业界里用得多的方式,除了检索式聊天,我们还有一部分技术叫做生存式聊天,跟他区别我在线处理的时候不再会用检索这个过程,我并不是说通过出来以后,我通过这种检索找到相似或者相关的问题,我是直接通过一个模型去一个词一个词产生一句话,这个模型看似很神奇,但是大家可能也再灌注这个领域,大家可能会知道最近,谷歌、摆渡百度都在做一件事情,就是机器人翻译的模型,其实对话有点跟这个事类似,我输入一句中文,我希望它翻译成英文,在我对话里可能是我输一句(英),我希望生成的回复,在这个事上看似是相似的道理,所以他俩可以在一些技术上融合,在这里头这个区别就是语料都是我们线下的同一份,只不过生成式模型会在线下重新把这个模型训练一下,把这些语料理解成一些概率值,线上跟这些概率值和参数去动态的生成一句话,每一次生成一个词,都跟前面一个词有关系这样一个状态。这一块我们也有很好的进展,就是我们应该是在一些极致场景,比如说儿童场景,或者说政府场景可以用这样的技术,为什么,我们刚才所有说线上的语料检索方式都是来自互联网,小孩不上网,互联网跟咱们政府关系比较不太密切的言论比较多,比较危险,这样情况下我们希望一个保险情况下,我们在线下去做很多的过滤,比如说我拿故事书,从他的词汇把我的语料全过滤一遍,但是难免会有一些不干净的事情,这个时候我们在上面加一个概率的模型,做到一个百分之百的保险,所以在这个方面,我们会在极致情况下用这样一个模型去对外集中聊天的服务。

刚才也提到垂直领域多轮对话,简单来讲会分成四个部分,第一步骤叫做NLP,也就是说自然语言理解,他解决两个问题,一个是用户说这个问题他的意图是什么,在这个意图上他的必要性是什么,举个例子从北京到上海的火车票帮我订一张,首先他的意图是要订火车票,在这个意图下我要抽取北京作为出发地,上海作为目的地。第二部分是有状态机来跟踪我完成一个任务所需要那些状态,到什么程度了,比如说我要完成订票,我起码要这么几个元素,第一出发地是哪里,目的地是哪里,另外一个你什么时候走,这样一个状态,订火车票的场景,所以第二部分是为了去跟踪我现在的状态向到哪个部分,把这些状态都记下来。第三个部分就是跟DST非常相关,就是状态已经到这个方向,我要做一个合适的处理,比如我少一个状态,系统就要决定我要询问用户,你的目的是去哪,你要去哪,来收取我缺失的一些信息。第四个部分做出这个决定,要反问要澄清,来得出结果,NOG这部分就是把这个结果有一句话的方式表达出来,这部分业界都是模块,没有什么悬疑的方式。所以有时候大家可能不能过于迷信用机器学习去解决所有问题,有时候就是要模块来配这句话,比如说我要表达您要去哪,这句话机器学习大量的数据才能产生这句话,我觉得有点画蛇添足的味道。

还有一个部分可能是我们今天在前面特别重要的一个技术的实现,就是我们怎么去理解自然语言,这里头有一个梗,很多时候我们可能会问某一个博士生,或者某一个研究员,或者某一个硕士生,你在研究哪个方向,他说我在研究自然语言处理,有的梗是说,如果你今年在研究自然语言处理,比如说明年换了方向,哪怕你去参军了,你发现你两年后回来,再做自然语言研究,发现没有什么区别,还能接着做。有些方向可能两年你不做这个事情,你已经跟不上技术了,这个在之前NOP这块一个通病,表达意思就是说这块技术迭代是非常慢非常慢的在之前,之前它采用的方式是这么一个研究,词法分析,对于中文来说是分词,对英文来说是短语的识别。再往上是词性的分析,是主与宾,就是形容词、名词、动词,标识一句话是哪种词性。再往上是句法分析,主谓宾定与状,再往上是语义角色,一层一层往上推进,每一层其实会比前层更大,每一层遇到的歧异间会更大。所以在这个时候基本上做配套很难,基本走不下去了,特别在中国这块。所以为什么技术迭代比较慢,是这样一个状态。

另外还有一个事情,从我们对这个事理解,其实你把句法分析的特别好,但是你把结果给计算机去去处理依然很难,因为计算机不能理解状语是什么态度,或者说对于人来说很难定义这个事情,计算机喜欢数,这个数大就好,这个数说不好,这俩数加起来是这个值代表什么意思,减起来是什么意思,他更喜欢数字的算法。所以我们说这里头深度学习很大一个作用,我们来去学习一个对句子的表示,这个表示一定是数值化的表示,相当于我希望计算机去理解这个数值去计算理解这个语言,那么在这个上面怎么实现,我们从互联网的数据去尽量挖掘这种句子,这种句子是未标识的句子,然后通过深度学习的方法去进行几层表示,比如说词的表示,一个是词的表示一个项量,每一个项量可能是一百倍,这个怎么理解,就相当于一百倍空间里某一个点,每一个词都会在这个空间里找到这个点,找到属于他自己的点。但是点和点之间的距离代表这个词和词之间语义的距离,用这种方式去衡量这个词义和另一个词义的作用。

同样句子也是,另外一个事情就是给半监督学习,比如说我要用于分类,我刚才这个表示在这个基础上,在刚才表示的基础上再下一层分类 vvvvvvvvv来去指导他去学习或者收敛他认识的范围,这块大家有关注五新闻学可能听到很久之前有一个新闻稿,是Google的深度学习的一篇报告,他会给机器一个很优秀的视频,然后发现到最后机器发现了猫,其实这里面拆开两部分,第一他会给机器看什么视频,但是机器会发现这在一层架构或者框架或者逻辑也是长的很像一个东西,但是他不知道那是猫,你说的没错,这人物是一个问题,但他的名字叫猫,所谓这是两部分,所以无监督学习有监督学习是两部分结合,你要认识到这个东西是一堆东西,同样的状态是好东西,这两个部分。所以半监督学习,这里会做一个插入。

另外一部分我们也会去建立和模块这样一个匹配,在这个基础上我们再结合一些半结构化数据等等深度学习的方法,变成语义模型,我们是更希望用这种数值方式理解语言,让机器来理解,用他自己喜欢的方式,而不是希望人解读,这样方式去解读,这个好处在于我们能让这个机器随着这个数据量增大,或者在交互过程中反馈增多,变得越来越聪明,其实变得越来越聪明,如果这个系统一旦上线就变成一个停顿,没有任何发展,其实并不是智能,还是一个工具,所以我们一个小孩,无论是上学也好,参加工作也好,他不断接触社会,不断获取更多知识,他应该变得越来越强,也就是智能体现在学习能力这块层面的事情。

以上就是技术方面,这个展开来讲,每一个可能都需要讲很久,而且可能会涉及到很多背景知识,或者说这种系统,这块也是给大家抛砖引玉,希望能够感兴趣的朋友多多交流,一块来促进这个事情的发展,谢谢。

范路:九点了,然后我们稍微做一个小的讨论,亓总,其实我首先想问一个问题,就是在这种聊天机器人领域里面,无论小冰也好,度秘也好,还有很多现在聊天机器人有一个很大的问题解决不了,就是它无法获取用户,小冰其实在获取用户本身这件事情上是蛮失败的,度秘其实一样,就是他靠百度怎么折腾,其实度秘不会获取用户非常失败,当你去做一个有价值的功能,或者做了一个有价值的产品的时候,包括叫(英)实际上也没有成功获取用户,这个事到底是为什么,是因为我们整个行业的技术还不够好,还是因为它的场景有问题,还是因为说其他的原因,因为这个亚马逊的echo能够卖到一千万,当时想着这个东西应该像所有聊天机器人是一样,是无法获取用户的,但是他最后卖起来了,到底差在什么地方?

第216期IT龙门阵实录:人工智能时代的大脑是如何打造的

第216期IT龙门阵实录:人工智能时代的大脑是如何打造的

马宇驰:其实从商业上这个事很好理解,刚才我们说亚马逊的echo他前瞻的使用,第一个沿用不是音箱,它是一个好的音箱,我觉得国内好与不好是这么来判定的,这个好与不好是在于我们期待和我们想象中的东西,对比现在的程度是一个差别。

举个例子,我当然希望现在从中国飞到美国一个小时就到,实际上飞十几个小时,你能说这事不好的,这个很难讲,因为以现在目前的技术只能是这个样子,这是第一个。第二个当一个东西新出现还没有成熟的时候,就像机器出现的时候,一定是少数人去尝试,从安全从各个方面,所以现在他们获取用户的难度是在于我觉得主要难度是在于用户习惯没有养成,他还没有想到这件事情确实不一样,举一个例子是可以,小米和锤子我是觉得可以用来举例子,你要真捉来东西了,就是说订票这件事,像我去上海,国航的头等舱11点这个事情,你要去点击的话接近20分钟,你说话的话加个逗号就可以,如果你以后习惯了这件事情,就相当于旁边有人帮你,一句话就解决的事情,只是现在这个场景和用户习惯都没有建立好。

范路:您的意思是说这个技术已经成熟了。

马宇驰:技术也没有那么成熟,成熟不成熟是相对的,就是说它在跑,总有一天,咱们现在汽车能跑到300公里和之前跑到800公里也是一个过渡,但是在某一个时间段,技术已经可以应用,咱们说(英),你如果照那个对比的话,这个事就且得说了,我们不一定把这个事说明白了。

范路:(英)应该跟你们做的东西蛮像了。

马宇驰:但那个也已经很厉害了,帮你去出书,跟你去谈恋爱,这个很厉害,我们觉得这个事情在非常长的时间内基本不会出现,你现在的技术能做成什么样子,汽车刚开始那个轮还是那种轮,没有轮胎的,也跑了,也用了,现在是这种跑了400公里也用。

亓超:稍微补充一下,因为我本身做小冰和度秘。

范路:这俩都是你做的。

亓超:对,其实从内部有些数据还是挺震撼的,因为从小冰当时刚发布的时候有这么几件事情,第一他迅速扩展到很多微信群里,所以才导致被快速封杀,微信可能就不关心,这是第一。第二另外一个佐证这个事情,当时我们用的是微软云服务,分给我们整个亚太地区研发团队是一个固定的机器资源池,第一天上线因为PV量大,整个池子所有机器整个拉光,这个状态我想说一开始的时候非常活跃

范路:因为我自己做投资,从这个角度来说,如果你能够证明这是一个成功的商业模式,其实必须是劣势反映,我可以促进用户不断上升和增长,而不像现在你不断往里填用户,然后这个用户还是你不填就没了。所以小冰我其实每过一段时间想起来跟它扯几句,这个聊天聊不下去,没办法长时间扯一个什么事情,但整个这个过程中,现在是不是没有实现我能够像刚才马总讲的,我们要培养用户的习惯,但是真正培训用户习惯成功案例是淘宝,淘宝早期用的是极难用的,现在淘宝整个使用流程成为了中国电商使用流程一个标准,并不是说他做的好,就是这么多年把用户训练成这样,你只认这套就行,没办法了。但是现在人工智能这套东西,又没有那么强的需求,或者说没有那么强刚需能够让用户被你训练,在这样一个情况下,我现在这一个点到底是能够爆发起来还是怎么样,像您刚才讲的人工智能行业运用这块,可以帮他节省时间,所有这个里头其实没有任何一个是可以帮助的。

马宇驰:是这么来看,尤其是在智能客服领域,我们所有智能金融类他们的客服人次都是几千人,接触的央业有上万人客服同步,这个时候我们都节省他20%的人力成本,一年接近几十个亿是这个程度。然后如果提出的程度,我们通过什么来赚钱,再举一个简单的例子,所有刚才您说用户习惯培养,除了淘宝还有百度,搜索东西,第一个脑子里反映的关键字提炼,就是自己打空格,北京 天气,咱说话可能不这么说,这都是。第二个我想说,即便没有被训练,我们希望在交互一个新的系统使用习惯下是由我们和我们合伙方共同训练的,所以我们走的2B的路也在这条,它的前景在哪,可能现在的技术不是百分之百成熟,但是我们合作方他们已经认准这个市场要起来的,像百度、微软、腾讯、小米、锤子、不管大的小的,新浪XX他们都是在这条路上去投入,这个钱不是三角兽去,是整个领域,到今年年底你可以认为他依然不好,一百个音箱95个有这个功能,你没得可选。

范路:这个其实不一样的,因为在中国其实有些伪需求是做不起来的,比如说智能电视,所有人一百个电视现在基本上90个是智能电视了,但是智能电视的功能到底被多少人在使用,这个东西就是个伪需求,最后大家想象这个事就没了。

马宇驰:所以主要看时间,比如淘宝这个事,淘宝现在有很多年,我上大学的时候应该是淘宝第一代,那时候都是淘宝二手,我是淘宝四钻买家,是买家,不是卖家。我用的特别多,在这个基础上,淘宝这件事情我们可以看到相当长的时间,智能电视也好,包括语义,即便度秘出现到现在一半年,如果在一年半的时间宣判一个领域的死刑,我觉得像O2O这件事情。

范路:这个不叫宣判他的死刑,我们其实真正要判断的是这一波真正能起来,还是要等下一波。

马宇驰:我觉得这个比较好判断是在这,一是在资本,资本特别简单。

范路:第一个在资本,其实是这样,我刚才说你们对商业伙伴的价值是这样,比如说你帮锤子多卖掉了十只手机,这是不是也算商业价值,或者说你不是说锤子因为使用我的东西少了三个客服,这个事其实对他有价值,没有那么大的吸引力,你说我能帮你多卖掉20%的手机,那这时候我多上十个客服我认了,这个事是这样的。然后锤子其实我觉得你们在上面演示很多东西是非常棒的,但是这个里面这些功能基础的东西是你们实现的,但是这个场景是你们实现的还是锤子实现的。

马宇驰:大家一起去探讨这个事情,锤子现在是这样,他在M1那款手机,咱们这么说,M1之前几代加在一起不如M1卖得多,从这个角度你可以认为,其实M1只打了两个(英),至于我们贡献了多少分贝的量,这个不好一并说这个事情,但是这一次(英)在京东上的预订90万,锤子老罗准备了40万台现货一天卖光,你如果说这个多少不好去量化事情,但是说有用没用,从目前来说有用的,因为锤子之后大家能想到市面上其他的手机,无论大小都主动找我,我觉得这个就是资本第二级市场,他认为有价值,我们就OK,我们是有价值的。

范路:但是我们本没有觉得siri还是帮苹果卖掉了手机,还是语音助手帮安卓多卖掉了手机。

马宇驰:我们和语音助手和语音领域本身是两件事情,语音助手很早就有,不是一个特别成功的东西,我们现在做的事情是两个事,我们大脑更灵活,那个语音助手可能就更好用一点,现在语音助手大家认为最简单是什么,语言的搜索引擎,就这么一个事,你问他什么东西,他就给你搜索引擎,这和我们现在做的语义你会认为是一部分,一部分就我们能支持他的语音理解,但你要说他成功不成功,其实他不成功对我们也没有任何影响。

范路:你们还是能帮别人多卖掉手机的。

马宇驰:从目前来看应该是这样的。

范路:是,那就是最大的价值,谁用了你们东西,谁的东西就多卖掉了。

马宇驰:暂时开心一下。

范路:大家有什么问题要问的。

提问1:我想问一下这个对于英文的语义,跟中文是不是同样的水平。

马宇驰:系统的架构大部分一样,我们一直按照原来英国的(英)模式,他已经做了英国国籍,他做的那十年都是英文系统,除了做中文,之前来立了日文和韩文,我们之所以选择中文,是因为中国在这个行业特别难,基于语言的复杂性,注定只有,一是中国人,第二是具备这样技术在这个里面的科学家,这样的中国人才能做,所以这个是我们的考虑,微软FaceBook更厉害,他多少年在中文领域里面,除去说这个国家层面,现在国外也没有做出一个成型的中文东西,所以那个语言的复杂程度非常非常难。

提问1:换句话说,你们如果做英文可能会更好。

亓超:这跟语言相关的处理可能会有区别,比如说中文需要做分词,英文可能没有这个,每个语言总有自己一些特点,但其实整个语言分类来讲,你不要去分英文和德文,其实大家道行都差不多,中文比较特殊,中文日文还有韩文还属于亚洲语系的,还有一个泰语。

提问1:亚洲这四种语种差不多。

亓超:中文跟韩文还不一样,韩文更罗马化的状态,日文会有一些用翻译外来语的事情,英文这块和这种语言区分,比如说Google也好,微软和FaceBook,其实做了多语言的搜索。如果是说只能是定制化一种语言,这样搜索引擎可能没有办法,所以我们对话系统来说,所以我们中文技术并没有依赖于某些语言的特性,比如说必须是个语言,达到这样一个程度能使用这个,并没有。比如说我们很多像(英)的叙述方法,其实是很多情况下是我们英文差不多可能做很好的实验,在中文上得到一个很好的释放,这两个部分,所以你可以认为在英文上可以会把这个技术再回归,数据可能要重新再来一份,就像同样一个菜,四川一个做法,山东一个做法,菜是和总体这个事情要结合,是这样一个道理,会没有太大的障碍。

提问1:所以我想问一下,新东方有没有做一些英语方面的。

亓超:我们在聊,还是偏向于售前客服这块,教育这块我们也在跟相关合作方在聊,我们认为周期稍微有点长,因为我们横跨很多领域,所有事情也做不过来,先只能找一些我们觉得特别能够先落地,有价值的来做这些事情。

提问1:谢谢。

范路:还有什么问题。

提问2:刚才听了讲座确实是收获挺大,我想问两个问题,第一个就是语义这块一个问题,肯定是个大市场,而且还是个了不起的大市场,我就想问一个技术问题,就是说我们在建语料库和知识图谱这一块,我们希望撇开没撇开人工标注,或者我们之间有新的技术把它进行处理。

亓超:标了,但是不能都标,比如说我们有些场景真的可以零标注,举个例子,我们现在在做表情的分类,一句话我们插入一个什么样的表情,其实就是情绪,这个表情和情绪之间是很多对应关系,比如说喜就等对应哈哈的表情,哀就表明哭,怒就是生气,但是我们可以分的更细,比如说鄙视、不屑都可以在表情上。所以我们在表情分类的这样一个系统的时候,这个过程是我们在微博、贴吧等等这样数据去抓取很多同时有一句话并且没有表情的句子拿下来做收集,等于是一个其实是一个半结构化的可以标注的,通过系统清晰模型迭代再清洗,把这个数据弄到可用,完全没有人工参与的链条。这个完全没有人工参与,得益于这数据在一定意义上已经标过了,人在发这句话的时候已经给它赋予了这样标注,所以我们在很多场景也会用这个,一些场景来模拟这个事情,再比如说我们做小米电视的时候,我们需要知道一句话到底说的是不是电影相关的一句话。

提问2:有时候标注会更简单。

亓超:是,那种情况下我们会拿到百度贴吧里,电影吧那里面相对概率非常大的情况,我们会拿来做分类的,再比如我们举一个太好的例子,我们标注一句话,是不是骂人,我们要去经过大量筛选骂人,这个标注量很大,有一些数据是来自于马龙微博底下的评论,因为那个大量都是骂人的话。

提问2:刚才你说了一本书,能不能细说一下,假如一个学科,你们进行处理之后考试能达到80分,这样怎么处理。

亓超:这个事不要想太Magic或者玄学,我们对于一个短文,这个里头我们按照一些句子理解,再给他一些填空的题单选多选,但是真正有一些客户做的需求比较科幻,他希望你拿到一个金融行业从业书,让机器人拿到之后,他能出现很多问题,直接去做应答,这个是做得到的,刚才说简单文稿做填空题这个是没有问题的。

范路:这个事还是机器比人擅长,他记得住,不像咱会忘

亓超:他可以去查,这个里面很像IBM Watson,他做的技术是一样的,这个是可以做到的。

范路:还有什么问题。

提问3:我有一个问题,马总提到说在国内是中控决策是只有度秘,我听的不是很清楚,您能再说一下吗?

马宇驰:针对人机对话,现在人工智能前后人机对话这块的中控决策,从目前来看只有度秘是应用的,不是只有他做,但是真正人机对话落地的应用目前只有这个系统,一方面能听懂人说话,另外一方面然后接了几个语义,我可以去满足你,咱们用语言的方式,除了打字也是,对话的方式,语音的方式都可以跟他产生交互,这个中控目前只有百度度秘是落地的,而且百度度秘现在那条中控依然是卓然他们离开时候的那一套。

提问3:谢谢。

提问4:我问马总一个问题,因为今天这个主题是人工智能商业化,那你们现在主要是2B一种合作伙伴方式在推你们的人工智能技术产品或者应用,你们那个合作模式现在是怎么样的,能不能介绍一下。

马宇驰:是怎么赚钱吗,收费吗,一种我要做这个事,你没有,我给你做到有,从项目定制费开发费,你从零到一怎么要也有什么的,第二个从一到往后,我已经给你做了这个,你没有新增需求,这块我们现在提供的是API云服务,很多数据在云上面已经可以包年,有一个卖的数量很少,你包年几十万一年有用了,还可以按台,一台多少钱。目前新生一种,因为我们不是跟很多大的平台在合作,在流量上很少,因为有些产品已经直接2C了,像今天小米下午,直接2C的,用户直接做我的,跟我有什么关系,现在产生交易,产生流量代入也好,那个平台我是跟他去分售,我们占大头,这个是我们赚钱的方式。

范路:我问一下,你们有免费的自然语言处理服务没有,因为我曾经也是一个程序员,我原来用的(英)上面服务,每天可以免费做500次,然后你们有这个东西没有。

马宇驰:以后会有。

范路:连分词带主题词关键词标注,做这种东西,然后我每次把关健词提出来。

马宇驰:现在没有,以后会有,曾经我们很认真聊过这个事情,一个创业公司早期做一个免费开放,无非就是获取数据,然后他是在一个商业化之前的某种方案,现在没有走到这个,或者当你走到一定程度的时候,它是个锦上添花的方案,我已经很厉害了,我给开放者出一份,我们最开始的时候就是想的就是为了保底,后来发现在我们走的过程中,无论是商业化还是资本层面,还算顺利,所以这件事情我打算再放后一点。

范路:了解了。那么今天我们就到这,后面有什么问题大家冲上来找他们就好了,我们就不占用所有人的时间。

(结束)

第216期IT龙门阵实录:人工智能时代的大脑是如何打造的

第216期IT龙门阵实录:人工智能时代的大脑是如何打造的



第216期IT龙门阵实录:人工智能时代的大脑是如何打造的

第216期IT龙门阵实录:人工智能时代的大脑是如何打造的
您需要登录后才可以回帖 登录 | 注册

本版积分规则

© 2001-2014Comsenz Inc.

快速回复 返回顶部 返回列表