查看: 13127|回复: 0

第211期IT龙门阵实录:人工智能在细分领域的商业化探索

[复制链接]
发表于 16-8-31 12:21:15 | 显示全部楼层 |阅读模式
主题:人工智能在细分领域的商业化探索
时间:2016.8.30
地点:海润艾丽华巴黎厅
4.jpg


  范路:大家晚上好,我们又开始,今天是人工专场的最后一场,我们也是找圈子里边各种各样做人工智能的企业,号称自己做人工智能的,真正在里边运用到不同东西,给你不同体验,现在还是比较少的,中国人还是喜欢跟风,我们讲了一期汽车相关的东西,怎么去做无人车,怎么做车机,上一期有张帆告诉我们怎么做,人工智能帮你做旅行安排,云知声告诉你一些自然语言处理,今天第一个公司叫北京蓦然认知科技有限公司创始人,他们是,为什么特别喜欢这个名字,现在所谓的人工智能,让计算机认知人的东西,让它能够通过语言通过图象通过各种各样的东西,包括各种数据认知人的语言,认知各种图象里边的意义,认知每一个用户的行为和规范,然后从中给很多建议从中给很多决策,能够帮助我们做很多我们以前做不到的事情,就像上一次讲的说人类从相信上帝相信自己,到最后相信数据的过程中,我们怎么能够相信数据,数据确实取信于我们,每一次作出的决策,都让我们觉得这个决策是对的,我们对数据有一个很盲目的认知,或者很盲目的认可。前边都是讲大数据,这次请一个AI小数据中的大模型,不需要大数据也可以做AI,请蓦然认识创始人戴帅湘。
2.jpg
  戴帅湘:谢谢,我就不多说,AI大家接触比较多,我就直入主题,对大数据或者说第一学期深度学习,大家听的非常非常多,现在是一个浪潮,说实话大数据的确对语音识别和图象识别,有很大的功劳,特别是深度学习的发展,给这两个带来非常大的发展,但是大家如果仔细的考察,这两个突破,都有一个比较大的贡献,都是端到端,知道一个X知道一个标注的Y,中间是一个黑盒子,这个特点特别特别明显。让人理解一个词,不是一个目标说,我知道有一个输入的句子,我得到一个说,很明确的东西,其实不是这样,仔细想不是这样的。

   所以这里边就有谈到一个问题,摆爱我面前,这样的问题我们怎么解决,我们在看一下就知道,人有很大的特性,只看很少的东西,只知道几千个词,知道一些句子组成,就知道可以读别的文章,不需要看上万篇文章,读上千本书才能读懂,不是这样,你要写出非常漂亮漂亮的文章,很有文采,必须做很多功课,比较通用的这些概念不需要太多,图象也是这样的,我们扫描几张图,我们知道类似的图是这样子,这样的问题,相对现在海量数据来说,少非常多,甚至我们有时候只需要几百个上千个样本,这个时间段非常有限,我会叠出我们做的东西来讲解,这样比较形象一些,我在这方面我还是思考非常非常多,我主要学的是计算语言学,怎么让语言计算,这方面还是做了好多事情。

  我有十页PPT左右,把刚才关键词描述给大家,里边的模型会提到,不会做太详细的讲解,我们先看一下,如果要辅助决策做什么事情,人把任务发送给机器,机器获得这些任务,这任务大部分都是文本方式呈现的,做信号的分析,做一些推理的理解,然后在对接具体的一些事物,把它给完成掉,我们要定一张火车票,这时候需要和售票员聊,他要理解你意思,然后短信查,这是很简单的过程,最后给你最终的答案或者结果,这个时候称为任务,把基本的框架,不是我跟你谈恋爱分析这样的任务,这个任务现在最关键的要素是说话的方式呈现的,这个是很自然的方式。

   解决这个任务,有一个很关键的问题,总结叫语言智能的问题,最终体现到智能方面,语言是最强的要素,从现在所有AI里边来说,最难的问题,人独特所有的事物,他对语言的理解和运用非常非常强大,这个方面我们看公司做的事情,包括做的事情,语音识别会遇到,这个过程放在最前面,语音识别以后,要理解语音传递过来的意思,大部分转换成文本,不管转换成文本,还是只是语音信号,最终做语音的理解,意图是什么,做什么样的动作,然后最后你理解它还只是一个过程,最终告诉它理解它,给出的一个反馈,我们要进行一定的服务,机器自己完成也OK,当然大部分通过第三方来服务的,所有做一切的时候,有很多路径,你要给你的队友,你的用户给你传递信号的,给他选择一个最优的路径,这是AI典型的过程,最后还是要做决策,大家非常熟悉语音识别的公司,基本上就是这些了,百度这些巨头。语音理解这一块,国外有一些公司。我们其实还有后面这种能力,我们把所有,我们把三者融合在一起,语音识别现在市场比较乐观,不是门槛比较高的技术。

   我们暂时没有涉及这个,这个不是特别难。我刚才阐述这些,最后所有这一切,我把它总结成一个叫智能交互决策引擎,就刚才的线条,实际上体现是交互的方式,最终理解的含义,做完决策,这是一个整体的引擎,是进一步的,包含各方面的内容,比较容易理解,但是他涉及到这些术语,我比较熟悉,第一个说了,在语音理解比较常见的容易理解的主要是大家会看到,第一个就不说,后面有一个语音表示,为什么要这东西,上下文理解,对对话是交互过程非常非常关键的,说我今天遇到刘德华,你和刘德华聊什么东西,这个人你喜欢他吗?是上下文连贯的一个方式,你理解他,你一定是连贯的,考虑上下文理解,当然对话一样,不像搜狗引擎不管你前后之间有什么关联,现在修很多闲聊的东西地也不管,不考虑你上下文给我一句,我找一句类似的。还有智能决策,这个也比较容易理解,你最终达到目标,这个目标有很多途径,需要机器优选,是一个非常非常好的一个方式。然后如果这个比较的成型的话,他其实做了两个颠覆,一是颠覆了方式,因为强调的是我只要跟你说话,就完成所有的邮件啊等工作。

   还有一种信息获取的方式,获取信息不一定向某一个网站提交,或者向某一个APP提交,可以向所有的APP,所有连入这套系统的智能设备提交,他会给你不同的,你连一个机器人,和你动作相关的,如果是一个手机,跟你手机相关的,这其实比如说这种,我们更实际,我们举一个例子,我们做一个复杂的产品,还有更复杂,但是这个基本要素有,最终的目的要达到,现在的交互方式,现在APP很多,比如说要做很多的选择,做很多的限定,不会告诉你说,你就拿这个火车票吧,这个是最好的,有些语音助手做了改进,我要订一张火车票,他会理解掉,后面会调出整个APP,做下一步选择,经过一定的过程,有手动加上语音的操作,还是用户把上下文关联在一起的,我们看一下如果要做一个刚才我说的,就是交互决策引擎这个方式的话,比较好是一种什么方式,就是我们产品,一会会看到,非常容易理解,我要定火车票,我明天去上海,要后天,八点以后走,这样的话,这样理解你的话,相当于你可以全部完成这个操作,这是理想方式对吧,这是我们现在的一个方式。

  后面也有讲,这涉及一些技术,我会让我同事演示一下,它是一个什么样的过程,这个我就要强调了,做一个复杂的任务,一定不是一个模型,比如说你建立一个定义,或者其他的网络可以做到的,非常多的技术,涉及机器学习,涉及语音分析,涉及搜索,这是一个综合的过程,我今天讲到几个核心的,比如说自然语言的理解,核心问题是什么,大概有什么方案,我讲到(英),就是刚才开头的,为什么人看少量的数据,会达到很好的效果,小数据大模型能理解这点,当然还很多,这里边增强学习,这些都是我们融合在一起的技术,今天会讲到一个关键的。

  然后如果是智能交汇决策引擎,有几项是必不可少的,第一个是小数据大模型,你对话当中没有明确的样本,即使找专家也是非常非常困难,这个图象是一个人我标他,这个没法做到,必须要有小数据大模型的训练方法,第二是对话中增强学习,一定要对话,对话的模型在整个学术界都是很难的,增强学习,你对话的话,增强学习是非常非常有用的,最后我们很独特的一个东西,我们做了认知计算的模型,我没法用一两句话阐释,这个东西是所有商业模式的基础,你必须有基础的架构,所有的小孩他必须学习语文的基础知识,数学的基础公理,他才知道将来怎么做,数学怎么理解,和这个是一样的。

  我们先看一下,怎么理解核心的问题,我把它描绘一个图,中间还是一个黑盒,这东西是什么最合适的方式,谁能做到这一步谁能引领技术的潮流,这个用户稍微补充一下,这个用户不一定是人,也可能是另外一个机器,学过AI可能知道,智能通过代语言方式来交流,我刚才说的,这种交流全是采用自然语言的,模拟人的方面,机器最合适的,右边就是我们常用的抽象的这个能满足几大信息,一个是API,这个间接一点,第二个信息,这是一大类。还有一大类是搜索,搜索引擎,网页是世界上最常用的一些知识表示方式,大部分是非结构化的,你不知道到底什么是知识,你知道知识在里边,你不知道怎么抽出来,纯粹的知识,这个就是很多人建的知识库,12306就有庞大的关于火车路线,和调度规划的,不会提供给我们,但是你一看就知道,它有这个知识的。

   三大类知识涉及到大的方面,还是从理解角度来说,这个过程,问号的过程要理解用户传递过来的信息,最终把这个信息通过某种方式以后,和画面已有的知识进行对接,这样才能完成整个兑换,这里有三个问题,字话的理解,出租车罢工,罢工的事件是出租车司机一个主动行为,然后意图的理解,意图的理解也很简单,比如说我要去买一张票,意图很明确,我要拿到这个票,打一辆车,最终把这个车找到,送到我要去的目的地,最后是对话的理解,更复杂一些,就我刚才举的例子,刘德华老婆是谁,下面有人告诉你说是谁,他们什么时候结婚的,你可能很后期,这是连续的对话理解,不仅理解字面意识,还要知道上下文是连续的观念的过程。要做到这些的话,中间这一块,才会比较成型,很多人致力于做这个事情,这个地方没有差异。说这里边的一点,因为我没法展开说,都很复杂,字面理解,这个很基础,你必须有这个,没有字面的含义,你不学基础的东西,你就无法学复杂的东西,这是一个网络吧,描述是什么意思,描述词的语义,比如说看有很多含义,我是去看病还是去看电影,还是看书,都说看但是有差异的,它没法知道最终的目的和意图,你必须要细化,一词多意的问题是必须要理解的,你要更进一步说,我对他字面含义有一个了解,抽象归纳,相对的问题也出现了,多次同意,不是相反的,是同时会出现的问题,这个有多次的同意。

    比如说这个,因为人主要是因为语言发展太长时间了,也会形成约定俗成的东西,理解人说话的时候,机器需要非常关注的不同的表达具有同样的含义,语义的一个规划,就像数学里面一些划归,对理性的东西进行分类,你才能进一步预算。这个是我说了一下基础要素,理解基础要素,后面进一步做意图理解,对话理解这个逃不过去的,这个你要做好。我就不针对语言说的,这是我们核心的机密,不在阐述,大概的意思用一个相近的例子说明一下,大家也比较容易理解,这是从文章里摘抄出来的,这个思路不管怎么样,这种思路待会儿我讲,也是比较正常的,像这样的做法还是挺多,没有人那么专注的提炼出来,实际上我觉得应该是很多做会想到的,做了什么事情,我要教机器做一件事情,教它怎么写字,人教一个小孩写字一样,告诉他一些笔划,机器是一样的,这个文理这个过程,我可以稍微分解一下,我不会讲这公式,它的思路大致是这样的,就是说我怎么能从很小的样本里边提炼出可用规律,那你必须分解,你必须对你观察到的对象,做一个比较合理的分解,合理这个字非常非常难,你见过的过程,那这个写字是不是比较简单,你们看到他最底层的分解类似笔划,几笔落笔的一个经验,然后它当然也会,这个问题不是那么直接就得到的,你观察一些以后,人可能做好几步分解,比如说我分解为字部分,这个部分稍微更复杂一点,但是他经常连在一起出现的,这些东西都可以分到底层一些很有限结合上,这样的话,你要学习的东西,就比较明显了,我要学习一个过程,像一个程序一个任务,我要学习一个程序,或者一段任务,把某些东西连起来,也可以用一些规则,像学习过来的,我学习一种方式说,怎么样把这些小的组成大一点左右,更大一点,最后组成一个我们认为可能得到的字符,他要做的是说,先做一层分析,得到基本元素,到了真正学习,由基本元素组成目标字符的目标对象的过程,学的是一个过程,这个过程这里会学习到,这个过程类比到比如说我们说对话,完成一个任务,我要学习,我要通过第一学习的方式,知道怎么样完成这个任务,这个任务最可能的目的是什么,学到一些关键的路径的组合方式,那我可以用这种方式处理新的问题,我的这种方式,并不需要知道新的东西是什么,我可以把它尽可能对应分解到子的部件上,学习到部件组合方式,把它给组合起来,这种学习就很强大了,它不需要太多样本,当然你是获取了太多样本,如果你获取更多样本的话,可以用上一些,这种东西没法获取太多样本,大致是这样一个过程,我不知道我说的是不是清楚了。

  
   大家也可以看到,这个思想在人理解语言时很一致的,或者说没有太大差异,我们所有人都知道这种方法怎么做,你不知道,该怎么分解,我说一句话,你不知道是怎么分解成子部分,子部分在分解成子部分,这个过程称为语义理解,每个人都可以设计一个模型,做一个事情,这个就很难了,如果再说拿你分解的部分还要训练一个部分,这个就更难了,难度不在于思想本身,而在于说你怎么建构过程。我基本上把我今天讲的差不多,下面有一点时间,给我同事演示一下,和我说的相似点,有多大差距,其实是一样的。对我感兴趣的同学可以联系我。

  范路:下面我们来请诸葛找房的苏伟杰来给大家讲一下人工智能怎么帮我们找房子。
1.jpg

  苏伟杰:大家好,我是诸葛找房的创始人苏伟杰,我不是技术出身,所以专业的知识讲的不会很多,我会讲讲诸葛找房的故事,我讲的这个东西比较务实,你租房子找房子都可以找我们,比其他地方划算一些,我们是一个什么样的公司呢,我们对自己的定位是中国唯一努力讲真话的房产搜索引擎,因为大家去上我们友商去看,我们可以发现有很多的问题,包括整个行业里头,通常有一句话说的比较多,作为北漂没有被中介坑过,都不好意思说在北京待过,大家有很多现实的,不管在租房子的时候,中介费交的很多,我们在友商的产品上可以找到那些重点,第一个虚假房源泛滥,据我们数据统计,市场上的房源超过97%都是假的。

   第二部分是中介费太高,大家需要交一个月房租当做中介费,这个中介费对大家工资成本还蛮高的,买房子是2.7,三百万差不多五六万块钱就是去。第三点就是信息不透明,这套房子是二手房子的,这套房子是不是死过人,信息在房产行业不透露的。第四部分是当我们找个人房源的时候,有很多情况下是中介冒充业务,打过电话其实我是经纪人。为了解决这些痛点,讲的故事是11个人和一条狗的故事,我们是在一个民居里头,基本上不休的状态,工作将近一年的时间,我们这条狗叫摩卡,每天早上七点钟起来接客,晚上两点把我们送走,然后早上七点钟又起来,每天睡眠时间不足五个小时,非常非常辛苦,还跟我们工程师加班,包括我们服务有问题,突然停了,狗还会一只叫,我们抗了一年时间,实现了我们所谓的理想主义者的找房产品,能实现什么样的功能,跟大家想象的找房产品是不是一样的。

  第一部分是我要看到全北京在租在售所有的真实房源,我们把全网你能知道的所有房产网站的数据都做出来了,这个行业里头97%的数据都是虚假的或者无效的数据,我们要进行大量的清洗,清洗完之后,我们会把数据有流失计算的这些,包括我们的楼盘的过滤,把很多系统不断的过滤的方式,基本上现在能在诸葛找房看到,北京市90%以上在租在售的房子,你不需要去58,也不需要去链家,这个事情太不刺激了,这种产品拿给用户没有新鲜感。说另外一个,我要知道每套房子各渠道的报价,历史价格的变更,和中间费用,什么意思呢?因为中国有一个房产的特性,就是多家委托,我把一套房子委托给很多家公司待租或待卖,所以我们通过我们大数据计算比较,统计和分析,把所有房产数据进行重组,重组会每十分钟发生一次,这样会造成一个结果,每套房子对应不同的渠道的报价和中介费,在我们网站上一目了然展示,而且每次价格变更大家都可以看到,比如说这套房子,这套房子某一天在爱屋及物上挂到的,在每个平台报价都可以看到,每个时间点变更都可以看到,很清楚包括每个中介公司收的中介费也都能到,在这里也能知道房子价格变迁的方式,帮助用户去做辅助购房或者租房的决策,由业主上调了二十万块钱,你就很清楚,这套房子马上要涨价了,从七百万可以跟谈,帮助用户做一些辅助的决策。我们把所有经纪公司数据做完重组之后,这事情还是不够刺激,对我们来说,我们不关心我们的模式是B2C,我们也不关心我们模式是不是C2C

  
   我们做了另外一个,代表所有用户的希望,我们把C2C数据也都拿过来了,你听到所有C2C的网站,在我们这里都有,处理完之后,把个人得数据和经济公司进行重组,这样的话可以看到,这套房子有可能联系到经纪公司的每一个经纪人,也有可能联系到业主本人,这是业主电话,经过大量的清洗和验证,不是每套房子都可以,出售有5%10%,出租有20%左右,我觉得这个刺激还不够刺激,我最好是我买房子付完中介费,我还能拿点钱,所以我们还提供中介费补贴,通过诸葛找房,这是买房子,通过我们去买的房子,诸葛找房还提供官方的补贴,还有买方顾问提供服务,你不需要给我钱,我们还会补贴钱,如果你通过我们渠道,基本上北京我爱我家链家,基本上所有这些公司都要收费。这些东西还不够,我们做了另外一个,我们叫小AI,能听懂我说话并帮我找合适的房子,所以你可以在我们APP里边,我想要望京地区的两居室三百万到五百万,这个结果就出来了,所有的房子就出来,整个望京地区90%以上的房子都会出来,商圈城区小区,居室面积啊,价格区域啊,还有楼居室面积,这是属于房地产搜索的,小AI可以帮助用户进行直接的搜索,我们觉得这个事情还是不够,我希望小AI能做什么,希望小AI帮助解决一些房产的问题,我想知道什么叫学区房,我想知道外国人在中国人买房子有什么样的限制,这部分语义的一些知识库还不够丰富,而且你问他的时候,还可能反应不过来,我们之前有用户通过搜索说,我要北京城面积又大,价格又便宜的房子,小AI就蒙了,不知道怎么回答了,我们小AI本质上是模拟中介,模拟中介线上推荐和搜索的行为,是不是这样就够了,我们后面又接了一个机器人,我们接了一个扯淡机器人,专门给客户负责扯淡用的,我希望找房子还能调戏一下小AI,当你问小AI说你有病吗?小AI回答你有药吗,没有药别问我,你能当我的女朋友吗,他说如果我是女的就可以男当,我说男的也OK,那就OK,小AI在一定程度上可以陪用户扯淡的,我们提高用户的找房效率,上这个功能以后,用户效率没有提高,反而在减少,有女客户聊到晚上,这个对效率上没有太多的提高,我们也会把这部分工作逐渐的弱化,也是因为我们房地产专业解释的水平还不够,我们会努力提高这一部分的。这是小AI,有三部分同时为客户回答问题,第一部分是搜索机器人,第二个进行专业问题的解答,是不是问一下房产问题的问答,第三个陪用户扯淡的。

  那我们的APP518号上线到现在,有两个月的时间,有二十万用户,大部分都是房地产用户,房地产用户的净值比较高一些,我们现在每天十一次的数据,每十分钟重组调整数据,大量的APP,抓我们的数据,有时候也会变更的,另外覆盖北上广深南,仅北京成交总额一个亿了。这块目前来看,用户反馈还是不错的,尤其对数据处理方面,我们毫不要脸的说,我们是房地产行业线上服务的未来,第一是我们效率更高,我们效率比同品牌更高,不需要去友商找房子,因为所有房源都在诸葛找房里,这是我们市场原则,不会因为收了中介公司给我们的钱,我们就把他的房源往上改,我们另一个原则客观真实展现多家委托在房地产市场的情况,可以选择任何一个经纪人,或者直接联系业主,这是每个用户原本应该有的权力,最后一个是我们始终专注在大数据和人工智能方面,我们自己进入交易环节。另外一个是今天来了,也希望把自己的目的表示一下,如果你想要每个中国老百姓花三代人的钱买房,省钱又安心,从此不必再被骗,如果你想参与一家创业公司,让世界变得更美好的同时,顺便有上市。如果你想在北京多买几套房,你想在北京多买几套房,欢迎加入我们,我们现在也在扩招,对人员方面的要求也会相对多一些,欢迎大家加入我们,有需要可以跟我们联系,谢谢。

   范路:基本上做了个广告,两位到前面来,大家有什么问题要问的。
    6.jpg
   提问:刚才过来听,找房的时候,问一下这块十分钟刷新一个数据,这个必要是什么,不像那么高频的数据变化,为什么十分钟刷新一下数据,您说人工智能的运用,第二个问题是,您这些数据都从不同的数据源抓来的,那些数据源,这些数据有冲突怎么处理这些数据,是否涉及到人工智能的应用。

  苏伟杰:先回答您的第一个问题,就是为什么每十分钟刷新一下数据,房屋的变更效率,对用户价格很高,我们推出二十四小时降价的房源,基本上已经看到全北京市二十四小时降价的,这套房子降就意味着这套房子很快就会出手,我们会提出二十四小时涨价的房源,而是你还来得及和他谈,所以房源数据的有效性,对用户的价值很高的,房源会不会那么多,那么及时,这边有两个方面,一个是通过我们数据源去看,一个是多家委托,这房子挂在不同的网站,在单一的网站变化不会那么多,但是在多个网站数据变化就会相对多一些,我们确保我这套房子是最有效的,对所有的房源进行监控,但是我们也不能每十分钟把对方网站扫描一遍,现在的房地产平台,整个技术的背景还没有那么好,我们访问多了,对方网站也受不了,我们在某些网站不会达到十分钟,相对延迟时间长一些,房源有效性保障数据质量很重要的前提。这个我们还是要去做的,另外一个您说的,在多个网站进来的时候我们处理,实际上我们所有数据进来之后,我们都会看看大数据是否之前存在过,是否在其他网站存在过,这是第二个层面,这个数据是不是脏数据库里面存在的,这是第三个层面,对于数据处理这个逻辑还很多,我们数据的多因子聚合是一个最热的数据处理方式是不断回流的。

  范路:其他人的问题。
   
提问:我第一个问题想问一下戴总,咱们这款产品,您感觉跟百度的度蜜还有苹果的SIRI,您的优势是什么。
   
戴帅湘:我刚才在PPT里面也提到了优势,没有强调,我们是非常非常明显地连续的对话,上下文观念的理解,最后帮助你作出决策,三个层面都是,可以现场用度蜜,可以用SIRI,随意问他,你找他能干的事情,有什么东西,你要加油,你可能要去医院,如果他很好做,这些公司绝对不会放弃他,度米也是一样,都做不到,这个时候很有门槛的,这个地方你们可能不相信,这是事实,没有任何一家。
   
提问:您的优势是针对某个问题能够连续的提问能够连续的回答。
   
戴帅湘:是很连续的,是有难点,绝大部分做不到。
   
提问:第二个问题问苏总,现在公司的融资轮次是到那轮,有没有下一步计划的。
   
苏伟杰:这个问到刚结束的一轮,现在还没公开,是A轮,评估过亿了,具体情况还不是好说。
   
范路:刚才我看到咱们小莫做实验的时候,有一点很差异,订了火车票去南京,问天气的时候,回了北京的天气,绝大部分类似这种问题就是说,你定南京的机票,住南京酒店,在南京订了车,问天气怎么样,一般都告诉你南京的天气。
   
苏伟杰:您说的有道理,任务完成以后我们没有就是说在天气的时候,还是直接用当时的,当时的地理位置,是先考虑得,制定的时候你订了火车票,这个以后会改进。
   5.jpg   
范路:因为是这样,其实语义处理最早大家都是这样方式,我通过语言的数进行词义的分析,后来发现他的准确度到一定程度以后,就无法提高了,为什么大家后来重新开始说把这个打乱,前面一大批语言处理的技术,当你只能在特定的用户场景,我这个东西就是定火车票,我这个东西就是定汽车票,准确度会提高很多,特别像,上海有一家公司叫小AI机器人,做问答做上市了,做到新三板,给不同的人定制问答处理,你每接一个新用户,为什么那么多人,每接一个新用户,就定制一个数。
   
苏伟杰:这也是我们的优势,我们有很大的优势,相对于小AI,非常非常快的覆盖产品,比如说刚才找房,对我们可以吹你好,这个优势非常明显的,小AI做了十几年,我很感慨。
   
范路:成为一种劳动密集型企业。
   
戴帅湘:他要配制很多,我说最后一个页的时候说过,那个过程,那个任务的程序一定要学习来做,不是要人去做,人去做十年做成这样的公司根本不值得骄傲的事情,非常非常直白的说这个东西就是要快速的学习。
   
范路:你们现在准备自己推小莫自己的APP还是和他们合作。
   
戴帅湘:我们是2B的。
   
范路:我们从找房的过程中,现在基本上做数据清理,做自由匹配,其实是这样,我们总觉得人工智能,甭管从小莫的演示,还是找房的演示来说,给出一个答案是最难的,给十个,这个事其实没意思,我们什么时候能够给到一个答案,到那住房,什么时候能做到这样的状态。
   
苏伟杰:这个我来解释一下,我们内部也有算法,算法名字还蛮有意思的,找房预期妥协算法,客户的预期一点点被妥协的,初期的唯一自由选择可能性,不是特别高,尤其在房产上面,应该是一组数,通过用户的优化会越来越好,通过自己的找房,发现每套房跟用户匹配度会发生变化,找房妥协算法。
   
范路:你们在找房的过程中,成功率会上升吗?
   
苏伟杰:其实会上升的,尤其是通过找房模型的变更,对整个核心用户订阅,排序会优化用户找房的效率。
   
范路:我们做小莫的时候,有没有想过提供一个答案。
   
戴帅湘:它说的最好一个,也就是说这个系统只会说第一个,采用常用的,只推荐第一个,会链出多个,我不要第一个,变化,你看我们的变化,不要这个,我们换一个,每个人喜好不一样,我们做好第一个就是说的哪一个,这是目标。
   
范路:被选答案越来越少,效率越来越高。更加个性化,我问一个问题,比如说像SIRI,我们现在使用非常低的,多少人用苹果的,有多少人每天用一次SIRI,好象基本上没有了,我们投入做这样一个事情,压力是不是很大,前面做这种产品已经很多了。
   
戴帅湘:两个层面的回答,第一是涉及到AI的浪潮会越来越近,所以2C是一个,你要做到足够智能足够的融洽,足够的个性化,2C是很好的事情,技术行业到这的时候,还是把某个点做的非常非常漂亮,就解决这种,你能解决常用生活中的任务,手下也就二十个,可以自动连续的说话,可以代替掉服务员售票员的操作。
   
范路:类似这样的产品,大家不太去用,最主要的反馈达不到人的预期。或者说你跟他说的很多,给你答案是无法满意的。
   
戴帅湘:交互方式还不够友好,这是很正常的,我觉得技术还是有一定的瓶颈,到一定阶段没法往上走的原因。
   
苏伟杰:我补充一下刚才的问题,蓦然认知做的对我们很有价值,我们518号上的版本,我们搜索框都没有,只有一个AI,后来发现用户的预期太高了,高的我们没有办法承接,他会问百度附近的学区房,首先我们不确定百度是一个动词,第二个是百度也不是楼盘里的任何一个楼,也不是小区,算是百度的大厦可能也不止一个,对我们来说蛮崩溃的,如果戴总这边的技术有这么好的支撑,通过我们这边的基础数据库,知道这个房子的朝向,属于什么朝向,还有这个面积还有这种小的使用权的房子,就有很多的这种基础的属性,很多很多细节需要去承接在AI里面呈现,结合在一起做会非常非常好。
7.jpg    
戴帅湘:谢谢谢谢,这个产品不难,你刚才说的百度附近的学区房,这是附近的东西,这个已经做出消减,肯定是百度大厦,百度科技园,这个时候两种情况,如果有上下文,假如说上下文,上面说过,对某种房子上去,什么上下文,优先选择最高的,更多谈到的百度大厦,是这样一个逻辑,推荐的逻辑也是分层次的。
   
范路:这事好办。
   
戴帅湘:很多问题在一旦技术或者是我们平台上,有一些还是很困难,我举个例子,他要说我今天吃面,我晚上要去嗨一下,这个时候比较没法理解说是合适的,这一类特别主观的问题,是有问题的,当然也是难点,明确就是找到某种东西,这个东西是实实在在的存在的,有目标的,比较好聚合化。
   
提问:我们数据堂云技术组的负责人,首先感谢戴总和苏总这里,确实是AI的产品发展,带动了大数据的行业,首先我来自大数据的公司我这里想问几个问题,第一个先问戴总,首先呢,我知道因为我本身是做语音识别这么一个算是行业的学者吧,我知道咱们做这个小莫呢是语音识别的东西,这个涉及到语音识别层,还有NIP层,最终达到语义的理解,首先是很高级的一个层面,涉及到很大知识库,特别关心APP背后的知识库,是怎么构建,让知识库不断的扩大,不断完善支撑APP,适应行业人群的各种需求。
   
戴帅湘:我先说一个比较容易理解的,就是说数据堂有数据结构化和非结构化,百度这样的数据,如果是结构化的数据,我们把它当做数字,结构化的数据,我们来说,就是数学里面的数字,这些结构数据库里面的关系,相当于我们做了一定的预算,这个学术界也是认可的,没有一个做的很好,我们对人物做的很好,不见得只是人物数据库,我们做不同的混合的推理和认证,没有差异,有可能专注到,人物地点是吧,各种知识这个要抓取的,这个数据委托大数据,就是大数据库,我有了才有可能认可,有全部的,这个是技术方面,还有一部分,就是我刚才讲的,主题讲的,不是结构化数据,或者说你结构化不了,你没法结构化,这个时候就需要少量样本的学习,这个时候也做了大量的,完成学习任务,完成任务写个三四个,就写不下去了,你不知道谁的问法多,这种情况下必须走小数据的学习,你没有别的方法来做,你也标不了太多。
   
提问:还有一个就是说我们APP适用的人群有没有一个定位,比如说一个儿童,可以在这个APP上有什么可以使用的点,一个老人在APP上有什么可以使用的点。
   
戴帅湘:有儿童教育的领域,主要是基础,识字字词故事啊,基础的运算啊这个常识,我们有专门方向做这个事情的,是一样的,我有这方面的,我同样可以做到很漂亮是OK的,老人的话,现在倒没有特别的,完成一个任务,不擅长输入字点,我们还是希望他只是通过完全语音的交互,全域语音的说话,定个餐可以去点啊选啊,这个时候可以做,这个不是说刚进场怎么样,有助于我们一些小朋友,那这个时候变的非常非常有利的。
   
提问:还有一个问题问一下苏总,刚才范总也提到,首先搜索房屋的信息是很复杂的,确实是,我刚才也体验了咱们APP,本身作为我,我想得到答案,里边是有,但是给我的信息非常多,而且也感到很乱,刚才范总也提到了,什么时候能够真正的理解这个APP的使用者他的目标,目击点到底是那个方向,可以快速给一个精确的答案,这一点我希望苏总和戴总合作的方向能够突破,然后58的网站,说58是神奇的网站,今天见这APP也够神奇。
   
范路:我其实有一个问题想问你们两个,如果你们去合作,从功能和数据上怎么划分呢?你们负责清洗,他们拿这个数据学习,学习完怎么做,这中间有划分的问题,这条线到底在什么地方。
   
苏伟杰:先解释我这部分,我这部分房源首先每天处理的数千万房源,没必要告诉戴总。
   
范路:其他的城市不做了。
   
戴帅湘:也是可以做的。
   
范路:是人员不够还是怎么样。
   
戴帅湘:每个城市要单独算法的,每个城市的数据源不一样,因为每个数据源每一个参数都不一样,有高中低楼层,有些地方会写具体的楼层,去算出它的大概区间范围是多少,我们要做结构化的事情,对我们来说,我们也会开放一部分小区层面的数据,小区里边的楼盘的数据,户型平米数,这些基础房源的参数,包括用户常问的一些知识库,这些可以提供给戴总,我们也会把我们现在从全网获得的一些房产知识,一些系统的数据提供一部分给戴总。
   
范路:我比较关心谁来负责排序。因为排序才是钱排序这边我们也会收费的,你不是保证说真话吗,这个事情从两个方面去讲,我们会开放经济端,房源已经存在你要过来认领,认领的过程你要确定这套房源是最有效的,经纪公司也不能保证百分之百,经纪人确认过程,确认的过程,也会涉及到一些收费的项目,因为你没有办法花钱确认这个事情,我怎么知道这个事情是真的假的,这可能涉及到一个,收费这个事情不会作为我们排序的唯一标准,综合的唯一标准。
   
范路:我之所以每次用谷歌,他们保证付钱没法影响排序结果的,戴总能说一些。
   
戴帅湘:因为我是2B的,的确可能影响是说,它的数据是钱,绝不是这样的。我刚才说的知识是说,这些是一些常识性的知识,如果是你商业价值的东西不是特别难,我们需要是什么,我们需要是以APP表格,或者说链家这样的网站,呈现的这个筐子,我们只要他的框架,我们不需要你的里面框架下面的真实核心的数据,但是如果你说,某个小区我不认识,你说技术院我可能不认识,有几种途径,根据上下文,这个问题训练一下,识别这个是OK的,像其他的数据,你的价格,你的这些数据,本身就是常识性的数据,也不是特别保密的数据,有东西南北朝向,有一到一百,这个东西你提供给我,就是一个框架,我只要有框架我就知道,无论用户怎么说,就在框架里边不停的变化,我说的是这个事情,您说排序的事情,这个比较麻烦,就是说我可以提供,这个是基本商业的合作模式,你需要我给你一个上下文推广,这个就是最好的,也可以做的,这个也可以有,产品端能做。
   
苏伟杰:我们是希望因为现在的整体的容错率,相对在3%5%的容错率,没有办法在100%,这还取决于数据源本身的取量,我们下一步还是要经纪人本身认领这些房源,之后会看到APP里边有很多十年认证的房源,数据的准确性,几乎能达到百分之百,我们还是希望既然是认领的房子,还是让用户更靠前一些的。
   
提问:我想问一下戴总关于教育的一个问题,我就说,您说的基本上可以做到小学级别吗?
   
戴帅湘:达到小学水平,没办法回答你,这个也有难度的,可以部分的解决,不是都能解决,龟兔赛跑类似这些问题,其他的像常用的语文知识,自然知识这些可以做推理的。
   
范路:你们试过奥数没有。
   
提问:如果初中的数学可以做吗?
   
戴帅湘:现在做不到。现在难点不是求解数学的,理解这个题目。
   
提问:现在高考题,能得多少分。
   
戴帅湘:很少像我们这样做推导,推导做很好的话,AI就完全提升了,如果做的初中高中非常非常困难,我们现在做小学,之前专门做过这方面研究,这个我还是说,短期内不可能有太大的突破,理解题目非常非常困难。
   
提问:我看到一些新闻上说,清华数据实验室,好象是得到一些高考题可以达到105分,不知道这个新闻是真的还是假的。
   
戴帅湘:他现在做题目的这种方法,基本上都是比较直接的,有很大的结构来训练这个题目,答案也是给定的,现在做都是端到端的,现在有很多答案相似,可能做到,一致客观题,主观题就做成怎么样,基本上判断一下类型,难度都不大,这些难度都不大,有足够的题库,建立相关的数据,这个有可能的,因为你是客观的。
   
提问:我现在没有题库我只有知识点,我可能也会建一套规则,让他来做没做过的题。
   
戴帅湘:这就是说做到部分是可以,我们可以做到部分,基本常识能做到,但是你要做到刚才说的,奥数难度还是蛮大的,你先把它转换成一个合适的数学模型,这其实是双重的难度。
   
提问:我不想要直接的答案,我就是说我可能有道题不会,我希望机器人告诉我,有哪些知识点,我得到知识点,自己去解答这道题。
   
戴帅湘:这个应该是可以的,就是基本能够,知识点的题相对比较简单,二元一次方程的一些,数学公式比较有限的,公理啊定理啊,做一次分类映射可以做到的,这不是特别难,说实话,我觉得这件事情不会那么难,这个技术应该不是很难。
   
提问:知识点提取相对容易,因为只有知识点,这个学生还是不会做,给他一个大致的思路,不会把题做出来,对学生没有教育意义,把这个题告诉知识点。
   
戴帅湘:我大致理解你的意思,你需要做小样本学习,做推理和分析,但是现在学术界没有几个学校专门做这个思路的,大部分都是学习,跟现实结合,看起来很有用,做起来没有用。
   
范路:先识别题目然后在题库里边搜索答案。
   
戴帅湘:搜索知识点,有少数大学逻辑推理,逻辑推理只限于在部分题目,比方说高元几次方程是比较困难的,做分析推理。
   
范路:我们最后一个问题吧,
   
提问:我关注了两个问题,第一个问题咱们这样一个平台,我过来晚一点,如果有客户有需要的话,我找房子,怎么知道这个平台,去58同城,不知道咱们有这样一个平台。咱们一个推广和宣传,能够跟客户需求。
   
苏伟杰:我理解你的,我们才上线两个月,公司目前的情况,也没有做大规模推广,我在你们地铁上看到广告,也不是逐个找房子,是诸葛理财之类的,我们做一些线上和线下的试点,下一个阶段会考虑。
   
提问:第二个问题,我现在不想住了,我能否通过这样的平台,把我信息发送出去,让更多找房子找到。
   
苏伟杰:首先您这个需求是很正常的需求,大部分在租赁的过程中,短租的可能性还是比较高,开放发布都意味着人工参与什么的,就目前我们北京市23万套房子,全国五个城市加起来现有在售的房源,有一百多万,然后租赁小两百万的房源,人工根本处理不过来的,这端口还没有开,有客户已经打电话,想改改价格什么的,发到我们友商的房子上,我们会帮你拿房。
   
范路:关于转租的事情,我想问个问题,这是所有租房的挺大的矛盾,房地产中介和房东们都不希望有转租,这样的话扣不到违约金了,但是我们作为租房的人来说,还是希望能够在自己私下实现转租可以把违约金挣回来,对于你们现在参与这个行业,你们怎么看这个事情。
   
苏伟杰:首先转租扣你押金是一厢情愿的事情,该扣还是会扣掉吧,这是第一方面。第二方面你找到人承接扣的钱少一些,或者说不扣,这种情况下,我们通常会做推荐上的算法,对这个结果更有效一些,如果你是在一个月租是在五千块钱的小区,小区租金平均一室五千块钱,他太可能去一千块钱,可能五千到六千七千的水平,所以我们帮你去做筛选,根据您和您媳妇两个人工作地点找匹配相关的房源。
   
范路:非常感谢各位,有问题私下问他们自己,就不占用大家的时间,谢谢各位。
3.jpg

您需要登录后才可以回帖 登录 | 注册

本版积分规则

© 2001-2014Comsenz Inc.

快速回复 返回顶部 返回列表