查看: 9602|回复: 0

第214期IT龙门阵实录:人工智能在医疗领域的突破和应用

[复制链接]
发表于 16-12-26 11:55:37 | 显示全部楼层 |阅读模式
时间:20161220日(晚上)
主题:人工智能在医疗领域的突破和应用
地点:虫洞创业之家

IMG_2880.JPG
    主持人:大家晚上好

  我们IT龙门阵200多期还在继续坚持,最近一段时间都在讲各种各样的人工智能黑科技,各种应用,我们去自动驾驶汽车,用这些东西去做语音和图像识别,今天来讲一个更黑科技一点的事情,前几次我们讲黑科技对人类本身的生存造成一定影响,才叫黑科技,今天更黑一点,今天讲医疗,刚刚也在下边讲这个问题,医疗是一个很严重的问题,这个人死了以后怎么办?这个责任归谁,我以前问过很多医疗相关智能硬件的人,我自己有糖尿病,他们有24小时血糖监测,你能不能帮我自动打胰岛素,说那不行,我在外面开着车,突然觉得我血糖上升,一针血糖针下去,我就休克,承担不起这个责任。

  今天把人工智能引到这边来有各种各样的引入方式,我们做医生推荐,有些人直接跟病人打交道,拿病人数据去做什么事情,都有一个问题,这个人死了以后怎么办?普通的说,我做语音识别,认错了,大家哈哈一笑,它听错了,没关系。自动驾驶汽车,死了一个人还是死了几个人,全球华人,这个事怎么办?所有人分析,自动驾驶汽车撞死人这个事怎么办?医疗正是人命关天的事情,大家拿人工智能,计算机辅助视觉,计算机辅助识别、决策,那这个东西跟人生命相关这个东西怎么承担这些责任,还是说我们只是给医生一些建议,然后由  医生自己承担这个责任,我们在这个行业到底能做到什么样的状态,我对这个事情特别感兴趣,今天有幸请到做人工智能辅助医疗的同事,来给大家讲讲方面的故事。首先请我们的本家,范晔来给我们讲拍医拍,直接把你的一些检查结果拍一下照就可以做什么什么事情,我待会把一个图片发到我们的群里,前两天大夫给我的儿子写的那个诊断结果,后来我发到  朋友圈,大概5060人看谁也没认出来是啥,咳嗽两到三天,后边就不知道了,还有人认的吃人两到三天,我发上去你们试一试。
   
  范晔:谢谢。我叫范晔,在拍医拍5多个月,我们合伙人从技术上比我资深强很多,我是媒体出身。非常感谢大家这么晚还在现场,北京这两天雾霾特别大,应该都很想回家。我今天尽量讲好一些。

IMG_2893.JPG

  我跟创始人也沟通了一下,他建议我PPT里面不要放太多的,有好几页让我删掉,我没删,我希望那几页给大家留下比较深刻的印象,大家拍一拍,就算我给大家的福利。

  第一个问题,我想问问大家,大家觉得医疗它的痛点在哪里?上一期好像也是讲的跟医疗相关的,讲的是医药电商,在座的有没有哪位回答我这个问题,医疗的痛点在哪里?  
   
  回答:资源分配过于不均衡。
   
  范晔:这算是一个,还有别的答案吗?
   
  回答:找什么样的专家适合自己的最重要。
   
  范晔:我待会在PPT里面最后面会给大家讲一下,我的时间只有半个小时,我就不浪费时间,开始讲。
   
   我先简单介绍一下,全球AI医疗类应用市场走势,预计2020年,全球AI应用市场规模是2千亿,医疗是占了一半。医疗数据增长率我们从卫计委发布的官方公告上得到了门诊量是达到76亿次,医疗单据的总量1千亿张,这是2014年的数据。
   
   因为大家都知道,拍医拍是以做OCR,医疗单据识别为主营业务,所以医疗单据的总量对于我们来说还是比较重要的一个考核范围。我觉得这个表大家看看就可以。

  左边这个图,我们可以简单讲一下,公立医院和民营医院他们相互的关系,各位在医疗方面的社会程度还没有那么深,公立医院和民营医院,民营医院现在目前的一个预判,民营医院的增幅会上涨而公立医院会逐渐减少,我不知道大家了不了解这个信息,如果不了解,我多说两句。今天有一个数据,2016年整年的一个公立医院被民营化的一个数据,昨天刚看到那个新闻,应该是20多家,不到30家。但这个数据相比较前几年这个数据量已经是非常大。

  我看一下我们拍医拍现在在做什么?拍医拍,我们主要是应用的领域是专业的医疗机构,我们现在正在做的是医疗影像以及文字,我刚刚听到有一位朋友说,拍医拍对外一直讲我们做OCR,我们现在不仅仅做OCR,我们在影像方面也在很努力做一些事情。所以通过这个机器去训练和学习,以达到医疗影像和文字准确度,他们可以对这些文字识别之后进行一个结构化数据的处理,把这些数据再进行有效性的分析,最终实现对整个市场化语言的表达,医疗市场化语言的表达。

  我们应用到医疗市场最终辅助医生诊断和实现机器与患者的沟通,刚刚有一位朋友说到,觉得资源太少。其实这确实是痛点之一,而且挺严重的,医生不够用。如果说我们用机器代替医生,或者说用机器来实现一部分辅助医生的诊断,确实是可以达到为医生节约时间。
   
   我们目前在6个领域做一些应用:病理、健康保险、影像、糖网眼科、脑科、肾脏专科,今天没有到现场的人,几乎是没有人完完全全读懂应用六个范围,而且在六个范围现在都是有涉猎的。
   
   简单讲一下,这是一个典型应用案例,我们现在跟泰康保险、阳光保险合作,我们怎么给保险公司来实现人工智能的应用。一开始,大家都知道保险公司如果要做理赔,他需要患者给到他一个医院当时原始的医疗单据,这个医疗单据目前国内就是两种形势,一个是纸质还有一个是屏幕,刚刚范总所说的写字,写字那种确实识别不了,我们说的纸质是指文字打印版,电子版打印出来,通过医院HISS打印出来。屏幕直接从屏幕上截图,这些都是能够识别。当患者把这些报告都提供给保险公司的时候,保险公司现在是通过什么方式在做?他们通过人工录入数据,或者第三方录入数据,一个成本非常高,第二,错误率比较高,再通过人工判断等等,所以我们知道很多保险公司整个理赔过程非常长,而且也未必特别准确,用户不买账。

  我们拍医拍从这个方式切入感觉是比较好的,目前也是能够取代全国最大第三方大概80%人工智能然后通过拍照的形式,把这部分数据录入进来。五后面要提到的,我们渐渐还会给保险公司提供一些增值服务,而这些增值服务其实也是基于医疗图谱、基于数据来做支撑,这样的一个循环过程。下面是给药厂。这是我们一部分合作机构。

  刚刚说的时候,我没有把拍医拍讲得特别清楚,就两句话,拍医拍运用拍照识别来识别医疗单据,通过智能解析这些数据来实现人工智能在医疗领域应用,我们现在专利和相关技术产权是能够40多项,前段时间刚刚申请国家高新,也已经得到了这样一个批复。2016年,我们拍医拍感觉比较顺风顺水,也成为了一个创新类的一个标杆企业,我们也有多项医疗科技服务在细分领域,目前是排名第一。
   
   拍医拍现在目前经营领域,一个是机器视觉与智能识别、医疗大数据分析,我们的用户基本上是针对于医疗机构;另外,我们也辅助做一些专科医院全生态信息化服务技术。这一部分针对于医生集团,包括专科医院也包括一些中小微基层医院。

   对标的公司,大家了解一下就行了。
   
   介绍一下我们几个合伙人。吴诗展,原来是赶集网首席DBA,在百度负责商业数据库团队。杨劲松,北京人民医院重症监护室,离开之后在好大夫在线做医疗总监,当时管60个人的团队。刘立博士,天津大学信息工程学副教授,她在信息安全还有机器识别医疗图像这一块有非常深刻的研究。杨琼博士,她之前在微软雅研,后来在百度,做OCR的推动者,百度在文字识别这一块走得比较靠前。严冰,拍医拍是在今年中旬的时候,我们成立了一个独资子公司叫信泽医疗,以专科医院、医生集团包括中小微的一些诊所,跟这些机构打交道,实现了一个市场化的行为。严冰阿里健康网络医院项目研发组的负责人。
   
   拍医拍有自己的想法,今年成立医学智能研究院,这是个大事。因为我们最近一段时间全面开放刚刚说的6个应用场景来进行合作,目前,我们已经从识字到看片的过程。
   
   大家觉得医学智能到底是一个什么样的概念?为什么我们要搞一个医学智能这样一个概念化的东西?其实首先,就像刚刚范总说的,你数据角度讲,最终要为患者实现病种或者整体的这样一个医疗的服务,从技术角度讲,大数据角度讲,其实它都是一个医学慢慢成为智能化的一个趋势,所以我们在跟很多机构合作过程当中我们也发现,数据抓取能力是非常重要的一件事情,我们只有在前端把数据抓取好了,我们在后面实现分析、实现整体的一个数据的解析,其实是非常关键的一件事情。我们现在从策略角度讲,全国范围内铺这种小机器人,根据不同科室,诊所的大小、不同服务能力,我们给他们做定制化的服务,虽然我们很累,但是这个数据通过他们自身对于数据的积累,我们也可以到达一个机器人可以学习这样的一个过程。你做大数据类的公司,这些数据是不是在你们自己数据库,第一,我们在使用它的时候,这些数据是在使用过程当中,小机器人其实是一个学习过程。这个小机器人才是我们的孩子,这些数据我们并没有要他们,这些数据对小机器人来说,小机器人的重要性和我拿到局部数据不是完全在一个考量的  同一个层次范围内,我们不会拿这些数据,而且这些数据未必全部是有效数据。
   
   拍医拍这六个方面,我们对有效性研究的医疗数据,我们现在做医疗发票、单据识别、理赔单据自动分类、处分识别、诊断证明书识别、大数据挖掘,医疗化验单识别,我们数据量已经达到亿级。我们今年做区块链底层技术的推动。
   
   其实我想说,范总刚刚在台上讲,医疗是一个事关人命的事情,从拍医拍角度讲,首先,互联网兴起包括电商的兴起,及时基于不完全信任的角度才会找到一些机会,医疗,我们看到不管是现实社会当中还是我们现在用技术来实现这种迭代,其实说到底,都是不太信任的一个环境,我们知道医患关系非常紧张,我们同时也知道很多的信息都是在一个信息孤岛上,这些信息为什么不流通可能跟一些利益所绑定的。我们如何通过互联网技术、通过这种黑科技能够打破这种壁垒来实现真正到最后服务于患者这样一个目标,难是很难,但是我们只有说通过 现在这种重新去塑造信任机制才能达到未来,我们这条路是必须往后走的,这是一点。
     
IMG_2932.JPG
   第二点,我们现在通过人工智能我们挖掘数据量,在深度学习过程当中应该是足够的,明年数据量会达到23倍增长率。另外,在信息不通畅,信息利用不合理等等方面,现在跟专科医院这一边谈的也是非常多的业务,像比如说我们跟达康医疗,达康医疗是全国最大的肾透析这方面的一个机构,可能大家听说过白求恩血液计划中心,他们是全中国最大的肾透析机构,他们所有信息化的系统现在都已经迭代成我们拍医拍的这样一个框架,然后在战略合作层面上也远远不是说只是给他们提供一个管理系统或者某一种决策系统,而是我们已经确实真正做到了我们能为专科医院去做一些智能化的服务。
   
   我今天要讲的就是这些,下边会在小沙龙里继续探讨,谢谢大家!
   
  主持人:大家还是希望了解你们具体怎么做?里面遇到什么问题,我们请周禹同,讲完以后可以一起讨论这个事情。

   
  周禹同:大家好,我是周禹同,很高兴和大家交流普林科技在人工智能下的应用,今天给大家分享一下普林科技在医疗临床的应用案例。先介绍一下铺林科技,是鄂维南创始的一家公司,我们国内来自顶尖的院校和相关的公司。我们CTO王亦伦是康奈尔大学博士后,现在被院士挖到北大。COO是宋进亮,我本人负责健康医疗事业,是伦敦大学学院大数据专业的硕士,也是KDD中国的成员。
   
   普林在医疗人工智能我们看一下医疗生态圈的组成结构。卫计委、医院还有患者是最基本的组成结构,随着资本进入,人寿保险接触到整个行业当中,随着大数据、人工智能兴起,像拍医拍,普林科技还有春雨医生第三方医疗服务平台在兴起。
   
   但是像第三方医疗服务,我们依旧和卫计委或者医院或者患者直接合作。其实可见,在整个生态结构里,医生和患者是整个生态圈最核心组成部分。


   我们再来看两组数据。这是个卫计委2015年公布的统计年鉴,2008年到2004年中国各等级医院分布,橙色是二级医院的数量,没有什么大变化,黄色是一级医院的数量,白色线是三级医院,这条线比较平稳,基数比较小,相对08年数量已经翻番。三级医院和一级医院的数量是大幅度增加。
   
   20102014年中国各等级医院诊疗人次分布图,全年诊疗人次统计,三级医院诊疗人次超过三分之一。橙色是二级医院,蓝色和黄色是未定级医院,数量有一些小幅增加。我们可以对比医院数量大幅度增加,诊疗人次并没有太大变化,更多的患者趋向于走向三级医院进行诊疗,反映出两个问题。第一,越来越多患者对医疗需求增大,但是他们对于优质医疗服务是极度渴望。第二,卫计委推行多年分级诊疗制度并没有成功,大家并没有基层医院一级医院就诊,一级医院对患者的需求并不满足,就像刚才问到的痛点是什么?医疗资源不平衡。反映更高级的医院会有更高水平的医生吸引大量的患者,大量患者会给医生带来更多的病历、案例,也会更广大的疾病谱,对医生的经验和科研能力增加很多,导致医生能力更强,吸引病人,形成良性循环。低等级的医院,没有那么多的患者,病历就没有那么多,案例没有那么多,医生水平没办法提升上来,导致恶性循环,医生和医生的差距越来越多。
   
   普林科技在大数据和人工智能的方法论应用在医疗领域上,我们可以解决哪些问题?医疗资源不平衡体现医生水平不一样,在基层医院出现大量的误诊、漏诊问题,我们第一个问题,能否提升医生水平。第二,让大量医生去三级医院到一级医院就诊不现实,大家也不愿意去,我们是否将这种优质医疗服务进行快速复制,我们想通过人工智能想去解决或者改善的两个问题。
   
IMG_2905.JPG
   我们回到刚才提到的医生和患者是整个医疗生态系统最核心的部分,医生他的诊疗经验和患者的诊疗数据以病历的形式或者诊疗机构形式存放在医院,我们做人工智能这件事情最主要的一个基础是数据,医院有什么样的数据是我们比较关心一个问题。
   
   可以说医院数据主要分为三个部分,第一患者的基本信息,它的实验室检查结果等等结构化的一些数据。第二,像CT、磁共振这样的影像检查数据。第三,住院病例、手术记录、纯文本的记录,影像和文本非结构化的数据,价值很难直接被利用起来。我们在医疗领域上做人工智能应用,我们将这些非结构化的数据进行结构化是比较重要的基础过程。

  我们先看一个图片。这是一个真实的病历,这张图片是首次病程,文字量更多,医生从这些文字判断患者可能存在症状是什么?反复进行确认,信息都是医生录入进去。

  我不知道在座各位朋友是否能看清上面的字,能否能够从里面提炼出患者相干信息,两年前的咳嗽,低热、盗汗、胸痛等等,我们对病历进行结构化处理,把信息提炼出来,我们用到自然语言处理技术做这件事情,自然语言处理在文本分析上分为几个部分,第一分词,我们将词语进行分开,自然语言处理从英文体系下建立起来,而英文,词与词是有分割,只要词库足够大,将里面的短语、词组、独立单词提炼出来,而且中文不存在这样一个分割,有效将这些词语准确分割出来是一个难题,我们根据医学文本构建分词工具。第二,实体识别,分词之后核心词儿我国要判断这个词或者这组核心意义是属于症状、属于疾病、属于手术检查还是描述词我要进行大量判断,判断之后我还是提取不出来信息,我通过语法规则判断谁是一个核心词谁是修饰词,谁修饰谁,进行语法判断最后提取信息。这只是一句话,看起来容易一些。换成这样,左边这些文字就是图片显示里现病史,医生从里面获得的信息就是右边表格列出来的信息,包括症状、疾病、药物、检查等等方面,症状这一块包括名称、诱因、发生时间、部位、数频率等等都是右边这个文字里面提取出来,大家不用再去大段文字去挖掘,变成表格化的数据做非常多的应用,单纯做一些科研方面的统计分析。现在在医院的BI会看到入院时间、疾病分布谱是什么样的,现在更深入一点,患疾病的人是什么症状,咳嗽有什么描述?痰,存在各种颜色,我们再进一步,这种疾病下的这个症状它又是什么样的分布,什么样的情况,我们可以更细致看。
   
   而对于住院患者,他会定期有一个查房,病房记录也是大量文本,我们以时间线形式提炼出每天的症状、检查、药物等等方面的信息,我们可以通过时间线的方式看到患者他的健康状态的变化以及一些药物不良反应的变化,我们可以更全面了解患者的信息。但是我们制作病历结构化这件事情还不足以去解决我们刚才提到两个问题,第一,提升医生诊疗水平;第二,快速复制优质医疗服务。我们还是希望能够更加走向临床一点。
   
   但是这些数据里面我们就是要通过这些结构化数据让它给我提供更多的数据支持,让我建立各种各样的模型,刚刚提到症状、既往的病史、医嘱建立模型,目的是提高医疗诊疗的质量。
   
   我们和北大第一医院合作了模型,关于急性心肌梗死的鉴别诊断,我们抽象一个患者到医院诊疗的过程是怎么样,非常简单。当这个患者到医院就诊,医生看他的症状表现,如果他存在胸闷等等心肌梗死的症状,回考虑心肌梗死做心电图的检查,心肌损伤物的检查,会考虑恩什么样的症状,不考虑心肌梗死,医生做辅助检查再去做结构判断。这个过程中会出现一些问题,回出现一个对于疾病判断错误会出现这样的漏诊和误诊,对于心内科的医生,如果很明确判断出这个症状它就不是心肌梗死或者不是心肌梗死,会直接下对应方法,似是而非的症状用心肌梗死的方法去治疗。这种方式处理办法导致它的漏诊情况是非常少的,对于心肌梗死这个疾病而言,大量的漏诊发生在其它科室,比如常用疾病的鉴别诊断急性肠胃炎等等,就是你的腹痛是心肌梗死这个症状,在你有这个症状你不会挂心内科或者并不会挂急诊,导致你会出现一定程度的误诊,漏诊。我们现在分析了一下急性心梗漏诊的原因是什么?总结而言在三方面。
   
第一,对于这些症状经验不足,知识体系不完善。
   
第二,没有做完善的检查。
   
第三,这个医生诊断思维是不正确的。
   
   这三个问题都是我们人工智能模型比较擅长的过程,可以有效去解决的部分,我们数量足够大或者考虑维度足够多,我们考虑范围比医生广泛,在刚才整个诊疗过程当中加上这样一个环节去帮助医生做出一些基础的判断,再进行辅助检查,做出最后诊断。我们考虑在他做出诊断之前,加上辅助诊断的模型做出初步判断。我考虑是否是心肌梗死,他患心肌梗死或者某些疾病概率,再进行一个判断。我们这个模型数据来源来自于住院病人病历,总结他的症状以及生命体征,构成了大约几千个特征维度判断是否心肌梗死,我们加入大量的人工智能和机器算法,结果怎么样?三级医院检查比较完善情况下,三级医院平均漏诊率是18.14%,二级医院是19.67%,一级医院是23.57%,我们的模型只有11%,我们的模型还在不断优化当中。
   
   我们培养出一个非常具有经验的医生需要20年的时间,我们构建这个模型只用了两个月,我们去预测出一个结果只需要一秒钟的时间,心肌梗死标志物的判断需要一到两个,心肌梗死最佳治疗时间只有三个时间。心肌梗死漏诊的患者里面有漏诊11.9%导致亡,我们降低一点漏诊可以降低死亡,包括这个模型在北大第一医院进行临床实验。
   
   我们回到最开始做人工智能的应用,是否提升医生诊疗水平,在辅助诊疗之前先替他思考一下是否是这个疾病,非心内的医生不了解这个疾病,我们去对它进行一个判断,告诉他这个患者更可能是心肌梗死的患者,你需要做这些检查或者挂心内科的号,降低漏诊的风险或者疾病延误的风险。
   
   回到刚才一个问题,我们为什么不去基层医院,说到底我们不信任基层医院的医疗服务,我们怕漏诊、误诊或者治疗治错。我相信大家身边都听说,可能有些朋友在社区医院或者一级医院,治某种疾病治了很久没治好,到三级医院两三天就治好了。我们这个模型是否向基层医院复制,当基层医院的医生,这个患者来你只需要描述症状、生命特征就判断他是不是心肌梗死的患者,如果治不了,马上送到三级医院,不要耽误时间,这时候患者是否有想法去一级医院诊疗。
   
   我们模型构建时间非常短,从顶级医院、医学专家经验快速学习,我们向基层医院向更年轻的医院提供服务,我们去帮助这些医生,让医生再去面向患者提高对他们的一些体验和医疗服务,这是我们最开始想到的两个目标。后来发现,其实我们可以直接面向患者,我不知道是要看哪个医生或挂哪一个科室,对你诊断判断我认为你患有心肌梗死,我建议挂心内科,增加了你的治疗效率,减少你一些不必要的成分,我们认为这是对患者另一个好处。
   
   我做这个PPT时间有限没有介绍太多普林应用案例,但是对于临床领域,我们认为还有更多方面可以去做,包括像患者管理、病情监测、诊疗、提升还有药物评价这些方面我们认为都是可以用人工智能方法去应用上去,去提升。像刚才范总提到一点,这个领域是要医生去负所有责任,确实是这样,我们一个目标站在医生背后为医生提供服务,让医生再去为患者提供服务。我不想去替代医生,我还没有他做得好,我替代他,他会帮我踢开,我先进入这个领域,帮他做得更好,他就会对患者进行更好的服务,这个大领域,人工智能的应用和服务就可以更加深入。
   
   我相信2020年、2030年人工智能的模型就会应用到每家医院当中,大家每次就诊就会运用人工智能模型做一些基础判断,这只是我们通过症状描述,未来通过影像,通过机器人的方式、参与到手术参与到疾病书写上,对他们诊疗上更加有帮助,这是我今天的分享,谢谢!
   
    主持人:我终于听明白一点这个事到底是怎么干的,至少我们可以先从自然语言处理,我刚才发的那个群里头,我不知道人家给我儿子写的那个单子,我发到咱们会的群里面。吃人两三天。现在好像医生还再继续这么写。我现在确实是发现,特别像大医院也确实像你们说的,我们看病基本上是301,能去最贵的不去第二贵的,能去最好不去第二好,不是基层医院差,而是因为信任,这个楼足够大,医生足够多,我们就信任,我们去301给我们看病大量是学生而不是医生。像你们现在,已经可以处理文字了,也可以把所有数据提出来了,也拿数据模型开始进行各种病历的验证了,像现在验血这种指标都开始动了。
   
    范晔:首先,我先回答前面一个问题,我有不同意见。地方诊所其实确实在医生的诊断水平上来是略低于。这个就说到一个很关键的事情,医生培训。包括像拍医拍我们把这个放在很重要的一个位置上在做。301我不知道有很多实习生。
   
    主持人:不是实习生就是硕士生。
   
    范晔:刚刚毕业。
   
    主持人:没毕业。
   
    范晔:每个医院都会有,但这些,我估计他们应该做的也是比较辅助的工作,没有处方权。比较难的病症,最终他们有一套体系,这个体系非常健全,如果说这个疾病,他看不了,他没有办法诊断他会交给上一级带他们的医生。
   
    主持人:中国医疗体系,很多医生做的事情现在由患者来做。
   
    周禹同:我之前在英国留学,英国分级诊疗做得非常好,我在英国看过医生包括做过手术。我可以分享给大家,我一个感冒,我根本就不去挂我的GP,全科医生,我号没挂上,病就好了,一个患者对应着几十个上百个病人,每天只看十个患者,我根本挂不上号,有些病超出他能力范围,但是他有时候怕麻烦并不会把你送到医院,当你再次复诊,告诉你这个病治不了,再送到医院治疗。确实是因为他们是全民医保,所以他们会很控制这件事情不到医院做这件事情。但是我觉得这套体系放在中国,医患关系会更重,全科医生会死得更快。
   
    范晔:今年研究了一些美国梅奥的一些情况,国外也是分级诊疗,很多家庭他们有自己的私人医生,而这些私人医生相当于导诊或者分诊的方式已经做好了,而且小病是不用去医院,这样分诊的能力就非常强。第二点,好比如说梅奥医生管理系统,医生对这套系统有自己的选择权的,在国外,医生是可以选择病人的,而中国是根本不可能选择病人,因为你想如果一个医生一天是挂几百个号,每个病人大概也就是3分钟到5分钟的时间,他怎么选择病人,病人太多了,从这个角度讲,包括在中国患者其实太多。
   
    主持人:医生选择病人,大家看没看艺异博士,这个我治好,那个我治不太好,治不好我就不治了,他也是这样挑。在海外念书和治病,他们做这样的事情,医生可以被普遍认为,一个病人到十个医生看会得到十一样的结果,导致医生普遍不被信任,我们通过系统、计算机、网络大数据我们能不能达到,其实所有医生给同样的结果有利有弊,利的就是说可以建立医生信任体系,弊端,这个东西就是有一个真知灼见,别人没看出来,你看出来,对这个事情怎么看?
   
    范晔:拍医拍研究了6个方向,其实这6个方向,非常坦然跟大家讲其实都是很基础,包括刚刚所说糖网眼科,眼科,你能从这个里面分析出,好比出什么样的眼底组织结构是眼睛的某一种到了某种程度的病变的结果,非常清晰。而有一些病症,医生凭他们多年经验都没有办法得到这样一个结论,现在说大数据也为时过早,这是第一点。
   
    主持人:眼科是分布图片。
   
    范晔:对,眼科是有眼底图片,由照相机实现眼底图片这方面的问题,我们现在也在做这方面的研究。稍微多说两句,眼底,最简单,眼睛,我们大家都知道眼睛里面是有很多血管,那些血管相对来说那个血液流通就证明眼睛它的健康程度比较高,如果说这些血管滋生一些小的毛细血管,慢慢开始形成一些病变,再接着他说他有黄斑,黄斑指的里面有了水状物,剥离开,慢慢慢慢一点,我们非常清晰看到眼底图片过程,而很多的癌症很多的其它肿瘤它是非常难诊断,这个是很关键的一个。
   
    周禹同:现在来看人工智能去覆盖所有疾病不太现实,还是更多覆盖到常见疾病或者说一些数据量还足以支撑疾病,特别罕见的疾病非常难。我刚才强调数据这件事情,医生也看不好,数据也不足以支撑,我们模型说到底现在还是很难训练,而当广泛的疾病,我们比医生的优势,我可以考虑比他更多的特征维度,更短时间内出这个结果。这个人是因人而异,对某种疾病,恰恰说明是精准的,精准医疗本身就要考虑每个人不同的因素去做。我们说到底,完整的一个精准医疗现在不存在,不是说基因就是一个精准医疗或者说去从病历出发就是精准医疗方式,大家要考虑个人因素去做,但这肯定是未来一个大趋势,会对于同样有这个症状的人去做出不同的判断。比如像普林现在还作做的一件事情未来患者未来突发病,根据既往的病史,对于70多种疾病的一个特发病的疾病,大家都吸烟,大家得肺癌的可能性是不同的,这就是差别。
   
    主持人:保险公司会因为你的诊断拒绝卖一些人的保险,我基本上属于保险公司卖保险的人。
   
    周禹同:保险公司拒绝不拒绝并不取决于我们的结果,它现在该拒绝还是会拒绝。
   
    主持人:保险公司拿你的数据更精准拒绝更多的人。
   
    范晔:这个事情我还蛮有发言权,因为我们现在2016年有跟几家保险公司包括KPI的公司做合作。您现在所担心这部分问题在保险公司看来他们并不担心。首先,保险公司现在用的大数法则,今年这个产品今年卖得很好,明年接着卖这个产品。通过这种分析,首先第一个,你还是没有办法肯定说,好比这个人二型糖尿病,未来是不是可能会死于车祸。
   
    主持人:保险公司干这个事情不是这个产品好不好卖,保险公司是降低理赔率。
   
    范晔:保险公司不一定完全基于降低理赔率这样一个目标。金融体系由资金池存更多的钱还是保险公司看中。
   
    周禹同:我们拿个人征信反看这个事情,蚂蚁信用分或者各个银行有自己的分。好人比较少,坏人比较少,就是区间于中间那个分数人比较多,恰恰这部分人群对于银行来说或者贷款机构是最有价值的用户,这些人会贷款会还钱,他能支付起这个利息,而特别好的人不贷款,特别差的人不还款,中间地带对他来说是最好的状态,对于保险公司也是同样的道理,另一方面,我可以拓展更多的领域,你有这个疾病,但不会100%得这个疾病,我卖你保险帮你做管理,提升客户服务感受,他还卖更多的产品。
   
    主持人:刚刚有一些通过微信来问拍医拍的问题。
   
    范晔:您这个问题,第一个,我没有特别看懂,我从第二条开始先回答。医疗单据的模块数量,模板是定制的吗?第一,拍医拍,我们跟市面上同类产品相比,拍医拍OCR做到的跟别人不太一样的一个地方,我们不是用模板的方式,我们现在完全都是按词条切开的。
   
    提问:碎片化处理吗?
   
    范晔:也可以碎片化处理,技术难度会非常大。跟大家普及一下,现在好比说我们,我们拿到的一些纸质报告一些化验单,这些化验单,每一家医院,每一个科室的化验单其实内容都是不一样,排版各方面不一样,拍医拍做到现在目前32个省都可以来识别,全部可以识别。
   
    提问:做切割。
   
    范晔:我不是特别专业,我只能把我能够对大家来交代的这个事情都交代清楚。我知道有很多同类公司他们可能用的是模板的方式,他整个识别北大人民医院或者北医三院的模板,我们是所有的都可以识别,我们识别率是达到97%以上。
   
    提问:第一个问题,剩下的3%是靠人工识别?
   
    范晔:剩下的3%是人工识别,这一部分暂时识别不了,一定模板上面出现了一些比较严重的一些,很难识别的一些点。
   
    提问:因为这个问题会引出以下所有的问题,剩下3%,去定位3%的大数据在哪里?
   
    范晔:我们没有错误率,翻出来就是翻不出来。
   
    提问:识别错误是通过人工复查?
   
    范晔:我们肯定要通过人重新再来输入,我们没有完全好比说像第三方的手工录入公司把它的人员全部覆盖掉,而是先用机器识别方式覆盖掉他们好比如80%的工作量。
   
    提问:这个问题引出来一系列的问题,通过人工识别,效率上?
   
    范晔:效率上的提高?效率上的提高大概是什么样的状况?
   
    提问:你们加入人工,舍弃这3%5%的概率不去管它,没有问题,你站在医学角度,3%5%的要100%识为准确率,人工校验,你的OCR是不能达到这个准确率?
   
    范晔:首先识别的时间大概是5秒以内的识别速度,人工、手工录入的方式一张单据就要达到10分钟录入时间。
   
    提问:前提是碎片化,取决于最短时间这样概率?
   
    主持人:详细的技术问题你去问一个PR,这个事情合适吗。如果你有特别详细的技术问题,你可以直接跟他们沟通,大家可以凑在一起看看能不能碰撞出一些新的火花来。特别详细特别细致的数据,我估计他给出来可供宣传的数据,具体怎么做的还是有一些小插曲。
   
    提问:这个问题不好问,下一个问题当中,我们目前覆盖人次数是多少?就诊次数或者识别的次数?
   
    范晔:我们现在是2B,我们公司是2B,不是一个2患者。我们现在的算法是,我们是以单据量为基本的算法。
   
    提问:换一个问题,下载的APP数量有多少?
   
    范晔:我们APP目前是一个关闭状态,暂时不维护,我们现在是2B,我再强调一下。
   
    主持人:我问你们一个问题,这些数据,它是有这种医患关系像保密这样的东西,你们是怎么在整个过程中来处理这个问题?数据刚才你也讲它在医院并没有回到核心数据库,这个里头比如说我采集了,谁谁得艾滋病,这个事很敏感,就算他得了也不希望人知道,对于你们来说怎么跟每个医院处理事情。你在这家做了检查,你要在那家重做,你怎么说服他。
   
    周禹同:我们跟医院合作,这些数据拿不出来,我看不到这个人任何敏感,我只有病历数据。包括工程师所有的操作都是在医院内完成,人进去没有东西带进去,出来也是干干净净出来。我们肯定是保证数据,作为一个数据公司我们也非常在意数据敏感度,为什么孤岛现象存在?我不认为是技术解决不了,其实是人工不允许这件事情。
   
IMG_2925.JPG
    提问:后面会参加一些变量,这个事情在医院训练出模型,为了增加模型准确性会考虑外院?
   
    周禹同:我们也会考虑,这个数据留存在医院,我未来会去考虑在我们模型里面加入。
   
    提问:这个模型产生是你们还是医院?
   
    周禹同:我们可以把模型拿出来,包括我们在各家医院做的时候,我们保证这个模型可以再更新。
   
    提问:你们这个行业里边还有别的竞争对手吗?
   
    周禹同:关于自然语言处理这一块?
   
    提问:是指的刚刚的诊断辅助助手?
   
    周禹同:我知道有很多家说是在做诊断这一块,但我没有看到他们具体真实诊断,漏诊以后正确率这些结果,而且他们大多数是用知识图谱的方法做这件事情,我们看知识图谱是溯源的事情,我的模型,我不知道为什么做这个疾病,通过知识图谱判断你匹配市场上哪些症状,告诉医生,可能出现的问题。比如心梗,出现Q波的变化,在模型里面是不是因为这个判断,就是这样的一个因素。其它我知道是有在做,但对外宣称做的人很多,但是没有看到谁的一个结果是什么样。
   
    提问:还没有到一个对的阶段。
   
    周禹同:这个市场刚刚开始,全球刚刚进入这个领域,我不相信谁能做得出来,今年已经医疗大数据元年好几年,这是非常难一件事情。
   
    提问:我一直在医疗行业做了接近15年,在移动医疗这一块时间并不是特别长。我有两个问题想问一下,说您的症状关键词,比如我们跟百度搜索的关键词有什么区别?第二,医疗大数据,这类公司特别多,达到智能诊断智能处方,除了辅助诊断之外,您想做什么。在您的团队里面,专业医疗人士有几位,我指的是专业医生或者从事医疗的行业。
   
    周禹同:我先回答第一个问题,关键词这个问题,我们并不是通过他有这个症状这个词语进行生成,症状是有一个有无,像痰有各种各样的描述,不同的描述对于疾病来说都是不一样的,我会把它的诱因、描述,比如说像心梗,吃甘油会缓解,这一系列都会进来做模型特征,不是通过某一个词进行判断。第二个问题是什么。
   
    提问:第一个,咱们和百度关键词的其他,我就想了解咱们的目的最终想做什么?拿到数据诊断,诊断之后的目的是什么?说简单一点我们打算把大数据运用于谁。第三个,有多少跌幅。
   
    周禹同:我们团队有30%的人是有医疗背景和临床医生。
   
    提问:最后一个问题是30%的人是医疗背景和临床医生。
   
    周禹同:剩下的人是医疗团队。第二个问题目的是什么?我们所有面向医院、面向医生。把模型卖给医院卖给医生,提供他们的一个服务,我们所有智能诊断模型,未来一个很主要的目的拓展更多的疾病,我要花很长时间做的一件事情,不断把方法、质量更加提升,你像刚才范总这边也有统计,中国这些民营医院、公立医院数万家,对我来说是一个非常广泛的客户群体。
   
    提问:我看到你提供了一些数据,比如说误诊率的问题,十几到二十,在中国发生率更高,你说误诊率的问题,检查不完整、检查思维等等,最根本的问题,很多病人出现心梗,第一反应是我腹痛,我肩膀痛,他本身有肩周炎,所以他根本没有报告你胸痛,这是误诊。有些人有糖尿病,到死也没有表现胸痛的症状,这个误诊从数据上来说,数据资源是有用,但是分析思路,就要我刚才提出最后一个问题的原因,咱们  专业医疗团队有多少,医疗团队有30%医疗背景,我想应该不会出现误诊的原因是因为这个。
   
    周禹同:我们查数据和刚才这些原因是公开文献,这是中文文献这是可以查到的,这是第一点。第二点,刚刚您说的很多患者并没有披露他有这个患者,这不是我们从病历里面是否获得信息,医生他本身,他做判断也获取不了这个信息,我要做的是,医生他能获得什么,我就用什么,这样我的准确率跟他进行对比,我挖掘不出,大家都不去告诉你信息,我也不知道,这是这样的基本逻辑。
   
    提问:跟医院合作进行中,以什么名义?
   
    周禹同:科研名义。
   
    提问:医院没有理由允许一个科研团队到他们那去这种所谓福利性给他们提供相应的这种支持。
   
    周禹同:我不太懂你所谓福利性是什么?
   
    提问:你们去做这种调研的目的,最终是解决问题,解决你们的问题,但是你跟医院之间并没有作用的合同关系。
   
    周禹同:我们是有合同关系。
   
    提问:你们签完合同如果做完好是要给他们条件使用?
   
    周禹同:他们有科研需求,整个这个结果包括对于疾病预测,他们本身就要发论文,这是对他们来说是一个很强烈的需求,模型对我们来说是有用,对他们是没用,他们是过程预测的一个结果。
   
    提问:医疗信息挂在医院整个实施过程当中,他们也是很感兴趣的一件事。
   
    周禹同:对。
   
    提问:我们思路跟你们比较像,遇到第一个问题,医院给我们也是弄完一堆纸质的全是鬼画符一样的,当时就崩溃了,我们后来想,刚才我在群里面问,病历来源问题。最终谁模型建得最好,这是最重要的工作。病历数据,你们通过什么样的途径把他病历数据开放给你们,即使说你去现场,因为我们了解了现在不同的医院,中国国内有不同的厂商,各种奇奇怪怪的标准,你通过什么样的渠道拿到比较规范的,能够认出来的。
   
    周禹同:首先,我们不针对它手写的病历也是针对电子病历,存在HISS系统里面或者EMR系统,对于我们来说厂商是无所谓,我是要数据接口,不同厂商API不一样。
   
    提问:通过和医院哪个部门衔接,愿意把HR接口?
   
    周禹同:有的是院长层级,有的信息科主任,临床科室。
   
    提问:我提的问题跟他有一致的问题,我们涉足相同的领域,是不是我们要合资一下,是不是要给我们一些股份,我觉得你们挺神奇,我们在跟医院谈的时候就面临这样的问题,知道你是一个很有前景的方向,但是既然今天有权于我,在股权的部分,他们也要有参股行为。所以我为什么问这个问题也是这个原因。
   
    周禹同:对于医院来说,你说到底还是利益交换问题,他是要股权,对我们来说他是要科研,像我们合作都是像一些比较顶级医院,他们想发的杂志都是顶级期刊,我们合作还有一些主任医师,正高级。这些期刊对他们的要求,你们用大数据的分析方法、人工智能分析方法,这套他们做不来,他们对我们有需求,我们对他们也是有需求,大家一拍即合,是这样一条路径下来。
   
    提问:我想问一个技术层面的问题,我想知道你们模型训练方式是什么?是通过机器学习?是一种机器自我学习和加强学习,如果是这种方法有可能超越人类的,你刚刚提到它只是辅助医生做这样一个事情。如果只是辅助,做一些相对于比较低端的一些事情。
   
    周禹同:我这个观点和你不一样,它的质量可以超越医生,但是它一定是辅助医生的,就像说这个问题不在于技术问题而在于人心理问题。我们辅助医生,那么医生根据当时一些情况他要做最后判断,我是判断这样,患者家属不愿意做,会有现场面临的问题,这些问题不是现场模型能做的问题,我们把结果提供给医生,这个结果比医生做得好,漏诊率说到底比医院做得好,我通过机器学习、深度学习这些技术做这件事情,这是人工智能核心部分。
   
    提问:模型具备机器学习的能力,不断给它喂数据,他们得出一个什么样的结果也是你们无法预料?
   
    周禹同:这个跟下围棋不一样,我们以数据导向去做,我们不能像阿尔法狗可以自我博弈训练,说到底那个数据是它自己造出来,医疗我们是不可以造成数据,我们不能像传统方法去做,清洗数据,在脏数据情况下,要把数据做成,我们不可以造这个数据,很多时候是伦理的问题。
   
    提问:我就想问一下,做这个医疗影像这一块创业项目多,那么多都在做做,本质上有什么差异和拍医拍?和市场上都在做这块的创业项目比。
   
    范晔:首先排序这件事情我们干不了,就我知识范围内回答一些,真正知识框架整个底层还是技术支撑,你这个技术,怎么叫黑科技?别人做不到,但你能,这是很关键很核心的一点。所以为什么我跟周总两个人我们两个PPT有一个不谋而合的地方,把团队介绍一下,团队重要性在整个人工智能领域其实是非常关键的,这是一个。
    你刚刚说的公司没法比较,就像沃森机器人,他们做得非常好,我觉得最基本的原理是他们拥有了几十年肿瘤的数据,而这些数据学完了之后,机器人能做到的一个现阶段的一个水平,我们也看到了,就这个样子。所以以他们为老师,我们在后面做这些事情,首先会知道一个方向的问题,知道数据挖掘的重要性,知道这些数据我们还可以让他们,让这些数据怎么活起来。我们在获得抓取到这些数据的时候,其实也做了很多研究性的工作,好比如说某一种疾病跟另外一种疾病,甚至于是一个人的年纪、性别,疾病史、遗传史等等加在一起,有可能会得哪种疾病,概率多高,这个数据我们也知道保险公司也是在私下也会做这种事情,我们也会有一个探讨的形式,我们也会把自然而然得到的数据做一些探讨。
   
    周禹同:我最开始提到,像医院除了结构化医院,非结构的数据,影像和文本大家都去做很多事情,大家从不同角度切入,很多疾病金指标就是影像,而有些疾病金指标不是影像。我们有很多影像说明,文本数据覆盖了全科,我们从这个角度走。第二个问题,这些做影像,他需要的图片其实是非常巨大,需要做大量人工标注用CN做标注,机器学习非常耗成本,对于初创的时间不能做,百度花了好长时间做人脸识别,谷歌花了很长做号码牌的事情,我们在这一块不切入。
   
    提问:现在有融资计划吗?
   
    周禹同:我们业务是在普林里,但是我们现在想拆分出来。
   
    主持人:最后一项是合影,我们合完影以后,大家再有单独问题单独再上来问他们。
IMG_2946.JPG

您需要登录后才可以回帖 登录 | 注册

本版积分规则

© 2001-2014Comsenz Inc.

快速回复 返回顶部 返回列表