工欲善其事，必先利其器。

高科技用于健康险一直是市场热议的话题。但什么样的科学技术对健康险最有价值？以什么形式嫁接大数据和保险能够体现其效果？市场的经验是什么？高新技术对健康险的作用是补充还是颠覆？这些是险企管理层必须要思考的问题。

器欲尽其能，必先得其法。

随着商业健康险市场的演变，保险公司自身的承保风险也在加大。为缓解自身的风险压力，这迫使商业保险公司必须加大控费力度，进一步挤压医疗服务公司并加大对病人健康的管理。在这个过程中，又有哪种技术能助力险企？

9月4日，杭州麦歌算法科技CEO王晓东在《今日保》主办的第二届“中国健康保险与健康产业发展论坛”上，以“医学文本自然语言处理技术在语义级健康险领域的应用”为主题，分享了NLP在语义级健康险的技术应用，列举了具体案例，并描摹了一条未来健康险发展的可行之路。

健康保险赔付额度例题,健康险案例分析大全

以下为王晓东在“第二届“中国健康保险与健康产业发展论坛”上的演讲实录：

王晓东：很开心今天做这个分享，感谢主办方的邀请。今天如果不讲一些干货，感觉都下不了台。我们公司本身是做算法科技的，今天会放很多干货出来。

先简单介绍一下我们团队。我们团队之前是在欧洲，一直做医学文本处理、建模等，与保险相结合的工作。两年前回到国内，做相关方面的业务，也从北美引来了同领域的人才加入。

过去我们在保险领域公开发声比较少，主要是在保险公司内部场合多一些，所以行业外对我们了解不多，希望介绍的东西大家能够感兴趣。我们今天主要把医学文本自然语言处理用在语义级健康险产品设计以及模式创新上，就是以医疗数据作为核心驱动力去服务保险+科技+管理式医疗的新业态。

今天的分享，主要涉及四个部分。第一，语义级健康险相关的概念和背景。第二，如何把自然语言处理技术用在语义健康险上。第三，我们最近做的一个案例。第四，这件事情的价值。

1 “大器”：语义级健康险的概述

语义健康险，这个概念还是蛮新的，Semantic Insurance，是去年在全球最大的保险科技论坛上Digital Insurer上提出来的一个概念。简单归结起来它就一句话，是基于个体风险定价的互动式保险产品，两个核心要点：一是风险定价逻辑变了；二是整个保险形态是互动式保险。

健康保险赔付额度例题,健康险案例分析大全

常规的做法，市面上有四种，结合电子病历、医疗文献、可穿戴设备和大数据。这里的大数据是指社交数据、环境数据，征信数据等相关信息。做这块业务的企业在美国和国内都有，美国可能做的相对成熟一些。

可穿戴设备，大家已经非常熟悉了。通过给你一个智能硬件做相应的信息采集，再通过信息采集做定价依据或保额调整依据。主要集中在两点，一是通过智能硬件和用户产生交互，产生数据互动；二是通过数据的互动做差异化定价，形成千人千面保障形态，这是最典型的语义级保险特征。我们这个团队主要是在电子病历和医学文献结合做的工作相对比较深。

2 “得法”：自然语言处理技术在语义健康险应用

语义级保险，里面有个很核心的点，它本身的定价逻辑和传统保险产品定价逻辑有很大的差别。

现在泛人身险基本所有的产品定价逻辑是根据年龄和性别来的，这个定价是基于大数法则下的统计信息。实际保险发展到今天，很多开始做互动保险，千人千面产品设计时就会发现，基于统计数据的结果有可能在个体保险定价上是不吻合的，产生很多冲突的。

举例，假如70岁以上的人发生脑梗的比例是1%，是不是这个人70岁，所以发生脑梗的概率就是1%呢？其实这是不成立的，他发不发生脑梗，和个体目前的心脑血管状态，有无家族史遗传是直接相关的，和他处于什么年龄不是直接相关的。底层定价逻辑变化，会对将来整个保险行业产品形态产生很重要的影响，包括整个承保期限，承保年龄等等，会发生很多很深刻的影响。

语义级保险形态最早是在美国出现的，大概2010年之后，出现的原因很简单，传统的寿险公司盈利水平受限，500强排前百的保险公司利润率长期处于一个极低的水平，在2017年，北美这样成熟的保险市场甚至出现整体业务下滑，负增长。

背后的逻辑也很简单，因为社会人口结构发生了变化，传统市场标准人群比例在逐渐减少，非标人群比例在不断增加。所以，2010年前后出现了很多创新型保险公司以非标人群或老龄人群作为自己核心业务增长引擎。刚才有很多朋友分享时也讲，非标人群和标准人群标准是不一样的，非标人群发生风险远远高于标准人群，非标人群做保障时必须要有独特的风控手段，才有可能在市场里做到盈利，把整个市场价值呈现出来。

在此基础上，美国在这个阶段出现很多创新型保险公司，像Oscar Health、Clover Health、Collective Health（音），Devoted Health（音）等等，其中有几家已经做得非常大了，几十亿美金市值。每家公司的切入点可能会有区别，但是背后的逻辑是极其相似的。

这里简单介绍一下Clover Health，因为我们现在做的一个事情和它在一些数据驱动的逻辑上会有一些相似。

健康保险赔付额度例题,健康险案例分析大全

Clover Health是通过数据驱动风险管理方式去降低医疗成本，最后实现企业价值实现。它的技术路径是通过分析电子病历，纸质报告，公共健康数据、理赔报告以及检验结果，形成一套应用体系应用在客群上。

当它通过这些数据识别到某个会员出现比较高的入院风险或其他风险，就会通过干预工具对其进行预警和导医服务，最后实现整体医疗成本控制和疾病控制。在这个基础上，这家公司实现了很大的价值，它通过数据驱动方式去实实在在地降低了会员的入院率，再入院率，疾病控制率，最后实现了医疗成本控制和公司价值的呈现。

中国现在的健康险市场存在什么样的问题？其实完全是一模一样的问题。一是中国市场老龄化速度和程度要比美国严峻得多，中国从老龄化进入深度老龄化只用了25年，美国用了65年；从深度老龄化进入超级老龄化，我们可能只用10年。二是整个慢病人群的爆发，世卫和世银的数据显示中国的慢病人群以每10年80%左右的复合增长率在增长，由于婴儿潮带来的社会人口结构的变化，中国保障市场会在社会结构变化里发生巨大的变化，这个变化不是由行业决定的，而是由整个社会决定的。

3 “善事”：落地案例分享

下面分享一些我们的技术干货。今天听了很多行业前辈和监管领导高屋建瓴的思路和想法，受益很多。我们是用技术驱动的方式把这件事情做踏实做透，最后把模式做出来。

我们将整个医学文本自然语言文本处理技术和建模技术介入到整个保障的全流程保险，从产品设计到承核保后的风控管理，以及最终的理赔端应用的一些点，大概有三块：

第一，产品端和保险公司配合来设计语义级健康险，在控制风险的基础上去做面向非标增量市场更具吸引力和更具保障价值的产品。

第二，承保后做数据驱动的风险识别和风险管理管理式医疗服务，降低被保险人的风险疾病发生风险，从而帮助保险公司降低赔付。降低疾病发生。

第三，核赔阶段基于病理推演反欺诈手段进一步提高行业效能。

健康保险赔付额度例题,健康险案例分析大全

这是目前我们所做的产品设计流程。我们会选定要去做的这款标的产品，选择标的疾病，再来建立高维度风险预测模型，这是涵盖所有全维度医学事件实践的，这个人吃过什么药，做过哪些检查，哪些指标异常，做过什么诊断等全维度的医学事件实践，把所有医学事件实践与疾病发生的关联进行量化，量化以后，再通过图谱推导方式把这些风控的点和因子进行降维，最后达到数量可控范围内做核保信息采集。在核保信息采集方案出来以后，最后会进行整个风险控制和动态定价，我们和核保公司一起处理，实现动态定价的事情。

我们也通过整合不同的医学数据，涵盖医学文献、电子病历等等，进入到医学认知计算平台，做数据清洗、信息抽取、标准化，形成标准化信息入口后再进行风险建模和图谱推步推导，最后建出的模型通过和文献、真实大量数据的交叉验证来确保实现它的有效性，最后形成整个一套风险评测体系用到语义级保险级产品的精算支持，核保条款设计以及承保后的风险管理等。

4 “其能”：技术价值&社会价值

为什么要做数据治理呢？

这是我们团队里的核心技术之一。坦率地讲，中国目前市场上的医学数据质量确实不高，如果没有足够的医学信息挖掘能力，可能给你1000万人的连续就诊记录，你连里到底有多少高血压患者都挑不全。因为很多信息不是出现在诊断这样的结构化字段里，而是出现在主述，现病史或出院小结的位置里，例如“患者高血压十年余”这样的描述。所以，必须要有充分的底层医学数据处理能力去做记录融合、日期补全、病情挖掘等等相应的工作，才有可能把这部分医学文本内容分析得足够透。

首先，要实现这些还必须要有很强的医学文本信息抽取能力。在中国目前医疗体系里，整个电子病历结构化情况是非常有限，质量也非常有限，大部分有效医疗信息其实涵盖在团状文字里的，这个问题如果不解决，是没有办法规模化使用这些信息的。

其次，要做医学概念归一。譬如冠心病，在医生诊断里经常会被用到，但它实际上不是一个标准的医学术语，标准术语是冠状动脉粥样硬化性心脏病，类似的案例还有很多，对同一个医学术语，不同医生会有各种各样的不同描述方法，用什么样的方法把所有这些医学概念归集到同一个医学术语下面做整合建模，这也是我们一直在做的内容。

下面进入产品设计流程，举个例子，要做“三高”人群的百万健康险，怎么挑目标人群？“一高”、“二高”、“三高”的人群，满足什么样条件的，才能进入建模体系里来。

我们会把整个全链条医学事件分为两段。一段叫观测期，二段叫预测期。观测期里，我看这个人出现过什么样的医学事件；预测期里看他有没有出现我预测的标的疾病。

通过这种高维度的医学时序建模方式，把所有的医学事件压缩到一条时间轴上，通过海量无监督学习来建立所有的医学事件，与病表征之间的关联，把所有医学事件最后对疾病发生表征进行量化。量化以后，再与和时序无关的信息进行融合。目前整个技术路线上融合外围的信息还不多，只包括比如性别、职业这些是与时序无关的信息整合进来，以后越来越多维的信息会整合到这套数据应用体系里。

刚才讲的是高维度时序建模，这是完全创新的东西，即使放在美国和欧洲也是属于前沿的。同时我们也在用一些成熟的保险体系里用很成熟的技术，比如怎么样把一个病人表征转化为他是否住院的定性问题，或者他可能住院几天的定量问题，里面用传统机器学习的方式来实现这个过程。

以刚才的“三高”例子举例，假如我要做一款“三高”人群的给付型健康险，我们就要解决与目标人群高关联疾病的风控问题，这个人群其实又是非常复杂的，人群涵盖了“一高”、“二高”、“三高”，“二高”里有高血糖和高血脂、或高血糖和高血压等不同的形式，怎么样通过分层建模再做模型集成，形成有效的预测结果和风险评估结果，这都是我们在做的内容。

健康保险赔付额度例题,健康险案例分析大全

这是目前我们在做的一套承保决策流程图，通过输入信息分别计算不同承保内容的并发症风险，根据风险分析做最终决策引擎，风险综评、定价引擎，最后做出承保决策。

承保后的风险管理，我怎么样通过这款产品投放市场，吸引用户以后进行管理式医疗服务进一步降低风险，针对每个个体，我都会有他相应的住院概率模型，住院总长模型，住院频次模型，每一套模型都有下面Sensitivity（真阳性率）、Specificity（明确性）等相应信息，这套体系目前在北美保险精算市场已经比较成熟了。

健康保险赔付额度例题,健康险案例分析大全

这是我们和某家知名保险公司做的一个测试案例，有些产品案例不方便分享，因为和保险公司之间有保密协议。这家保险公司前段时间为了测试我们整个风险评估能力，给了我2727个真实的投保案例，这部分人里最终182人第二年出现了终末期肾病，通过他既往赔付数据让我把这部分人找出来。我以0.5为阈值，从2127个人找出400人，认为这400人是高危，最后命中真实出险的107人，在我排除不到20%人的情况下排除掉了真实出险用户60%，赔付率降低50%。

这里边的数据是真实的场景数据，基本代表了目前行业的数据现状，首先所有数据都是只跟支付相关的，并不是完整的医疗数据，有不明部位的检查，有结果不明的检查，还有一些显著的骗保案例，比如他前列腺增生，性别是女；还有高度疑似案例，怎么看这个人都是第二年要终末期肾病的，但它告诉是阴性案例；典型的信息不全，稀疏特征案例，一年之内只有一次高血压症的诊断或只有一次上呼吸道的诊断，要我去判断这个人第二年会不会终末期肾病。在这样的数据质量基础之上，我们结合场景依然做到了可商用的效果。

也有一些属于本身医疗信息质量的问题，像不寐症，我没有办法把它转化为睡眠障碍，因为我们整个评测体系是基于ICD知识体系的，像气滞血淤症这样的中医诊断，我没有办法对应标准的医学事件。相反，我检测出来的案例却非常非常有代表性，因为我给了几个检出案例，我就很明确地讲，这些案例在得终末期肾病之前出现的医学事件，有没有任何一条出现在你核保条款里；第二，我说现场医学专家也在，医学专家能不能看出这些案例第二年会发生终末期肾病，他说这个也确实看不出来。所以，我们在做一件事情，把所有的医学事件与赔案发生之间的关系量化，当所有的医学事件进行组合时，比如这个事情的风险高还是低，我们可以给出具体的量化指标，而不依赖于任何人的既往经验。

我们在做的事情。

我们实际上在将医学文本应用在保险领域的应用从浅层应用向深层模式层推进。现在保险行业在用医学数据做些什么事情呢？只是用到医学数据里的统计信息，整个发生率是怎么样，性别分布怎么样，住院率怎么样，住院时长怎么样，费用分布怎么样，来做产品的定价引擎。我们现在在做一件事情，把医学数据在行业的应用推到认知层或决策层，去解答一些问题，什么情况下会住院，什么情况下会发病，去回答这一层的问题，而数据应用到达到这一层以后，已经不简简单单是产品层问题，是模式层问题。

要想在这个领域做得非常好，从对于客户信息采集，数据分析，干预工具，医疗服务，效果评估整个是一套闭环，需要模式支撑这套产品的创新和优化。当然，我们目前也在一些具备比较好的服务能力和服务资源医疗服务体系里践行这套模式，希望下次做报告我可以带着更有价值的成果来和大家分享。

最终我认为医学文本数据会对整个社会带来巨大的价值，而保险行业作为支付端是这个价值呈现的入口，只有保险行业对于数据的应用达到认知层和决策层才能推动整个社会保障体系的完善，全民健康水平的提高和社会医疗成本的下降。

这就是我今天的分享。谢谢大家！

寿险健康险赔付率 (健康险案例分析)

1 “大器”：语义级健康险的概述

2 “得法”：自然语言处理技术在语义健康险应用

3 “善事”：落地案例分享

4 “其能”：技术价值&社会价值