宁夏保险行业协会网

运用数据挖掘技术 对车险反欺诈的一点思考

发布时间:2017-09-07 15:45:24 来源:   作者:

阳光产险宁夏分公司人事行政部  马振洲

 

    随着保险业的发展,保险欺诈的手段不断更新,形式多种多样,对欺诈的识别也越来越难,发现欺诈的成本也越来越高。在保险欺诈中,机动车辆保险欺诈是占比重最大的。据统计数据显示,在美国汽车车身损伤保险的索赔案件中,有17%—20%的赔付金额属于保险欺诈金额。每年保险欺诈的总金额约为850亿美元—1200亿美元。在英国,欺诈数量在近5年中加倍增长,每年的欺诈金额约为160亿英镑(约247.57亿美元)。在我国,保险欺诈由2007年的2086.48亿元增长到2011年的4779.06亿元。其中机动车辆保险占保费收入的70%左右,也就是说,2011年的机动车辆保险保费至少为3345.34亿元。

    在以往的工作中,反欺诈主要侧重流程和管理上的管控。欺诈案件的识别主要靠人工经验和简单的业务规则,对如何建立防范机动车保险欺诈的量化识别模型体系的工作比较少。随着大数据时代的到来,大数据应用越来越受到重视。利用数据挖掘技术对车险理赔反欺诈工作进行协助,能够提高欺诈案件的覆盖率,减少人工识别成本。

    一、反欺诈工作面临的困难和挑战

    保险公司的核心业务是承保和理赔。当前,保险公司的车险业务快速增长,但车险综合赔付率却呈现居高不下的状况。层出不穷的保险欺诈,正吞噬着保险公司的利润。从国际经验数据来看,约20%的赔款属于保险诈骗。国内保险公司车险业务在理赔反欺诈实践中,面临着许多困难和挑战:

   1、由于有些公司业务人员对业务不够熟练,加之对结案率要求较高,在理赔流程上关注快速结案因素较多,对识别欺诈行为关注较少;

   2、由于车险反欺诈人员、资金与成本较高,缺乏先进的手段来甄别最可疑的案件。面对每年数百万的理赔案件,庞大的工作负荷和巨大的成本压力使得保险公司无法对案件进行逐笔的审核。因此急需借助技术力量来协助解决问题,但是在实际操作过程中仍有一些现实的挑战;

   3、数据不完整,质量不高,而且准确性较差,比如身份证,手机号等信息准确度不高,很多有用的数据指标缺失率高等;

   4、欺诈的途径和方式也在不断变化,加大了识别的难度。

   运用大数据技术手段进行发欺诈的方法途径

   车险理赔欺诈事件涉及的环境因素众多,环节繁杂,而且目前欺诈犯罪有专业化、团伙化得趋势。只依靠人工经验识别和目前业务相对简单的线性规则判别只能对单一环节或者少量因子进行分析,不但费时费力,而且效果较差。运用大数据挖掘技术对于此类非线性,高维度问题有相对成熟的算法和模型支持。通过对依照历史欺诈案件建立模型,能够识别数据中所隐含的复杂的行为方式,提高预测欺诈案件的能力。

   (一)数据挖掘的定义

   数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

   (二)数据挖掘项目的流程

   业务理解:明确数据挖掘的目的或目标是成功完成任何数据挖掘项目的关键。

   数据理解、准备:寻找可以解决和回答商业问题的数据,数据挖掘项目中的特殊转换方法取决于数据挖掘类型和数据挖掘工具。

   分析建模:每一种方法都可能产生出不同的结果。如果挖掘结果很稳定、则可用度非常高。反之,在使用前须查证问题所在。

   模型评估部署:在对模型进行评估时,既要参照评估标准,同时也要考虑到商业目标和商业成功的标准。

   模型监控:监控模型的各项指标和参数,对于误差太大的场景警醒分析,报警。

   模型优化:随着业务和数据要求的变化,模型的精度会随之改变,需要根据新的数据和要求调整参加,或者重新训练模型。

   (三)分类预测模型

   由于欺诈案件识别是个典型的分类预测问题,因此候选模型主要有:逻辑回归模型、决策树模型、人工神经网络模型等。

   逻辑回归模型:是最早的离散选择模型,也是应用最广泛的预测模型之一。具有概率表达式的显性特点,而且模型的求解速度快,应用方便。2002年Artis,Ayuso和Guillen三位保险学者在逻辑回归模型上进行改进,取得了不错的成效。如今被广泛应用于车辆保险欺诈识别和人伤保险欺诈识别领域。

   决策树模型:是一种直观的概率分析的图解法。在利用决策树识别车辆保险欺诈时,推理过程是从结果节点向决策节点方向进行逆向分析。这种方法可以更加直观和有效的识别工作,也不失为一种优秀的辅助方法。

   人工神经网络模型:是根据人类大脑的信息处理方式进行计算的一类模型,具有非常强的非线性表示能力,能以任意精度逼近任意非线性连续函数。而在车辆保险欺诈识别的过程中,多数的问题都具有高度的非线性的,所以此类问题就特别适合神经网络模型。

保险协会