保险新投保数据研究分析.docx

资源描述

《保险新投保数据研究分析.docx》由会员分享，可在线阅读，更多相关《保险新投保数据研究分析.docx（5页珍藏版）》请在金锄头文库上搜索。

1、保险新投保数据研究分析以四川某保险公司的新投保数据为讨论对象，使用SPSS作为工具，对该公司年度新投保数据进展分析讨论，通过相关性分析、探究分析、线性回归分析找出总保费和各个变量间的关系，帮忙公司找寻最优方案，调整或改善策略以增加盈利。关键词数据分析；保险；新投保数据新冠疫情的爆发,自然灾难的频繁消失,使得不确定风险因素增加,对人们的生活产生较大的影响。投保可以在灾难发生时,对人们的生活有肯定的保障1。如今保险业积存的大量数据在大数据技术的冲击下又是一个新的风口。保险行业盼望通过利用新技术的运用在逆境中寻求更大的进展就成为了一种必定2。保险的本质是要求保险产品确定尚未发生的风险。在风险猜

2、测过程中，往往需要将数据信息与相应的分析技术结合起来，这就需要大数据分析来提高风险猜测的精确性3。讨论新投保客户，建立客户画像，是抓住老客户、增加新客户的有效方法，因此，要分析客户选择投保的因素，以及能增加盈利的因素。了解后公司就能针对性地调整策略，推出更符合消费者需求的产品。推出更多符合不怜悯况的群众保险，提高保险对群众的受用程度和保障度，从而提高有效保险的量，使得双方受益程度实现最大化。 1.讨论思路分析工具采纳SPSS软件。SPSS(StatisticalPackagefortheSocialScience)软件是世界上闻名的统计分析软件之一,2022年SPSS公司由于产品升级及业务拓

3、展的需要,将其产品正式更名为SPSS(statisticalproductandservicesolutions),即统计产品与效劳解决方案4。分析思路如下：以四川省某保险公司的新投保数据为讨论对象，采纳SPSS作为分析工具，对数据中年龄，性别，婚姻状况，险种类型，保费等数据进展分析比对，对新投保的客户进展画像，分析保险的选择是否和客户的某种特征有关，从而可以对不同的客户选用不同的策略帮忙公司收获新客户，也帮忙新客户选择出好产品，实现双方共赢。 2.数据说明数据来源于四川某保险公司年度新投保数据。其中包含了机构、险种、投保时间、缴费方式、缴费期限、投保份数、总保费、保额、客户号、性别、年龄、

4、婚姻状况、过去三年平均年收入、训练程度、职业、家庭人口。共16列900648行。进展数据清洗，由于在信息时代,数据即是资源。数据牢靠无误才能精确地反映现实状况,有效地支持组织决策5。因此首先应当做的就是筛选有用的数据，剔除无用数据；还包括空值的清理，无效值、特别值的删除。 3.数据分析 3.1总保费与职业、年龄等变量的相关关系由于本数据集所持有的数据含有肯定量的脏数据以及无效数据，为提高分析的精确度和有效度，所以在进展数据分析之前，需要做出肯定的数据清洗与处理，即删除数据中不正确填写的训练程度、家庭人口列。用SPSS中的自动重新编码功能将字符串类型的值转换为数字类型，便于后续的分析操作。然后

5、进展数据分析，首先将变量测量类型更改为标度，然后通过相关分析得出与总保费相关性较高的变量（见表1）。结果显示，其中与总保费相关性系数较高的变量有险种、缴费方式、性别、婚姻状况、职业、保额、年龄、过去三年平均年收入、机构、缴费期限，其中年龄和保额的相关性最强，为正相关；相关性系数较低的有投保时间、投保份数、客户号。由此可得出年龄与总保费相关性强，呈正相关。说明年龄大的人群在保险方面的支出大，而较年轻群体在保险方面的支出则较少。因此保险公司可以通过将年龄较大人群宠爱的产品进展改良或是保持其特色来稳固在这一方面的收入；通过推出更适合较年轻人群的例如理财方面的产品来增加较年轻群体这局部的收入。保额与总

6、保费相关性强，呈正相关。说明人们对保险的投入与他们期望的保额有很大的关系，因此可以通过人们对保额的期望来增加产品的竞争力或是以此来推举与客户期望值相匹配的产品。 3.2详细分析总保费与年龄的关系上文我们得出了总保费和年龄有很强的相关性，因此我们将年龄分化，进一步分析。首先通过SPSS软件中的频率分析的功能计算出年龄的四分位数从而进展分组（见表2）。由此我们可以将年龄分为四个区间：34岁及以下设置为第一个年龄组-青年组并把该组数据全部重新编码为1；35岁到40岁设置为其次个年龄组-壮年组，并把该组数据全部重新编码为2；41岁到48岁设置为第三个组-中年组，并把该组全部数据全部重新编码为3；49

7、岁及以上设置为第四个组-老年组，并把该组数据全部重新编码为4。将总保费设为因变量、经过重新编码后的年龄段设置为因子进展探究分析。分析结果得出：在4组年龄组中，5%剪除后平均值最高的组为第四组（49岁及以上），然后是第三组、其次组、第一组依次下降。这一结果也印证了上文所分析的年龄与总保费的强相关性，年龄越大的人在保险上的投入越多。其次中年组（41岁到48岁）的标准差最大，数据的离散程度最大，说明中年组对于不同价位的保险选择更为分散。4组数据的偏度均大于0，为右偏分布（均值中位数众数），说明同组里高保费的人较少，大局部人所交总保费是低于平均值的。且4组数据峰度均大于0，为尖峰分布，说明样本之间差异较大，右边（高保费区域）极端值较多，保费更多地集中在众数四周。青年组的四分位距和标准差最小，保费缴纳状况最为集中。3.3总保费与年龄、保额等变量的线性关系通过上文的相关性分析，我们已经得出了与总保费相关性较高的一些变量，下面我们找出是否这些变量具有某些线性关系。数据处理方面,线性回归分析需要全部的参数都是属于数字型的，然而险种、缴费方式、性别等变量都为字符型的变量，不能用于线性回归分析，因此我们将险种、缴费方式、性别等变量自动重新编码。线性分析,首先我们得出以下模型

展开阅读全文