孟生旺广义线性模型发展与应用

资源描述

《孟生旺广义线性模型发展与应用》由会员分享，可在线阅读，更多相关《孟生旺广义线性模型发展与应用（36页珍藏版）》请在金锄头文库上搜索。

1、,第十二届中国精算年会 The 12th China Actuarial Annual Conference,广义线性模型：发展与应用,孟生旺中国人民大学统计学院 Email：,主要内容,基本的广义线性模型：理论与应用模型评价费率约束广义线性模型的推广与应用分布假设的推广 GAM与GAMLSS（GAM for Location, Scale and Shape) 神经网络与回归树应用案例,2,基本GLM：理论与应用,分布假设：正态泊松、负二项：索赔频率伽马、逆高斯：索赔强度 Tweedie：纯保费二项：续保率连接函数：恒等：加法模型对数：乘法模型，预测

2、值大于零 logit：预测值在（0，1）区间,3,Tweedie、泊松和伽马的比较：Tweedie：泊松：p=1 伽马：p=2,4,模型评价1：偏差近似服从自由度为n - p的卡方分布。除泊松外，效果不是很好。对于嵌套模型，偏差之差近似服从 p - q 的卡方分布，近似效果较好。注：SAS中称fD为偏差，称D为尺度偏差。,5,模型评价2：残差（下页图示）Anscobe残差： Deviance残差：若分布假设是合理的，标准化处理后近似服从标准正态分布。若偏差di的绝对值大于1，说明对这个观察值的拟合效果较差。,6,7,模型评价3：Type 1 和 Type 3 分析,8,模型评价4：标准

3、误、置信区间和p值,9,模型评价5：把样本数据分为三组（数据充足）训练样本（training data）测试样本(test data) 评价样本(validation data)模型评价6：Box-Cox检验,10,来源：Anderson etc.(2007), Practitioners guide to GLM,11,模型比较：信息准则AIC或BIC的值越小越好。误差平方和的比较？,12,GLM的优缺点,优点：统计检验处理相关性和交互作用（见下页）现成软件缺点：无法处理加法和乘法的混合模型参数模型，函数形式有限寻找交互项：耗时,13,费率约束： A区域的费率系数不超过1.

4、20 B区域的费率系数保持在当前水平1.10不变如何解决？传统方法：方法 2：抵消项方法 3：一般约束条件下的广义线性模型,14,费率约束的处理,费率约束的处理：抵消项例：区域A和B的费率系数分别限定为1.2和1.1，区域C和D不受约束，另一个费率因子为性别。假设不存在其他费率因子。,15,权重与抵消项的关系：泊松回归为例：因变量：索赔次数(C) 权重：无抵消项：log(风险单位数)因变量：索赔频率(F) 权重：风险单位数(e) 抵消项：无,16,费率约束情况下，何时不宜使用抵消项？例：公司希望开拓高端住宅保险市场，措施之一是适当降低其费率问题：保额与区域高度相关应用抵消项

5、的结果：区域因子会调整，使得高端住宅的费率仍然较高解决途径？方法3，一般约束条件下的广义线性模型,17,18,方法3 ：一般线性约束下的费率厘定,约束条件：,参数估计：,GLM的推广与应用,分布假设的推广过离散：混合泊松分布：泊松-逆高斯，泊松-对数正态零膨胀：零膨胀模型长尾：对数正态，帕累托 0-1之间取值的变量： Beta分布,19,广义可加模型（Generalized Additive Models，GAM）GAMLSS模型（GAM for Location, Scale and Shape),20,神经网络模型,21,神经网络模型的优点：广义线性模型的推广。非线性

6、。无需事先指定解释变量与因变量之间的函数关系。可以以任意精度逼近任意的连续函数预测效果通常要优于常用的广义线性模型，但有例外,22,神经网络的缺陷：缺乏进行统计推断和模型检验的统计理论模型参数不易解释预测过程类似于一个黑箱有可能会引入不必要的交互项，导致过拟合。,23,回归树优点：无需对因变量和解释变量之间的函数关系作出假设可以方便地处理交互作用缺点：拟合值是分段常数，不大可能产生很好的拟合效果。,24,最小偏差法及其推广（下页）优点：建立加法和乘法的混合模型缺点：没有严格的统计检验,25,26,应用案例,来源： Ismail et al.(2007) 和Cheong et al.(2008) 马来西亚车险汇总数据,27,28,广义线性模型的参数估计值,29,广义线性模型的拟合结果比较,30,回归树的结果,31,模型的误差平方和比较,32,费率约束约束：下述三个类别的预测值落在 0.01, 0.03。,33,对选定的三个风险类别约束前后的索赔频率预测值,约束：索赔频率的拟合值要落在区间0.01, 0.03内,34,对所有风险类别约束前后的索赔频率预测值,约束：索赔频率的拟合值不超过0.05,小结,预测精度：神经网络模型方便性、实用性、可解释性：泊松回归伽马回归 Tweedie回归 Logistic回归，Beta回归,35,谢谢！,36,

展开阅读全文