一种F-scores和SVM结合的客户分类方法①

资源描述

《一种F-scores和SVM结合的客户分类方法①》由会员分享，可在线阅读，更多相关《一种F-scores和SVM结合的客户分类方法①（4页珍藏版）》请在金锄头文库上搜索。

1、2011 年第 20 卷第 1期 http:/www.c-s- 计算机系统应用 Experiences Exchange 经验交流 197一种 F-scores 和 SVM 结合的客户分类方法段刚龙，黄志文，王建仁 (西安理工大学经济与管理学院，西安 710054) 摘要：为了克服现有客户分类方法在假设前提、准确度、泛化能力等方面的不足，提出了一种 F-scores 和 SVM算法相结合的客户分类方法，并把该方法应用到银行信用卡客户分类问题中予以验证。实证分析表明：该方法最终的模型验证准确率可达 95%以上，学习和分类能力良好。关键词： SVM； F-scores；属性

2、选择；客户分类 A Method Combined of Support Vector Machine and F-scores for Customer Classification DUAN Gang-Long, HUANG Zhi-Wen, WANG Jian-Ren (Economics and Management School of Xian University of Technology, Xian 710054, China) Abstract: A method combined of F-scores and support vector machine for cust

3、omer classification was proposed, which can overcome the shortages of the existing customer classification method such as strict hypothesis, poor generalization ability, low prediction accuracy and low learning rate etc., and was applied to the problem of bank credit card customer classification. Em

4、pirical results show the validation accuracies of the final model can achieve 95% or more, which concludes that learning and generalization abilities of this model are excellent. Keywords: support vector machine; F-scores; attribute selection; customer classification1 引言支持向量机 (SVM)是基于统计学习理论的机器学习方法，

5、也是数据挖掘算法研究的热点之一。 SVM 能够较好的解决小样本，非线性，高维数识别和局部极小点等问题，在模式识别等数据挖掘领域应用广泛。详细说来，可以应用于如下领域：人脸检测，故障诊断，分类，回归，聚类，时间序列预测，系统辨识，金融工程，生物医药信号处理，生物信息，文本挖掘，自适应信号处理，剪接位点识别，手写体相似字识别，岩爆预测，缺陷识别，计算机键盘用户身份验证，视频字幕自动定位于提取，说话人的确认等1-5。客户分类问题是当今客户关系管理及信息化技术高度发展形势下的热点问题，这类问题属于数据挖掘技术的应用问题。目前数据挖掘技术在客户分类问题上已有许多解决方法，但是这些方法普遍存在着学习稳定

6、性差、分类准确率不高、泛化能力不强等问题。本文应用 SVM 算法理论，结合 F-scores 方法进行属性筛选，提出了一种基于 F-scores 和支持向量机结收稿时间 :2010-05-11;收到修改稿时间 :2010-06-11 合的客户分类方法，能够解决客户分类中的很多实际问题，弥补了一些现有方法的不足。 2 SVM基本原理支持向量机 (Support Vector Machine， SVM)是Vapnik 等人提出的一种新型机器学习方法，它遵循结构风险最小原则和有限样本假设，克服了传统机器学习 (如神经网络 )过学习、局部收敛、高维灾难等问题，具有较好的学习能力和推广能力。 S

7、VM 的基本思想就是根据结构风险最小化原理 ,构造一个目标函数将两类模式尽可能地区分开来，通常分为两类情况来讨论：(1) 线性可分， (2) 线性不可分。对于线性可分问题，假定总体 D ， , | 1,2,., ( ,PiiDxyi nxR= )qy R ，能被超平面 H： 0wx b+=正确分开，且分类间隔最大。对于线性可分样本( , ), 1, 2,.,iix yi n= 构成造其最优分类超平面可以用如下凸二次规划描述6：计算机系统应用 http:/www.c-s- 2011 年第 20 卷第 1期 198 经验交流 Experiences Exchange,11m

8、in min22Twb wbWWW=(1) s.t.() 11(1,2,.,)iiywx b i n+ = (2) 引入 Lagrange 系数 ai，其对偶形式为： 1,11max ( )2nniijijijaiijaaayx=(3) s.t.10 ( 0; 1,2,., )nii iiya a i n=(4) 求解得到决策函数： 1() sgn ( )nii iif xayxb=+(5) 其中 sgn( )为符号函数， b 为分类域值。对于非线性问题，可通过非线性变换转化为在高维特征空间求取最优分类面。通常采用满足 Mercer 条件的核函数 K(x, xi)来实现这一非线性变换，引入规

9、则化常数 C (C0)，最优分类问题转换为求解二次规划15： 1,11max ( )2nniijijijaiijaaayKx=(6) s.t.10 (0 ; 1,., )nii iiya a C i n=(7) 求解得到相应的决策函数： 1() sgn ( )nii iif xayKxb=+(8) 3 基于 SVM的客户分类 3.1 客户分类问题描述客户分类就是把客户根据某种特征分成若干类，为了描述清楚，我们以两分类为例，这里具体指商业银行信用卡瑕疵客户分类问题。用1Y ,., Tmyy=来表示 m 个样本的类标号，iy k= 用来表示样本 i 属于第 k 类客户，其中， k=1 和 -1。

10、 k 是样本的类别属性，用 k= 1 表示“第一类客户” ，用 k= -1 表示“第二类客户” 。 ijx 来表示第 i 个样本中的第 j 个属性的表达值，j=1,2,n。所有的属性的表达式,()ij m nXx= 可以表示为 11 12 1,2621 22 2,2612 26mm mxx xxx xxx xMMOMLLLL属性1 属性2 属性26(9) 这里，用1 mx x，来分别表示 m 个样本，此处12= , ,., iii inx xx x。运用当中，每一个样本都可以用一个超平面来进行划分，该优化超平面满足将所有的训练数据最大化区分开来的要求。当用该超平面来划分当前的训练集时，可以

11、获得最低的分类错误率。该超平面可以用公式（ 10）来建立模型。 1() ( ( ,) )Lii iif xyKxb= +(10) 此处i 表示权重，每一个支持向量都有一个，b 为超平面的偏置项，所有的支持向量 1, ,L 运算之和即1(,)Lii iiy Kx x=构成超平分类面47。 3.2 基于 F-scores 的输入变量选择给定训练样本 , 1,2, ,knx Rk l = L ，其中属于正类和负类的样本个数分别为 n+和 n- 。则训练数据的第 i 个属性的 F-score 定义为28： () ()22() ()2 () () 2,11)()ii iinnki i ki ik

12、kxx xxFixx xx+ =+ =+(11) 其中， (),iix x+和()ix分别为第 i 个属性在整个数据集上的平均属性值，在正类数据上的平均属性值和在负类数据上的平均属性值； (),kix+为第 k 个正类样本点上第 i 个属性的属性值；(),kix为第 k 个负类样本点上第 i 个属性的属性值。 F 值越大，表明此属性的辨别力越大。选择 F 值大于平均值的属性作为输入属2011 年第 20 卷第 1期 http:/www.c-s- 计算机系统应用 Experiences Exchange 经验交流 199性，其余属性的分辨力较弱，可舍去不同，提高运算效率3,9。

13、对于商业银行信用卡瑕疵客户分类问题，在银行数据仓库中，信用卡客户的数据包括信用卡顾客编号、瑕疵客户、申请书来源、逾期、呆帐、借款余额、退票、拒往记录、强制停卡记录、张数、频率、户籍、都市化程度、性别、年龄、婚姻、学历、职业、个人月收入、个人月开销、住家、家庭月收入、月刷卡额、宗教信仰、人口数、家庭经济、血型、星座等 26 个属性。其中“瑕疵客户”是客户分类的目标属性，其于属性为输入决策属性。为了提高处理效率，通过 F-scores 方法对属性进行属性筛选，根据公式 (3)在训练集上计算所有属性的F 值，并得到平均值为 0.214131 将其设为门阀值。然后取得分大于平均值的属性：强制停卡

14、记录(1.287545)、逾期 (0.949445)、退票 (0.917371)、借款余额 (0.908946)、呆帐 (0.825485)、拒往记录 (0.663530)作为输入变量，在此将其命名为特征属性。 3.3 数据预处理与归一化数据预处理就是将连续属性值离散化，归一化处理是把所有属性的数值都缩放到已知的同一个数量级上，本文将现有数据归一到 0,1上。用 X 表示输入空间，即由每一个样本输入变量值组成， Y 表示输出域，即由每个样本对应的类别属性值组成。11 2 2, , , ,nnYY Y（X ）（X ）, （X ）表示样本。,y 1 1nXR+，。为了获得更好的分类效果，对

15、于每一列输入样本使用如下公式归一化： minmax minij jijjjxxxxx=( 1,2., ; 1,2,.,26)ilj= (12) 其中，ijx 表示第 j 个向量的 i 个样列。ijx 记录ijx 归一化后的值， L 记录样本个数，min jx 指该向量中的最小值。 max jx 指该向量中的最大值。归一化后 0,1ijx 例如年龄、个人月收入、个人月开销、家庭月收入、月刷卡额均等为连续型变量，将其离散化。并对属性根据公式 (4)进行归一化处理。 3.4 核函数确定对于 SVM 算法，常用的核函数有以下四种18： (1) Dot 函数： (, )iiKxx xx= (2) Polynomial 函数： (, ) ( ) 1diiKxx xx=+(3) Neural 函数：( , ) tanh(

展开阅读全文

一种F-scores和SVM结合的客户分类方法①

最新文档