基于SVM的我国区域创新能力的甄别的技术研究

上传人:杨*** 文档编号:311471992 上传时间:2022-06-15 格式:DOCX 页数:8 大小:24.77KB
返回 下载 相关 举报
基于SVM的我国区域创新能力的甄别的技术研究_第1页
第1页 / 共8页
基于SVM的我国区域创新能力的甄别的技术研究_第2页
第2页 / 共8页
基于SVM的我国区域创新能力的甄别的技术研究_第3页
第3页 / 共8页
基于SVM的我国区域创新能力的甄别的技术研究_第4页
第4页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《基于SVM的我国区域创新能力的甄别的技术研究》由会员分享,可在线阅读,更多相关《基于SVM的我国区域创新能力的甄别的技术研究(8页珍藏版)》请在金锄头文库上搜索。

1、 基于SVM的我国区域创新能力的甄别的技术研究 孟卫东 阳举谋Reference:文章采用基于统计学习理论的小样本分析方法支持向量机(SVM),构建了我国区域创新能力甄别的SVM模型,对我国区域创新能力进行了甄别。研究表明,各组检验样本的平均正确甄别率都在90%以上,证明支持向量机对区域创新能力具有良好的识别能力,特别是表现出对小样本的适应性,为我国区域创新能力评价提供了新的方法和思路。Keys:区域创新能力:甄别技术:支持向量机一、引言区域创新能力是区域经济增长和竞争的决定性因素,其强弱是衡量一个区域技术创新实力的重要尺度。一个国家、一个地区、一个企业能否在市场竞争中取得优势,在相当大的程度

2、上取决于技术创新能力的大小。如何科学地甄别我国区域创新能力,有利于研究我国区域创新系统的演化规律和落后地区借鉴创新能力较高地区的发展经验,从而促进区域经济协调发展。目前,对我国区域创新能力的定量测定一般局限于参数估计方法(如因子分析法、聚类分析法和主观加权评分法等)。如:侯风华和赵国杰将区域创新能力分为当前创新能力和潜在创新能力,建立了包含22个指标的区域创新能力评价指标体系,对我国东部地区10省市的创新能力进行了评价。孙锐和石金涛以及周立和吴玉鸣运用因子分析法和聚类分析法对2004年中国区域创新能力的数据结构进行深入分析,并得出r基于因子分析法和聚类分析法的排序结果。何亚琼等采用二次相对评价

3、模型对中国31个省市区域创新能力增长效率进行测算,并通过理论分析与实证研究,比较CCR模型与BCC模型的计算结果在衡量增长效率方面的适用性。任胜钢和彭建华运用因子分析法对中国31个省级地进行分析,对比东、中、西部区域创新能力,将区域创新能力与经济发展水平进行相关分析,并提出相关政策建议。事实上,由于我国省级行政区只有31个(基本上属于小样本范畴),同时因为区域创新能力的影响因素众多、关系复杂,因此,采用这些方法得出的分析结果的可靠性和准确性还有待进一步提高。基于此,本文采用基于统计学习理论的小样本分析方法支持向量机,构建了我国区域创新能力甄别的SVM模型,对我国区域创新能力进行了甄别,为我国区

4、域创新能力评价提供了新的方法和思路。二、区域创新能力甄别的SVM模型1,样本集线性可分情形。支持向量机是利用最大间隔思想来降低分类器的vc维,以实现结构风险最小化准则。假定训练样本(Xi,yi),i=l,2,n为样本数,输入集xiRm,m为样本维数,本文代表信息甄别指标的个数;输出集yi-1,0,+1yi=-l,0,+1为分类标号,本文分别代表基于输入集Xi的区域创新能力高低的信息甄别标号,如“领先型区域”(综合因子得分在29分以上)的省市创新能力强,则我们取+1:“追赶型区域”(综合因子得分介于13分29分之间)的省市创新能力一般,则我们取0;“落后型区域”(综合因子得分在13分以下)的省市

5、创新能力弱,则我们取一1。学习目标在于构造一个判别函数g(x)=w,x+b (wx表示向量w ERm与xRm的内积)将训练样本尽可能地正确分类,以实现对来自wwW.lw5u.cOm空间XxY的正确划分,在此基础上寻找最优分类超平面。该平面不但可以将训练样本正确分开,而且使两类分类间隔最大(实现对推广能力的控制),最优分类超平面方程为wx+b=0。通过等比例缩放w和b,对分类超平面做归一化处理,则有:式(l)中等号成立的样本就是支持向量(sv),对应得到的模型称为支持向量机(SVM)。平面w.x+b=l和w´x+b=-l分别为过两类样本中距离最优超平面最近的样本(支持向量)且平行于最

6、优超平面的分类面,其距离叫做分类间隔(Margin)。由于支持向量与最优超平面之间的距离a,为非负的Lagrange乘子,由于它是一个凸二次规划问题,所以存在全局唯一最优解。由式(1)可知,只有支持向量对应的ai才可能大于零(其它样本对应的ai=0),即只选择中国区域创新能力报告中的知识创造能力、知识获取能力、企业创新能力、创新环境以及创新绩效等5个方面来作为区域创新能力高低的信息甄别指标。(2)样本输出集yi的区域创新能力高低的甄别标号确定。基于输入集xi的区域创新能力高低甄别标号的选择:“领先型区域”(综合因子得分在29分以上)的省市创新能力强,则我们取+1;“追赶型区域”(综合因子得分介

7、于13分29分之间)的省市创新能力一般,则我们取0;“落后型区域”(综合冈子得分在13分以下)的省市创新能力弱,则我们取-1,所以我国31个省(市、自治区)创新能力甄别的输出标号见表l。(3)样本设定。由于本文是对我国31个省(市、自治区)区域创新能力的高低进行甄别考察,所以样本容量为i=31。为了实验对比的研究需要,本文选择了训练样本和预测样本相互交换的两组样本:第一组样本的训练样本为2005年2006年的知识创造能力、知识获取能力、企业创新能力、创新环境、创新绩效等5个识别指标组成的输入集(输入集维数m=5)和对应区域创新能力高低的甄别标号形成的输出集来组成的样本,预测样本为2005年20

8、06年的对应输入集和输出集:第二组样本的训练样本为2006年2007年的输入集(输入集维数m=5)和输出集,预测样本为2005年2006年的输入集和输出集来组成的样本。2,支持向量机的核函数及其对应参数选择。(l)最优核函数选择。本文运用的支持向量机实验软件足Li -bsvm -2.8。基于各个核函数都与惩罚因子C有关,所以我们先固定C=100,反复调试各个核函数中的其它对应参数,来对比不同核函数对年报信息的甄别效果,从而选择最优核函数。表2中列出了两组样本的实验对比结果。同时、cv过程能够解决对训练样本的“过拟合”问题,从而提高预测样本对分类识别的准确度,图2显示了cv过程对预测样本两分类效

9、果的改善过程:以上实验对比结果显示:在固定共有惩罚因子(C=100)的前提下,由于选择不同核函数导致SVM对年报信息甄别的效果差异,两组样本的径向基核函数的平均正确识别率最高(82.99%和80.99%),线性核函数的平均正确识别率最低(37%和37.35%)。因此,本部分选择识别能力最强的径向基核函数(RBF)作为最优核函数。(2)最优核函数(RBF)的最优参数选择。在径向基核函数中涉及两个最重要参数:一是惩罚因子C,一是参数y,求解最优惩罚因子C和参数y有多种方法可以选择。我们可以利用交叉比对过程(Cross Validation,cv)来实现最优参数的自动搜索。对于v层(v-fold)交

10、叉比对过程,首先将训练样本等容量地分成v个子集,第i个子集通过已经被余下的(v-l)个子集训练过的分类器进行反复测试,选取测试正确识别率最高的(c,y)组合作为最优参数。交叉比对过程可由网格搜索法(Grid-search Appr-oach)来实现。网格搜索法是按指数(Exponential)成长方式增加或减少参数数值来进行试算(如C=2-5,2-3,215、y=2_b,2一l3,23),将C和y分别取N和M个值,用NxM个(C,y)组合来训练不同的SVM,在NxM个(C,y)组合中选取最高推广识别率的(C,y)组合作为最优参数。富有效率的网格搜索过程分两步来实现:第一步是粗搜索(在所有网格中

11、近似搜索识别精度最高的(C,y)组合);第二步是精搜索(在搜索到的识别精度最高的(C,y)组合的邻域内进一步搜索精度更高的(C,y)组合)。3,研究结果。确定最优核函数及对应最优参数后,运行预测子模块(Svm Predict)得到最优预测结果。本文列出了两组来自W样本中对预测样本的实际结果和预测结果对比表3,以便考察支持向量机对区域创新能力进行识别的能力。四、结论支持向量机是一种最新机器学习方法,它利用靠近边界的少数向量构造最优分类超平面,使学习机器与有限训练样本相适应,实现良好泛化能力。目前,国外对支持向量机的研究方兴未艾、发展迅猛,已经成功应用于人脸识别、语音识别、医疗诊断擞据挖掘等方面。

12、本文通过支持向量机对区域创新能力的识别进行了实证研究,得出以下结论。1,支持向量机在区域创新能力识别中的实证研究效果良好,两组样本的正确识别率都为93.55%,表现出支持向量机对有限样本的良好泛化能力(特别是对小样本的适应性),证实支持向量机对区域创新能力评价指标信息具有良好的甄别能力。同时,也证实本文所采用的区域创新能力评价指标体系具有一定的合理性和科学性。2,支持向量机在区域创新能力识别预测中存在着一定的误识率(两组样本均为6.45%),证实了所采用的区域创新能力指标体系存在着一定程度的问题,干扰了支持向量机对相关信息的甄别能力。3,通过训练样本和预测样本实验结果的对比分析发现,训练样本正

13、确识别率(100%)均高于预测样本正确识别率(93.55%),说明支持向量机的推广能力有待进一步改善。支持向量机的识别效果取决于核函数及其最优参数的选择,因此应针对自主创新应用领域对支持向量机作进一步深入研究(包括:核函数的构造与选择、惩罚函数的改进、优化算法的实现过程,以及优化支持向量机的分类性能和信息甄别能力),进一步提高支持向量机对区域创新能力的识别能力。4,通过少数错误识别结果的信息甄别指标与绝大多数正确识别结果的信息甄别指标的对比分析发现,错误识别结果的信息甄别指标存在着一定的异常值,这些异常值往往是由地区的相关经济政策变化等影响因素(如重庆设立直辖市)造成的。因此,建立更全面、更科

14、学并且考虑动态变化的区域创新能力的信息甄别指标体系,会进一步改善支持向量机的识别效果。Reference:1,侯风华,赵国杰,我国东部省市的区域创新能力评价研究,科学管理研究,2008,26(2):21-2 3,2,孙锐,石金涛,基于因子和聚类分析的区域创新能力再评价,科学学研究,2006,24(6): 986-990.3,周立,吴玉鸣,中国区域创新能力:因素分析与聚类研究兼论区域创新能力综合评价的因素分析替代方法,中国软科学,2006,24(8):9 6-103,4,何亚琼,秦沛,苏竣,中国31省市区域创新能力增长效率评价研究,哈尔滨工业大学学报,2006,38 (1):101-104,5,任胜钢,彭建华,基于因子分析法的中国区域创新能力的评价及比较,系统工程,2007,25(2):87-92,6. Cortes C, Vapink V.Support Vector Net-works. Machine Learning, 1995, 20(3): 273-297.作者简介:孟卫东,重庆大学经济与工商管理学院教授、博士生导师;阳举谋,重庆大学经济与工商管理学院博士生。收稿日期:2009-12-10。 -全文完-

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号