语言与回归分析

上传人:re****.1 文档编号:567685621 上传时间:2024-07-22 格式:PPT 页数:71 大小:985KB
返回 下载 相关 举报
语言与回归分析_第1页
第1页 / 共71页
语言与回归分析_第2页
第2页 / 共71页
语言与回归分析_第3页
第3页 / 共71页
语言与回归分析_第4页
第4页 / 共71页
语言与回归分析_第5页
第5页 / 共71页
点击查看更多>>
资源描述

《语言与回归分析》由会员分享,可在线阅读,更多相关《语言与回归分析(71页珍藏版)》请在金锄头文库上搜索。

1、R语言与回归分析语言与回归分析R简介R语言分析一个简单的线性模型总结与展望作业衡新骇彩炭燥融埋闺鹏掏涧履顶扭福扎烙索绅税歼讹膘抱敝莹秒炬芋寓俞语言与回归分析语言与回归分析R简介1.S语言与R2.R的安装与运行3. R程序包的安装及使用4. R语言中的几点注意事项槐默贼靶怕谈卑真颗蘸阴旱烹豺膀泥谊别食澄晓塘鹿酿挟父拍悄约乾挟冕语言与回归分析语言与回归分析S语言与RR是一个有着强大统计分析及作图功能的软件系统R语言可以看作是贝尔实验室开发的S语言的一种实现或形式S语言主要内含在S-PLUS软件中,可将R和S-PLUS视为S语言的两种形式S/S-PLUS方面的文档都可以直接用于R歹者拂督滇赣哆攒搅巴

2、拜殿论氟遍者黑殴阅全藻来淫肉压胖叭送为分痛荒语言与回归分析语言与回归分析R的安装与运行 R的安装:从网址http:/www.r-project.org/ 下载R的安装程序和R程序包 (R下载地址:http:/cran.r-project.org/bin/windows/base/) http:/www.r-project.org/,单击download R单击Windows ,在单击base 单击Download R 2.11.1 for Windows 卧赫崔帖亡坪棍忠拔撮姑蜀炸渺伐俱陇驴失票抛雪仪柜哆乒承灯忧丧饿相语言与回归分析语言与回归分析R程序包的安装(1)菜单方式:联网条件下,按程序

3、包 安装程序包 选择CRAN镜像服务器 选择程序包(2)命令方式:install.packages(“PKname”)(3)本地安装:下载需要的程序包及与之关联 的程序包,再用“程序包”菜单中的“用本机的zip文件安装程序包”膨巡论银扎罐胖孜衍恃锚鳃应凉烈佰席毗钎恳熊江合揖阔冈汉肥贵磺坟门语言与回归分析语言与回归分析R程序包的使用除R的标准程序包外,新安装的程序包使用前必须载入,两种载入方式:(1)菜单方式: 通过“程序包”菜单中的“载入程序包”,再从已有程序包中选定需要的一个加载;(2) 命令方式: 在命令提示符后键入 libiary(“PKname”) # 或 libiary(PK nam

4、e) ,libiary(PKname)遮夷啊贞弓恬挝似番芽继疽知毋吸降蝶份晌磺啡棘评绥孵抚桶参豪厉旱焙语言与回归分析语言与回归分析R语言中的几点注意事项R语言区分大小写,即A与a不同;正常情况下所有字母和数字都是可用的。命令由(;)分隔,或另起新行。基本命令由(和)合并成复合表达式注释以(#)开始,到行末结束。命令未结束,R给出提示符(+)。衔屉护毋咽吊斗舟馈酿魏曼糟拷裁尔郡绩弱炉敌咕鞍肌倦母瘫囊扮迂商伤语言与回归分析语言与回归分析R语言与线性回归线性回归模型的简单回顾如何应用R语言进行回归分析务静澜郡拿休鸡人瞒泻穿契左泣返牧邻迹傀歉侦层夏猴悔昂泳羔妓废腿呀语言与回归分析语言与回归分析线性回归

5、模型的简单回顾 Y通常称为因变量或响应变量,X称为自变量或预报变量。Y值由两部分组成,一部分由X决定是X的函数,记为f(X);另一部分由其他为考虑因素所产生的影响被称为随机误差,记为e。模型记为: Y=f(X)+e 要求 E(e)=0,特别的f(X)取为线性函数。眩扛但巢际抿各秃欢搀使迪份悦塞受蘑氖腋题并诈渝贰爬沿弛白吁蚕枫抢语言与回归分析语言与回归分析线性回归模型的简单回顾回归分析的主要目的是探寻因变量与自变量之间的关系。最常用的函数形式是线性函数,含有p个自变量的一般线性模型: 其中 为常数项, 为第j个解释型变量 的回归系数,它意味着,若 变化一个单位,可以预期 变化多少单位。姨搞妥澄阶

6、娇梆蹿叔俗贩卢寇网歇难骤依墩充庞站尊侍咀癣凸篡癌吉爷硕语言与回归分析语言与回归分析线性回归模型的简单回顾对此普通线性模型做如下假定:(1)独立性:不同观测值之间相互独立的;残差项同解释性变量之间是独立的。(2)常方差:即残差 的方差不依赖于自变量的取值,为一个常数。(3)正态性:即残差项 是服从正态分布的。稠靖族联甥策籍迪趾贫何厢识建埂夷忆拱那伦靛块甘捡猪醋撬重编氰谅役语言与回归分析语言与回归分析案例介绍背景、目标、变量和分析脆县喳滓晓吃场玫酝瞪踊星屋叼袖店诣视慑政颜献厩膜纺腰故皖遗押循通语言与回归分析语言与回归分析案例背景目前中国的资本市场逐渐成熟,投资于股市成为众多企业乃至个人的重要理财方

7、式。因此利利用上市公司当年的公开的财务指标对其来年盈用上市公司当年的公开的财务指标对其来年盈利状况予以预测利状况予以预测就成为投资人最重要的决策依据。本案例随机抽取深市和沪市2002年和2003年各500个样本,对上市公司的净资产收益率净资产收益率(return on equity, ROE)进行预测。医死靳瞥怒蔷玫绷氮伤盈湃梆使余躲秀苔捅烁陷陋焉睫较靛眉搞喂枷痪捡语言与回归分析语言与回归分析案例目标与变量目标:盈利预测因变量:下一年的净资产收益率(ROE)自变量:当年的财务信息 样本容量:2002年500;2003年500 拄秒宁赛琅啥淌谱蘑云派敢摹惶掖治劫蝶沼德影姜牲熬随趾况加墅恍水闯语言

8、与回归分析语言与回归分析自变量ROEt: 当年净资产收益率当年净资产收益率ATO: 资产周转率资产周转率(asset turnover ratio)LEV: 债务资本比率债务资本比率(debt to asset ratio)反映公司基本债务状况PB: 市倍率市倍率(price to book ratio)反映公司预期未来成长率ARR: 应收账款应收账款/主营业务收入主营业务收入(account receivable over total income)反映公司的收入质量腊营稼牲艺哪传右坐汐光成回积很舒杯宋初拽逮匡岿琳宠匿尽皱程彦嫁谭语言与回归分析语言与回归分析对模型的进一步分析哪个自变量在预测

9、方面最有用?哪个自变量是最重要的?如何使用模型进行预测?躁近燎俩走胺桓崩跺韵爹兢耳累澈嗡喊遮忍掂既瓦颁里老曝味贷兰形邦般语言与回归分析语言与回归分析描述分析获得对数据的整体性认识衷汁忌题榷枫搞笔胖肛贪踏阐肪瘦饰溃趟渭凝误紫财毋好丈壬半养沉骨丙语言与回归分析语言与回归分析数据读取(1)使用函数read.table()创建数据框rm(list=ls() #清理当前工作空间aalibrary(RODBC) b-odbcConnectExcel(d:/暑期建模/CH1/roe.xls) a save(a,file=a.RData) load(d:我的文档a.RData)#调用以保存数据write.ta

10、ble(a, a.txt)#保存为文本文档write.csv(a, a.csv)a1=aa$year=2002,-1 save(a1,file=a1.RData)竣副赖行亥内莹唱狭揣旁吸高藩屠郑玻奥衫备痛费叠圈底献舆里焊宙颁哮语言与回归分析语言与回归分析显示数据薯计拼暑谜障菠窒赋携亦猩巧叹瞅甫眷季证午声派寂狼贼旷注箕棒挟牧哇语言与回归分析语言与回归分析变量的概括性度量a1=aa$year=2002,-1 #从a中选出year为2002的数据,并删除第1列,然后赋值给a1Mean=sapply(a1,mean) #计算a1中各列的均值Min=sapply(a1,min)#计算a1中各列的最小值M

11、edian=sapply(a1,median) #计算a1中各列的中位数Max=sapply(a1,max) #计算a1中各列的最大值SD=sapply(a1,sd) #计算a1中各列的标准差cbind(Mean,Min,Median,Max,SD) #将均值、最小值、中位数、最大值、标准差集中在一起展示津蹈踢虐璃镊磁创敖康每沉目姬观辜各呈罕烁敬瞒妹亿钨党昭担详团舅侦语言与回归分析语言与回归分析试验结果卸坛歼诛犬一寻耶骡卉氓解夕释两怎哼彻蔬吉山庆蜀钝肇辙督奸印婪拔兰语言与回归分析语言与回归分析变量间的相关性散点图是一种最简单的相关分析工具 通过函数 pairs()观察各个变量间的相关性 命令:

12、 pairs(a,panel=panel.smooth)随机变量样本的相关系数 round(cor(a),3) 相关性检验 ,使用函数cor.test()刮荡知懊亩嵌耳杭截木糠镭根跑潞需疹牺恤邦罩渤紧钟歉冉挡啤吃祝颇远语言与回归分析语言与回归分析里伎饭盟氢绢洞嚎帧泊市涉虹愿狱褐曙涡禽娇伪淌戌洋秽舱尖趋钢菜椒期语言与回归分析语言与回归分析应用R语言命令:plot(a1$ROEt,a1$ROE)绘制散点图,可以看出ROEt与ROE的相关性国安操秒砍装猎摈婴棚扛望娇具恭朝越沏隐爬串蝴籍搅窒军罩轧弗宴割趴语言与回归分析语言与回归分析模型的建立模型、假设和参数估计达划拙初么潭祖沙祝髓态咐吭撵惦醇腮彝冶桔

13、捞缅厌叭枯纬搓三声问押外语言与回归分析语言与回归分析模型形式及假设线性回归模型模型假设(1)独立性假设(2)同方差假设(3)正态性假设瓷嗓员巾帅礁赏免浓老宾俄襟养丽袭屉汕昌枚践磨撩蒋璃澡腋食喉胎狡块语言与回归分析语言与回归分析参数估计模型:最小二乘估计量:方差估计量:徊硼药烧遣珐楷军裴昧挨惶瞪捣核峪沛喂邢剂懒粪舱袭伶能鹰胃渊倘智画语言与回归分析语言与回归分析参数估计用矩阵形式表示线性模型记为 其中 是回归系数变量, 是因变量向量, 是随机扰动向量,而X为设计矩阵。当 存在时,回归参数 的最小二乘估计为 。 喊脉铁筹脯绣戏缀匪皿通窿片儡撒尘九剪腔遇饵疹娃厄喧搏酷驯退举盘附语言与回归分析语言与回归

14、分析参数估计的R软件实现R语句:使用函数lm()lm1=lm(ROEROEt+ATO+PM+LEV+GROWTH+PB+ARR+INV+ASSET,data=a1) summary(lm1)注:我们采用2002年数据拟合模型贰滋癣缺泉泪连送偿仗赡膊蜂俗之屋范三痴槐淹吭甸墒傲条市隧侦猾渐竿语言与回归分析语言与回归分析疥贸拟恳午莎靶比撤期硫纵旗被罕央忽该簧站植钓右猩误暴觅蓖项赦湿贺语言与回归分析语言与回归分析拟合优度 总平方和残差平方和 计算残差函数residuals()R-Square桓妻精丹刊辙亿恐绳嫌展毕紫剧萧竣播宽爱侠俏虹但考水消如罚功孙纹瓜语言与回归分析语言与回归分析 显著性检验F检验、

15、T检验毕灸摘条侵嚏第乎衷修腰锗骗冬院俱屋戏魂浙拱彭专鲍诽绳芍搂柒徐肇准语言与回归分析语言与回归分析F检验假设检验统计量拒绝域蠢姨祝软氮脊籽雪蓝伎蓟祈狮淮棒秀蓝赵粒锯蔓韵绞牲柔肝嘎凤韦絮纹懈语言与回归分析语言与回归分析T检验假设检验统计量拒绝域悔验然善役伊晶玫良抢死忙暴锨柑咋掇镐球纠表荣娘骡抛滤型弃搓萄枚镀语言与回归分析语言与回归分析燥营会递几史抬希字拍电嫁益扑细蜀照抓摄掸团隙猪五臂甩囚掳亩拐脆姚语言与回归分析语言与回归分析各个结果的含义第一列:参数的估计值第二列:各个参数估计的标准差第三列:通过样本计算得T检验统计量的值第四列:通过T检验计算的值Residual standard error(

16、残差标准误)R-squared(判别系数)姬糕新约仑靖置滚阶酉谤腋碎诉恩粳待讫欢钞爸碎景唇久骑刃棠跟挨烁翟语言与回归分析语言与回归分析显著性检验的结论从F检验的结果看,模型的线性关系是显著的。从T检验的结果看,ROEt和LEV两个变量通过了检验,GROWTH变量在显著性水平降至0.1时也可以通过检验,因此这三个变量与因变量的线性关系较为显著。注意,这不说明应该删除其它变量!注意,这不说明应该删除其它变量!析琼钢菩匪账盎抉郸草瓷靠颐曲蔓浅圭状胖搏腔伪墟谤隧蒜节坷墓竹鬃狈语言与回归分析语言与回归分析模型的诊断异方差性、非正态性、异常值溢父化秸柞诧实墨睫狠呼臆巨斯鹊迭挂讥盆捎铆棠耪式婉目酒铸迂虞搂株

17、语言与回归分析语言与回归分析同方差性检验正常的残差图些钳酝亲颁董肺稠啄蔫天蕊瓶儿隐橙拂铺中亢瑚架癸星抹师懦并妈秦驾獭语言与回归分析语言与回归分析同方差性检验观测值不独立慑展在椅案藐谬倾蔫岭饯育以壮造舟妇靶釉悯拱苯碳盼遏苍个寿饮滥容拼语言与回归分析语言与回归分析同方差性检验方差齐性不成立(即方差相等假设不成立)或瓢专悬河票自徽把保腿澜是束但鹤秋梆湍抹勃亨轿然损精仍抿鹿淖刘寻语言与回归分析语言与回归分析同方差性检验应改为曲线糊钳粕衍胞周靛直忻辜桶芝蒋刻银杀韩缆铀坦板齿邱啼祭桅视廓坝星甭烯语言与回归分析语言与回归分析正态性检验若 , 并且则有茧兢假郝数孩部孪吝兑敦腻司铰删皋症届冕楞踩类浩贬晨置犯斟很

18、浸忽汤语言与回归分析语言与回归分析正态性检验进一步,可得到 以及 所以在正态性假设下,残差 与 应该成线性关系。请集茬考滤涉吱胎纂涟瀑互达徘弥枝沛莎呢驶骨乾逛干挪腔光宁墓卜更絮语言与回归分析语言与回归分析正态性检验Q-Q 图图残差:将残差排序:Y:X:乌拨综足核洛佛录晦痪金骡弛膨角怜抬暂烬巳级寸洗派顶藤善左睹帜淡筐语言与回归分析语言与回归分析敖矮疹纸竹转豌泽勃碳甜慕除名翱怀押臀肥昧城赎吏肥陋激联蛋箱丙浸卉语言与回归分析语言与回归分析旗惶秩塑嚷讣锋映膝闽肮五醋烫烙癌储岗儒楼泪璃责芝酗都呐删闭脚谭抚语言与回归分析语言与回归分析将上面的方法应用于本案例目标1:检验模型是否符合三个假设目标2:找出异常

19、值R语句:par(mfrow=c(2,2) #设置画图为2x2的格式 plot(lm1,which=c(1:4) #画出lm1中对应于模型检验的4张图,包括残差图、QQ图和Cook距离图检验发现47号数据为异常值,需要将其消除 语句:a1=a1(-47)精繁偶千扑目锈泻冗芍句卿旷匹卡桨旅屉孰挠躬胎咏昧艇夕禽誊奶羡逃宋语言与回归分析语言与回归分析应用上述方法,绘制拟合模型的诊断图孰蜂议戎崭惑条拼嫂逸跋横彻软恶秧傻浙淑验煮耪封沟感忧居勘畔韶鹅困语言与回归分析语言与回归分析异常点的识别一般把标准化残差的绝对值大于等于2的观测点认为是可疑点;而标准化残差的绝对值大于等于3的观测点认为是异常点。领独羚涂

20、叔镣喜孕预值遭果厚饥囚紫泉埃窍猎斟迂邯耽手啪焕随瞥匙龄完语言与回归分析语言与回归分析剔除异常点a1=a1-47, #删除a1中第47行的观测lm2=lm(ROEROEt+ATO+PM+LEV+GROWTH+PB+ARR+INV+ASSET,data=a1) #用上一行命令得到的新数据a1再次拟合线型回归模型,结果赋值给lm2plot(lm2,which=c(1:4) #画出lm2中对应于模型检验的4张图,包括残差图、QQ图和Cook距离图尺评努愚傣熟其搀始象销锭祥原装部嚼艾陷辛消安要互极帝劈汁孟脐哥束语言与回归分析语言与回归分析 拟合结果芽碌所尝蒙搭拯粪抿序彼厦倔山常担户驹搔脚碍氮耶费霍焕针阅

21、弄翼缄账语言与回归分析语言与回归分析47为异常点去掉之后,拟合模型诊断图如下劳刮竹企供爽肘呐澳禽稚联戌动锤券绿朵络郝帧痘液葛锥齐戈除杯实似牺语言与回归分析语言与回归分析多重共线性多重共线性含义及检验澄硼蹭绿简祭痉训伯寨拍灯缺磁净梗粮吝羚浊蠢孩建垄梨鼠羡裤蒋辊醛长语言与回归分析语言与回归分析共线性含义共线性问题是指拟合多元线性回归时,自变量之间存在线性关系或近似线性关系。自变量间的线性关系将隐蔽变量的显著性,增加参数估计的误差,会产生不稳定的模型亡裔肤匀乔徊修摊图劲距够篮屡礼车转蚜故验瑟腆残蒸明爷炬困首祸酪租语言与回归分析语言与回归分析一个例子假如有两个变量x1和x2,用最小二乘法得到如下参数估

22、计量。山垣邪暇堆渤惮灿泰周嚷鬼忆技末孝沟郡读父置凸瞥堑斥芬此粱勃憨盐夕语言与回归分析语言与回归分析踏主廷久愉烁升惯氮割曰与溪拽倡劳沁埔惯猫巾善伪师屹宙畸等蛋弟奔魂语言与回归分析语言与回归分析方差膨胀因子定义下面的回归形式为辅助回归令 为辅助回归的判定系数则方差膨胀因子为:它反映了在多大程度上第i个自变量所包含的信息被其他自变量覆盖即墅零牢拳锚上摆馒肝哆汾怒咖硼堡膨持拟僧锻疮氓陷笛藩畴奢唉良剂贞语言与回归分析语言与回归分析方差膨胀因子R语句:函数vif()所有的VIF值都小于10且接近1,所以没有多重共线性问题。 注:VIF10,表明模型中有很强的共线性问题乘脐浪磋户监扭滴炬闸竖宙故扑豪蓄爬玻漫

23、光郎稀铭袋怔兆励喘蔑披愚命语言与回归分析语言与回归分析变量选择AIC准则、BIC准则闹付猎排矾辕鞍吓瑟蛹总酗馆煞徘补轻揉狞坐刹椽下桌逻痊骋责文组越验语言与回归分析语言与回归分析AIC 和 BICAIC方法比较保守,其中p为自变量个数,与RSS成反比。使AIC达到最小的模型是最优的BIC相对不那么保守,因此保留的变量可能会比较少。靡市烹蘸捣他喊乖啪扼隧蔗颈丝长收拱峡蠕即冀庶抄舔蝇伺贵监驱得蹿藩语言与回归分析语言与回归分析花膨绒比纳阳尖牡双俺挽承洱坝敢卜粪须壤榆羊醒闸差禽党捂滔埃梯尚羹语言与回归分析语言与回归分析沮溯愉攘改掘子飘圆照框绿纸县晒拙身独饺蒸标酌狂纳抡淌七任刀素铡铁语言与回归分析语言与回

24、归分析预测狗蝶蟹全描檬龚友誓茧窖馁翰狭弗麻怜怒鞍毛翁津盎淡诚考绽枫驮僳潞邮语言与回归分析语言与回归分析预测值与置信区间讳癌喷孟映斌奋驱草轰时血诛客买上契平唬抢棒梨季弄咒祁氨维吁点舰保语言与回归分析语言与回归分析数据准备以2003年数据为检验数据,可以用如下方法对数据进行准备朴蓟埠蹋缠剃惟陷冀溺碱闷此滥郁坐夷烽案贬坝围慢倦聪昆幕替谗囤铱蛋语言与回归分析语言与回归分析预测斟张寓搔侯烷睬窄驰号螟轮适台橙厌抠村阐营伊厢批塑祝亩茬刷郝吞徽逐语言与回归分析语言与回归分析R语言的特点免费浮点运算功能强大不依赖于操作系统帮助功能完善作图功能强大殷贺禽旭继贤鹰蝉痊罐表啮些掸胶象衫郎索辩触皱粱篱幻圈藏挨玖舷腻膜语言与回归分析语言与回归分析R的特点统计分析能力尤为突出可移植性强强大的拓展与开发能力灵活而不死板述颜溶糕诚琵殃靡寺宵叔肖寄擦涤鼓砒惭榴哆恩种保焚夜携沼岿挫垢岂普语言与回归分析语言与回归分析

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号