《SAS基础与金融计算5课堂PPT》由会员分享,可在线阅读,更多相关《SAS基础与金融计算5课堂PPT(26页珍藏版)》请在金锄头文库上搜索。
1、SAS基础与金融计算游家兴厦门大学经济学院计统系1上节课上机操作(1)p对上节课生成的最终数据集对上节课生成的最终数据集total进行如下操作:进行如下操作:n(1)剔除金融业上市公司;)剔除金融业上市公司;n(2)剔除每股收益为负的上市公司;)剔除每股收益为负的上市公司;n(3)由于数据集中年涨跌幅采用百分比表示,建立一)由于数据集中年涨跌幅采用百分比表示,建立一个新的变量,采用小数表示。个新的变量,采用小数表示。n(4)建立一个新的变量,表示除第一大股东外其它股)建立一个新的变量,表示除第一大股东外其它股东所持有的股份比例。东所持有的股份比例。2(1)剔除金融业上市公司)剔除金融业上市公司
2、p第一步:第一步: 运用运用substr语句语句pData test; set total; code=substr(code,1,6); Run;3p第二步:第二步: nData temp1; set test; if code=000562 or code=000001 or code=000563 or code=600015 or code=600016 or code=600030 or code=600036 or code=600816 or code=600000 or code=601998 or code=601328 or code=601166 or code=6013
3、18 or code=601398 or code=601628 then delete; Run; 4(2)剔除每股收益为负的上市公司)剔除每股收益为负的上市公司pData temp2; set temp1; if eps=0 ; Run;5(3)建立新变量:用小数表示的涨跌幅)建立新变量:用小数表示的涨跌幅pData temp3; set temp2; re2=re/100; Run;6(4)建立新的变量表示其它股东持股比例)建立新的变量表示其它股东持股比例pData temp4; set temp3; ratio2=1-ratio/100; Run;7本节课上机作业(2)p公共信箱下载数
4、据集公共信箱下载数据集test1和和test2,运用,运用SAS将将test1和和test2纵向拼成新的数据纵向拼成新的数据test。p根据股票收益率大小将根据股票收益率大小将test分成四个组,并形成四分成四个组,并形成四个子数据集:个子数据集:tmp1,tmp2,tmp3,tmp4。p在数据集在数据集test中中,第一大股东持股比例在第一大股东持股比例在50%以上以上且每股收益超过且每股收益超过1元的公司有多少家?元的公司有多少家?8描述统计分析描述统计分析 常见的数据统计描述量及意义常见的数据统计描述量及意义 (1)(1)表示分布平均水平和位置的特征量表示分布平均水平和位置的特征量: :
5、 均值均值:数据的平均值数据的平均值Mean 众数众数:观测值中出现最频繁的数值观测值中出现最频繁的数值Mode 中位数中位数:观测值排序中处于中间位置的值观测值排序中处于中间位置的值Median 百分位数百分位数:中位数的推广中位数的推广P1、P33、P999 (2)(2)表示分布离散程度的特征量表示分布离散程度的特征量 标准差标准差 Std 方差方差 Var 变异系数变异系数 CV 标准误标准误 STDEER10 (3 3)表示形状的特征量)表示形状的特征量: :偏度和峰度偏度和峰度 偏度(偏度( Skewness ):): 偏度主要用于判断分布形状是否对称:偏度主要用于判断分布形状是否对
6、称: 若若g1=0,则对称;,则对称; 若若g10,则分布右偏(正偏);,则分布右偏(正偏); 若若g10,表示变量分布比正态分布更集中,分布呈,表示变量分布比正态分布更集中,分布呈尖峰状态,平均数的代表性较好;尖峰状态,平均数的代表性较好; 若若g20,表示变量分布比正态分布更分散,分布呈,表示变量分布比正态分布更分散,分布呈平坦峰,平均数的代表性较差。平坦峰,平均数的代表性较差。12 SAS中可以对数据进行描述统计分析的过程步有中可以对数据进行描述统计分析的过程步有很多,其中两个最常用的过程步是:很多,其中两个最常用的过程步是: (1)MEANS过程(均值过程)过程(均值过程) (2)UN
7、IVARIATE过程(单变量过程)过程(单变量过程)13 MEANS过程用来对数据集中的数值变量计算过程用来对数据集中的数值变量计算简单描述统计量。该过程由下列语句控制:简单描述统计量。该过程由下列语句控制:PROC MEANS options statistics-keywords; VAR variables; BY variables; CLASS variables; OUTPUT OUT=SAS-data-set output-statistics;Run;1. MEANS过程过程14(1)PROC MEANS语句语句 PROC MEANS options statistic-key
8、words options :DATA=SAS data set,即,即用以说明用以说明过程分析处理的数据集的名字,若省略,则用最过程分析处理的数据集的名字,若省略,则用最近操作的近操作的SASSAS数据集;数据集; statistic-keywords:在:在MEANS过程中指出你过程中指出你需要计算哪些统计量。需要计算哪些统计量。15 N,MEAN,STD,MIN,MAX,SUM, Variance,CV,STDERR,T,PRT,Range, SKEWNESS,KURTOSIS,CLM,LCLM,UCLM,Maxdec T:检验总体平均值是否为检验总体平均值是否为0的的T统计量的值统计量
9、的值 PRT:大于大于T的概率的概率 Maxdec=n:指定打印统计量的小数位的位数指定打印统计量的小数位的位数 如省略不写,如省略不写,SAS将固定输入默认的最常见的几个将固定输入默认的最常见的几个统计量。统计量。该过程可计算如下统计量:该过程可计算如下统计量:16VAR variables 规定要计算描述性统计量的规定要计算描述性统计量的数值变量数值变量及及顺序顺序。 若省略该句,则对除若省略该句,则对除BY、CLASS语句中列出的语句中列出的变量之外所有数值变量计算描述性统计量。变量之外所有数值变量计算描述性统计量。(2)VAR语句语句17(3)BY语句语句 BY variables;
10、使用使用BY语句可以用语句可以用BY变量定义的观测组分别变量定义的观测组分别计算其相应的描述统计量。当使用计算其相应的描述统计量。当使用BY语句时,要语句时,要求输入数据集已按求输入数据集已按BY变量排序。变量排序。(4)CLASS语句语句 CLASS variables; 该语句和该语句和BY语句一样,可用语句一样,可用CLASS变量定义的变量定义的观测组分别计算其相应的描述统计量。不同点在观测组分别计算其相应的描述统计量。不同点在于排序要求,于排序要求,CLASS语句不要求数据集事先已按语句不要求数据集事先已按CLASS变量排序。变量排序。18p(5)Freq语句语句 Freq varia
11、ble; 该语句指定一个数值型的变量,它的值表示输该语句指定一个数值型的变量,它的值表示输入数据集中相应观测出现的频数。该变量的值应入数据集中相应观测出现的频数。该变量的值应为正整数。若变量值为正整数。若变量值1或缺失,相应的观测不参或缺失,相应的观测不参加计算统计量。若这个值不是正整数,则取整数加计算统计量。若这个值不是正整数,则取整数部分。部分。19p(5)Weight语句语句 Weight variable; 该语句规定一个数值型的变量,它的值表示相该语句规定一个数值型的变量,它的值表示相应观测的权数。该变量的值应大于应观测的权数。该变量的值应大于0。若变量值。若变量值0或缺失,假定该值
12、为或缺失,假定该值为0。20 OUTPUT OUT=SAS-data-set output-statistics; 该语句要求该语句要求MEANS过程把计算的描述统计过程把计算的描述统计量输出到新的量输出到新的SAS数据集中,并用任选项规定数据集中,并用任选项规定新数据集的名及所包含的变量名。这里:新数据集的名及所包含的变量名。这里: OUT=SAS-data-set:给出由:给出由MEANS过程产生过程产生的输出数据集的名字,若想创建一个永久数据的输出数据集的名字,若想创建一个永久数据集,则必须规定一个两级名字,缺省时,机器集,则必须规定一个两级名字,缺省时,机器默认的数据集名为默认的数据集
13、名为data1等。等。 Output-statistics:规定在新数据集中所要求的:规定在新数据集中所要求的统计量,并规定存放这些统计量的变量名。统计量,并规定存放这些统计量的变量名。 (6)OUTPUT语句语句21Data student; input class sex $ age weight height ;cards; 1 f 15 46 156 1 f 14 41 149 1 m 13 48 155 1 m 14 38 150 2 m 16 55 165 2 f 17 50 160 2 f 16 60 165 2 m 17 65 175 3 f 18 65 165 3 f 17
14、58 160 3 m 18 70 180 3 m 17 68 176;Run;例例22Proc means data= student; var age weight height ;Run;Proc means data= student maxdec=2; var age weight height ; by sex;Run;观察以下几组程序观察以下几组程序23proc means data= student maxdec=2; var age weight height ; class sex;run;proc means data= student maxdec=2; var age
15、weight height ; output out=sta n=num mean=a1 a2 a3 std=b1 b2 b3 max=c1 c2 c3;run;24libname a d:sasdata;proc means data= student maxdec=2; var age weight height ; output out=a.sta n=num mean=a1 a2 a3 std=b1 b2 b3 max=c1 c2 c3;run;25本次课上机作业p公共信箱下载数据集公共信箱下载数据集finance,进行如下操作:,进行如下操作:p(1)计算市场平均股票收益率及其相应的标准差,)计算市场平均股票收益率及其相应的标准差,并将结果生成一个新的数据集;并将结果生成一个新的数据集;p(2)以公司规模为权重计算市场平均收益率;)以公司规模为权重计算市场平均收益率;p(3)将规模分为)将规模分为5组,分别计算各组的平均股票组,分别计算各组的平均股票收益率。收益率。26