数量方法(串讲版仅供参考).doc

资源描述

《数量方法(串讲版仅供参考).doc》由会员分享，可在线阅读，更多相关《数量方法(串讲版仅供参考).doc（12页珍藏版）》请在金锄头文库上搜索。

1、数量方法第一章数据的整理和描述1、数据的图形显示方法：频率直方图、饼形图、条形图、柱形图、散点图、折线图、曲线图、茎叶图。（P8-15）重点频率直方图、散点图和茎叶图。2、平均数。平均数等于全体数据的总和除以数据的个数。(P16)平均数= 若，x1，x2，xn，则这组数据的平均数据，记为，为= (x1+x2+xn)/n=xi3、中位数。将数据集按上升顺序排列，位于数列中间的数值成为该数据集的中位数。4、平均数、中位数和众数的关系。（1）对于单峰对称直方图，平均数、中位数和众数应当完全相同，位于直方图的正中间。（2）对于峰值偏向左边的单峰非对称直方图，一般来说，平均数最大，众数最小，中位数位于

2、平均数和众数之间。（3）对于峰值偏向右边的单峰非对称直方图，一般来说，平均数是最小的，众数是最大的，而中位数位于两者之间。（P20-21）5、极差。最简单、最直观的度量数据离散程度的方法或许应当是数据集中最大数值与最小数值的差，称为极差（或全距），记为R。即：极差R=最大值-最小值。极差越大，说明数据散布的范围越广，即数据越分散;极差越小，说明数据越集中。(P24)6、四分位点和四分位极差。四分位点是把数据集先进单位发为四部分的那些数值。四分位点共有三个，分别称为第一四分位点（记为Q1），第二四分位点（记为Q2），第三四分位点（记为Q3）。在计算四分位点之前，应先将数据集按上升顺序重新排列。(

3、P25)7、方差和标准差。2=(xi-)28、变异系数。V=/100%。例：Q1=(n+1)/4 Q3=3(n+1)/4。10个家庭人均月收入数据如下：原始数据：1500 750 780 660 1080 850 960 2000 1250 1630排序： 660 750 780 850 960 1080 1250 1500 1630 2000位置： 1 2 3 4 5 6 7 8 9 10Q1=10+1/4=2.75=750+0.75(780-750)=772.5Q3=3(10+1)/4=8.25=1500+0.25(1630-1500)=1532.5第二章随机事件及其概率1、概率的乘法公

4、式。由条件概率我们得到概率的乘法公式：设A、B为两个事件，若P（B）0，则P(AB)=P(B)P(A|B);若P(A)0，则P(AB)=P(A)P(B|A)。（P52）。2、事件的独立性。如果事件A和事件B满足P(AB)=P(A)P(B)，则称事件A与事件B独立。（P53）3、全概率公式。P(B)=(Ai)P(B|Ai)。一般来说，设事件A1，A2,，An两两互斥，A1+A2,+A=（满足这两个条件的事件组称为一个完备事件组）且P(Ai)0，i=1,2, ,n，则对于任意事件B有P(B)=(Ai)P(B|Ai)，该公式称为全概率公式。（P56）4、贝叶斯公式。P（Ai|B）=P（Ai）P(B|

5、Ai)/ (Aj)P(B|Aj)。设事件A1，A2,，An两两互斥，A1+A2,+A=（满足这两个条件的事件组称为一个完备事件组）且P(Ai)0，i=1,2, ,n。将等式P(Ai|B)=P(AiB)/P(B)=P(Ai) P(B|Ai)/P(B)。i=1,2,3,4。推广并将全概率公式代入，得到下面的结果：对任一事件B，如果P(B)0，则有P（Ai|B）=P（Ai）P(B|Ai)/ (Aj)P(B|Aj)。第三章随机变量及其分布1、离散型随机变量的数学期望。如果X为一个离散型随机变量，它的分布律为P(X=xi)=pi;设g(X)为X的一个函数，则随机变量g(X)的数学期望为：Eg(X)=(

6、xi)P(X= xi)= ( xi) pi。随机变量X的函数g(X)的数学期望可以看成是g(X)在大量重复试验下所有取值的平均值。当g(X)=a+bx时（其中a和b都是常数），我们有E(a+bX)=a+bE(X)，当b=0时，我们有E(a)=a，即一个常数的数学期望就是它自己。（P67-68）2、离散型随机变量的方差。对随机变量的离散程度的一个试题就是方差。高离散型随机变量X具有分布律P(X=xi)=pi，i=1，2，它的数学期望为，则E(X-)2=(xi-)2 pi。计算离散型随机变量X的方差还有一个常用的公式：设X具有分布律P(X=xi)=pi，i=1，2，则X的方差为DX=E(X2)-(

7、EX)2=xi2pi-( xipi)2。（P69）设a、b为常数，X为离散型随机变量，则D(a+bx)=b2DX特别地，当b=0时，D(a)=0，即常数（作为特殊的随机变量）的方差等于0。（P69）3、常用离散型随机变量。（1）两点分布或（0-1）分布。设随机变量X只可能取0与1两个值，它的分布律是P(X=k)=pk(1-p)1-k，k=0,1(0P0）的泊松分布，记为Xp()泊松分布XP()的数学期望和方差分别为：E(X)= ，D(X)= 。(P72)4、连续型随机变量的数学期望和方差。设X是一个连续型随机变量（1）X的均值，记为，就是X的数学期望，即=E(X);（2）X的方差，记为D(X)

8、或2，则（X-）2的数学期望，即D(X)=E（X-）2，方差的另一个等价表达式为：D(X)=E(X2)2。（3）X的标准差，记为，是X的方差2的平方根。（P79）5、关于连续型随机变量的均值和方差也具有与离散型随机变量的均值和方差同样的性质，我们把这些性质总结概括如下：设X为一个连续型随机变量，具有均值x和方差2x，设a和b为两个常数，则：（1）E(a+bx)=a+bE(x)=a+bX。（2）D(a+bx)=bd(X)=b2x;(3)随机变量X-x/x的均值为0，方差为1。（P79）9、常用连续型随机变量。（1）均匀分布。如果随机变量X的概率密度函数为：P(x)=，axb0 其他则称X服从区间

9、a，b上的均匀分布。区间a，b上均匀分布X的数学期望和方差为：E(X)=，D(X)=（b-a）2/12。（2）指数分布。如果随机变量X的概率密度函数为：P(x)= e-kx x00 ， x0则称X服从参数为的指数分布，记为XE()。指数分布XE()的数学期望和方差为：E(X)= ，D(X)= 1/2。10、正态分布。如果随机变量X的概率密度函数为：，x。其中和2为常数，x，0，e=2.71828，=3.14159，则称X服从参数为和2的正态分布，记为XN（，2）。事实上，关于正态分布的参数和2，我们有：（1）EX=，即是正态随机变量X的均值。（2）DX=2，即2是正态随机变量X的方差。（P8

10、1）11、具有不同和2的正态分布概率密度函数的图形：（1）图形是关于x=对称的钟形曲线，且峰值在x=处取得。（2）方差2越小，曲线的峰值就越大，曲线就越瘦长;方差2越大，曲线的峰值就越小，曲线就越矮胖（因为曲线下的面积都是1）。（P81）12、一般正态分布N(，2)的概率密度函数和分布函数与标准正态分布N（0，1）的概率密度函数和分布函数之间存在着以下关系：（1）(x)= 0();（2）(x)= 0;（3）特别地，当N(，2)时，N(0，1)，即服从一般正态分布的随机变量总是可以通过变换成为标准正态分布。（P83）。13、协方差。二元随机变量函数的数学期望的一个特例就是协方差。协方差的计算公式

11、：Cov(X，Y)=E(XY)-E(X)E(Y)（P87-88）。14、相关系数。二元随机变量（X,Y）的相关系数为rx,y=，相关系数的取值范围是：-1rx,y1。rx,y越接近于1，表明X与Y之间的正线性相关程度越强; rx,y越接近于-1表明X与Y之间的负线性相关越强; rx,y越接近于0，表明X与Y之间的线性相关程度越弱;特别地当rx,y=0时，X与Y不相关。（P89）15、随机变量的线性组合。无论X与Y是离散型随机变量还是连续型随机变量，都有以下结论：设X、Y为随机变量，a和b为常数，则线性组合aX+bY也是随机变量，并且（1）E(aX+bY)=aE(X)+bE(Y);（2）D(aX

12、+bY)=a2D(X)+2abCov(X，Y)+b2D(Y);特别地，当Cov(X，Y)=0，即X与Y不相关时，D(aX+bY)= a2D(X) +b2D(Y)。第四章抽样方法与抽样分布1、概率抽样方法。（1）简单随机抽样也称纯随机抽样，是其他抽样方法的基础。简单随机抽样有两种抽取单元的方法：重复抽样和不重复抽样。（2）系统抽样也称等距抽样或机械抽样。系统抽样的优点：简便易行，当样本量很大时，简单随机抽样要逐个使用随机数字表选是相当麻烦的，而系统抽样有了总体单元的排序，只要确定抽样的起点和间隔后，样本单元也就随之而定，而且它可以充分利用各种现成的排列顺序，比较方便。系统抽样的样本一般在分布比

13、较均匀，因此估计的误差通常要小于简单随机抽样。缺点：总体单元的标志值具有周期性的波动，而抽样的间隔又恰巧与同期波动的间隔相一致，在这种情况下抽样的效果就会很差。（3）分层抽样。分层抽样也称分类抽样。分层抽样优点：分层抽样除了获得总体的估计值以外，还可以用来对各层的子总体进行估计。分层抽样可以按自然的地区或行政系统分层，使抽样的组织和实施比较方便。分层抽样的样本分布在各个层内使样本的分布在总体内比较均匀。适当的分配各层样本可以较大地提高抽样的精度。缺点：必须胡分层信息和各层单元比例，分层以后如何抽选仍比较复杂。（4）整群抽样。在总体中由若干总体单元自然中人为地组成的群体称作群，抽样时以群作为抽样

14、单位而不是以总体单元作为抽样单位对抽中各群的所有总体单元进行观察，这种抽样称作整群抽样。整群抽样的优点：不需要有总体单元的具体名单而只要有群的名单就可抽样，而群的名单比较容易得到。整群抽样时群内各单元比较集中，对样本进行调查比较方便，节约费用。缺点：由于抽取的样本群中各单元比较集中，各单位的标志值之间的差异比较小，而不同群之间各单元标志值的差异比较大，因此总的样本中各单元的分布不如简单随机抽样均匀，因此抽样误差会在于简单随机抽样。（P106-111）2、无回答问题对估计推断产生的影响。（1）由于无回答而使有效的样本量减少，从而使抽样误差增大，达不到原抽样设计时调查精度的要求。（2）由于无回答而

15、带来俺是的偏误，而且这种偏误并不会由于样本量增大而减少。（P114）3、处理无回答的常用方法。（1）注意调查问卷的设计和加强调查员的培训。（2）进行多次访问。（3）替换无回答的样本单元。（4）对存在无回答的结果进行调整。（P115-116）4、中心极限定理。中心极限定理证明了当样本容量n增大时，不论原来的总体是否服从正态分布，其样本均值将趋向正态分布。研究对象的总体分布不一定是正态分布，但只要样本足够大其样本均值趋向正态分布，从而可用于抽样的各种估计和检验。大量实践和模拟证明：随着n的增大，样本均值趋向于正态的速度是相当快的，当N大于等于30时，均值就可以挖地服从正态分布。（P123）5、几个重要的小样本

展开阅读全文

数量方法(串讲版仅供参考).doc

最新文档