数据分析师知识分类总结讲述

资源描述

《数据分析师知识分类总结讲述》由会员分享，可在线阅读，更多相关《数据分析师知识分类总结讲述（74页珍藏版）》请在金锄头文库上搜索。

1、数据分析师知识分类总结 C1 统计基本概念篇 1. 异常值指什么？请列举1种识别连续型变量异常值的方法？ 1）异常值OUTLIER:一组观测值中与平均值的偏差超过两倍标准差的测定值高度异常的异常值：与平均值的偏差超过三倍标准差的测定值 2）判断异常值的规则：标准差已知：奈尔（NAIR）检验法标准差未知：T检验法，格拉布斯(GRUBBS)检验法，风度检验法，狄克逊(DIXON)检验法，偏度检验法 3）盒形图用的比较多箱线图箱线图（或称箱形图）能在同一张图上体现多个距和四分位数， “箱”显示出四分位数和四分位距的位置，“线”则显示出上、下界 2. 数据标准化技术（1）总和标准化

2、。分别求出各要素所对应的数据的总和，以各要素的数据除以该要素的数据的总和，即（2） 2.数据标准化技术 3.缺失值处理方法 1)直接丢弃含缺失数据的记录如：个案剔除法，这种方法却有很大的局限性。它是以减少样本量来换取信息的完备，会造成资源的大量浪费，丢弃了大量隐藏在这些对象中的信息。当缺失数据所占比例较大，特别是当缺数据非随机分布时，这种方法可能导致数据发生偏离，从而得出错误的结论。 2)补缺 A. 用平均值来代替所有缺失数据：均值替换法 B. K -最近距离邻居法：先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的 K个样本，将这K个值加权平均来估计该样本的缺失数据。 C.用

3、预测模型来预测每一个缺失数据：该方法最大限度地利用已知的相关数据，是比较流行的缺失数据处理技术。如：回归替换法弊端： A 容易忽视随机误差 B 研究者必须假设存在缺失值所在的变量与其他变量存在线性关系 4.常用的抽样方法有哪些 1. 简单抽样即简单随机抽样，指保证大小为N的每个可能的样本都有相同的被抽中的概率。 2. 系统抽样将总体中的各单元先按一定顺序排列，并编号，然后按照不一定的规则抽样。其中最常采用的是等距离抽样，即根据总体单位数和样本单位计算出抽样距离（即相同的间隔），然后按相同的距离或间隔抽选样本单位。例如：从1000个电话号码中抽取10个访问号码，间距为100，确定起

4、点（起点间距）后每100号码抽一访问号码。 3. 分层抽样是把调查总体分为同质的、互不交叉的层（或类型），然后在各层（或类型）中独立抽取样本 4.整群抽样（CLUSTER SAMPLING）（层层深入抽样，不断缩小抽样的范围） 5.统计学基础 1）随机变量均值，方差，标准差 2）方差：用来表示分布的散步大小 3）标准差：用表示，表示分布散步大小 6.常用分布 1）离散变量-二项分布记为b(n,p) 均值：E(x)=np 方差：Var(x)=np(1-p) 标准差： 2）离散变量-泊松分布 3）连续型随机变量-正态分布 7.统计定理 8 假设检验 C2 机器学习的数学基础范数：向量的

5、范数可以简单形象的理解为向量的长度，或者向量到坐标系原点的距离，或者相应空间内的两个点之间的距离。向量的范数定义：向量范数可简单理解为向量的长度，或者向量到坐标系原点的距离，或者相应空间内的两个点之间的距离向量范数性质：向量范数是一个函数|X| 满足非负性|X| = 0，齐次性|CX| = |C| |X| ，三角不等式|X+Y| = |X| + |Y| L1 范数: |X|为 X 向量各个元素绝对值之和。 L2 范数: |X|为 X 向量各个元素平方和的开方，L2 范数又称 EUCLIDEAN 范数或者 FROBENIUS 范数 LP 范数: |X|为 X 向量各个元素绝对值 P 次

6、方和的 1/P 次方 L范数: |X|为 X 向量各个元素绝对值最大那个元素，如下：各类距离意义与Python实现闵可夫斯基距离(Minkowski Distance) - 闵式距离两个 n 维变量 A(x11 ,x12 ,x1n )与 B(x21 ,x22 ,x2n )间的闵可夫斯基距离定义为：欧式距离 from numpy import * vector1 = mat(1,2,3) vector2 = mat(4,5,6) print sqrt(vector1-vector2)*(vector1-vector2).T) 曼哈顿距离二维平面两点 N维向量 from numpy im

7、port * vector1 = mat(1,2,3) vector2 = mat(4,5,6) print sum(abs(vector1-vector2) 切比雪夫距离(Chebyshev Distance) from numpy import * vector1 = mat(1,2,3) vector2 = mat(4,7,5) print abs(vector1-vector2).max() 夹角余弦机器学习中用来衡量样本向量之间的差异 from numpy import * cosV12 = dot(vector1,vector2)/(linalg.norm(vector1)*li

8、nalg.norm(vector2) ) print cosV12 汉明距离（Hamming distance）定义：两个等长字符串 s1 与 s2 之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。例如字符串“1111”与“1001”之间的汉明距离为 2。 from numpy import * matV = mat(1,1,0,1,0,1,0,0,1,0,1,1,0,0,0,1,1,1) smstr = nonzero(matV0-matV1); print shape(smstr0)0 杰卡德相似系数(Jaccard similarity coefficient) （1）杰卡德相似系数两个集合 A 和 B的交集元素在 A，B的并集中所占的比例，称为两个集合的杰卡德相似系数，用符号 J(A,B)表示（2）杰卡德距离

展开阅读全文