大数据分析报告岗位笔精彩试题目总结材料

资源描述

《大数据分析报告岗位笔精彩试题目总结材料》由会员分享，可在线阅读，更多相关《大数据分析报告岗位笔精彩试题目总结材料（19页珍藏版）》请在金锄头文库上搜索。

1、阿里巴巴1、异常值是指什么？请列举1种识别连续型变量异常值的方法？异常值(Outlier)是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值.常见的异常值检验方法如下：基于统计的方法基于距离的方法基于密度的方法基于聚类的方法基于偏差的方法基于深度的方法t检验：按照t分布的实际误差分布范围来判别异常值，首先剔除一个可疑值，然后按t分布来检验剔除的值是否为异常值。狄克逊检验法：假设一组数据有序x1x2- 划分方法(partitioning method) 基于密度的方法(density-based meth

2、od) 基于网格的方法(gridbased method) 基于模型的方法(modeLbased method)等。其中,前两种算法是利用统计学定义的距离进行度量。常见的聚类方法有：K-pototypes算法，K-Means算法， CLARANS算法(划分方法)，BIRCH算法(层次方法)，CURE算法(层次方法)， DBSCAN算法(基于密度的方法)，CLIQUE算法(综合了基于密度和基于网格的算法)；k-means算法的工作过程说明如下：首先从n个数据对象任意选择k个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度(距离)，分别将它们分配给与其最相

3、似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数.k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。其流程如下：从n个数据对象任意选择k个对象作为初始聚类中心；根据每个聚类对象的均值(中心对象)，计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分；重新计算每个（有变化）聚类的均值（中心对象）；循环、直到每个聚类不再发生变化为止（标准测量函数收敛）0优点：本算法确定的K个划分到达平方误差最小。当聚类是密集的，且类与类

4、之间区别明显时，效果较好。对于处理大数据集，这个算法是相对可伸缩和高效的，计算的复杂度为O（NKt）,其中N是数据对象的数目，K是聚类中心，t是迭代的次数。缺点：1.K是事先给定的，但非常难以选定2初始聚类中心的选择对聚类结果有较大的影响。3 .数据标准化技术是将数据按比例缩放，使之落入一个小的特定区间。去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。常用的方法有：（1）总和标准化。分别求出各要素所对应的数据的总和，以各要素的数据除以该要素的数据的总和，即。=12 ，明，=12一，）4 .缺失值处理方1）直接丢弃含缺失数据的记录如：个案剔除

5、法，这种方法却有很大的局限性。它是以减少样本量来换取信息的完备，会造成资源的大量浪费，丢弃了大量隐藏在这些对象中的信息。当缺失数据所占比例较大，特别是当缺数据非随机分布时，这种方法可能导致数据发生偏离，从而得出错误的结论。2）补缺A.用平均值来代替所有缺失数据：均值替换法，均值替换法也是一种简便、快速的缺失数据处理方法。使用均值替换法插补缺失数据，对该变量的均值估计不会产生影响。但这种方法是建立在完全随机缺失（MCA） R的假设之上的，而且会造成变量的方差和标准差变小。B.K 最近距离邻居法：先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本，将这K个值加权平均

6、来估计该样本的缺失数据。C.用预测模型来预测每一个缺失数据：该方法最大限度地利用已知的相关数据，是比较流行的缺失数据处理技术。如：回归替换法，该方法也有诸多弊端，第一，容易忽视随机误差，低估标准差和其他未知性质的测量值，而且这一问题会随着缺失信息的增多而变得更加严重。第二，研究者必须假设存在缺失值所在的变量与其他变量存在线性关系，很多时候这种关系是不存在的。5 . .Apriori算法和信息熔信息熠是数学中一个抽象的概念，他表示了信息源的不确定度，这里不妨把信息烯理解成某种特定信息的出现概率，当一种信息出现概率更高的时候，表明它被传播得更广泛，或者说，被引用的程度更高。我们可以认

7、为，从信息传播的角度来看，信息炳可以表示信息的价值。支持度：Support(A-B)=P(AUB)。支持度揭示了 A与B同时出现的概率。如果A与B 同时出现的概率小，说明A与B的关系不大；如果A与B同时出现的非常频繁，则说明A与B总是相关的。置信度(Confidence)的公式式:Confidence(A-B)=P(A | B)。置信度揭示了 A出现时，B 是否也会出现或有多大概率出现。如果置信度度为100%,则A和B可以捆绑销售了。如果置信度太低，则说明A的出现与B是否出现关系不大。H(x) = El(xi) = E log(2,1/p(xi) =- I p(xi)log(2,p(xi

8、)(i=1,2,.n),单位是 bit.其中，x表示随机变量，与之相对应的是所有可能输出的集合，定义为符号集，随机变量的输出用x表示。P(x)表示输出概率函数。变量的不确定性越大，嫌也就越大，把它搞清楚所需要的信息量也就越大.由Li产生候虹2rn(1U3)ILI5 IZI3 14) W(BJ4)U3J5LmJ由12户生修法C?项篥(IUZI3)(11,12,15)扫l&D，对每个候选叶戏Li项集支势度i十数四115以频繁项集11 , I2, 13为例产生强关联规则，最小置信度为40% （1）频繁项集11 , I2, 13的非空子集有11 , 12,11 , 13,12 ,13,11

9、,12,13产生强关联规则11 , I2=I3 confidence=support(!1 J2J3)/support(l1,12)=2/4=0.511,13=12 confidence=support12,13=11 confidence=support11=12,13 confidence=support12=11,13 confidence=support13=11,12 confidence=support(11,I2,l3)/support(l1J3)=2/4=0.5(11,I2,l3)/support(l2,l3)=2/4=0.5(11,I2,l3)/support(l1)=2/6

10、=0.33(11,I2,l3)/support(l2)=2/7=0.29(11,I2,13)/support(l3)=2/6=0.33则强关联规则为：11 , 12=13 ； 11,13 ； 12,13=113、根据要求写出SQL （没有学习过，之后的学习中需要补）表A结构如下:MemberJD （用户的ID ,字符型）Logjime （用户访问页面时间，日期型（只有一天的数据）URL （访问的页面地址，字符型）要求：提取出每个用户访问的第一个URL（按时间最早），形成一个新表（新表名为B,表结构和表A 一致）参考答案：create table B as select MemberJD, mi

11、n（Log_time）, URL from A group by MemberJD ;5、用户调研某公司针对A、B、C三类客户，提出了一种统一的改进计划，用于提升客户的周消费次数，需要你来制定一个事前试验方案，来支持决策，请你思考下列问题：a）试验需要为决策提供什么样的信息？C）按照上述目的，请写出你的数据抽样方法、需要采集的数据指标项，以及你选择的统计方法。a）试验要能证明该改进计划能显著提升A、B、C三类客户的周消费次数。b）根据三类客户的数量，采用分层比例抽样；需要采集的数据指标项有：客户类别，改进计划前周消费次数，改进计划后周消费次数；选用统计方法为：分别针对A、B、C三类客

12、户，进行改进前和后的周消费次数的，两独立样本T.检验6 .常见的抽样方法有哪些？常用的有以下六种类型：简单抽样（Simple sampling ）即简单随机抽样，指保证大小为n的每个可能的样本都有相同的被抽中的概率。例如：按照“抽签法”、随机表”法抽取访问对象，从单位人名目录中抽取对象。优点-随前度高，在特质较均一的总体中，具有很高的总体代表度；是最简单的抽样技术，有标准而且简单的统计公式。缺点：未使用可能有用的抽样框辅助信息抽取样本，可能导致统计效率低；有可能抽到一个“差”的样本，使抽出的样本分布不好，不能很好地代表总体。系统抽样（Systematic random sampli

13、ng ）将总体中的各单元先按一定顺序排列，并编号，然后按照不一定的规则抽样。其中最常采用的是等距离抽样，即根据总体单位数和样本单位计算出抽样距离（即相同的间隔），然后按相同的距离或间隔抽选样本单位。例如：从 1000个电话号码中抽取10个访问号码，间距为100,确定起点（起点V间距）后每100号码抽一访问号码。优点：兼具操作的简便性和统计推断功能，是目前最为广泛运用的一种抽样方法。如果起点是随机确定的，总体中单元排列是随机的，等距抽样的效果近似简单抽样；与简单抽样相比，在一定条件下，样本的分布较好。缺点：抽样间隔可能遇到总体中某种未知的周期性，导致“差”的样本；未使用可能有用的抽

14、样框辅助信息抽取样本，可能导致统计效率低。分层抽样（Stratified random sampling ）是把调查总体分为同质的、互不交叉的层（或类型），然后在各层（或类型）中独立抽取样本。例如：调查零售店时，按照其规模大小或库存额大小分层，然后在每层中按简单随机方法抽取大型零售店若干、中型若干、小型若干；调查城市时，按城市总人口或工业生产额分出超大型城市、中型城市、小型城市等，再抽出具体的各类型城市若干。优点：适用于层间有较大的异质性，而每层内的个体具有同质性的总体，能提高总体估计的精确度，在样本量相同的情况下，其精度高于简单抽样和系统抽样；能保证“层”的代表性，避免抽到“差”的样本；同时，不同层可以依据情况采用不同的抽样框和抽样方法。缺点：要求有高质量的、能用于分层的辅助信息；由于需要辅助信息，抽样框的创建需要更多的费用，更为复杂；抽样误差估计比简单抽样和系统抽样更复杂。整群抽样（Cluster sampling ）（层层深入抽样，不断缩小抽

展开阅读全文