数据分析面试常见问题

上传人:鲁** 文档编号:484620822 上传时间:2024-01-13 格式:DOCX 页数:19 大小:20.31KB
返回 下载 相关 举报
数据分析面试常见问题_第1页
第1页 / 共19页
数据分析面试常见问题_第2页
第2页 / 共19页
数据分析面试常见问题_第3页
第3页 / 共19页
数据分析面试常见问题_第4页
第4页 / 共19页
数据分析面试常见问题_第5页
第5页 / 共19页
点击查看更多>>
资源描述

《数据分析面试常见问题》由会员分享,可在线阅读,更多相关《数据分析面试常见问题(19页珍藏版)》请在金锄头文库上搜索。

1、数据分析面试常见问题1. 贝叶斯公式复述并解释应用场景1)P(A|B) = P(B|A)*P(A) / P(B)2 )如搜索query纠错,设A为正确的词,B为输入的词,那么:a. P(A|B)表示输入词B实际为A的概率b. P(B|A)表示词A错输为B的概率,可以根据AB的相似度计算(如编辑 距离)c. P(A)是词A出现的频率,统计获得d. P(B )对于所有候选的A都一样,所以可以省去2. 如何写SQL求出中位数平均数和众数(除了用count之外的方法)1 )中位数:方案1(没考虑到偶数个数的情况):set m = (select count(*)/2 from table)select

2、 column from table order by column limit m, 1方案2 (考虑偶数个数,中位数是中间两个数的平均):set index = -1 select avg(table.column)from(select index:=index+1 as index, columnfrom table order by column) as twhere t.index in (floor(index/2),ceiling(index/2)2 )平均数:select avg(distinct column) from table3 )众数:select column,

3、count(*) from table group by column order by column desc limit 1(emmm,好像用至U count 了)3. 学过的机器学习算法有哪些略。4. 如何避免决策树过拟合1 )限制树深3)限制叶节点数量4)正则化项5)增加数据6 ) bagging ( subsample、subfeature、低维空间投影)7)数据增强(加入有杂质的数据)8)早停5. 朴素贝叶斯的理解1)推导(参考:https:/blogs.eom/pinard/p/6069267.html)2)理解:朴素贝叶斯是在已知一些先验概率的情况下,由果索因的一种方 法3)其

4、它:朴素的意思是假设了事件相互独立6. SVM的优点a. 能应用于非线性可分的情况b. 最后分类时由支持向量决定,复杂度取决于支持向量的数目而不是样本空间的维度,避免了维度灾难c. 具有鲁棒性:因为只使用少量支持向量,抓住关键样本,剔除冗余样本d. 高维低样本下性能好,如文本分类2)缺点:a. 模型训练复杂度高b. 难以适应多分类问题c. 核函数选择没有较好的方法论7. Kmeans的原理1)初始化k个点2)根据距离点归入k个类中3)更新k个类的类中心4)重复(2)(3),直到收敛或达到迭代次数略。9. 口答两个SQL题(一个跟留存率相关,一个要用到row number)1)留存率:略2 )

5、mysql 中设置 row number :SET row_number = 0; SELECT (row_number:=row_number + 1) AS num FROM table10. 业务场景题,如何分析次日留存率下降的问题业务问题关键是问对问题,然后才是拆解问题去解决。1 )两层模型:从用户画像、渠道、产品、行为环节等角度细分,明确到底是哪里的次日留存率下降了2 )指标拆解:次日留存率=丄次日留存数/今日获客人数3)原因分析:1)内部:a.运营活动 b.产品变动c. 技术故障d. 设计漏洞(如产生可以撸羊毛的设计)2 )外部:a. 竞品b. 用户偏好c. 节假日d. 社会事件(

6、如产生舆论)11. 处理需求时的一般思路是什么,并举例1 )明确需求,需求方的目的是什么2)拆解任务3)制定可执行方案4)推进5 )验收12. 为什么选择拼多多略。13. 用过拼多多下单没,感受如何略。14. 可以接受单休和加班么略。15. 为啥要选数据分析方向(我简历上写的是数据挖掘工程师。)略。16. 开始聊项目,深究项目,我研究生阶段的方向比较偏,所以面试的三分之二时间都是在给他讲项目,好在最后他终于听懂了,thx god、略。17. hadoop 原理和 mapreduce 原理1) Hadoop原理:采用HDFS分布式存储文件,MapReduce分解计算, 其它先略2 ) MapRe

7、duce 原理:a. map阶段:读取HDFS中的文件,解析成vk,v的形式,并对vk,v进 行分区(默认一个区),将相同k的value放在一个集合中b. reduce阶段:将map的输出copy到不同的reduce节点上,节点对 map的输出进行合并、排序(参考:https:/blogs.eom/ahu-lichang/p/6645074.html)18. 还有啥问题要问的?于是我出于本能的问了一句“为啥不写代码!”然后 面试官说“时间不够了。”略。19.现有一个数据库表Tourists,记录了某个景点7月份每天来访游客的数量如 下:id date visits 1 2017-07-01 1

8、00 .非常巧,id字段刚好等于日期里 面的几号。现在请筛选出连续三天都有大于100天的日期。上面例子的输出 为:date 2017-07-01 .解:select tl.datefrom Tourists as t1, Tourists as t2, Tourists as t3on tl.id = (t2.id + 1) and t2.id = (t3.id + 1)where t1.visits 100 and t2.visits100 and t3.visits10020.在一张工资表salary里面,发现2017-07这个月的性别字段男m和女f写反 了,请用一个Updae语句修复数据

9、例如表格数据是:id name gender salary month 1 A m 1000 2017-06 2 B f 1010 2017-06解:update salaryset gender = replace(mf, gender,)21.现有A表,有21个列,第一列id,剩余列为特征字段,列名从d1-d20,共10W条数据!另外一个表B称为模式表,和A表结构一样,共5W条数据请找到A表中的特征符合B表中模式的数据,并记录下相对应的id有两种情 况满足要求:1每个特征列都完全匹配的情况下。2最多有一个特征列不匹 配,其他19个特征列都完全匹配,但哪个列不匹配未知解:(这题不懂怎么解)s

10、elect A.id,(case A.d1 when B.d1 then 1 else 0) +(case A.d2 when B.d2 then 1 else 0) +.) as count_matchfrom A left join Bon A.d1 = B.d122.我们把用户对商品的评分用稀疏向量表示,保存在数据库表t里面:t的字段 有:uid,goods_id,star uid 是用户 id ; goodsid 是商品 id ; star 是用户对 该商品的评分,值为1-5。现在我们想要计算向量两两之间的内积,内积在这 里的语义为:对于两个不同的用户,如果他们都对同样的一批商品打了分

11、,那 么对于这里面的每个人的分数乘起来,并对这些乘积求和。例子,数据库表里 有以下的数据:U0 g0 2 U0 g1 4 U1 g0 3 U1 g1 1计算后的结果为:U0 U1 2*3+4*1=10 .解:select uidl, uid2, sum(result) as dotfrom(select tl.uid as uidl, t2.uid as uid2, t1.goods_id, t1.star*t2.star as resultfrom t as t1, t as t2on t1.goods_id = t2.goods_id) as tgroup by goods_id23.微信

12、取消关注分析,题目太长了,没记录略。24. 统计教授多门课老师数量并输出每位老师教授课程数统计表解:设表 class 中字段为 id,teacher,course1)统计教授多门课老师数量select count(*) from classgroup by teacher having count(*) 1 2)输出每位老师教授课程数统计 select teacher, count(course) as count_course from classgroup by teacher25. 四个人选举出一个骑士,统计投票数,并输出真正的骑士名字解:设表 tabe 中字段为 id,knight,v

13、ote_knightselect knight from tablegroup by vote_knightorder by count(vote_knight) limit 126. 员工表,宿舍表,部门表,统计出宿舍楼各部门人数表解:设员工表为employee,字段为id,employee_name,belong_dormitory_id,belong_department_id ;宿舍表为 dormitory,字段为 id,dormitory_number ;咅部门表为 department,字段为 id,department_nameselect dormitory_number, d

14、epartment_name, count(employee_name) ascount_employeefrom employee as e left join dormitory as dor on e.belong_dormitory_id = dor.idleft join department as dep on e.belong_department_id = dep.id27. 给出一堆数和频数的表格,统计这一堆数中位数解:设表 table 中字段为 id,number,frequencyset sum = (select sum(frequency) + 1 as sum fr

15、om table)set index = 0set last_index = 0select avg(distinct t.frequecy)from(select last_index :二 index, index :二 index+frequency as index,frequencyfrom table) as twhere t.index in (floor(sum/2), ceiling(sum/2)or (floor(sum/2) t.l ast_index and ceiling(sum.2) = t.index)28. 中位数,三个班级合在一起的一张成绩单,统计每个班级成绩中位数解:设表table中字段为id,class,scoreselect t1.class, avg(distinct t1.score) as medianf

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号