想去谷歌、微软、Uber等大牛公司做数据分析最新面试真题

上传人:大米 文档编号:469307856 上传时间:2023-07-12 格式:DOCX 页数:7 大小:18.17KB
返回 下载 相关 举报
想去谷歌、微软、Uber等大牛公司做数据分析最新面试真题_第1页
第1页 / 共7页
想去谷歌、微软、Uber等大牛公司做数据分析最新面试真题_第2页
第2页 / 共7页
想去谷歌、微软、Uber等大牛公司做数据分析最新面试真题_第3页
第3页 / 共7页
想去谷歌、微软、Uber等大牛公司做数据分析最新面试真题_第4页
第4页 / 共7页
想去谷歌、微软、Uber等大牛公司做数据分析最新面试真题_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《想去谷歌、微软、Uber等大牛公司做数据分析最新面试真题》由会员分享,可在线阅读,更多相关《想去谷歌、微软、Uber等大牛公司做数据分析最新面试真题(7页珍藏版)》请在金锄头文库上搜索。

1、【招聘海外留学生】想去谷歌、微软、Uber等大牛公司做数据分析,最新面试真题(已分类)来自Glassdoor的最新数据可以告诉我们各大科技公司最近在招聘面试时最喜欢向候 选人提什么问题。首先有一个令人惋惜的结论:根据统计,几乎所有的公司都有着自己的不 同风格。由于Glassdoor允许匿名提交内容,很多乐于分享的应聘者向大家提供了 Facebook、 谷歌、微软等大公司的面试题。我们把其中的一部分列出以供大家参考。通用问题Apple1. 如果你有几百万用户,每个用户都会发生数百笔交易,这些交易存在于数十种产品中。 你该如何把这些用户细分成有意义的几类?Microsoft1. 描述一个你曾经参与

2、的项目,以及它的优点。2. 如何处理具有高基数(high-cardinality)的类属特征?3. 如果想要给Twitterfeed写summarize,你要怎么办?4. 在应用机器学习算法之前纠正和清理数据的步骤是什么?5. 如何测量数据点之间的距离?6. 请定义一下方差。7. 请描述箱形图(boxplot)和直方图(histogram)之间的差异,以及它们的用例。Twitter1. 你会使用什么功能来为用户构建推荐算法?Uber1. 选择任何一个你真正喜欢的产品或应用程序,并描述如何改善它。2. 如何在分布中发现异常?3. 如何检查分布中的某个趋势是否是由于异常产生的?4. 如何估算Ube

3、r对交通和驾驶环境造成的影响?5. 你会考虑用什么指标来跟踪Uber付费广告策略在吸引新用户上是否有效?然后,你 想用什么办法估算出理想的客户购置成本?LinkedIn1. (对大数据工程师)请解释REST是什么。机器学习问题Google1. 为什么要使用特征选择(featureselection)?2. 如果两个预测变量高度相关,它们对逻辑回归系数的影响是什么?系数的置信区间是 什么?3. 高斯混合模型(GaussianMixtureModel)和K-Means之间有什么区别?4. 在K-Means中如何拾取k?5. 你如何知道高斯混合模型是不是适用的?6. 假设聚类模型的标签是已知的,你如

4、何评估模型的性能?Microsoft1. 你有哪些引以为豪的机器学习项目?2. 随便找一个机器学习算法,然后描述它。3. 请解释GradientBoosting是如何工作的。4. (对数据挖掘工程师)请解释决策树模型。5. (对数据挖掘工程师)什么是神经网络?6. 请解释偏差方差权衡(Bias-VarianceTradeoff)。7. 如何处理不平衡二进制分类?8. L1和L2正则化之间有什么区别?Uber1. 你会通过哪种特征来预测Uber司机是否会接受订单请求?你会使用哪种监督学习算 法来解决这个问题,如何比较算法的结果?LinkedIn1. 点出及描述三种不同的内核函数,在哪些情况下使用

5、哪种?2. 随意解释机器学习里的一种方法。3. 如何应付稀疏数据?IBM1. 如何防止过拟合(overfitting)?2. 如何处理数据中的离群值?3. 如何评估逻辑回归与简单线性回归模型预测的性能?4. 监督学习和无监督学习有什么区别?5. 什么是交叉验证(cross-validation),为什么要使用它?6. 用于评估预测模型的矩阵的名称是什么?7. 逻辑回归系数和胜算比(OddsRatio)之间存在什么关系?8. 主成分分析(PCA)和线性和二次判别分析(LDA和QDA)之间的关系是什么?9. 如果你有一个因变量分类,又有一个连续自变量的混合分类,你将使用什么算法,方 法或工具进行分

6、析?10. (对行业分析师)逻辑与线性回归有什么区别?如何避免局部极小值?Salesforce1. 你会使用哪些数据和模型来测量损耗/流失?如何测试模型性能?2. 假设我是一名非技术人员,请向我解释一种机器学习算法。CapitalOne1. 如何构建一个模型来预测信用卡诈骗?2. 如何处理丢失或不良数据?3. 如何从已存在的特征中导出新的特征?4. 如果你试图预测客户的性别,但只有100个数据点,可能会出现什么问题?5. 在拥有两年交易历史的情况下,哪些特征可以用来预测信用风险?6. 请设计一个用来下井字棋的人工智能程序。Zillow1. 请解释过拟合,以及如何防止过拟合。2. 为什么SVM需

7、要在支持向量之间最大化边缘?HadoopTwitter1. 如何使用Map/Reduce将非常大的图形分割成更小的块,并根据数据的快速/动态变化 并行计算它们的边缘?2. (对数据工程师)给定一个列表:123,345234,678345,123其中第一列是粉丝的ID, 第二列是被粉者的ID。查找所有相互后续对(上面的示例中的对是123, 345)。当列表超 出内存时,如何使用Map/Reduce来解决问题?CaptialOne1. (对数据工程师)什么是Hadoop序列化(serialization)?2. 解释一个简单的Map/Reduce问题。HiveLinkedIn1. (对数据工程师)

8、请编写返回情感分数的HiveUDF。例如,假如好二1,坏=-1,平均 数=0,那么对餐厅做评价时因为食物好,服务差,你的分数可能为1-1二0SparkCaptialOne1. (对数据工程师)用Scala语言,RDD在Spark中是如何工作的?统计和概率问题Google1. 假设我是一名非技术人员,请向我解释一下交叉验证(Cross-validation)。2. 请描述一下非正态概率分布,随后告诉我们它该如何应用?Microsoft1. (对数据挖掘)请解释异方差(heteroskedasticity)是什么,以及如何解决它。Twitter1. 在给定Twitter用户数据的情况下,你该如何衡

9、量参与度?Uber1. 时间序列预测技术有什么不同?2. 解释原理组件分析(PrincipleComponentAnalysis, PCA)和PCA使用的方程。3. 如何解决多重共线性(Multicollinearity)?4. (对分析师)请写一个方程,优化我们在Twitter和Facebook上的广告费用支出。Facebook1. 在一副牌中抽取两张,出现同一花色的概率是多少?IBM1.什么是p-value和置信区间?CapitalOne1. (对数据分析师)如果你有70个红色弹珠,绿色和红色弹珠的比例是2比7,有多 少绿色弹珠?2. 纽约市的通勤数据看起来应该遵从什么分布?3. 一个骰子

10、,在扔6次的情况下出现1个6的几率,与扔12次的情况下出现至少两个 6的几率,和扔600次出现至少100次6的几率相比哪个大?Paypal1.什么是中心极限定理(CentralLimitTheorem),如何证明它?它的应用方向是什么?编程和算法Google1.(对数据分析师)请写一个程序可以判定二叉树的高度。Microsoft1.请创建一个函数检查一个词是否具有回文结构。Twitter1. 请构建一个幂集(powerset)。2. 请问如何在一个巨大的数据集中找到中值?Uber1.(对数据工程师)编写一个函数用来计算给定数字的平方根(2个小数点精度)。随 后:避免冗余计算,现在使用缓存机制优

11、化你的功能。Facebook1. 假设给定两个二进制字符串,写一个函数将它们添加在一起,而不使用任何内置的字 符串到int转换或解析工具。例如:如果给函数二进制字符串100和111,它应该返回1011。 你的解决方案的空间和时间复杂性如何?2. 编写一个函数,它接受两个已排序的列表,并在排序列表中返回它们的并集。LinkedIn1. (对数据工程师)请编写一些代码来确定字符串中的左右括号是否是平衡的?2. 如何找到二叉搜索树中第二大的元素?3. 请编写一个函数,它接受两个排序的向量,并返回一个排序的向量。4. 如果你有一个输入的数字流,如何在运行过程中找到最频繁出现的数字?5. 编写一个函数,

12、将一个数字增加到另一个数字,就像pow()函数一样。6. 将大字符串拆分成有效字段并将它们存储在dictionary中。如果字符串不能拆分, 返回false。你的解决方案的复杂性如何?CaptialOne1. (对数据工程师)如何拆散两个数列(就像SQL中的JOIN反过来)?2. 请创建一个用于添加的函数,数字表示为两个链表。3. 请创建一个计算矩阵的函数。4. 如何使用Python读取一个非常大的制表符分隔的数字文件,来计算每个数字出现的 频率?Paypal1. 请编写一个函数,让它能在O(n)的时间内取一个句子并逆向打印出来。2. 请编写一个函数,从一个数组中拾取,将它们分成两个可能的数组

13、,然后打印两个数 组之间的最大差值(在O(n)时间内)。3. 请编写一个执行合并排序的程序。SQL问题Microsoft1. (对数据分析师)定义和解释聚簇索引和非聚簇索引之间的差异。2. (对数据分析师)返回表的行计数有哪些不同的方法?Facebook1. (对数据工程师)如果给定一个原始数据表,如何使用SQL执行ETL (提取,转换, 加载)以获取所需格式的数据?2. 如何编写SQL查询来计算涉及两个连接的某个属性的频率表?如果你想要ORDERBY 或GROUPBY 一些属性,你需要做什么变化?你该怎么解释NULL?LinkedIn1.(对数据工程师)如何改进ETL (提取,转换,加载)的

14、吞吐量?智力游戏Google1.假设你有10包弹球,每包里面都是10个弹球。如果其中一包的重量和其他的不同, 但你只能进行一次称重,你该用什么办法?Facebook1. 你打算坐飞机去西雅图,想知道是不是需要带伞,于是你分别打电话给三位在西雅图 的朋友。每个朋友都有2/3的几率说真话,1/3的几率在骗你。如果他们都说会下雨, 西雅图下雨的概率是多少?2. 假如在一个等边三角形的三个角上都有一只蚂蚁,每只随机选择方向然后直走一直到 另一个边缘,三只蚂蚁互相不交汇的几率是多少?如果有n只蚂蚁在n角形中,概率又是多 少?3. 在100!的结果里有多少个零?Uber1.想象一下你在一家医院工作。患者来就诊的频率符合泊松分布,而医生照顾患者的频 率符合均匀分布。请写一个函数或一段代码来输出患者的平均等待时间和医生在某日的参与 度。LinkedIn1.你正在攀爬一个n阶的楼梯,你可以采取任何数量的k个步骤。你到达楼梯顶部有多 少不同的方式?(这是楼梯问题的修改版)文档来源:专业留学生海归求职培训辅导机构海归求职网AceCareer

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号