《2021高职 大数据技术与应用 任务书4(赛项赛题)》由会员分享,可在线阅读,更多相关《2021高职 大数据技术与应用 任务书4(赛项赛题)(29页珍藏版)》请在金锄头文库上搜索。
1、2 02 1年全国职业院校技能大赛高职组“大数据技术与应用”赛项赛卷(GZ-xxxxxxx-X卷)任务书参赛队编号:背景描述据央视财经报道,2 0 2 0年我国0 2 0市场规模突破万亿元,0 2 0市场存在着巨大的潜力。特别是餐饮和外卖行业,占据市场较大份额,并且业务增长迅速。截 至2 0 2 0年底,全国外卖总体订单量已超过1 7 1.2亿单,同比增长7.5%,全国外卖市场交易规模达到8 3 5 2亿元,同比增长1 4.8%o我国外卖用户规模已接近5亿人,其 中8 0后、9 0后是餐饮外卖服务的中坚消费力量,消费者使用餐饮外卖服务也不再局限于传统的一日三餐,下午茶和夜宵逐渐成为消费者的外卖
2、新宠。为把握这一商业机遇,C hin aS k il l s公司计划进驻外卖平台市场,现需对大规模成熟外卖平台进行详细评估调研,采集多方多维度数据,寻找行业痛点,摸清市场需求,以技术为手段为投资保驾护航。为完成该项工作,你所在的小组将应用大数据技术,以P y t ho n、J av a、S c al a作为整个项目的基础开发语言,基于大数据平台综合利用 M ap R e d u c e S p ark、M y S Q L、S c rap y、F l as k、E C hart s 等,对数据进行获取、处理、清洗、挖掘、分析、可视化呈现,力求实现对公司未来的重点战略方向提出建议。你们作为该小组的
3、技术人员,请按照下面任务完成本次工作,并编制综合报告。模块A:环境搭建(15分)环境说明:编号主机名类型用户密码1m as t e r主节点r o o tp as s w d2s l av e l从节点r o o tp as s w d3s l av e 2从节点r o o tp as s w d补充说明:主节点My SQ L数据库用户名/密码:r o o t/P as s w o r d l 2 3$相关软件安装包在/c h i n as k i l l s目录下所有模块中应用命令必须采用绝对路径任 务 一:Hadoop全分布部署管理本环节需要使用root用户完成相关配置,安装Hadoop需
4、要配置前置环境。命令中要求使用绝对路径,具体部署要求如下:1、将/chinaskills下的JDK包解压到/usr/local/src路径,将完整命令复制粘贴到对应报告中;2、修改/root/.bash_profile文件,设置JDK环境变量,并使环境变量只对当前root用户生效将环境变量配置内容复制粘贴至对应报告中;3、从master复制上面步骤配置的JDK环境变量文件到slavel、slave2 节点,命令和结果复制粘贴在对应报告中;4、配置SSH密钥登录,实现从master登录到slavel,将登录命令和结果复制粘贴在对应报告中;5、根据要求修改 Hadoop 相关文件(hadoop-e
5、nv.sh,core-site,xml,hdfs-site.xml,mapred-site.xml、yarn-site,xml),并初始化 Hadoop。1)将配置文件h ad o o p-e n v.s h 变更内容复制粘贴在对应报告中;2)将配置文件c o r e-s i t e.x m l 变更内容复制粘贴在对应报告中;3)初始化H ad o o p 环境,将命令及结果复制粘贴在对应报告中;6、查看m as t e r 及 s l av e l 节点j p s 进程,将其命令及结果复制粘贴至对应报告中。任 务 二:Sqoop部署管理本环节需要使用r o o t 用户完成相关配置,已安装H
6、 ad o o p 及需要配置前置环境,具体部署要求如下:1、解压/c h i n as k i l l s 路径下的Sq o o p 安装包到/u s r/l o c al/s r c 路径下,并使用相关命令,修改解压后文件夹名为s q o o p,进入s q o o p 文件夹,并将查看内容复制粘贴至对应报告中;2、修改Sq o o p 环境变量,并使环境变量只对当前r o o t 用户生效;具体任务要求:修改基于当前用户r o o t 的环境变量,将环境变量配置内容复制粘贴至对应报告中;3、修改并配置s q o o p-e n v.s h 文件,将命令及结果复制粘贴至对应报告中;4、测试
7、Sq o o p 连接My SQ L数据库是否成功,将命令及结果复制粘贴至对应报告中。具体任务要求:使用s q o o p 命令连接My SQ L数据库,查询My SQ L中所有数据库名称,将命令及结果复制粘贴至对应报告中;任 务 三:Hive部署管理本环节需要使用r o o t 用户完成相关配置,已安装H ad o o p 及需要配置前置环境,具体部署要求如下:1、将指定路径下的H i v e 安装包解压到(/u s r/l o c al/s r c)下,使用绝对路径,将命令复制并粘贴至对应报告中;2,把解压后的ap ac h e-h i v e-1.1.0-b i n 文件夹更名为h i
8、v e;进入h i v e 文件夹,并将查看命令及结果复制并粘贴至对应报告中;3、设置H i v e 环境变量,并使环境变量只对当前r o o t 用户生效;并将环境变量配置内容复制并粘贴至对应报告中;4、将 H i v e 安装目录里 h i v e-d e f au l t,x m l.t e m p l at e 文件更名为 h i v e-s i t e,x m l;并将更改命令复制并粘贴至对应报告中;5、通过V I编辑器配置h i v e-s i t e,x m l文件,将My SQ L数据库作为H i v e元数据库。将配置文件H i v e元存储相关内容复制并粘贴至对应报告中;6
9、、初始化H i v e元数据,将My SQ L数据库JDBC驱动拷贝到H i v e安装目录的l i b文件夹下;并通过s c h e m at o o l执行初始化,将初始化结果复制粘贴至对应报告中;7、启动H i v e并保存命令输出结果,将结果输出复制粘贴至对应报告中。模 块 B:数据采集与处理(20分)项目背景说明1、查看餐饮外送统计平台网站源码结构。1)打开网站,在网页中右键点击检查,或者F1 2快捷键,查看源码页面;2)检查网站:浏览网站源码查看所需内容。2、从餐饮外送统计平台中采集需要数据,按照要求使用P y t ho n语言编写代码工程,获取指定数据项,并对结果数据集进行必要的
10、数据处理。请将符合任务要求的结果复制粘贴至对应报告中。具体步骤如下:1)创建工程工程项目:C:fo o d_ deliv ery2)构建采集请求3)按要求定义相关字段4)获取有效数据5)将获取到的数据保存到指定位置6)对数据集进行基础的数据处理至此已从餐饮外送统计平台中获取所需数据,并完成了必要的基础的数据处理。3、自 行 创 建S crap y工 程 项 目fo o d_ deliv ery ,路 径 为C:fo o d_ deliv ery按照任务要求从餐饮外送统计平台中获取数据。提 取“商户数据”页面相关字段(包括平台餐厅I D、餐厅名称、城市等全部有效数据项),保存至文件res t a
11、uran t _ dat a.js o n;再提取“配送平台灰测维度数据”页面相关数据(包括餐厅名称、城市、营业时长等全部字段)保存至文件grey _ t es t.js o n。4、每条数据记录请以单独一行保存,信息存储格式为k ey:v alue。文件保存路径为:C:o ut p ut o示例:f ir.,j n.n ir.n ir,ir res t _ id:*,res t _ n am e:*,.),f II,J H IF.IF IF.II It.,res t _ id:*,res t _ n am e:*,.),5、任务中要求将“以下内容及答案完整复制粘贴至对应报告中粘贴到对应报告中
12、的内容示例如下:配送范围审核相关数据页数为:100灰度数据对比相关数据页数为:100任 务 一:爬取指定数据页面自行创建S crap y 工程编写爬虫代码,爬 取“P 0I 数据”页面与“灰度数据对比”页面相关数据,通过爬虫代码分页爬取,以合理的程序逻辑判断相关数据包含的页数并将一下内容及答案完整复制粘贴至对应报告中。示例格式:P 0I 数据的页数为:灰度数据对比相关数据的页数为:任 务 二:爬取数据至指定文件运行代码,爬取网页数据至指定文件。查看文件并填写采集到的记录条数,并将答案复制粘贴至对应报告中。示例格式:P O I.js o n 的行数为:grey _ v alue.js o n 的
13、行数为:任 务 三:各商家“30天销量数据处理P O L js o n 文件中,“商家id”字段值重复的样本,请以多条样本记录的“3 0天销量”属性均值作为该属性的值,并删除多余样本。请在P y C harm 控制台打印输出删除的样本条数,并将打印语句复制粘贴至对应报告中。示例格式:=因重复样本记录,删除样本条数为*条=任 务 四:数据探索针对爬取的grey _ v alue数据,利用D at aF ram e.des cribe方法探索数据基本情况,将数据基本情况复制粘贴至对应报告中。任 务 五:缺失值统计针对缺失值较多的属性“推单数-8 日”,“有效完成率-8 日”,“超时率-8 日”,请
14、分别计算下列任务,并将正确结果复制粘贴至对应报告中。(1)属性”推单数-8 日 空值记录条数为:,中位数为:。(2)属性 有效完成率-8 日”空值记录条数为:,平均值为:。(3)属性“超时率-8 日”空值记录条数为:,平均值为:。(4)请根据计算结果,对数据集中存在空值的字段进行填充。查看填充后的数据集前5 条记录,将查看结果复制粘贴至对应报告中。任 务 六:日志输出将 S c ra p y日 志(日志等级设置为I N F O)以时间命名输出至路径:C:fo o d _ d el i veryo utp ut,并将日志内容复制粘贴至对应报告中。模块C:数据清洗、分析与挖掘(25分)项目背景说明
15、餐饮外卖平台的核心价值体现在配送,而配送的价值则依赖于商家与客户的双向选择。外卖平台通常会通过内容激活消费者和商家两个群体的活跃度。消费者会参考平台展示的内容选择商家,商家也会以消费者评价与平台统计数据为依据调整策略,由此再吸引更多的用户下单、评论、形成正向循环。保证配送的时效与品质是从优化用户体验的角度,吸引更多的用户参与,进而带动商家不断入驻。由此,商家、消费者、骑手在平台上形成越来越多的真实可靠的数据,帮助消费者更好的做出消费决策,同时促进商家提高服务质量。而平台通过数据,不断调整优化服务,从而不断提升这种多边网络效应。提升网络效应的直接结果就是用户和商家规模大幅提升,进而形成规模效应一
16、一降低获客成本、提高效益,并且不断提升自己的行业壁垒。为探索各大外卖平台的市场策略与经营模式,现已从及平台获取到了 原始数据集,包含“id,request_id,walle_id,retailer_id,retailer_name,retailer_address,etailer_location,city_id,city_name,grid_id,carrier_id,team_id,applicant_id,applicant_name,first_auditor_role,first_auditor_candidate_ids,f irst_auditor_id,f i rst_aud i tor_name,second_aud i tor_ro1e,second_auditor_candidate_ids,second_auditorpid,second_auditor_name,status,max_distance_before_edit,min_distance_before_edit,max_distance_after_edit,min_distance_after_