阿里大数据比赛介绍

上传人:艾力 文档编号:28685690 上传时间:2018-01-19 格式:DOC 页数:9 大小:130.50KB
返回 下载 相关 举报
阿里大数据比赛介绍_第1页
第1页 / 共9页
阿里大数据比赛介绍_第2页
第2页 / 共9页
阿里大数据比赛介绍_第3页
第3页 / 共9页
阿里大数据比赛介绍_第4页
第4页 / 共9页
阿里大数据比赛介绍_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《阿里大数据比赛介绍》由会员分享,可在线阅读,更多相关《阿里大数据比赛介绍(9页珍藏版)》请在金锄头文库上搜索。

1、赛题介绍本赛题适用于 season1 和 season 2 的比赛,season 3 为线上赛(season 2 赛后公布题目)。 在天猫,每天都会有数千万的用户通过品牌发现自己喜欢的商品,品牌是联接消费者与商品最重要的纽带。本届赛题的任务就是根据用户 4 个月在天猫的行为日志,建立用户的品牌偏好,并预测他们在将来一个月内对品牌下商品的购买行为。我们会开放如下数据类型:用户对任意商品的行为都会映射为一行数据。其中所有商品 ID 都已汇总为商品对应的品牌 ID。用户和品牌都分别做了一定程度的数据抽样,且数字 ID 都做了加密。所有行为的时间都精确到天级别(隐藏年份)。评估指标我们希望参赛队的预测

2、, 预测的品牌准确率越高越好,也希望覆盖的用户和品牌越多越好,所以用最常用的准确率与召回率作为排行榜的指标。准确率: 注: N 为参赛队预测的用户数 字 段 字段说明 提取说明user_id 用户标记 抽样&字段加密Time 行为时间 精度到天级别&隐藏年份action_type 用户对品牌的行为类型包括点击、购买、加入购物车、收藏 4 种行为 (点击:0 购买:1 收藏:2 购物车:3)brand_id 品牌数字 ID 抽样&字段加密pBrandsi 为对用户 i 预测他(她)会购买的品牌列表个数 hitBrandsi 对用户 i 预测的品牌列表与用户 i 真实购买的品牌交集的个数召回率:

3、注: M 为实际产生成交的用户数量 bBrandsi 为用户 i 真实购买的品牌个数 hitBrandsi 预测的品牌列表与用户 i 真实购买的品牌交集的个数最后我们用 F1-Score 来拟合准确率与召回率,并且大赛最终的比赛成绩排名以 F1 得分为准。 不同赛季使用数据说明Season 1 赛季数据1) 数据获取格式: 参赛者通过大赛官网报名成功后,可以直接下载数据到本地,直接使用。(下载地址在参赛者的个人中心) 2) 数据说明: 提供的原始文件有大约 4M 左右,涉及 1 千左右天猫用户,几千个天猫品牌,总共 10 万多条的行为记录。用户 4种行为类型(Type)对应代码分别为:点击:0

4、;购买: 1;收藏:2;购物车:3 3) 提交评分方式: 参赛者将预测的用户存入文本文件中,格式如下: user_id t brand_id , brand_id , brand_id n 上传的结果文件名字不限(20 字以内),文件必须为 txt 格式。如图:将预测结果文件上传至大赛官网结果提交入口即可。(提交结果入口在参赛者的个人中心)Season 2 赛季数据1) 数据获取方式: 参赛者只能登陆阿里巴巴天池集群获取数据,且数据不能下载,所有数据分析,计算,提交评分都将在天池集群上完成。登陆天池集群方法,请留意后续的指导文档和邮件通知。 2) 数据说明: 提供的数据量,涉及千万级天猫用户,

5、万级天猫品牌,时间跨度 4 个月的行为记录。 提供的训练数据在天池集群的表 t_alibaba_bigdata_user_brand_tota_1 中,字段分别为:user_id,brand_id, type, visit_datetime。如图所示 用户 4 种行为类型(Type)对应代码分别为: 点击:0;购买:1;收藏:2;购物车:3 3) 提交评分方式: 参赛者完成用户品牌偏好预测后,需要将结果放入指定格式的数据表(非分区表)中,要求结果表名为:t_tmall_add_user_brand_predict_dh,包含 user_id 和 brand 两列。其中 brand 字段为预测的

6、偏好品牌 ID,多个品牌之间用逗号(,)分隔。 例如:2. 大赛数据抽样方式?本次大赛的数据直接采用随机抽样的方式,抽取了天猫网站线上的一部分真实数据,抽样后数据未经过任何人为处理,所以数据包括了网站上所有真实情况(促销、活动、刷信用等等)。用户对所有商品的行为,都映射为用户对商品所对应的品牌行为。数据分别对用户和品牌做了部分抽样,所以提供的数据为一部分用户和一部分的品牌。3. 品牌数据如何抽取的?所有品牌数据均来自于商品信息,但不包括书籍类目和充值等没有品牌的类目数据,只针对包含正常品牌信息的商品。4. 4 种用户行为的类型有什么区别?点击:点击行为是用户在网站上对商品的一次浏览点击行为。购

7、物车:用户对商品的加入购物车行为,购物车本身有容量限制(50 个商品) ,用户可以在购物车中直接购买商品,或者删除购物车中商品。数据中没有提供用户删除购物车内商品的行为。收藏:用户对商品的加入收藏夹行为,收藏夹本身没有容量限制,用户可以在收藏夹中直接购买商品,或者删除收藏夹中商品。数据中没有提供用户删除收藏夹内商品的行为。购买:用户对商品的一次正常网购行为,数据中没有提供用户退款、退货等交易纠纷行为。5. user 和 brand 字段的 ID 是否为网站真实 ID?用户 ID 和品牌 ID 均已经脱敏,与网站真实 ID 不同,系统已保障了数据安全性。6. 用户行为数据是否为阿里巴巴所有相关网

8、站数据?所有数据只包括用户在天猫网站上的行为数据,不包括用户在淘宝网、聚划算、淘点点等网站的行为等数据。7. 第一赛季和第二赛季数据区别?第一赛季数据只开放了 10 万量级的数据供用户下载,第一赛季数据为第二赛季数据的子集。开放给参赛者的数据是用户 4 月 15 到 8 月 15 一共 4 个月的数据。8. 系统每天在什么时间点运行评分?a、第一赛季,系统每周日凌晨 2 点运行一次评分,评分结果在大赛官网上可以查询。b、第二赛季,系统每天凌晨 4 点运行一次评分,所以提交结果必须在凌晨 4 点前完成,否则不会产出评分结果。9. 评分运行后以哪个成绩为准?a、第一赛季,用户可以多次提交结果,但系

9、统只会评分每周日凌晨 2 点前最后一次提交的结果,多次提交的结果会被最后一次结果覆盖。每周的结果都会记录。b、第二赛季,用户每天也可以提交多次结果,但系统只会评分每天凌晨 4 点前最后一次提交的结果,多次提交的结果会被最后一次结果覆盖。每天的结果都会记录。10. 比赛多次结果评分,排名成绩如何排名?最终比赛成绩会以用户最优的 F1 得分进入总排行榜,所以参赛者可以多次提交尝试不同算法,不用担心测试过程中的结果影响最终成绩。11. 第二赛季的数据是否可以开放下载?第二赛季数据涉及阿里数据安全问题,所有参赛者不能下载到本地。12. 第二赛季使用的云计算平台都有哪些功能?第二赛季使用的云计算平台是阿

10、里巴巴自主研发的分布式离线数据处理平台(ODPS, 即Open Data Processing Service),支持海量结构化数据的离线存储和计算,可以提供数据仓库的解决方案以及针对大数据的分析建模服务。ODPS 提供了多种数据处理操作,以及完善的安全解决方案,其包括的功能有:计算服务: SQL:用户可以通过客户端编写一段 SQL,ODPS 会自动将这段 SQL 解析为分布式的计算任务,为用户处理数据,得到分析结果; MapReduce on SQL:基于 ODPS SQL 框架开发的一套 MapReduce 编程接口;用户可以编写自己的 MapReduce 程序,将编译好的 jar 包上传

11、至 ODPS。最后通过简单的命令行方式运行自己的 MapReduce 任务。 Xlib;ODPS 为用户提供的一整套数据挖掘算法,包括但不限于:o 完全奇异值分解(Full Singular Value Decomposition)o 部分奇异值分解(Partial Singular Value Decomposition)o 追加矩阵列(Append Matrix Columns)o 多列排序和分位(Multi-columns Sorting and Ranking)o 基础统计(Basic Statistics)o 逻辑回归模型训练(Logistic Regression Train)o

12、逻辑回归模型预测(Logistic Regression Predict)o 随机森林模型训练(Random Forest Train)o 随机森林模型预测(Random Forest Predict) 安全:ODPS 提供了功能强大的安全服务,为用户的数据安全提供保护;13. 如果对 ODPS 不够了解,有哪些可以提前参考学习的资料?ODPS 提供的 SQL,MapReduce,Xlib 等功能的详细介绍文档会在 4 月 25 日前,即第二赛季开始前,对外发布。在此之前,大家可以参考业内其他产品的相关资料:Hadoop 学习资料:http:/hadoop.apache.org/Hive 学习

13、资料:http:/hive.apache.org/MapReduce 学习资料:http:/ 学习资料:https:/mahout.apache.org/参赛选手也可自行查找其他学习文档。ODPS 的存储、计算调度依赖于一套阿里巴巴自主研发的分布式系统(飞天,Apsara)。对于分布式存储、计算方面的介绍可以参考 Hadoop 介绍文档。与 Hadoop 不同的是,飞天系统在计算调度方面不仅支持离线计算任务的调度,还支持在线服务的调度。此外,飞天支持更复杂的图结构的离线计算任务,而不仅仅是 MapReduce 框架的任务。ODPS SQL 功能的更多介绍请参考 Hive 相关资料。Xlib 功

14、能请参考 Mahout 的学习资料。在支持的算法类型上 Xlib 与 Mahout 有很大不同。特殊声明:ODPS 的各项功能的设计与实现同上述产品相比有很多不同。上述资料仅是为缺少分布式开发经验的参赛选手准备。如果想对 ODPS 产品有全面细致的了解,请关注 4月底发布的 ODPS 官方文档说明。14. 使用 ODPS 中,遇到问题如何解决?ODPS 会在 2014 年 4 月底向社会开放。您在使用中遇到的各种问题可以通过阿里云网站(http:/)中的 ”我的阿里云” - “用户中心” - “售后支持”提交工单。阿里云会有专门的售后技术支持人员为您解答问题。本次竞赛还会有专门的论坛供大家讨论

15、问题。此论坛更多关注竞赛规则、数据算法讨论及技术交流范畴。如果您在竞赛过程中有任何 ODPS 相关的疑问,请通过阿里云网站的售后系统进行反馈,会得到更快的解决。15. 第二赛季, 用于评分的测试集数据时间分布?用于评测参赛者算法的数据,是采用 8 月 16 到 9 月 15 一个月内的用户购买数据。该数据不向参赛者公布,系统自动隐藏。16. 为什么参赛者提交了结果,但没有评分结果?第一季提交结果后,没有评分结果,可能出错的原因:a、结果文件格式错误,上传的结果文件必须是 txt 格式。 b、结果文件内部必须为 user_id t brand_id , brand_id , brand_id n

16、 格式,用户 ID 和品牌列表采用“t”分隔,品牌列表内品牌采用“,”分隔。 c、结果文件中不能包含除去数字、“t”、“,”、“n”以外任何字符。 d、结果文件中存在空白用户或者空白品牌列表,会导致评分结果受到影响。第二季提供结果后,没有评分结果,可能出错的原因:a、参赛者的结果没有放入指定的结果表(t_tmall_add_user_brand_predict_dh)内,请检查表名。 b、参赛者提供的结果表字段与规定不符合,结果数据表必须为 user_id 和 brand 两列。 c、参赛者提供的结果数据分隔符错误,预测的用户品牌必须用“,” 分隔,请检查。17. 第二赛季中多天未提交结果,成绩如何变化?

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号