阿里大数据比赛介绍

资源描述

《阿里大数据比赛介绍》由会员分享，可在线阅读，更多相关《阿里大数据比赛介绍（9页珍藏版）》请在金锄头文库上搜索。

1、赛题介绍本赛题适用于 season1 和 season 2 的比赛，season 3 为线上赛（season 2 赛后公布题目）。在天猫，每天都会有数千万的用户通过品牌发现自己喜欢的商品，品牌是联接消费者与商品最重要的纽带。本届赛题的任务就是根据用户 4 个月在天猫的行为日志，建立用户的品牌偏好，并预测他们在将来一个月内对品牌下商品的购买行为。我们会开放如下数据类型：用户对任意商品的行为都会映射为一行数据。其中所有商品 ID 都已汇总为商品对应的品牌 ID。用户和品牌都分别做了一定程度的数据抽样，且数字 ID 都做了加密。所有行为的时间都精确到天级别(隐藏年份)。评估指标我们希望参赛队的预测

2、, 预测的品牌准确率越高越好，也希望覆盖的用户和品牌越多越好，所以用最常用的准确率与召回率作为排行榜的指标。准确率：注： N 为参赛队预测的用户数字段字段说明提取说明user_id 用户标记抽样&字段加密Time 行为时间精度到天级别&隐藏年份action_type 用户对品牌的行为类型包括点击、购买、加入购物车、收藏 4 种行为 (点击：0 购买：1 收藏：2 购物车：3）brand_id 品牌数字 ID 抽样&字段加密pBrandsi 为对用户 i 预测他(她)会购买的品牌列表个数 hitBrandsi 对用户 i 预测的品牌列表与用户 i 真实购买的品牌交集的个数召回率：

3、注： M 为实际产生成交的用户数量 bBrandsi 为用户 i 真实购买的品牌个数 hitBrandsi 预测的品牌列表与用户 i 真实购买的品牌交集的个数最后我们用 F1-Score 来拟合准确率与召回率，并且大赛最终的比赛成绩排名以 F1 得分为准。不同赛季使用数据说明Season 1 赛季数据1) 数据获取格式：参赛者通过大赛官网报名成功后，可以直接下载数据到本地，直接使用。（下载地址在参赛者的个人中心） 2) 数据说明：提供的原始文件有大约 4M 左右，涉及 1 千左右天猫用户，几千个天猫品牌，总共 10 万多条的行为记录。用户 4种行为类型(Type)对应代码分别为：点击：0

4、；购买： 1；收藏：2；购物车：3 3) 提交评分方式：参赛者将预测的用户存入文本文件中，格式如下： user_id t brand_id , brand_id , brand_id n 上传的结果文件名字不限(20 字以内)，文件必须为 txt 格式。如图：将预测结果文件上传至大赛官网结果提交入口即可。（提交结果入口在参赛者的个人中心）Season 2 赛季数据1) 数据获取方式：参赛者只能登陆阿里巴巴天池集群获取数据，且数据不能下载，所有数据分析，计算，提交评分都将在天池集群上完成。登陆天池集群方法，请留意后续的指导文档和邮件通知。 2) 数据说明：提供的数据量，涉及千万级天猫用户，

5、万级天猫品牌，时间跨度 4 个月的行为记录。提供的训练数据在天池集群的表 t_alibaba_bigdata_user_brand_tota_1 中，字段分别为：user_id，brand_id, type, visit_datetime。如图所示用户 4 种行为类型(Type)对应代码分别为：点击：0；购买：1；收藏：2；购物车：3 3) 提交评分方式：参赛者完成用户品牌偏好预测后，需要将结果放入指定格式的数据表（非分区表）中，要求结果表名为：t_tmall_add_user_brand_predict_dh，包含 user_id 和 brand 两列。其中 brand 字段为预测的

6、偏好品牌 ID，多个品牌之间用逗号(,)分隔。例如：2. 大赛数据抽样方式？本次大赛的数据直接采用随机抽样的方式，抽取了天猫网站线上的一部分真实数据，抽样后数据未经过任何人为处理，所以数据包括了网站上所有真实情况(促销、活动、刷信用等等)。用户对所有商品的行为，都映射为用户对商品所对应的品牌行为。数据分别对用户和品牌做了部分抽样，所以提供的数据为一部分用户和一部分的品牌。3. 品牌数据如何抽取的？所有品牌数据均来自于商品信息，但不包括书籍类目和充值等没有品牌的类目数据，只针对包含正常品牌信息的商品。4. 4 种用户行为的类型有什么区别？点击：点击行为是用户在网站上对商品的一次浏览点击行为。购

7、物车：用户对商品的加入购物车行为，购物车本身有容量限制(50 个商品) ，用户可以在购物车中直接购买商品，或者删除购物车中商品。数据中没有提供用户删除购物车内商品的行为。收藏：用户对商品的加入收藏夹行为，收藏夹本身没有容量限制，用户可以在收藏夹中直接购买商品，或者删除收藏夹中商品。数据中没有提供用户删除收藏夹内商品的行为。购买：用户对商品的一次正常网购行为，数据中没有提供用户退款、退货等交易纠纷行为。5. user 和 brand 字段的 ID 是否为网站真实 ID？用户 ID 和品牌 ID 均已经脱敏，与网站真实 ID 不同，系统已保障了数据安全性。6. 用户行为数据是否为阿里巴巴所有相关网

8、站数据？所有数据只包括用户在天猫网站上的行为数据，不包括用户在淘宝网、聚划算、淘点点等网站的行为等数据。7. 第一赛季和第二赛季数据区别？第一赛季数据只开放了 10 万量级的数据供用户下载，第一赛季数据为第二赛季数据的子集。开放给参赛者的数据是用户 4 月 15 到 8 月 15 一共 4 个月的数据。8. 系统每天在什么时间点运行评分？a、第一赛季，系统每周日凌晨 2 点运行一次评分，评分结果在大赛官网上可以查询。b、第二赛季，系统每天凌晨 4 点运行一次评分，所以提交结果必须在凌晨 4 点前完成，否则不会产出评分结果。9. 评分运行后以哪个成绩为准?a、第一赛季，用户可以多次提交结果，但系

9、统只会评分每周日凌晨 2 点前最后一次提交的结果，多次提交的结果会被最后一次结果覆盖。每周的结果都会记录。b、第二赛季，用户每天也可以提交多次结果，但系统只会评分每天凌晨 4 点前最后一次提交的结果，多次提交的结果会被最后一次结果覆盖。每天的结果都会记录。10. 比赛多次结果评分，排名成绩如何排名？最终比赛成绩会以用户最优的 F1 得分进入总排行榜，所以参赛者可以多次提交尝试不同算法，不用担心测试过程中的结果影响最终成绩。11. 第二赛季的数据是否可以开放下载？第二赛季数据涉及阿里数据安全问题，所有参赛者不能下载到本地。12. 第二赛季使用的云计算平台都有哪些功能？第二赛季使用的云计算平台是阿

10、里巴巴自主研发的分布式离线数据处理平台(ODPS, 即Open Data Processing Service)，支持海量结构化数据的离线存储和计算，可以提供数据仓库的解决方案以及针对大数据的分析建模服务。ODPS 提供了多种数据处理操作，以及完善的安全解决方案，其包括的功能有:计算服务: SQL：用户可以通过客户端编写一段 SQL，ODPS 会自动将这段 SQL 解析为分布式的计算任务，为用户处理数据，得到分析结果； MapReduce on SQL：基于 ODPS SQL 框架开发的一套 MapReduce 编程接口；用户可以编写自己的 MapReduce 程序，将编译好的 jar 包上传

11、至 ODPS。最后通过简单的命令行方式运行自己的 MapReduce 任务。 Xlib；ODPS 为用户提供的一整套数据挖掘算法，包括但不限于：o 完全奇异值分解(Full Singular Value Decomposition)o 部分奇异值分解(Partial Singular Value Decomposition)o 追加矩阵列(Append Matrix Columns)o 多列排序和分位(Multi-columns Sorting and Ranking)o 基础统计（Basic Statistics）o 逻辑回归模型训练（Logistic Regression Train）o

12、逻辑回归模型预测（Logistic Regression Predict）o 随机森林模型训练（Random Forest Train）o 随机森林模型预测（Random Forest Predict）安全：ODPS 提供了功能强大的安全服务,为用户的数据安全提供保护；13. 如果对 ODPS 不够了解，有哪些可以提前参考学习的资料？ODPS 提供的 SQL，MapReduce，Xlib 等功能的详细介绍文档会在 4 月 25 日前，即第二赛季开始前，对外发布。在此之前，大家可以参考业内其他产品的相关资料：Hadoop 学习资料：http:/hadoop.apache.org/Hive 学习

13、资料：http:/hive.apache.org/MapReduce 学习资料：http:/ 学习资料：https:/mahout.apache.org/参赛选手也可自行查找其他学习文档。ODPS 的存储、计算调度依赖于一套阿里巴巴自主研发的分布式系统(飞天，Apsara)。对于分布式存储、计算方面的介绍可以参考 Hadoop 介绍文档。与 Hadoop 不同的是，飞天系统在计算调度方面不仅支持离线计算任务的调度，还支持在线服务的调度。此外，飞天支持更复杂的图结构的离线计算任务，而不仅仅是 MapReduce 框架的任务。ODPS SQL 功能的更多介绍请参考 Hive 相关资料。Xlib 功

14、能请参考 Mahout 的学习资料。在支持的算法类型上 Xlib 与 Mahout 有很大不同。特殊声明：ODPS 的各项功能的设计与实现同上述产品相比有很多不同。上述资料仅是为缺少分布式开发经验的参赛选手准备。如果想对 ODPS 产品有全面细致的了解，请关注 4月底发布的 ODPS 官方文档说明。14. 使用 ODPS 中，遇到问题如何解决？ODPS 会在 2014 年 4 月底向社会开放。您在使用中遇到的各种问题可以通过阿里云网站(http:/)中的 ”我的阿里云” - “用户中心” - “售后支持”提交工单。阿里云会有专门的售后技术支持人员为您解答问题。本次竞赛还会有专门的论坛供大家讨论

15、问题。此论坛更多关注竞赛规则、数据算法讨论及技术交流范畴。如果您在竞赛过程中有任何 ODPS 相关的疑问，请通过阿里云网站的售后系统进行反馈，会得到更快的解决。15. 第二赛季, 用于评分的测试集数据时间分布?用于评测参赛者算法的数据，是采用 8 月 16 到 9 月 15 一个月内的用户购买数据。该数据不向参赛者公布，系统自动隐藏。16. 为什么参赛者提交了结果，但没有评分结果？第一季提交结果后，没有评分结果，可能出错的原因：a、结果文件格式错误，上传的结果文件必须是 txt 格式。 b、结果文件内部必须为 user_id t brand_id , brand_id , brand_id n

16、格式，用户 ID 和品牌列表采用“t”分隔，品牌列表内品牌采用“,”分隔。 c、结果文件中不能包含除去数字、“t”、“,”、“n”以外任何字符。 d、结果文件中存在空白用户或者空白品牌列表，会导致评分结果受到影响。第二季提供结果后，没有评分结果，可能出错的原因：a、参赛者的结果没有放入指定的结果表(t_tmall_add_user_brand_predict_dh)内，请检查表名。 b、参赛者提供的结果表字段与规定不符合，结果数据表必须为 user_id 和 brand 两列。 c、参赛者提供的结果数据分隔符错误，预测的用户品牌必须用“,” 分隔，请检查。17. 第二赛季中多天未提交结果，成绩如何变化？

展开阅读全文

阿里大数据比赛介绍

最新文档