Python程序设计与实践大作业实验报告陆阳孙勇裘升明

上传人:新** 文档编号:487183215 上传时间:2023-04-06 格式:DOC 页数:21 大小:81.50KB
返回 下载 相关 举报
Python程序设计与实践大作业实验报告陆阳孙勇裘升明_第1页
第1页 / 共21页
Python程序设计与实践大作业实验报告陆阳孙勇裘升明_第2页
第2页 / 共21页
Python程序设计与实践大作业实验报告陆阳孙勇裘升明_第3页
第3页 / 共21页
Python程序设计与实践大作业实验报告陆阳孙勇裘升明_第4页
第4页 / 共21页
Python程序设计与实践大作业实验报告陆阳孙勇裘升明_第5页
第5页 / 共21页
点击查看更多>>
资源描述

《Python程序设计与实践大作业实验报告陆阳孙勇裘升明》由会员分享,可在线阅读,更多相关《Python程序设计与实践大作业实验报告陆阳孙勇裘升明(21页珍藏版)》请在金锄头文库上搜索。

1、#工商大学计算机与信息工程学院Python程序设计与实践大作业报告专 业: 计科 班 级: 1404 学 号:1412190416、1412190415、1412190413姓 名:陆阳,孙勇,裘昇明指导 蒲飞 2015 年 6 月 28 日题目介绍:在真实的业务场景下,我们往往需要对所有商品的一个子集构建个性化推荐模型.在完成这件任务的过程中,我们不仅需要利用用户在这个商品子集上的行为数据,往往还需要利用更丰富的用户行为数据.定义如下的符号:U用户集合I商品全集P商品子集,PID用户对商品全集的行为数据集合那么我们的目标是利用D来构造U中用户对P中商品的推荐模型.数据说明:竞赛数据包含两个部

2、分.第一部分是用户在商品全集上的移动端行为数据D,表名为tianchi_mobile_recommend_train_user,包含如下字段:字段字段说明提取说明user_id用户标识抽样&字段脱敏item_id商品标识字段脱敏behavior_type用户对商品的行为类型包括浏览、收藏、加购物车、购买,对应取值分别是1、2、3、4.user_geohash用户位置的空间标识,可以为空由经纬度通过#的算法生成item_category商品分类标识字段脱敏time行为时间精确到小时级别第二个部分是商品子集P,表名为tianchi_mobile_recommend_train_item,包含如下字

3、段:字段字段说明提取说明item_id商品标识抽样&字段脱敏item_ geohash商品位置的空间标识,可以为空由经纬度通过#的算法生成item_category商品分类标识字段脱敏训练数据包含了抽样出来的一定量用户在一个月时间11.1812.18之内的移动端行为数据D,评分数据是这些用户在这个一个月之后的一天12.19对商品子集P的购买数据.参赛者要使用训练数据建立推荐模型,并输出用户在接下来一天对商品子集购买行为的预测结果.大作业报告内容包括以下几个部分1、数据分组统计:可统计有多少用户、商品、商品类别等信息,甚至每天各种行为的统计数.如图:还有,在给出的用户行为数据中,有些用户在整个1

4、1-18日至12-18日对商品有浏览行为记录,但是从未产生过购买行为,这些用户会否在12月19号购买商品实难预测,因此,我们去除这些无购买行为的用户信息,认为这些用户在12月19号还是不会购买任何商品.贴关键代码import timeimport pandas as pdstart=time.timedf_items=pd.read_csvdf_items2=pd.read_csvdf_items3=pd.DataFramedf_items4=pd.DataFramedf_items5=pd.DataFramedf_items3=df_itemsitem_id.drop_duplicatesd

5、f_items4=df_itemsitem_category.drop_duplicatesdf_items5=df_itemsdf_items.item_geohash.notnulldf_items5=df_items5item_id.drop_duplicatesdf_items6=df_items2user_id.drop_duplicatesdf_items7=df_items2item_id.drop_duplicatesdf_items8=df_items2item_category.drop_duplicatestotal_behavior_num=lendf_items9=d

6、f_items2df_items2.behavior_type=4df_items10=df_items2df_items2.behavior_type!=4positive_num=lennegative_num=lenitem_num=lenitem_categories_num=lenitem_geohash_num=lenuser_num=lenitem_full_num=lenitem_categories_full_num=lenend=time.timeprint 商品子集中商品个数为:,item_numprint 商品子集中商品类型数为:,item_categories_num

7、print 商品子集中带geohash信息的商品个数为:,item_geohash_numprint 用户数一共有:,user_numprint 商品全集中商品个数为:,item_full_numprint 商品全集中商品种类数数为:,item_categories_full_numprint 商品全集中共有%d条行为记录 %print 消费行为记录中负正样本比为%d:1 %print 一共耗时%f秒 %2、数据预处理 重新整理时间重新整理数据的时间,也就是Time字段,在数据统计分组中也提到过,因为原始数据的用户行为时间记录是从11月18日0时到12月18日23时,精确到小时级,为了方便数据

8、集的划分,需要将用户行为时间数据整理为0-30天,以天为单位,即11月18日的time为0、11月19日的time为1,以此类推.贴关键代码import pandas as pdfrom datetime import *import timet0=time.timebegin_time=datetimedef trans_time: entry_time=datetime.strptime datatime_delta=.days return intdf_train_user=pd.read_csvprint =nprint 时间转换进行中 .ndf_train_user.time=df_

9、train_user.time.maplambda x:trans_timedf_train_user.to_csvt1=time.timeprint 时间转换结束!nprint 转换时间共耗时%f秒 % 划分训练集和测试集在分类问题中,模型需要经过训练集的学习,才能用于测试集,而训练集和测试集在形式上的区别在于前者有类别标签,后者则需要模型输出相应的类别标签.这里的问题是依据31天的用户操作记录预测第32天的购买情况,所以通常来说,训练集的构建需要利用31天的数据,而其相应的类别标签如何标注在训练集中?这个与你如何划分训练集和测试集有关;而测试集的构建则可用到31天的完整数据.下面举个例子,

10、用于解释训练集和测试集的具体表现形式.训练集样本示例测试集样本示例训练集样本示例中的user_id, brand_iditem_id用于表示唯一的样本id,而特征feature_1, feature_2则用31天的数据构建而来.本次比赛中,我们划分训练集和测试集所用的分割日期是每10天.第0-9天为一个训练集,用第10天的数据给第0-9天数据添加类别标签.第1-10天为一个训练集,用第11天的数据给第1-10天数据添加类别标签,依次类推,最后是第20-29天为一个训练集,用第30天的数据给第20-29天数据添加类别标签.测试集为第21-30天的数据.贴关键代码import pandas as

11、pdfrom datetime import *import timenum=22start=time.timedf_train_user=pd.read_csvdf_items=pd.read_csvdf_items=df_items.item_id.drop_duplicatesa=pd.DataFrameaitem_id=df_items.valuesdf_items=afor i in range: print 划分训练集:+str j=i+10 if j!=31: df_set=df_train_user=i & df_train_user.time df_set.to_csvdat

12、a/+str+.csv,index=False df_test=df_train_user & user_id,item_id df_test=df_test.drop_duplicates df_test=pd.merge.drop_duplicates df_test.to_csvdata/+result+str+.csv,index=False else: df_set=df_train_user=i&df_train_user.timedf_set.to_csvend=time.timeprint 训练集划分耗时%f秒 % 平衡正负样本正负样本比例需从1:100降为1:101:20之间.贴关键代码

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号