设为首页 收藏本站
查看: 1740|回复: 0

[经验分享] 【Python】参加淘宝天猫天池大数据比赛的代码解析(一)

[复制链接]
YunVN网友  发表于 2017-5-8 10:47:41 |阅读模式
最近报名参加了天池大数据比赛,题目是搭建一个推荐系统,我使用的是Python语言,挖掘的第一步是输入原始数据,折腾了很久才把数据按照期望的格式进行输入存储,在这里介绍一下

  • 天池大数据比赛链接: http://tianchi.aliyun.com/competition/information.htm?spm=5176.100067.5678.2.X8Bm6J&raceId=231506
  • 数据源分析:数据的原始格式如下,存在两个问题,其一是文件的分隔符不统一,有空格也有逗号,其二是第三列(也就是商品分词后的结果)的分词数量不一致

41 399 131001,58750,195405,23594,131035,43341,92435,18294,43299,43660,86400,25984,59461,91068
46 338 42453,52550,142033,64060,37355,92435,66180,122877,84899,186483,101916,178051,148830,43299,208642
116 396 200256,69355,92435,43341,132321,218736,140701,137354,91068,2110,26749,198110,195405,131001
121 221 19244,2592,77682,183335,18294,131001,154301,156739,25155,40127,195405,37355,44665
166 199 6603,55565,59009,141815,17823,56660,94566,168708,186022,47149,178981,40718,119433,143243
216 627 37355,11054,48817,127829,102013,18928,100780,205795,170954,61410,59606,145333,29836,18136,157099
236 235 198355,92344,92435,128535,165874,37355,104975,69042,202561,218532,103148,13817
246 220 131035,89627,92435,98279,189223,297,11054,116175,56022,78553,164790,86400,195405,34939
281 487 168887,183868,200798,165530,94632,188186,205124,109662,99521,109662,66980,131060,200762


  • 处理方法1:首先是在read_csv函数中设定converters参数,将第三列的数据转化成数组进行存储;另外是重新将read_csv获得的DataFrame的第三列进行拆分,重新赋值给新的DataFrame,问题顺利解决

import pandas as pd
def seq_item(s_items):
# 将商品描述词分列,商品最多的商品描述分词数为33个
return s_items.split(',')
def read_dim_items(read_rows = None):
# 读入商品信息表,参数read_rows表示读入的行数,默认是全读
dim_items = pd.read_table('dim_items\\dim_items.txt',header = None,sep = ' ',converters = {2:seq_item},index_col = [1,0],nrows = read_rows)
dim_items = pd.DataFrame(dim_items[2].tolist(),index = dim_items.index)
return dim_items

  •  处理方法2:利用pandas自带的str.split函数进行拆分并重新赋值给新的df

def read_dim_items(read_rows = None):
# 读入商品信息表,参数read_rows表示读入的行数,默认是全读
# 第一列为商品ID(item_id),第二列为商品所属类目ID(cat_id),第三列为商品标题分词后的结果(items)
dim_items = pd.read_table('dim_items\\dim_items.txt',header = None,sep = ' ',index_col = [1,0],nrows = read_rows)  # ,converters = {2:seq_item}
dim_items = dim_items[2].str.split(',',expand = True)
return dim_items
 

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-374582-1-1.html 上篇帖子: 零基础学python-15.1 为什么需要编写函数 下篇帖子: 零基础学python-19.11 使用迭代工具模拟map
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表