Advertisement

数据挖掘竞赛题目 -- 电影推荐

阅读量:

竞赛简介

通过对用户评分行为的分析,挖掘用户的兴趣及其变化规律,然后预测用户对其他电影的评分。

数据描述

本次比赛,我们提供了1千万左右的电影评分数据,每条评分记录都有时间戳(隐匿了具体时间,只保证顺序不变)。评分分为5级,1分最低,5分最高。

  1. 我们抽取了超过800万条评分记录,作为训练集,数据文件名为r1.train,字段格式为:

UserID::MovieID::Rating::Timestamp
用户i : : 电影a :: 评分 :: 相对时间
用户j : : 电影b : :评分: : 相对时间

说明

复制代码
1. UserID::MovieID::Rating::Timestamp ,四个字段分别代表:用户编号,电影编号,评分,相对时间; 
2. 每一行为一个用户对一个商品的评分,行之间用“回车符”分隔; 
3. 每一行各字段之间用“::”分隔。 
  1. 我们还抽取了超过200万条评分记录,作为测试集。我们隐藏了用户对于电影的评分,仅保留用户和商品的评分关系,数据文件名为r1.test,字段格式为:
    UserID::MovieID::Rating::Timestamp

用户i : : 电影a :: ** :: 相对时间
用户j : : 电影b : : **: : 相对时间

说明信息同训练集,Rating字段用“**”代替。

  1. 我们还提供了电影的详细信息,数据文件为movies.dat,格式如下:

MovieID::Title::Genres

MovieID是电影编号,Title是电影名称,Genres是电影类别信息。
类别信息含义如下:
• Action
• Adventure
• Animation
• Children’s
• Comedy
• Crime
• Documentary
• Drama
• Fantasy
• Film-Noir
• Horror
• Musical
• Mystery
• Romance
• Sci-Fi
• Thriller
• War
• Western

任务描述

参赛者需要写出推荐算法,预测测试集中用户对于电影的评分。

评价标准

评分算法: regression-new_rmse
算法解释: 采用均方根误差RMSE来评测整个算法的推荐准确度

全部评论 (0)

还没有任何评论哟~