Advertisement

文本分类竞赛-数据初识

阅读量:

数据初识

  • 1.下载数据,读取数据,观察数据
  • 2.将训练集拆分为训练集和验证集

1.下载数据,读取数据,观察数据

数据解压下来放在new_data文件夹中,分为train_set和test_set两个文件

复制代码
    import numpy as np
    import pandas as pd
    
    training = pd.read_csv("../new_data/train_set.csv")
    print(training.head())
    
    
      
      
      
      
      
    
    代码解读

查看训练集的前五行
在这里插入图片描述

复制代码
    print(training.shape)
    print(training.columns)
    print(training.info())
    
    
      
      
      
    
    代码解读
复制代码
    (102277, 4)
    Index(['id', 'article', 'word_seg', 'class'], dtype='object')
    <class 'pandas.core.frame.DataFrame'>
    RangeIndex: 102277 entries, 0 to 102276
    Data columns (total 4 columns):
    id          102277 non-null int64
    article     102277 non-null object
    word_seg    102277 non-null object
    class       102277 non-null int64
    dtypes: int64(2), object(2)
    memory usage: 3.1+ MB
    None
    
    
      
      
      
      
      
      
      
      
      
      
      
      
    
    代码解读

有102277条数据,每条数据是一篇文章,数据没有缺失值

官网上的解释:

1.train_set.csv:此数据集用于训练模型,每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列:
第一列是文章的索引(id),第二列是文章正文在“字”级别上的表示,即字符相隔正文(article);第三列是在“词”级别上的表示,即词语相隔正文(word_seg);第四列是这篇文章的标注(class)。
注:每一个数字对应一个“字”,或“词”,或“标点符号”。“字”的编号与“词”的编号是独立的!
2.test_set.csv:此数据用于测试。数据格式同train_set.csv,但不包含class。
注:test_set与train_test中文章id的编号是独立的。

2.将训练集拆分为训练集和验证集

复制代码
    from sklearn.model_selection import train_test_split #to create validation data set
    X_train = training.drop("class", axis=1)
    y_train = training["class"]
    X_training, X_valid, y_training, y_valid = train_test_split(X_train, y_train, test_size=0.2, random_state=0)
    print(X_training.shape)
    print(X_valid.shape)
    print(y_training.shape)
    print(y_valid.shape)
    
    
      
      
      
      
      
      
      
      
    
    代码解读
复制代码
    (81821, 3)
    (20456, 3)
    (81821,)
    (20456,)
    
    
      
      
      
      
    
    代码解读

全部评论 (0)

还没有任何评论哟~