完整的虚假新闻检测数据集weibo_datasets
数据集概述:
这是一个样本数据集。\n将推文划分为训练集与测试集。\n在每个集合中,则有两个文件分别存储谣言与非谣言的推文。\n该数据集中的正负样本数量较为均衡。\n大约达到3700个以上。\n真实的原始数据即为tweets文件。\n每个txt文件内的数据格式如下:
- line1: 发布记录编号 | 发布者账号 | 传播链接 | 个人访问路径 | 发布日期时间 | 内容原创性标记 | 转发量 | 评论数量 | 点赞数量 | 用户ID | 用户认证类型 | 用户粉丝数量 | 用户关注数量 | 用户推文数量 | 发布渠道
- line2: 采用如下格式排列 "图片1链接 | 图片2链接 | ……(若无图片则标记为null)" 其中每个链接指向对应的图像资源
- line3:推文正文(可为空)
💡 Notices:
(1) 每条微博包含三个部分:第一部分由竖线分隔的 15 个元信息组成;第二部分列出图片链接(同样用竖线分隔);第三部分为文本内容(可能为空)。
(2) 用户认证种类分为三种情况:0 表示无认证、1 表示个人认证、2 表示组织认证。
负责编写网络爬虫从互联网上抓取图片
(4) 不同的推文可能有重复的图片,去重之后,所有推文涉及到的图片总数为38829。
non-rumour_images 图片文件夹与 rumour_images 图片文件夹均没有相同名称的文件。因此,我们将这两个数据集以及收集到的数据集合并起来,从而形成了一个新的图片文件夹 named weibo_images.
不同论文之间发推文的数量有所差异,在整理数据集时主要参考了EANN-KDD18框架,在GitHub上提供了相应的工具包
下面是数据集的样例:
3907393559904503|null|null|null|1447078683000|true|30|4|33|null|0|null|null|null|微博 weibo.com
http://ww3.sinaimg.cn/large/62b31d36gw1exv2qu0x0ij20hm0bn0v8.jpg|http://ww1.sinaimg.cn/large/62b31d36gw1exv2qx1wtrj20hm0aumz4.jpg|http://ww3.sinaimg.cn/large/62b31d36gw1exv2qz6zw2j20hm07dwft.jpg|http://ww1.sinaimg.cn/large/62b31d36gw1exv2r1ksnhj20hm07cq3u.jpg|http://ww3.sinaimg.cn/large/62b31d36gw1exv2r80vejj208i0bk0ul.jpg|http://ww4.sinaimg.cn/large/62b31d36gw1exv2rbq7muj20hm0e00tu.jpg|http://ww4.sinaimg.cn/large/62b31d36gw1exv2rf6tnej208i0gv3zb.jpg|http://ww2.sinaimg.cn/large/62b31d36gw1exv2rkjkpmj208i0gvabr.jpg|http://ww4.sinaimg.cn/large/62b31d36gw1exv2roz3upj20hm0m0afv.jpg|null
【每日美图】西西里的希腊古城塞利侬特(Selinunte)
jsx
整理好的数据集
**对图片数据集的处理**
本文对数据集进行了系统性的整理工作,在完成将原始图片文件夹与从URL获取到的新图片进行整合的基础上构建完成了weibo_images这一完整的图片数据集合,并在此基础上进一步优化操作流程,在所有图像文件名统一采用了全部小写字体的标准格式。
**对tweets文件信息的抽取**
我们从tweets文件中提取了相关信息,并分离出文本内容以及图片数据。随后去除了包含无效内容的微博(约50条),同时检查了每一条微博配有的图片情况,并将其整理为CSV格式。
csv文件由五个字段组成。
- image: 该文件存储的所有图片名称。
- text: 每条推文与之相关联的文本内容。
- useful_image:该推文能够获取到的真实存在的图片信息。
- exist_iamge: 每条推文需判断是否存在至少一张有效的图片信息。
- label:根据标签匹配确定的内容类型。
通过百度网盘分享的文件:youxiweibo
失效添加百度云盘群:950703375
