【数据挖掘比赛】之 Adversarial validation

阅读量：

Adversarial validation

数据挖掘比赛，一般都分为train（线下）和test（线上），test一般分为A榜和B榜。所以，做模型的时候首先要考虑的是train和test的分布是不是一致，保证分布的一致，是做模型的前提咯。不然，线下好的很，线上也是各种蹦，线上线下不一致。其次，要trust local cv，线上显示的A榜只是具有一点点的参考性，千万不要一味地被A榜的分数牵着鼻子走。在抖动比较大的数据中，可能种子不同分数都差别很大，这个时候更应该考虑泛化能力，可能这个种子只是刚好拟合A榜，B榜蹦成翔。

通常情况下，在线下阶段构造特征时

Adversarial validation（对抗性验证）是一种在Kaggle上非常流行的技巧，在这里有很多大牛都在使用这种方法来提升模型性能。其核心理念非常清晰，在原始论文中也有详细的阐述与论证

给 train 和 test 集标注新的标记 isTest：将 train 标记为 0；将 test 标记为 1。

然后构建一个分类器（如lgb、xgb、lr等），用于对新生成的标签isTest进行预测，并从训练集中获取相应的几率估计值（此处指通过oof方法计算得到的概率）。

计算得到测试样本isTest的几率值越高，则该样本与测试集的分布越趋近于一致。

按照概率值从高到低排序后选择概率值最高的n%数据用于线下验证，并观察该线下的验证数据分布与线上测试分布之间的相似程度如何；通过实验观察具体的有效比例是多少

5）理想情况下，交叉验证的auc越接近0.5咯，此时分布越一致。

此时，所选的线下验证集大体上与线上测试集呈现出同步增减的趋势。

这位Kaggle高级玩家搭建了一个演示版本，并分享了其GitHub仓库链接：https://www.kaggle.com/kevinbonnes/adversarial-validation

全部评论 (0)

还没有任何评论哟~

【数据挖掘比赛】之 Adversarial validation

Adversarialvalidation 数据挖掘比赛，一般都分为train（线下）和test（线上），test一般分为A榜和B榜。所以，做模型的时候首先要考虑的是train和test的分布是不是一...

SberbankRussianHousingMarket数据挖掘比赛总结

一、实验准备 1.实验环境系统MacOSX10.9.5 处理器2.3GHzIntelCorei7 内存16GB 2.编程语言 Python2.7 3.编程环境 JupyterNoteBook 利用p...

【数据挖掘】数据挖掘比赛项目-kaggle泰坦尼克号

数据挖掘实战项目kaggle泰坦尼克号生还者预测–ing kaggle泰坦尼克号生还者预测泰坦尼克号：从灾难中学习机器 kaggle网站连接：链接:<https://www.kaggle.com/c...

阿里数据挖掘比赛总结

好久不写博客了研究生一年级上学期读了一半了，除了上课就是在宿舍玩游戏。偶尔用caffe给师兄老师提个特征，想这个日子也是无聊呀。之后看到了阿里的数据挖掘比赛公交线路客流预测这个题目，时间战线正好，之...

数据挖掘比赛比较基础的baseline

目录 LGBM/XGB/CAT的接口 Scikitlearn接口原生接口 LightGBM介绍应用场景入参（参数）超参数优化模型验证方法交叉验证方法留出法加速数值计算 Numba Cu...

Kaggle 数据挖掘比赛经验分享

转载：<https://zhuanlan.zhihu.com/p/26820998 简介 Kaggle于2010年创立，专注数据科学，机器学习竞赛的举办，是全球最大的数据科学社区和数据竞赛平台。

python 哪些比赛-国内数据挖掘比赛有哪些？

文章来自公众号：Python或R人工智能学习，ID：PythonRwu，后附学习资料。）随着人工智能的发展，越来越多的公司开始举办大数据比赛，题目类型也越来越丰富，短视频、自动驾驶等题材越来越多。下...

【数据挖掘实战】之天猫移动推荐比赛

前言：去年曾经参加过天猫移动推荐比赛。但是当时报名之后实验室安排了其他的新任务，导致这个比赛只是在最后几天粗略的做了一下，然后也只提交了一次结果。没能好好地做这个比赛也是我的一个遗憾。现在回过头来再尝...

数据挖掘之对比分析

对比分析是把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小，水平的高低，速度的快慢，以及各种关系是否协调，特别适合指标的横向和纵向比较、时间序列的比较分析。

数据挖掘之图挖掘

1.图挖掘传统的数据挖掘任务，比如关联规则挖掘、市场购物篮分析和聚类分析等，都是试图从一个具有单一关系的独立实例集中寻找模式许多真实数据集描述的都是通过多种关系连接在一起的各种实体类型，应当小心妥...

是否确定退出登录?

【数据挖掘比赛】之 Adversarial validation

Adversarial validation

全部评论 (0)

相关文章推荐

【数据挖掘比赛】之 Adversarial validation

SberbankRussianHousingMarket数据挖掘比赛总结

【数据挖掘】数据挖掘比赛项目-kaggle泰坦尼克号

阿里数据挖掘比赛总结

数据挖掘比赛比较基础的baseline

Kaggle 数据挖掘比赛经验分享

python 哪些比赛-国内数据挖掘比赛有哪些？

【数据挖掘实战】之天猫移动推荐比赛

数据挖掘之对比分析

数据挖掘之图挖掘