原文: https://machinelearningmastery.com/master-kaggle-by-competing-consistently/
_ 你如何擅长 Kaggle 比赛?_
这是我被问到的一个常见问题。入门和获得成功的最佳建议是始终如一地参加比赛。你不禁会在机器学习上变得更好。
Triskelion 最近发表了一篇题为“ _ 的文章,反映了一年的 Kaggle 比赛 _ ”将这一点暴露出来。他最初是一名机器学习初学者,最终成为“大师”级别的 Kaggle 竞争对手(达到 10%和前 10 名)
在这篇文章中,我们将回顾 Triskelion 的一贯参与的教训,作为开始一个大师 Kaggle 的方法。
持续竞争 保罗的照片,保留一些权利
我认为 Triskelion 的关键开始并有信心继续下去是两个方面:
- 转载结果:他转载了论坛和博文中描述的结果。
- 二手工具:通过再现结果,他发现并开始使用 Vowpal Wabbit 和 scikit-learn 等工具。
重现结果 这是一个显而易见但极其被低估的方法。
缺乏良好的机器学习教程。最好的代理(并且比玩具数据集上的教程更好)是论坛上的“如何击败基准”帖子以及比赛结束时的“我如何发布帖子”。
这样做的原因是这些准教程可以让您深入了解世界级分析师如何思考并解决问题。例如:他们使用的工具,他们如何设置他们的管道,他们使用的参数,过程,一切。
模仿这些元素是一种巧妙的方式来引导您的机器学习技能。
初学者的错误是从零开始重新实现算法。
有大量强大的工具可供使用,您必须利用它们。您将获得更好的结果,更快。这将激励您进一步推动。
Triskelion 很早就发现了 Vowpal Wabbit 并且不怕玩它。大众是一个非常强大的工具,甚至专业人士也很难。
事实上,我在机器学习方面受过训练的“专家”中看到的一个问题是忽视甚至嘲笑现代或不同的工具。他们在 R 或 Weka 中学习机器学习,因此每个问题都只能用他们选择的武器来解决。
您知道并可以使用的工具越多,您就越需要考虑和解决问题。
持续竞争是获得成功的关键。
好是相对的,但 Triskelion 现在明显好于一年前(比其他近 20 万竞争对手好),这主要归功于他积极的参与时间表。
他列出了 7 个特定的比赛,但他的个人资料显示他参加了 15 场比赛。
如果你想要擅长机器学习比赛,请跟随他的领导并参加很多比赛。即使您刚刚在前几个中达到基准,您将学到很多关于数据准备和工具的知识。
如果您重现您在博客和论坛上发布的那些竞赛结果,那么收益将是非线性的。
最后,Triskelion 完成了许多提示。
- 实践很多:尽可能多地提出挑战,逐步改进。
- 研究评估指标:真正了解 AUC 等(查看指标列表)
- 研究领域:商业案例,论文,最新技术,特色工程
- 团队合作:前 10 名的成绩很难,但他需要团结起来才能实现。
- 阅读论坛:发布比赛帖子,了解获胜解决方案。
- 分享论坛:在给定问题上有很多角度,不要分享太多。
- 使用合奏:它们总能改善结果,可以为您提供简单模型的前 10 名。
- 实验:尝试想法而不是生活在思想中
- 创造力:在盒子外面思考
- 工具:查找并使用好的算法。
- 调整:使用交叉验证,调整所有模型参数。
他的最后一个提示是玩得开心。
这可能是最重要的一点。有竞争力的机器学习非常有趣。找到它的乐趣。在开始时需要一些毅力来克服知识驼峰。做“好”(击败基准)的行为可能是一开始的有趣部分。