时间:2021-07-01 10:21:17 帮助过:82人阅读
从Netflix Prize之后的一两年,这种类型的比赛开始盛行。最开始参与的能取得好成绩的都是一些大牛,比如大家都熟知的项亮当时是Netflix Prize第二名的成员。
这几年随着比赛越来越多,winner solution也到处都是,套路大家也越来越熟。不管什么比赛, LR+GDBT+FM+NN上去一搞,再ensemble一下,总能得到一个不错的结果。
在kaggle上获得什么名次不能说明什么。如果能在比赛过程中体现出分析问题解决问题的能力,特别是能针对性的提出结果方案,才能体现真实水平。举一个例子,上海交大APEX实验室的团队参加KDD Cup 11之后开发了SVD Feature;参加KDD Cup 12获得第一名中的一些tree相关的技术是Tianqi的ICML 13 paper以及XGBoost的基础。相反,如果你翻开最近参加kaggle比赛的一些solution分享,大多都是follow一些特定的流程走了一遍,并没有什么新东西。
另外,现在大家都是组队参加,真正能起决定作用的是其中少数几个人,另外还有几个打酱油的喜欢拿着成绩自己出去吹,对这些人大家还是多加小心。
参加比赛和做research是不一样的。很多人可以不必了解model和algorithm的细节,拿几个开源的包跑跑就可以得到不错的成绩。而做*好的*research需要对模型和应用较深的理解。所以,对求职来说是一个亮点,但是对申请研究生来说,不一定。
获奖的都是有真本事的人,在上面练几个题目得个好名次,十分能证明你对数据科学这个领域的实践和理解。我现在招人的时候几乎是这个标准:
写上参加过Kaggle比赛,我会看简历。
得过一次10%,我会给电话面试。
得过2次或者以上10%,我会给on site面试。
得过一次前10,我们会谈笑风生。
楼主加油。
在主流科研界可能影响已经不大了,但是在工业界中依然很受用。如果你有一些特别亮点的成绩,还是很有说服力的。也正如 @lau phunter中提到的答案一样。
如果要在Kaggle比赛里面获得一个好的成绩,免不了要做大量的实验:关于参数选择,模型选择,以及特征工程等等。而为了高效地完成这些实验,即要有良好的实验思想,又要有扎实的代码功底来完成Pipeline设计与架构。这都非常考验人的综合能力,是工业界需要的人才。
当然即便如此,Kaggle的比赛已经比真实世界中的机器学习要做的事情简化太多了。我们平时时间都花在哪了?
* 确定要解决的问题到底是什么
* 明确优化指标
* 收集合适的数据
* 数据清洗
* 做各种实验
* 要求其他组的人协同做A/B Test
* 把机器学习的Pipeline整合到其他产品的Pipeline中
* 在各个场合推销我们的模型真的有用……
所以真正能跑实验的时间并不多。但无论怎样,至少Kaggle中取得一个好成绩说明你真的可以系统性地做实验,是非常大的亮点,也是非常过硬得指标。
申请研究生应该没卵用,没拿过这个东西申请工作,也不知道。至于能不能学到东西,看什么样的比赛,以及是否用心。
有些比赛数据太简单,下载下来跑个Xgboost,就10%了。不过如果自己去尝试新的东西,也是能有收获的。
有一些数据比较麻烦,处理数据就费时间,feature engineering的余地也比较丰富,有时候要自己写一些规则或者写loss function,这些比赛可以学到不少。
获奖不容易。简单的比赛由于参加人数太多,方法又太同质化,时间都花在tuning parameter和ensemble上,获奖需要很好的运气。复杂的比赛,方法千差万别,还搞tuning parameter那套就不灵了,top队伍时间都花在抓问题关键上,谁抓到的关键更多,谁分数就更高,这个要花很多时间和思考,比较刺激。
什么样的人都有。奖金高的比赛有不少大公司的"专业选手",奖金低的比赛入门级选手居多。到缺少专业机器学习人才的公司求职会有帮助。申请研究生不如发表顶会文章有用。
感觉没什么地位,属于转专业到data scientist利器。
这种实战性的比赛挺好的,我们模仿kaggle办了一个大数据的比赛,欢迎来玩。
奖金1w,时间黑客:寻找创造时间的程序大师 随身云日历产品大数据挖掘&在线编程大赛One suggestion, do a crappy PhD, or get a job. Just don't get a master's. Unless it's funded or in US.
进榜不难,排前面较易,排前几很难。都是套路,熟练+简单思考就好。
跟挖掘机开酒瓶的比赛没啥区别…
以上就是Kaggle的比赛在 Machine Learning领域中属于什么地位?的内容,更多相关内容请关注PHP中文网(www.gxlcms.com)!