Kaggle 是目前世界上最大的数据科学家、机器学习开发者的社区,用户量达到几十万,是行业中比较权威的平台。
2017 年 3 月 8 日,Stanford 人工智能实验室主任兼谷歌云首席科学家李飞飞主导了 Google 收购 Kaggle 的案子。大约在一年前,李飞飞就说过:“Kaggle 是搜寻、分析公共数据集,开发机器学习模型和提高数据科学专业水平的最佳场所。”这是对 Kaggle 在机器学习、人工智能领域的地位的高度认可,也为今年的收购行为做出了一个合理的解释。
对于 Kaggle 而言,在加持了 Google Cloud 服务后,社区将拥有更好的获取、储存大型数据集的能力;而社区成员将能够享用最先进的云机器学习开发环境。这一合作无疑将会对 Kaggle 社区的发展起到很大的推动作用,因此未来 Kaggle 在 ML 和 AI 领域的地位只会更加稳固。(来自知乎用户 a2Mia 姐,链接:https://www.zhihu.com/question/32032932/answer/152163712)
作为一个机器学习和数据科学平台,企业和研究者可在 Kaggle 上发布数据,该平台的竞赛也吸引了很多统计学者和数据挖掘专家,其中一项奖项 Heritage Health Prize 奖金高达 300 万美金,参加该比赛对于竞赛者来说是一次学习和实践锻炼的机会,因为只有佼佼者才能获得最终第一名的奖金,竞赛成绩也会成为简历中一项非常亮眼的经历。
Kaggle Learn 项目总览
Kaggle Learn 项目所有课程均为在线免费课程,据项目官网介绍,该项目旨在帮助有意参加竞赛的人或帮助数据科学学习者在建模之前了解理论知识,以提高解决实际问题的能力。
该项目由四门课程组成,分别为机器学习、R 语言、数据可视化和深度学习,每门课程又根据难度分为 Level1、Level2 不等,讲授知识由浅入深,内容涵盖人工智能、数据科学等热门领域。
机器学习:这是数据科学中最热门的领域,此课程可以让你迅速入门机器学习。
R 语言:这是专门为数据分析而设计的语言。此系列课程包括数据设置、机器学习和数据可视化。
数据可视化:可视化是数据科学中最具有活力的技术,通过可视、美丽的图像展现数据集。
深度学习:通过本课程学习 TensorFlow 的使用方法,从而使机器学习更进一步,这项新的技能将会带给你更多惊喜。
该项目的四门课程具备以下特点:基于项目学习,能够很方便地关注学习进度,由全球最大的数据科学社区提供支持,可以将项目经验写入个人履历。
Kaggle Learn 项目目前共有三名讲师:
Dan Becker,数据科学家,曾为“财富”100 强中的 6 家公司提供数据科学技术的咨询服务,是 Keras 深度学习库的代码贡献者。他拥有计量经济学博士学位。目前主要负责机器学习和深度学习两门课程。
Racheal Tatman,多年来一直是 R 语言的活跃用户和讲师。她曾担任 Software Carpenty 和 She Codes Now 讲习班的讲师,拥有语言学博士学位。目前主要负责 R 语言课程。
Aleksey Bilogur,他是一位数据专家和 Python 开源项目贡献者。他为纽约市长办公室和纽约大学 CUSP 工作,拥有数学学士学位。目前主要负责数据可视化课程。
Kaggle Learn 课程详细介绍
机器学习
机器学习课程分为 Level1、Level2,机器学习新手可以从入门课程开始,一步步学习从原理到数据上传、设置计算环境、建模等全部过程,每节课均附有学习笔记可供查阅学习。
课程链接:
https://www.kaggle.com/learn/machine-learning
Level 1 共包含 8 节课:
模型工作原理:新手入门机器学习第一步
建立自己的机器学习项目:上传数据,亲自动手设置项目所需的计算环境
用 Pandas 筛选过滤数据:为建模做数据准备
运行你的第一个模型
验证模型:测试模型性能,必要时用其他模型替换
欠拟合、过拟合以及模型优化:调整模型以提高性能
随机森林:使用更加复杂的机器学习算法
提交参加竞赛:为你做到的感到自豪吧,并关注你的项目在竞赛中的进展
Level 2 共包含 7 节课,涵盖了机器学习中会遇到的各种问题,如处理丢失数据、使用分类数据等。
R 语言
课程链接:
https://www.kaggle.com/learn/r
目前这门课程仅开放了 Level 1,共包含 6 节课:
用 R 语言学数据科学(学习读取数据和建立机器学习模型的基本知识)
用 Tidyverse 操作数据(这个被广泛采用的强大的库将大大提高效率
用 ggplot2 进行数据可视化:虽然数据可视化库众多,但大多数专家认为 ggplot2 功能最为强大
用 R 写 NLP:主题模型
XGBoost(R)机器学习
选择带有补字符的最佳模型(模型自动筛选,让机器学习更轻松、更有效)
数据可视化
课程链接:
https://www.kaggle.com/learn/data-visualisation
同样仅开放了 Level 1,共 10 节课,从入门基本知识到高级操作均涵盖其中。
深度学习
课程链接:
https://www.kaggle.com/learn/deep-learning
同样仅开放了 Level 1,共 6 节课,包括:
深度学习和计算机视觉入门:简单介绍模型图像处理的原理
本课结束后,你将会对卷积有所了解,卷积是计算机视觉(和许多其他应用)深度学习模型的基本构建块。接下来你就可以学习使用世界级的深度学习模型了。
建立卷积模型
学完本课后,你将会了解卷积是如何发挥作用,在计算机视觉上达到人类难以企及的水平。
用 TensorFlow 和 Keras 编程
学完本课后,你就可以使用 TensorFlow 和 Keras 编程编程计算机视觉领域最好用的模型之一了。
迁移学习
学完本课后,你将能够在缺乏数据的强况下,根据顾客的需求,使用迁移学习建立精准的计算机视觉模型。
数据增强
学会使用数据增强后,达到的效果会远高于你只是拥有数据所能获得的效果,并且可以建立更好的模型。
进一步了解深度学习
在这节课结束时,你将了解如何使用随机梯度下降和反向传播来设置深度学习模型中的权重。虽然这些话题很复杂,但许多专家认为这是深度学习中最重要的思想。
以上就是对 Kaggle 最新推出的免费线上课程的介绍,所有课程的代码编写和运行均能在 Kaggle 网站上直接进行,无需在自己的电脑上安装环境和插件。