史上最全实战资源，机器学习框架、高分练手项目及数据集汇总

发表自话题：第七次人口普查数据结构

机器学习领域，最常讨论到的一个话题就是机器学习项目。学习或从事这个领域的小伙伴都会想要找一些机器学习的项目来进行练手，做项目好比练题，孰能生巧，能够在机器学习这个领域获取更多的知识和技能。

本篇目录：

1、20个机器学习库和框架

2、机器学习项目：

语言相关
计算机视觉图像处理自然语言处理预测图像处理风格转移图像分类人脸识别物体检测自动驾驶游戏AI国际象棋AI医疗AI 演讲AI

3、数据集

经典数据集图像处理情感分析自然语言处理音频数据集自动驾驶

机器学习库和框架

01 TensorFlow

TensorFlow是一个采用数据流图（data flow graphs），用于数值计算的开源软件库。最初是由研究人员和工程师在Google机器智能研究组织的Google Brain团队中开发的。用于机器学习和深度神经网络方面的研究，但这个系统的通用性使其也可广泛用于其他计算领域。

贡献者：1978，提交：55315，星级：127129。

Github网址： Tensorflow

https://www.tensorflow.org/

02 Scikit-learn

scikit-learn 是基于 Python 语言的机器学习工具。它是一个简单高效的数据挖掘和数据分析工具，可供大家在各种环境中重复使用，建立在 NumPy ，SciPy 和 matplotlib 上，开源，可商业使用 - BSD许可证。
贡献者：1303，提交：23978，星星：34958

Github URL： Scikit-learn

http://scikit-learn.org/

03 Keras

Keras是一个高层神经网络API，由python编写，能够在TensorFlow，CNTK或Theano之上运行。keras具有高度模块化，极简，和可扩充特性，支持CNN和RNN，或二者的结合，无缝CPU和GPU切换。

贡献者：795，提交：5110，星星：40986
Github网址： Keras

https://keras.io/

04 PyTorch
Pytorch是Facebook的AI研究团队发布了一个Python工具包,是Python优先的深度学习框架。作为numpy的替代品;使用强大的GPU能力,提供最大的灵活性和速度,实现了机器学习。

贡献者：1034，提交：17856，星星：27849

Github URL： pytorch

http://pytorch.org/

05 Theano

Theano是一个Python库，允许您定义，优化和有效地评估涉及多维数组的数学表达式。它建立在NumPy之上，与Numpy紧密集成，具有透明使用GPU，有效符号区分，动态C代码生成等优点。

贡献者：333，提交：28080，星星：8782

Github网址： Theano

http://deeplearning.net/software/theano/

06 Gensim

是一个免费的Python库，具有可扩展的统计语义，分析语义结构的纯文本文档，检索语义相似的文档等功能。
贡献者：313，提交：3810，星星：9153

Github网址： Gensim

https://radimrehurek.com/gensim/

07 NuPIC

Taylor 说，许多机器学习算法无法适应新模式，而 NuPIC 的运作接近于人脑。nupic是一个在github上开源了的AI算法平台，相比于深度学习，其更为接近人类大脑的运行结构。其算法的理论依据，就是纯粹的生物神经学知识，类似突触连接与分解，神经元，多个脑皮层的交互，动作电位等等。工程实现也基于此。
贡献者：87，提交：6623，星星：5902

Github URL： NuPIC

http://numenta.org/

08 Neon

Neon是Nervana开发的基于Python的深度学习库。它易于使用，同时性能也处于最高水准。

贡献者：77，提交：1117，星星：3763

Github URL： Neon

http://neon.nervanasys.com/

09 Nilearn

Nilearn是一个Python模块，用于快速简便地统计NeuroImaging数据。它利用scikit-learn Python工具箱进行多变量统计，并使用预测建模，分类，解码或连接分析等应用程序。
贡献者：88，提交：7610，星星：520
Github网址： Nilearn

https://nilearn.github.io/

10 Caffe

Caffe是一个深刻的学习框架，以表达，速度和模块化为基础。它由伯克利视觉和学习中心（ BVLC）和社区贡献者开发。

贡献者：266，提交：4154，星星：28032

Github网址： Caffe

http://caffe.berkeleyvision.org/

11 Chainer

chainer是一种基于python的灵活框架，用于轻松直观地编写复杂的神经网络架构，适用于深度学习模型。利用chainer可以轻松使用多GPU实例进行训练，还会自动记录结果、图表损失和精度并生成用于使用计算图来可视化神经网络的输出。

贡献者：227，提交：26266，星星：4772

Github URL： Chainer

http://chainer.org/

12 Statsmodels

Statsmodels 是一个Python模块，允许用户浏览数据，估计统计模型和执行统计测试。描述性统计，统计测试，绘图函数和结果统计的广泛列表可用于不同类型的数据和每个估算器。

贡献者：182，提交：11544，星星：3882

Github URL： Statsmodels

http://statsmodels.sourceforge.net/

13 Shogun

是机器学习工具箱，提供各种统一和高效的机器学习（ML）方法.工具箱无缝地允许轻松组合多个数据表示，算法类和通用工具。

贡献者：158，提交：16977，星星：2444

Github URL： Shogun

http://shogun-toolbox.org/

14 Pylearn2

Pylearn2是一个机器学习库，它的大部分功能都建立在 Theano之上。这意味着你可以使用数学表达式编写Pylearn2插件（新模型，算法等），Theano会优化和稳定这些表达式，并将它们编译为你选择的后端（CPU或GPU）。

贡献者：113，提交：7119，星星：2666

Github URL： Pylearn2

http://deeplearning.net/software/pylearn2/

15 Annoy

Annoy是一个带有Python绑定的C ++库，用于搜索空间中接近给定查询点的点。它还创建了大型只读基于文件的数据结构，这些数据结构映射到内存中，以便许多进程可以共享相同的数据。
贡献者：43，提交：645，星星：5346

Github URL： Annoy

https://pypi.python.org/pypi/annoy

16 PyBrain

PyBrain是一个用于Python的模块化机器学习库，其目标是为机器学习任务和各种预定义环境提供灵活，易用且功能强大的算法。

贡献者：31，提交：1124，星星：804

Github URL： PyBrain

http://pybrain.org/

17 Fuel

是一个数据管道框架，可为机器学习模型提供所需的数据。

贡献者：32（10％以上），提交：1116，

Github URL： Fuel

https://fuel.readthedocs.io/

18 Orange3

Orange3是新手和专家的开源机器学习和数据可视化工具，具有大型工具箱的交互式数据分析工作流程。

贡献者：71，提交：10651，星星：1780

Github网址： Orange3

https://pymc-devs.github.io/pymc/README.html

19 Pymc

Pymc是一个python模块，它实现贝叶斯统计模型和拟合算法，包括马尔可夫链蒙特卡罗。其灵活性和可扩展性使其适用于大量问题。

贡献者：40，提交：2726，星星：818

Github URL： Pymc

https://pymc-devs.github.io/

20 Deap

Deap是一种新颖的进化计算框架，用于快速原型设计和思想测试。它旨在使算法明确，数据结构透明，与多处理和 SCOOP等并行机制完美协调。

贡献者：44，提交：1982，星星：2845

Github网址： Deap

https://pypi.python.org/pypi/deap

各类机器学习项目

01 语言相关

1.python语言相关
网址：https://github.com/vinta/awesome-python

2.hph语言相关
网址：https://github.com/ziadoz/awesome-php

3.java语言相关
网址：https://github.com/akullpp/awesome-java

4.nodejs相关
网址：https://github.com/sindresorhus/awesome-nodejs

5.ios相关
网址：https://github.com/vsouza/awesome-ios

6.android相关
网址：https://github.com/snowdream/awesome-android

7.shell相关
网址：https://github.com/alebcay/awesome-shell

8.spider相关
网址：https://github.com/facert/awesome-spider

9.go相关
网址：https://github.com/avelino/awesome-go

02 计算机视觉

1.计算机视觉的资源列表

网址：http://t.cn/RwjDvTD

2.计算机视觉的深度学习资源的精选列表

网址：http://t.cn/RLvTzjn

03 自然语言处理

1.学习沟通

概述新的OpenAI研究，开发自己的语言。

网址：http://t.cn/EKba21p

2.自然语言处理

专门针对自然语言处理（NLP）的精选资源列表。

网址：https://github.com/keon/awesome-nlp

3.一种新颖的神经机器翻译方法

使用一种新颖的卷积神经网络（CNN）语言翻译方法发表了研究成果，该方法以复现神经系统速度的九倍达到了最先进的精度。

网址：http://t.cn/EKbKKaa

4.如何在没有真正尝试的情况下制造种族主义者的AI

制作一个情绪分类器。

网址：http://t.cn/RKN4XpX

04 预测

1.uber时间序列预测的神经网络工程不确定性估计

介绍一种新的端到端贝叶斯神经网络（BNN）架构，可以更准确地预测时间序列预测和大规模的不确定性估计。

网址：http://t.cn/RpqIwnF

2.如何轻松预测股票价格

网址：http://t.cn/RiLyUGN

05 图像处理

1.高分辨率图像合成与条件GAN的语义处理

提出了一种使用条件生成对抗网络（条件GAN）从语义标签图合成高分辨率照片真实图像的新方法。

网址：http://t.cn/EK4NHTw

2.使用OpenCV（Python）进行高动态范围（HDR）成像

学习如何使用不同曝光设置拍摄的多张图像创建高动态范围（HDR）图像。

网址：http://t.cn/EK4pgjj

06 风格转移

1.通过深度图像类比转换视觉属性

用于跨图像的视觉属性传递的新技术，通过视觉属性转移，将视觉信息（例如颜色，色调，纹理和样式）从一个图像转移到另一个图像。

网址：http://t.cn/EK48MYY

2.深度照片风格转换

本文介绍了一种深度学习的摄影风格转换方法，可以处理各种图像内容，同时忠实地传递参考风格。

网址：http://t.cn/EK4uR8l

3.深度图像优先

本文表明, 深度网络的结构足以在任何学习之前捕捉大量的低级图像统计数据。随机初始化的神经网络可以作为手工制作的优先在标准的逆问题, 如去噪, 超分辨率。

网址：http://t.cn/EK43mZA

07 图像分类

1.特征可视化：神经网络如何建立对图像的理解

非常简单的方法可以产生高质量的可视化。本文介绍了一些技巧，用于探索神经元反应的变化，它们如何相互作用以及如何改进优化过程。

网址：http://t.cn/EKbvwWM

2.绝对新手的神经网络图像分类指南

使用机器学习来高度确定地预测数据/未经训练的样本中的图像。

网址：http://t.cn/EKbPjVM

08 人脸识别

1.通过直接体积CNN回归从单个图像重建大姿态三维人脸

3D人脸重建是一个非常困难的计算机视觉基础问题。本文建议通过在由2D图像和3D面部模型或扫描组成的适当数据集上训练卷积神经网络（CNN）来解决许多这些限制。

网址：http://t.cn/EKbAgH1

2.使用OpenCV，Python和dlib进行眨眼检测

程序将采用命令行参数，即输入图像。然后，它将使用Dlib中的面部检测算法来查看是否有任何面部。如果有，它将为每个面部创建一个结束位置。

网址：http://t.cn/EKb4jEx

09 物体检测

1.对象检测：深度学习时代的概述

快速了解对象检测中最常见的问题，深入了解实际应用的细节，并了解如何解决它的方法。

网址：http://t.cn/RNf1Ap9

2.使用深度学习和OpenCV进行实时对象检测

重现强化学习算法，RL算法实现的一些最佳实践。

网址：http://t.cn/EKGo4YB

2.Dota 2强化学习

创造一个机器人，在标准比赛规则下，在Dota 2的 1v1比赛中击败世界顶级专业人士。机器人通过自我游戏从头开始学习游戏，并且不使用模仿学习或树搜索。

网址：http://t.cn/EKG9cTE

3.创建AI DOOM bot

利用VizDoom平台进行基于强化的深度学习的探索之旅。目标是创建一个能够在死亡竞赛环境中茁壮成长的Doom AI。

网址:http://t.cn/EKGNxCL

4.用于字符控制的相功能神经网络

使用一种称为“相位神经网络”的新型神经网络来创建适合游戏的角色控制器。

网址：http://t.cn/EKGpsY7

5.游戏模仿：用于快速视频游戏AI的深度监督卷积网络

利用强化学习算法通过自学习掌握国际象棋和将棋。

网址：http://t.cn/EKG85YH

2.AlphaGo Zero：从头学习| DeepMind

本文介绍了AlphaGo Zero，它是AlphaGo的最新发展，以前版本的AlphaGo最初训练过成千上万的人类业余和专业游戏，以学习如何玩Go。AlphaGo Zero跳过这一步，从完全随机的游戏开始，只是通过玩游戏来学习玩游戏。

网址：http://t.cn/EKGEvDs

http://t.cn/RWY4GZy

13 医疗AI

1.CheXNet：放射学家检测胸部X射线与深度学习的肺炎

模型CheXNet是一个121层的卷积神经网络，输入胸部X射线图像并输出肺炎的概率以及定位最能指示肺炎的图像区域的热图。

网址：http://t.cn/EKGuyqG

2.你能改善肺癌的检测吗？

Kaggle举办的竞赛的解决方案的部分内容，挑战的目标是在给定一组CT图像的情况下预测患者肺癌的发展。

网址：http://t.cn/EKG3LBJ

3.通过深度学习改善姑息治疗 - Andrew Ng

用CTC进行序列建模，用于在语音识别，手写识别和其他序列问题中训练深度神经网络的算法。

链接：http://t.cn/EKGgtQs

3.深度语音

Deep Voice，一种完全由深度神经网络构建实现文本到语音的系统。该系统包括五个主要构建块，通过为每个组件使用神经网络，系统比传统的文本到语音系统更简单，更灵活。

网址：http://t.cn/EKGk93S

4.Siri's Voice的深度学习

Siri语音的深度学习：用于混合单元选择综合的设备深度混合密度网络

网址：http://t.cn/EKGFZB5

用于机器学习的数据集

01 经典数据集

1.Iris 鸢尾花卉数据集 150 分类和聚类

链接：http://t.cn/EKaE0uv

2.Adult 美国人口普查数据 48842 分类和聚类

链接：http://t.cn/zlvhR8S

3.Wine 葡萄酒数据 178 分类和聚类

链接：http://t.cn/EKan9Az

4.20 Newsgroups 新闻数据集 19997 文本分类和聚类

链接：http://qwone/20Newsgroups/

5.MovieLens 电影评分的数据集 26000000 推荐系统

链接：https://datasets/movielens/

6.MNIST 手写字识别数据集 70000 手写字识别

链接：http://exdb/mnist/

02 图像处理

1.Labelled Faces in the Wild：13000 张贴有标签的人脸图像，用于开发涉及人脸识别的应用。

链接：http://vis-www.cs.umass.edu/lfw/

2.Stanford Dogs Dataset：包含 20580 个图像和 120 个不同品种的狗类别。

链接：http://t.cn/zTNMWy3

3.Labelme：注释图像的大数据集。

链接：http://t.cn/EKq2lMr

4.ImageNet：根据 WordNet 层次结构来组织，其中层次结构的每个节点都由成百上千个图像来描述。

链接：http://image-net.org/

5.LSUN：场景理解和许多辅助任务（房间布局估计、显著性预测等）。

链接：http://lsun.cs.princeton.edu/2016/

6.MS COCO：ImageNet 之外另一个常用的图像数据集，包含通用图像理解和注释。

链接：http://cocodataset.org/

7.COIL100：100 个不同的物体在 360°旋转中以每个角度成像。

链接：http://t.cn/EKqLjzo

8.Visual Genome：非常详细的视觉知识库，配有约 100K 个图像的注释。

链接：http://visualgenome.org/

9.Google's Open Images：Creative Commons 下的 900 万个图片的网址集合。

链接：http://t.cn/EKqyzQF

10.Indoor Scene Recognition：包含 67 个室内类别，总共 15620 个图像。

链接：http://web.mit.edu/torralba/www/indoor.html

03 情感分析

1.Multidomain Sentiment analysis dataset：有点旧的一个数据集，以亚马逊的产品评论为特色。

链接：http://t.cn/R6yTsJV

2.IMDB reviews：用于二进制情感分类的较旧的、相对较小的数据集，具有 25000 个电影评论。

链接：http://t.cn/EKq5nB1

3.Stanford Sentiment Treebank：带有情感注释的标准情感数据集。

链接：http://t.cn/EKq5sUY

4.Sentiment140：一个流行的数据集，使用 16 万条预先删除表情符号的推文

链接：http://t.cn/EKqtUAC

5.Twitter US Airline Sentiment：2015 年 2 月以来美国航空公司的推特数据，分为正面、负面和中性。

链接：http://t.cn/EKqtiAY

04 自然语言处理

1.Jeopardy：机智问答节目 Jeopardy 中存档的 20 多万个问题。

链接：http://t.cn/EKqGyIB

2.SMS Spam Collection in English：由 5574 条英文短信垃圾邮件组成的数据集。链接：http://t.cn/EKqbg3h

3.Yelp Reviews：Yelp 发布的开放数据集包含 500 多万条评论。

链接：https://www.yelp.com/dataset

4.UCI's Spambase：大型垃圾邮件数据集，可用于垃圾邮件过滤。

链接：http://t.cn/EKqbT7z

5.Enron Dataset：Enron 公司高层管理人员的电子邮件数据，整理成文件夹。

链接：https://www.cs.cmu.edu/~./enron/

6.Amazon Reviews：包含来自亚马逊长达 18 年的约 3500 万条评论。数据包括产品和用户信息、评级和明文审查。

链接：http://t.cn/RhpYJUu

7.Google Books Ngrams：Google 书籍中的词汇集合。

链接：http://t.cn/EKqq3Jh

8.Blogger Corpus：从 blogger . com 收集的 681288 篇博客文章。每个博客至少包含 200 个常用英语单词。

链接：http://t.cn/EKqqAHL

9.Wikipedia Links data：维基百科全文。数据集包含 400 多万篇文章中的近 19 亿字。你可以根据单词、短语或段落本身的一部分进行搜索。

链接：http://t.cn/EKqGrJr

10.Gutenberg eBooks List：古腾堡计划电子书注释清单。

链接：http://t.cn/EKqGOfk

11.Hansards text chunks of Canadian Parliament：加拿大第 36 届国会记录 130 万对文本。

链接：http://t.cn/EKqGJai

05 音频数据集

1.TIMIT，英文语音识别数据集，包含630个扬声器的宽带录音，八个主要方言的美式英语，每个阅读十个语音丰富的句子。

链接：https://catalog.ldc.upenn.edu

2.CHIME，包含环境噪音的用于语音识别挑战赛的数据集。

链接：http://chime_challenge

3.大型音乐分析数据集FMA

链接：https://github.com/mdeff/fma

4.音频数据集AudioSet

链接：https://audioset/ontology

5.2000 HUB5 English Evaluation Transcripts，仅包含英语的语音数据集

链接：https://catalog.ldc.upenn

6.LibriSpeech，包含文本和语音的有声读物数据集，由Vassil Panayotov编写的大约1000小时的16kHz读取英语演讲的语料库。

链接：http://www.openslr.org/12/

7.VoxForge，带口音的语音清洁数据集

链接：http://www.voxforge.org/

06 自动驾驶

1.Cityscape Dataset：记录 50 个不同城市街道场景的大型数据集。

链接：https://www.cityscapes-dataset.com/

2.CSSAD Dataset：该数据集可用于自主车辆的感知和导航。数据集在发达国家的道路上出现严重偏差。

链接：http://t.cn/R97oqgG

3.KUL Belgium Traffic Sign Dataset：比利时佛兰德区数以千计截然不同的超过 10000 个的交通标志标注。

链接：http://t.cn/EKq40MF

4.Berkeley DeepDrive BDD100k：目前最大的自动驾驶人工智能数据集。

链接：http://bdd-data.berkeley.edu/

5.Baidu Apolloscapes：百度 Apollo 计划开放的大规模自动驾驶数据集。它定义了 26 个不同语义项目，如汽车、自行车、行人、建筑物、路灯等。

链接：http://apolloscape.auto/

6.Comma.ai：7 小时以上的公路行驶体验。详细信息包括车速、加速度、转向角和 GPS 坐标。

链接：https://archive.org/details/comma-dataset

7.Oxford's Robotic Car：一年内在英国牛津同一条路线重复 100 多次的行驶。数据集捕捉天气、交通和行人的不同组合，以及建筑和道路工程等长期变化。

链接：http://robotcar-dataset.robots.ox.ac.uk/

8.MIT AGE Lab：在 AgeLab 收集的 1000 多个小时的多传感器驱动数据集样本。

链接：http://lexfridman.com/carsync/

9.LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets：此数据集包括交通标志、车辆检测、交通灯和轨迹模式。

链接：http://cvrr.ucsd.edu/LISA/datasets.html

更多数据科学资源，请关注我们的微信公众号”DC学习助手“，后台回复”1“即可领取资源礼包一份

标签组：[python] [机器学习] [python机器学习] [图像深度] [神经网络模型] [深度学习] [python算法] [python神经网络]

上一篇：第二章 GIS的数据结构(第三四节)

下一篇：地理信息系统概论期末复习

史上最全实战资源，机器学习框架、高分练手项目及数据集汇总

03 自然语言处理

04 预测

05 图像处理

06 风格转移

07 图像分类

08 人脸识别

09 物体检测

13 医疗AI

相关阅读

相同话题文章

热门阅读

推荐内容

社会

文化

娱乐

时事

综合

国际

旅游

汽车

时尚

情感

音乐

教育

搞笑

游戏

财经

体育

科技

健康养生

历史

星座运势

母婴育儿

美食

军事

家居

动漫

其它

宠物