相关文章推荐
刚分手的小刀  ·  机器翻译_阿里AI翻译_文档图片翻译-阿里云·  1 年前    · 
刚分手的小刀  ·  深度学习与机器学习中开源图片数据库汇总-腾讯 ...·  1 年前    · 
刚分手的小刀  ·  机器学习笔记十五之图片文字识别_机器学习文字 ...·  1 年前    · 
刚分手的小刀  ·  在国内买的机器,升级拼音版地图是否也享受升级 ...·  1 年前    · 
刚分手的小刀  ·  Vtech伟易达启蒙拼音点读机| ...·  1 年前    · 
小百科  ›  深度学习与机器学习中开源图片数据库汇总开发者社区
机器 大数据 imagenet 深度学习 机器学习
刚分手的小刀
1 年前
作者头像
chaibubble
0 篇文章

深度学习与机器学习中开源图片数据库汇总

前往专栏
腾讯云
开发者社区
文档 意见反馈 控制台
首页
学习
活动
专区
工具
TVP
文章/答案/技术大牛
发布
首页
学习
活动
专区
工具
TVP
返回腾讯云官网
社区首页 > 专栏 > 深度学习与计算机视觉 > 深度学习与机器学习中开源图片数据库汇总

深度学习与机器学习中开源图片数据库汇总

作者头像
chaibubble
发布 于 2018-01-02 11:00:19
1.8K 0
发布 于 2018-01-02 11:00:19
举报

数据的准备工作是训练模型前的必要工作,显然这也是非常耗时的,所以在入门阶段我们完全可以用现有的开源图片库快速完成前期的准备工作:

ImageNet

ImageNet 是根据WordNet层次结构(目前只有名词)组织的图像数据库,其中层次结构的每个节点都由数百和数千个图像描绘。 目前,数据库中每个节点平均拥有超过五百幅图像。 我们希望ImageNet将成为研究人员,教育工作者,学生以及分享我们对图片热情的所有人的有用资源。

ImageNet的一些特点:

ImageNet是全球最大的开源图片库,截至到现在(2017.5)ImageNet共有一千四百多万张图片。其中包括超过20000个synset(s),synset是近义词的合集,synsnet可以理解为ImageNet整理的标签。

说到WordNet层次结构,就要提一下什么是WordNet,WordNet是普林斯顿大学开源的词汇库,可以理解为是一个词典。每个词语(word)可能有多个不同的语义,对应不同的sense。而每个不同的语义(sense)又可能对应多个词,如topic和subject在某些情况下是同义的,WordNet由Princeton 大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列,而且按照单词的意义组成一个“单词的网络”。WordNet 主要有3个主概念 Synset, WordSense 和 Word。而ImageNet就是应用了synset这个概念,只是ImageNet目前只有名词。

由于图片的版权问题,ImageNet中的图片以URLs的形式提供下载,也就是说ImageNet只提供这个图片在哪,而不直接提供图片本身。

这里写图片描述
这里写图片描述

我们在ImageNet搜索一个synset的时,左侧可以看到他的层次结构WordNet,在Download中提供了URLs的下载地址。

CIFAR

CIFAR 由Alex Krizhevsky, Vinod Nair和 Geoffrey Hinton收集并整理,在 Visual Dictionary 的80万张图片中选择了6万张,并把它们分为CIFAR-10 和CIFAR-100。

CIFAR-10数据集包含60000个32*32的彩色图像,共有10类。有50000个训练图像和10000个测试图像。数据集分为5个训练块和1个测试块,每个块有10000个图像。测试块包含从每类随机选择的1000个图像。训练块以随机的顺序包含这些图像,但一些训练块可能比其它类包含更多的图像。训练块每类包含5000个图像。

CIFAR-100数据集包含100小类,每小类包含600个图像,其中有500个训练图像和100个测试图像。100类被分组为20个大类。

这里写图片描述
这里写图片描述

MNIST

MNIST 深度学习领域中大名鼎鼎的数据集—MNIST,几乎所有的深度学习教程的入门实例都是手写数字识别,而它们用到的库就是MNIST。这就好比我们学习一门语言的时候显示”hello world”。

MNIST数据集共包含7万个样本,分别是手写体数字0~9,样本大小为28*28。

这里写图片描述
这里写图片描述

Labeled Faces in the Wild

Labeled Faces in the Wild 数据库中收集了1万3千多张人脸图像,共包含了5000多个人物。每个人标记除了人物的名字外,还包含了其他信息,比如性别,年龄等

这里写图片描述
这里写图片描述

Quick Draw

Quick Draw 是由google发布的涂鸦数据集,其中包含 5000 万张图画的集合,分成了 345 个类别,它其实就是张这个样子:

这里写图片描述
这里写图片描述

这么看起来这个数据集还是挺无聊的,它的发布其实是源于谷歌推出的 AutoDraw ,这是一个能把你的随手涂鸦变成绘画的人工智能技术工具,就是这样(谷歌总是在做一些很好玩的东西):

这里写图片描述
这里写图片描述

谷歌也曾发布论文和博客介绍了其背后的技术。实际上,AutoDraw 所用的技术基于谷歌先前的涂鸦实验 「Quick, Draw!」 。近日,谷歌发布了该项目背后的数据集,就是之前提到的Quick Draw数据集了。这个项目同时发布到了git上,在 git的地址中 对数据集进行了详细的介绍,在这里简要描述下:

原始数据在 ndjson 文件中,并按类别进行了分割,按照如下格式:

这里写图片描述
这里写图片描述

该数据集在 谷歌云存储服务 中,在 ndjson 文件中分类存储。请参阅 Cloud Console 中的文件列表,数据集分类如下:

Raw files (.ndjson) Simplified drawings files (.ndjson)

 
推荐文章
刚分手的小刀  ·  机器翻译_阿里AI翻译_文档图片翻译-阿里云
1 年前
刚分手的小刀  ·  深度学习与机器学习中开源图片数据库汇总-腾讯云开发者社区-腾讯云
1 年前
刚分手的小刀  ·  机器学习笔记十五之图片文字识别_机器学习文字识别_luky_yu的博客 ...
1 年前
刚分手的小刀  ·  在国内买的机器,升级拼音版地图是否也享受升级中文版地图的服务 ...
1 年前
刚分手的小刀  ·  Vtech伟易达启蒙拼音点读机| 玩具反斗城中国官方网站| Toys"R"Us ...
1 年前
Link管理   ·   Sov5搜索   ·   小百科
小百科 - 百科知识指南