unsplash网站（全球最大照片网站）

内容概要：全球最大的照片网站 Unsplash 宣布平台已经开放了超过 20 万名摄影师的近 200 万张免费图片的，并开放了两个图片检索结果的数据集。原创：HyperAI超神经关键词：数据集图片搜索图像分类Unsplash 是世界上最大的照片摄影网站之一，由全世界 20 多万摄影师参与，贡献了数百万张高清优质的摄影作品。照片下载站黑马：从 Tumblr 出圈2013 年 5 月，Unsplash 刚刚诞生，还只是 Tumblr 上的一个小站，摄影师、网友们会将优质的摄影作品上传进来。短短半年后， Unsplash 的图片下载量就达到了 1000 万次，也顺理成章地从 Tumblr 上分离了出来，推出了网站和搜索功能。2015 年，Unsplash 的下载量达到 3000 万次，并首次推出了 API，Medium、Trello、Adobe 都是 Unsplash API 的客户。近期，Unsplash 宣布平台已经有超过 20 万名摄影师的近 200 万张免费照片，并将数亿次搜索结果打包成两个图片检索结果数据集，将其开放。数十亿次检索信息，这个数据集不简单Unsplash 本次开放的检索数据集，被官方定义为 World’s largest open library dataset （全球最大的开放检索信息数据集），包含了数十亿次照片搜索的信息和对应的照片信息。数据集分为商用精简版和非商用版本该数据集包含两个版本：精简版数据集（下载链接为该版本）：可用于商业和非商业使用场景。包含 2.5 万张自然主题的 Unsplash 照片的检索信息，共 2.5 万个关键词。完整版数据集：仅限于非商业使用场景。包含 200 万张高质量 Unsplash 照片的检索信息，共 500 万个关键词。本数据集为精简版数据集，压缩包 190M，解压后 550M ，包含四个单独的 TSV 文件，分别为：TSV 文件可以在 PostgreSQL 数据库或 Pyhton 环境中加载Collections : 82 MB包含 Unsplash 用户创建的照片收藏夹的信息：包括照片的ID（photo_id）、收藏夹的ID(collection_id)、收藏夹的标题(collection_title)和时间戳(photo_collected_at)等数据；Conversions : 349 MB包含用户搜索后选择的图像信息：包括照片时间戳（convert_at）、关键词（keyword）、照片ID（photo_id）、脱敏后的用户ID（onymous_user_id）和用户地理位置（conversion_country）等数据；Keywords : 104 MB包含用户搜索的照片ID（photo_id）、搜索的关键字词（keyword）、关键字与图片的置信值（ai_service_1_confidence）等数据；Photos : 6.5 MB在这个文件中，可没有照片哦，而是包含照片ID（photo_id）、url（photo_image_url）、摄影师信息（Photographer_username）、相机信息（exif_camera）、参数（exif_iso）、平台查看总次数（stats_views）、下载总次数（stats_downloads）、拍摄地地理坐标（ai_primary_landmark_name）怎么下载，怎么使用？获取该数据集和文档可以访问：https://github.com/unsplash 了解更多使用方法，同时也可以结合 Unsplash 的开放 API，调用更多功能。API：https://unsplash.com/developers超神经 HyperAI 也将精简版数据集，在国内进行了做种加速。访问 https://hyper.ai/datasets/13127 或点击原文阅读即可进行高速下载。该数据集可以应用在搜索系统、推荐系统、图片分类等场景的优化上。除此之外，Unsplash 开放 API 提供了官方的 Js、PHP、Ruby 三个库，同时社区开源了 Go、Python、Swift 等库。结合数据集，也可以进行更多的尝试。

相关文章