内容概要:全球最大的照片网站 Unsplash 宣布平台已经开放了超过 20 万名摄影师的近 200 万张免费图片的,并开放了两个图片检索结果的数据集。原创:HyperAI超神经关键词:数据集 图片搜索 图像分类Unsplash 是世界上最大的照片摄影网站之一,由全世界 20 多万摄影师参与,贡献了数百万张高清优质的摄影作品。照片下载站黑马:从 Tumblr 出圈2013 年 5 月,Unsplash 刚刚诞生,还只是 Tumblr 上的一个小站,摄影师、网友们会将优质的摄影作品上传进来。短短半年后, Unsplash 的图片下载量就达到了 1000 万次,也顺理成章地从 Tumblr 上分离了出来,推出了网站和搜索功能。2015 年,Unsplash 的下载量达到 3000 万次,并首次推出了 API,Medium、Trello、Adobe 都是 Unsplash API 的客户。近期,Unsplash 宣布平台已经有超过 20 万名摄影师的近 200 万张免费照片,并将数亿次搜索结果打包成两个图片检索结果数据集,将其开放。数十亿次检索信息,这个数据集不简单Unsplash 本次开放的检索数据集,被官方定义为 World’s largest open library dataset (全球最大的开放检索信息数据集),包含了数十亿次照片搜索的信息和对应的照片信息。数据集分为商用精简版和非商用版本该数据集包含两个版本:精简版数据集(下载链接为该版本):可用于商业和非商业使用场景。包含 2.5 万张自然主题的 Unsplash 照片的检索信息,共 2.5 万个关键词。完整版数据集:仅限于非商业使用场景。包含 200 万张高质量 Unsplash 照片的检索信息,共 500 万个关键词。本数据集为精简版数据集,压缩包 190M,解压后 550M ,包含四个单独的 TSV 文件,分别为:TSV 文件可以在 PostgreSQL 数据库或 Pyhton 环境中加载Collections : 82 MB包含 Unsplash 用户创建的照片收藏夹的信息:包括照片的ID(photo_id)、收藏夹的ID(collection_id)、收藏夹的标题(collection_title)和时间戳(photo_collected_at)等数据;Conversions : 349 MB包含用户搜索后选择的图像信息:包括照片时间戳(convert_at)、关键词(keyword)、照片ID(photo_id)、脱敏后的用户ID(onymous_user_id) 和用户地理位置(conversion_country)等数据;Keywords : 104 MB包含用户搜索的照片ID(photo_id)、搜索的关键字词(keyword)、关键字与图片的置信值(ai_service_1_confidence)等数据;Photos : 6.5 MB在这个文件中,可没有照片哦,而是包含照片ID(photo_id)、url(photo_image_url)、摄影师信息(Photographer_username)、相机信息(exif_camera)、参数(exif_iso)、平台查看总次数(stats_views)、下载总次数(stats_downloads)、拍摄地地理坐标(ai_primary_landmark_name)怎么下载,怎么使用?获取该数据集和文档可以访问:https://github.com/unsplash 了解更多使用方法,同时也可以结合 Unsplash 的开放 API,调用更多功能。API:https://unsplash.com/developers超神经 HyperAI 也将精简版数据集,在国内进行了做种加速。访问 https://hyper.ai/datasets/13127 或点击原文阅读即可进行高速下载。该数据集可以应用在搜索系统、推荐系统、图片分类等场景的优化上。除此之外,Unsplash 开放 API 提供了官方的 Js、PHP、Ruby 三个库,同时社区开源了 Go、Python、Swift 等库。结合数据集,也可以进行更多的尝试。
本文出自快速备案,转载时请注明出处及相应链接。