Skip to content

Latest commit

 

History

History
141 lines (112 loc) · 5.74 KB

dataset.md

File metadata and controls

141 lines (112 loc) · 5.74 KB

数据集&标注工具

EasyData为大家搜集并整理了各个领域经典、前沿、产业的数据集和标注工具,提供可供下载和分享的地址, 覆盖机器学习/深度学习各大领域, 如计算机视觉, 语音, 自然语言处理等等.

数据集

  • 发布数据集覆盖CV、NLP、Speech等20+任务的125产业数据集,并针对开源产业数据集提供了便捷的下载脚本、读取API以及规范化格式方便开发者使用飞桨套件快速进行训练
计算机视觉
目标检测(9) 图像分割 (12) 图像分类 (5) 视频理解 (4)
文字识别 (21) 关键点检测 (6) 图像去噪 (5) 3D感知 (3)
自然语言处理
阅读理解 (7) 文本分类 (33) 文本匹配 (1) 序列标注 (3)
机器翻译 (2) 对话系统 (1) 文本生成 (6) 语料库 (2)
语音
语音识别 (1) 语音合成 (1) 声音分类 (1) 声纹识别 (1)
语音唤醒 (1)

标注工具

  • 7个产业经典和自研半自动标注工具:涵盖了通用、人像、遥感、医疗、视频、文本、体育等不同方向的高质量交互式模型进行数据预标注,高效的节省人力;并将自研标注工具获取到的标注应用到飞桨各个套件的模型可以直接进行训练,得到定制化场景的高精度模型,打通任务从数据标注到模型训练及预测的全流程
计算机视觉
半自动标注工具PPOCRLabelv2 适用于OCR领域的半自动化图形标注工具
交互式分割标注软件EISeg 交互式分割标注软件。涵盖通用、人像、遥感、医疗、视频等任务的高质量交互式分割模型
多功能标注工具PaddleLabel 支持图像分类、检测、分割三种常见的计算机视觉任务
交互式智能视频标注工具EIVideo 只需简单标注几帧,即可完成全视频标注
Labelme 开源图像标注工具,方便进行使用及二次开发,支持图像所有任务
自然语言处理
Doccano 文本标注工具,为NLP任务的语料库进行打标。支持情感分析,命名实体识别,文本摘要等任务
语音
Praat 支持语音合成任务
label-studio 多功能标注工具,可以用于语音识别,说话人识别等多种语音标注任务