计算机视觉领域常用DataSet 汇总
文章大纲
-
目标检测
-
- coco - MS Common Objects in Context
- 人群图片
-
视频分析技术
-
行人检测技术及其应用研究
-
人员行为特征分析
-
人员属性识别系统
-
行为分类与识别模型
-
kinetics数据集解析
-
视频教学教程设计与实现
-
其他相关领域总结
-
AIGC 是否能够产出训练样本?
- 参考文献与学习路径系统的概述与规划
- 基于自建手机看数据时的行为记录作为...数据集的组成部分。
目标检测
coco - MS Common Objects in Context
https://cocodataset.org/#download
当前该数据集基于2017年数据构建,在分析其设备型号时需注意其设备型号可能较为落后;对于手机相关识别任务而言,建议对该模型进行微调优化。

COCO_2017
└── val2017 # 验证图像集所在文件夹(包含约5,000张图像)
├── train2017 # 训练图像集所在文件夹(包含约118,287张图像)
├── annotations # 标注文件夹
├── instances_train2017.json # 目标检测与分割训练标注文件
├── instances_val2017.json # 目标检测与分割验证标注文件
├── person_keypoints_train2017.json # 人体关键点检测训练标注文件
└── person_keypoints_val2017.json # 人体关键点检测验证标注文件
└── captions_train2017.json # 图像描述训练标注文件
└── captions_val2017.json # 图像描述验证标注文件
人群图片
https://tianchi.aliyun.com/dataset/89278
视频分析
行人检测
行人行为
https://tianchi.aliyun.com/dataset/93638
行人属性识别
该文深入探讨了机器学习算法中的一个关键概念——注意力机制(Attention Mechanism),并详细阐述了其在当前人工智能领域的广泛应用及其重要性。文章指出,在深度学习模型中引入注意力机制能够显著提升模型的性能表现(performance),特别是在自然语言处理领域中展现出独特的优势(优势)。此外,在深度学习框架中构建基于Transformer架构的模型时,默认情况下会集成注意力机制这一核心组件(组件)。这种设计不仅简化了模型构建过程(过程),还能显著提升模型对复杂数据关系的捕捉能力(能力)。文章进一步指出,在实际应用中选择适合特定任务的注意力机制方案至关重要(方案),这将直接影响到模型的整体性能表现(表现)。
行为识别
Visit the datasets collection created by Meet Nagasia for the Human Action Recognition-HAR dataset.
kinetics
https://www.deepmind.com/open-source/kinetics
视频教程
清华大学与美图共同发布了名为COIN的行为教学视频数据集(Comprehensive Instructional Video Analysis),该集合共计包含约1.18万条不同领域的教学视频,并覆盖生活场景的多个领域,并涉及超过百种具体任务的学习内容。
教程类视频通常涵盖一些特定领域的专业内容。例如,在美食制作方面有烘焙、西点艺术,在美容护肤方面有护肤技巧与化妆步骤,在家居设计方面有室内布局与软装搭配等专业的教学内容。这些具体领域的教学内容都属于教程类视频的范畴。
美图表示,COIN为业界规模最大、最多样性的教程类视频数据集。
其他 总结
该平台提供了一系列高质量的技术研究项目,并致力于推动前沿科技的发展
该研究机构专注于开发创新的人工智能技术,并拥有多个前沿领域的研究方向
该组织提供了丰富的开源资源,并致力于提升人工智能技术的可访问性
AIGC 能帮我们生成训练样本吗



图文理解多模态模型
参考文献与学习路径
自建看手机,打电话 数据集
根据 coco2017 进行构建
开发一个Python代码来从COCO数据集中筛选出某一类数据
