人工智能助力北京冬奥会

随着2022年北京冬奥会的临近, 北京智源人工智能研究院正式推出了花样滑冰数据集Figure Skating Dataset (FSD-10), 旨在针对当前视频研究数据集存在人体运动特性的缺失以及深度视频学习模型准确率较低的问题进行改进. 该项目由大连理工大学刘胜蓝副教授和智源青年科学家、清华大学助理教授黄高共同主持完成.

虽然当前主流的视频研究数据集数量众多且规模相当庞大,在视频识别领域中提到了Kinetics、Moments in Time和UCF101等;而在视频分割任务中则包括Breakfast、Epic Kitchens和50salads等。然而这些数据集普遍缺乏对人体运动特性的刻画(其中虽然Kinetics等有一些运动特性的描述)。例如,在UCF101中通过选择特定子集并裁剪掉人像以保留场景时……
本研究特意创建了数据集Figure Skating Dataset (FSD-10),其核心目标是通过花样滑冰技术深入分析人类的动态。在花样滑冰领域中,运动员的姿态与动作轨迹相比其他竞技项目更具复杂性与多样性。这些特征使其成为优质的研究素材。
在花样滑冰评分体系中, 评分委员会对各类动作技术指标的判分准确率达到99.5%以上。然而, 在实验阶段仅选取了10个典型类别进行测试, 当前基于深度学习的方法仍显不足, 只能实现约80%-90%的基础水平表现。构建专业的运动数据集成为开发高性能视频分析算法的基础支撑, 同时也是提升现有深度学习模型性能的重要保障与当务之急。该研究不仅推动了智能体感知能力的进步, 更为广泛的人体行为分析奠定了基础。
下面分别介绍数据集的内容、特征、具体示例、应用前景等方面。
一、数据集内容:
原始资料,专业分割与标记
本数据集基于对2017-2018年ISU世界花样滑冰大奖赛、ISU世界花样滑冰锦标赛和四大洲花样滑冰锦标赛等职业赛事的比赛视频进行采集,并经过专业团队对约需80小时工作时间的视频内容进行了人工精细的时间划分和事件标注过程,并在此基础上构建了细粒度动作数据集。
此数据集共计包含3,070个视频片段。各视频片段时长依次为3至30秒。在运动员移动的过程中,镜头持续紧随其后。每个视频片段都蕴含着大量有价值的信息。这些信息具体涉及动作启动时刻、腾挪阶段以及落地瞬间的时间点记录等细节因素,并结合动作基础分值与表现评分来进行综合分析。具体包含了运动员的基本资料如姓名、性别、年龄等个人信息以及教练指导建议等内容,并附加了相关动作音乐进行配合 playback功能。
该数据集划分为197个类别,并主要包含三个大类:跳跃动作、旋转动作和步法动作。在环境背景方面具有高度一致性,在动作呈现高速且复杂的特征下评判具有明确的标准和规范。
该数据集可支持四种子任务类型,并包含细粒度的动作分类、动作评分以及短时与长时分割(含关键帧提取)的任务类别
细致的动作分类:从花样滑冰的技术动作中提取某个具体的技术动作片段,并通过网络模型识别该动作所属类型。
评分任务:从花样滑冰的技术动作中提取一段视频片段,并利用网络模型对所提取的技术动作进行性能评估。
短时动作分割任务:视频捕捉一个单一动作捕捉(如前所述的3Axel跳跃),由网络模型识别出其关键动作阶段(包括起跳阶段和落地阶段)。
- 长时分割任务:本研究中采用视频采集技术对运动员完成的一连串动作进行建模训练,并基于此设计相应的预测模型。研究团队通过深度学习算法设计了网络模型,并基于此对运动员完成的一系列连续动作的时间节点进行识别并解析。
二、数据集的特征和应用示例
近五年来,在体育领域相关的公开可用数据集中包含奥运会项目[2]以及如跳水等7个项目[3]共计8项重要比赛类别[4]的数据集信息;值得注意的是其中花样滑冰项目的评分体系存在不合理之处:国际滑联会定期更新其评分规则且这一体系受到多方面因素的影响;而本研究的数据集则聚焦于单个动作的技术性评分指标即GOE(动作质量得分)这一指标完全由专业裁判团队进行打分并严格排除了其他非技术性评分因素的影响。
此外,本数据集与其他数据集相比还有如下特征:
- 与场景和物无关,排除其他因素的干扰;
此版本的动作种类丰富,在数据划分上共有197个类别。从理论上讲,在花样滑冰领域已划分出超过500个动作类别这一成就难以被其他运动项目所企及;
- 数据质量高,专家标注,数据准确,专业性强;
该系统能够涵盖多个任务,并支持对运动类型进行划分、多层次地进行细节区分(包括长时间划分、短时间内划分以及关键帧识别),同时能够对动作给予量化评分,并对音乐与滑冰之间的同步性进行评估
下面,我们来看一下本数据集的应用示例:
花样滑冰中的旋转种类与质量涉及多个维度:首先包含三种基本动作——垂直绕体转子(UprightSpin)、坐姿绕体转子(SitSpin)以及弯曲绕体转子(CamelSpin)。在此基础上还划分了相应的程度指标,并据此划分相应的程度指标以及结合脚部换装(ChCombo)、起跳方式(如跳进Fly)等多种因素构成了较为复杂的分类体系;此外还包括结合脚部换装(ChCombo)、起跳方式(如跳进Fly)等多种因素构成了较为复杂的分类体系;此外还包括结合脚部换装(ChCombo)、起跳方式(如跳进Fly)等多种因素构成了较为复杂的分类体系;总计约几十个细分类型。人体姿态变化多样且复杂,在此过程中由于速度与周数值存在显著差异而导致的时间跨度也存在较大差异,并可能导致识别难度增加;同时在跳跃过程中运动员于空中所呈现的姿态也属于一种特殊的旋转形式容易与其他类型的运动姿态产生混淆从而进一步增加了识别难度;因此在对这种细致入微的分类与辨识过程进行建模时面临着诸多技术难题其中最为关键的是如何有效应对由于不同运动片段间可能存在显著的帧间差异可能对识别效果产生显著影响
- 旋转变换的艺术:例如,在花样滑冰的世界锦标赛2000 World Pro上,卢辛达·鲁赫以其优美的空中旋转变换展现了卓越的速度感、流畅度和韵律感。她的肢体语言与音乐完美融合,在空中创造出数十个不同类型的旋转变换造型。
这些优美的空中旋转变换不仅体现了身体协调性和艺术表现力,在完成的过程中都需要高度专注于音乐节拍和自身身体节奏的变化。
这种将舞蹈元素与音乐完美融合的能力是花样滑冰项目中的一项重要技能。
为了实现人类与机器都能达到欣赏的高度水平这一目标,
这是一项极具难度的任务。
3. 跳跃种类 :花样滑冰的跳跃动作共有六种(视频2:4种,分别为:Axel,Salchow,Flip,Loop; 视频3:2种,分别为:Lutz, Toeloop)。没有领域知识的人很难看出六种跳跃动作的区别,尤其在高速运动的情况下。一个跳跃动作可以分为预备→起跳→空中旋转→落冰四个阶段(这四个阶段即为细粒度分割)。这四个视频中,仅可通过起跳阶段的一些帧能够区分出来。因此,视频的细粒度分割准确度对分类和评估显得尤为重要。示例视频分别为3Axel+1Loop+3Salchow和3Flip+3Loop四种跳跃的组合,没有专业花样滑冰的知识,很难辨别。另外,右侧这位选手为顺时针跳跃选手,左侧为逆时针跳跃选手,同一动作不同时间方向用刃和姿态均不同;另外,不同跳跃动作和不同周数可以组合,目前出现的跳跃动作(组合)已近200类。因此,动作识别在多方面都有很强的挑战性。
4.跳跃质量:示例视频包括左侧选手具备上手姿态(GOE:2.53),而右侧选手则未具备此类姿态(GOE:1.83)。具体来说,在左侧选手的情况下,在完成勾手四周跳接外点三周动作(即4Lutz配合3Toeloop)的过程中表现出较高的质量执行分(GOE)。然而,在总分中获得加分还需要考虑以下几个关键因素:运动员进入准备动作时的状态、起跳时机以及空中旋转的姿态掌控能力等。由此可见,在综合评估后确定最终得分这一过程确实具有相当高的技术难度和主观性。
三、数据集的应用前景和注意事项
该数据集在应用范围方面具有广泛的适用性,并在花样滑冰运动的促进、推广及其传播方面具有一定的推广价值
视频技术中人体动作的研究是一个关键议题,并广泛应用于多个领域包括体育动作分析运动康复人类的行为模式分析以及涉及肢体情绪变化的深入研究等不同的应用场景特别是在影视效果制作方面具有重要价值
随着备受瞩目的2022年北京冬奥会即将到来,研究人员可以通过特定数据集进行开发以构建自动化解说系统,这一系统有助于推动花样滑冰运动的推广和普及。
3. 该数据集对动作进行精细层次分析,在提高运动员训练效率和水平方面具有重要意义。
需要注意的是,在本次研究中采用的数据集Figure Skating Dataset (FSD-10)的具体应用方法将在官方发布的用户指南中详细说明。值得注意的是,在当前涵盖的197个类别中,并非所有类别都已经完善,请关注后续更新。此外,请注意在当前版本中所包含的所有分类都尚未完善,请关注后续更新。因此我们将现有版本升级至2.0版本。
发布许可
FSD-10数据集专为非商业性、学术性质的应用而设计。所有采用该数据集的研究人员均需遵循相关许可条款。
视频标注
FSD-10数据集中的全部动作、序列划分标注归属性大连理工大学 Human Perception Computing(HPC)实验室,并遵循Creative Commons Attribution 4.0 License授权使用
视频材料
HPC实验室不持有视频原始材料的所有权。数据集使用者须承担国际滑联(ISU)所授予版权全部责任,涵盖所有从数据集中创建或编辑受版权保护内容的所有副本。不得传播或分发所有视频内容。若出现侵权行为,请立即删除相关素材。
要使用FSD-10数据集者,请仔细阅读并审阅上述许可文件。所有人均需遵守其相关许可证。
数据集网页
该数据集已放置于智源数据开放研究中心网站上,其网页地址是:http://open.baai.ac.cn/skating-data-set
数据集下载
该数据集划分为人体运动的连续分割与行为识别两大子任务。获取下载链接,请参考以下路径:
分割数据集链接:http://pan.dlut.edu.cn/share?id=h6zjqcsu77jg
分类数据集链接:http://pan.dlut.edu.cn/share?id=h58jcssu7u7u
本数据集由大连理工大学刘胜蓝副教授和清华大学黄高博士共同发布,请通过邮件liusl@mail.dlut.edu.cn联系作者以获得下载使用密码的相关信息。
参考文献
[1]Yun He, Soma Shirakabe, Yutaka Satoh, and Hirokatsu Kataoka. Human Action Recognition without Human. In European Conference on Computer Vision, pages 11–17. Springer, 2016.
Xu, Parmar, Paritosh, and Brendan Tran Morris. Mastering the Art of Judging Olympic Events. Proceedings from the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2017.
[3]Parmar, Paritosh, and Brendan Morris. Action Quality Assessment Across Multiple Actions. IEEE Winter Conference on Applications of Computer Vision. IEEE, 2019.
C. Chengming et al. Developing an Automated Scoring System for Figure Skating Performances in Sports Videos. IEEE Transactions on Circuits and Systems for Video Technology, 2019.
Liu Shenglan, Liu Xiang, Huang Gao et al. FS-D10: A Dataset on Competitive Sports Content Analysis. Arxiv, 2020.

与6位图灵奖得主和100多位专家
共同探讨人工智能的下一个十年
长按下图,内行盛会,首次免费注册


