【论文翻译】Human in Events: A Large-Scale Benchmark for Human-centric Video Analysis in Complex Events
Humans Engaging with Events: A Framework Supporting Human-Centric Video Analysis for Handling Complex Scenarios
论文地址:https://arxiv.org/abs/2005.04490
数据集地址:http://humaninevents.org

ABSTRACT(摘要)
随着现代智慧城市建设的演进, 以人为本的视频分析面临着在复杂真实场景中解析各类多元事件的独特挑战。这些事件通常与密集人群流动、异常行为或群体互动等特征紧密相关。然而,受限于现有视频数据集规模, 相关研究者对该类事件的人体运动特征尚缺乏系统性报告。为此,我们系统性构建了一个大型数据集,命名为human -in-Events或HiEve (Human -centric video analysis in Complex Events),旨在深入解析各类现实事件中的人体运动姿态与动作特征,尤其是在人群行为与复杂事件领域取得突破性进展.该数据集创新性地引入了超过100万个姿势样本,创下了动作实例数量的新纪录(超过56万条),并记录了最长时间的轨迹数据(平均长度达480帧以上).基于此新数据集,我们提出了一种增强的姿态估计基准线方法,通过充分挖掘动作信息潜力来优化2D姿态特征学习过程.实验结果表明,该方法显著提升了现有姿态估计流程在HiEve数据集上的性能表现.此外,通过将先进视频分析技术与我们的基准线方法结合开展基准测试工作,我们发现HiEve数据集在为人中心视频分析领域具有重要参考价值.基于此研究发现,我们认为该数据集将为相关领域的技术创新提供有力支撑.同时,我们也期望该研究工作能够推动复杂事件理解技术的进步与发展.完整的研究成果可通过访问地址http://humaninevents.org获取.
1 INTRODUCTION(介绍)
智慧城市的构建与实现严重依赖对多媒体快速、精准视觉的理解能力。为了这一目标导向,在研究领域已提出大量以人类为中心及事件驱动型视觉理解问题,并取得显著成果[9]、[6]、[10]等。
最近研究者们提议利用一些公共数据集(如 MSCOCO [1] 、PoseTrack [4] 、UCF-Crime[8])作为基准测试平台来评估上述任务的表现。
然而这些基准测试集合在应用到真实复杂场景时仍存在局限性:首先大多数测试场景集中于较为简单无明显遮挡条件下的正常情况;其次现有数据集涵盖范围及标淮有限:如UCFCrime数据集[8]虽然包含具有挑战性的场景但仅提供粗粒度的动作标签难以支持细致动作识别;而MSCOCO [1 ] 和PoseTrack [4 ] 虽然具备充足的姿势标签但在拥挤场景下表现不足。
为此我们提出了一种全新的大规模以人为中心的数据集Human-in-Events (HiEve) 专门用于理解和分析各种现实中的复杂事件尤其是人群密集拥挤环境下的人体运动姿态及行为动作层次结构。
该数据集在所有模拟人群场景中规模及复杂度均为全球之最 包含超过百万个姿势超过5.6万个动作标签以及长轨迹平均长度超过480帧。
相较于现有数据集 HiEve 在更为复杂的场景下提供了更加全面详尽的大规模标注更适合开发新型的人体中心分析技术和应用于实际场景中的验证。
表1详细对比了HiEve与其他相关数据集在性质规模等方面的定量指标
Table 1: The comparison between HiEve and existing datasets. 'NA' indicates unavailable data. '~' denotes approximately calculated values. 'traj.' refers to trajectory, while 'avg' stands for the average trajectory length.

我们的HiEve数据集的一个核心特性是基于人类标注的人工层级与多样化的信息整合。为了充分利用这一特性,在该研究中我们提出了一种基于动作引导的姿态估计算法作为基准方法。该算法通过引入的行为相关特征来指导姿态表征机制的学习过程。实验结果显示,在HiEve数据集上所提出的该方法显著提升了现有最先进的解决方案的性能水平,并通过对比oracle模型验证了其有效性与优势。
此外,在本研究中我们还开发了一个在线评估平台系统(Online Evaluation Platform),该平台系统旨在为研究者提供便捷且高效的评估流程以对保留的测试视频进行实时性验证与扩展性分析能力测试。为了全面考察该系统的实际应用价值与技术可行性,在HiEve数据集上进行了广泛的性能基准测试,并对现有最优解决方案的表现进行了深入分析与对比研究。结果表明:HiEve不仅具有显著的技术挑战性属性;而且在推动人本化视频分析领域的发展方向上具有重大的理论价值与应用潜力
2 RELATED WORKS AND COMPARISON(相关工作及比较)
2.1 Multi-object Tracking Datasets(多目标跟踪数据集)
在单目标追踪与多目标追踪之间存在显著差异:多目标追踪不仅主要依赖于复杂的外观模型来跟踪帧内的目标。近年来出现了专门提供视频序列中的多个对象边界框以及运动轨迹标注的数据集。PETS[12]是一个较早提出的基于多种传感器的视频数据集,在该数据集中对人群数量进行了详细标注,并对每个人群成员进行了独立追踪。所有样本都是在同一单一场景下拍摄完成的。KITTI[13]跟踪数据集基于具有车载摄像头的视频采集系统,并聚焦于街道场景环境下的物体识别任务:它不仅提供了丰富的2D和3D边界框信息以及运动轨迹标注,并且能够覆盖不同视角下的行人行为分析。然而随着MOT算法技术的发展以及MOT基准测试标准相对局限性日益明显,在现有的方法性能评估体系中完全涵盖现实复杂场景能力仍有待提升:因此目前仍以MOT challenge[6]作为主要评估基准
2.2 Pose Estimation and Tracking Datasets(姿态估计和跟踪数据集)
近年来,在图像处理领域的人体姿态估计技术取得了显著的进步。其中,在单人姿态估计领域具有重要地位的基准包括LSP[14]和FLIC[15]两个代表性方法。其中LSP专注于体育场景的研究而FLIC则汇编了好莱坞电影序列作为训练数据集由于其针对性不同导致两者的适用场景各有侧重相对于LSP而言FLIC的数据量相对较小随后研究者提出了WAF[16]这一首个基于简化关键点与身体定义的人体姿态估计基准库并在此基础上构建了MPII[2]与MSCOCO[1]两个知名的人体姿态估计数据集这些数据集通过涵盖不同日常活动场景展示了多样化的姿态标注样本数量其中MSCOCO被认为是最广泛使用的大型数据集拥有超过105698个被标注的姿态实例为多个人体姿态估计任务提供了强有力的支撑同时基于跟踪任务需求PoseTrack[4]研究团队开发了一个全新的视频数据集专门用于人体姿态估计与关节定位这一目标相一致最近提出的JAT[17]大型CG(计算机图形学)数据集通过模拟真实城市场景为人体姿态估计与跟踪提供了丰富的训练素材
2.3 Action Recognition Datasets(动作识别数据集)
目前有两种重要的人类动作视频数据集已被公认为动作识别任务的关键参考:HMDB-51[18]和UCF-101[19]。HMDB-51基于电影序列收集了51个不同的动作类别。UCF-101以其丰富的类别(共包含约 ) 以及样本数量的多样性而闻名,在推动该领域的发展方面发挥了重要作用。为了识别现实世界中的异常行为模式,Avenue[7] 和 UCF-Crime[8] 被提出用于这一目的。在监控视频中,UCFCrime 标记了包括打斗、事故以及抢劫等在内的 余种典型异常情况,从而为研究者提供了丰富的研究素材。近年来,为了促进视频分析技术的进步和发展,研究人员开发了涵盖更广泛场景、提供更详细信息的新数据集,其中包括 Kinetics[20] 和 AVA[21].然而,现有数据集中大部分视频内容要么来自戏剧性场景,要么来自较为空旷的环境区域
2.4 Comparisons(比较)
在社区中为这些相关数据集提供了良好的服务。然而它们目前面临几个局限性:(1)大部分数据集中在较为正常的场景中,并且包括街道、体育场景以及单人运动等简单的情境,在预测运动或姿势时相对较为简单。(2)这些数据集在尺度和复杂度方面对当前最先进算法的性能评估意义有限。(3)而针对多个人为中心的视频分析任务,则需要从多个基准标准出发进行学习和评估;然而以往的数据集注释往往仅聚焦于人类信息的一个方面(如姿态、轨迹或动作),未能全面覆盖相关特征。总体而言
- HiEve数据集广泛涵盖了以人类为中心的认知任务,并特别关注运动、姿势和动作等动态行为特征。相比之下,在之前的数据显示集中仅聚焦于我们所研究的任务的一个具体子领域。
- HiEve数据集呈现出庞大的规模,在姿态数量方面超过100万,在复杂事件动作标签数量上超过5.6万,在长期轨迹记录方面也保持着平均长度超过480米的优势。
- 在关键事件类别方面,HiEve数据集特别聚焦于各种拥挤复杂场景下的具有挑战性的事件(如用餐时的手部操作、地震逃生中的身体摆动、地铁出口处的快速移动以及碰撞后的应急反应等),而之前的数据显示集中则主要集中在较为常规或简单的情景中。
简单来说,在应对各种复杂事件场景时,我们的HiEve系统涵盖了更加全面和更为庞大的注释内容,并能更好地胜任评估现实场景中以人为中心的分析技术。

图1:来自我们的训练集和测试集的不同动作的样本。

该图展示了街道场景中HiEve数据集的数据采集流程:在每个场景中均记录了不同地点和类型的具体事件数据

图3:(a)关键点定义(b)来自数据集的示例姿态和边界框注释。
THE HIEVE DATASET(HiEve数据集)
3.1 Collection and Annotation(收集和注释)
收集。 我们首先选择几个拥挤的地方,有复杂和多样化的活动来收集视频。总共,我们的视频序列收集了9个不同的场景:机场,餐厅,室内,监狱,商场,广场,学校,车站和街道。图6显示了不同场景在HiEve中的帧数。这些视频大多是从我们自己收集的序列中挑选出来的,包含了人与人之间复杂的互动。如图2中的工作流所示,对于每个场景,我们保留在不同地点和不同类型的事件发生的几个视频,以确保场景的多样性。另外,通过人工检查避免了数据冗余。最后,在不同的场景中收集了32个真实的视频序列,每个序列包含一个或多个复杂的事件。这些视频序列被分割为19个和13个视频的训练和测试集,以便两个集覆盖所有场景,但使用不同的摄像机角度或地点。
注释。 在我们的数据集中,边界框、基于关键点的姿势、人类身份和人类动作都是手工标注的。注释过程如下:
首先,我们为整个视频中的每个人标注姿势。与PoseTrack和COCO不同,我们为每个身体标注的姿势包含14个关键点(图3a):鼻子、胸部、肩膀、肘部、手腕、臀部、膝盖、脚踝。特别地,我们跳过了属于以下任何情况的姿态标注:(1)严重遮挡(2)边界框面积小于500像素。图3b给出了一些姿态和边界框注释示例。
其次,我们在一个视频中每20帧注释所有人的动作。对于组操作,我们将操作标签分配给参与该组活动的每个组成员。我们总共定义了14个动作类别:独自行走、一起行走、独自奔跑、一起奔跑、骑马、坐着交谈、独自坐着、排队、独自站立、聚集、打斗、摔倒、上下楼梯行走、蹲伏鞠躬。图1显示了HiEve中不同操作的一些示例。最后,对所有注释进行双重检查,以确保其质量。




3.2 HiEve Statistics(HiEve统计)
我们的数据集包含32个视频序列,大部分长度超过900帧。它们的总长度是33分18秒。表1显示了我们的HiEve数据集的基本统计数据:它有49820帧,1,302,481个bounding-box annotation, 2,687个track annotation, 1,099,357个human pose annotation, 56,643个action annotation,是我们所知规模最大的以人为中心的数据集。
为了进一步说明我们的数据集的特征,我们进行以下统计分析。
首先,我们分析了不同事件的一些统计信息。在视频内容方面,我们可以将我们的视频序列分成11个事件:打架、争吵、事故、抢劫、放学、购物、下车、吃饭、散步、玩耍、等待。每个事件包含不同数量的参与者和动作类型。然后,根据这些事件的复杂性,我们进一步将这些事件分为三类:复杂的紧急事件、复杂的日常事件和简单的日常事件。类别、事件和动作之间的层次关系如图4所示。我们在图10中展示了上述3个事件的姿态、对象和轨迹的数量,这证明了我们定义的复杂事件具有更以人为中心的信息。此外,图5显示了每个事件的平均帧数,表明我们的HiEve数据集是由复杂事件主导的。
其次,我们在图7中展示了我们的数据集中每帧的人数,这表明我们的视频序列中的场景比MOT17和Pose- Track[4]的人数更多,这使得我们的跟踪任务更加困难。虽然mot - 20[6]收集了一些视频序列与更多的人(多达141人),它只涵盖有限的场景和人类的行动。
第三,我们采用Crowdpose[3]中定义的人群指数来衡量我们数据集的拥挤程度。对于给定的帧,其人群指数(CI)计算为
CI =\frac{1}{n}\sum^n_{i=1}\frac{N^b_i}{N^a_i}
其中n是这个坐标系中的总人数。N^a_i为来自第i个人类实例的关节数,N^b_i为位于第i个人类实例边界箱内但不属于第i个人类实例的关节数。我们评估了我们的HiEve数据集和广泛使用的姿态数据集MSCOCO[1]和MPII[2]的人群指数分布。图9显示,我们的HiEve数据集更关注拥挤的场景,而其他基准测试主要是不拥挤的场景。这一特点使得我们的数据集上的最先进的方法既可以覆盖简单的情况,也可以忽略拥挤的情况。
第四,我们分析了数据集中没有联系的人类轨迹的比例。没有联系的人体轨迹被定义为由于以下原因在某些帧上边界框不可用的轨迹标注:(1)一个物体暂时离开摄像机视图并在稍后返回。(2)一个对象长期被前景对象或某些障碍严重遮挡,注释者无法给它分配一个近似的边界框(如图14所示)。值得注意的是,这样的数据集PoseTrack[4],一个个人的再现场景中被认为是一个新的轨道的开始而不是原始的延续追踪消失之前,以这种方式这些数据集将包含更多的跟踪耐力较短(反映在图11)。相比之下,在HiEve中,我们用相同的ID分配消失前后的轨迹,以鼓励能够适当处理长期重新识别的算法。图8中报告了训练集中的断开和连续轨迹的数量。统计结果表明,不连通轨道的比例是不可忽略的支持算法,能够处理复杂情况和拥挤场景。
最后,数据集中所有操作类的分布如图12所示,可以将其视为长尾样本分布。图13显示了我们数据集中的复杂事件有更多的并发事件,这意味着在此类场景中识别行为的复杂性和难度将会增加。
总的来说,这些统计数据进一步证明了HiEve是一个由复杂事件主导的大规模且具有挑战性的数据集。




4 TASK AND METRIC(任务和指标)
基于所采集的视频数据以及可获得的标注信息,HiEve提出了一系列任务以评估视频分析算法。多人运动跟踪为此任务。此任务旨在在整个视频中估计每个参与者的位置及其相应的运动轨迹。特别地,在此基础之上我们提供了两个子轨线:每个参与者的位置及其具体运动轨迹。
- Public:在本子轨道中,所有参与者仅限于使用我们提供的公共目标检测结果(这些结果基于Faster-RCNN算法产出)。
- Private:此子轨道的参与者均具有能力生成各自的检测边界框。
人群姿态估计。 该任务要求参与者估计人体骨骼上的特定关键点。与MPII Pose和MSCOCO关键点相比,我们的数据集涉及了更多复杂事件中的真实场景姿态模式。
人群姿态跟踪。 这个任务需要为视频中所有可见的人提供暂时一致的姿势。与PoseTrack相比,我们的数据集规模更大,包含更频繁的遮挡。
Person-level动作识别。 动作识别任务要求参与者同时检测出特定的个体,并在每个采样帧上为其分配正确的动作标签。与AVA挑战[23]相比,我们的动作识别轨迹不仅包含原子级别的动作定义,还涉及更多的交互和个体间的遮挡,使得识别更加困难。
我们在不同的挑战轨道中采用了一些广泛使用的参数,同时我们也设计了一些新的参数去衡量拥挤和复杂场景中的表现。


4.1 Multi-person tracking(多人跟踪)
-
MOTA和MOTP[5]:它们是评价视频序列中目标跟踪性能的标准度量。MOTA测量假阳性、目标缺失和身份切换的比率。MOTP测量的是预测结果与地面真实之间的轨迹相似性。该测量方法用于多人跟踪和多人姿态估计与跟踪的跟踪。
-
w-MOTA:为了评估算法在无连接部分的轨道上的表现,我们设计了加权MOTA度量(w-MOTA)。这个度量以类似于MOTA的方式计算,除了我们将更高的权重分配给发生在断开轨道上的ID切换情况,因此度量可以表述为
w-MOTA=1-(N_{fp}+N_{fn}+N_{sw}+(\gamma-1)N_{sw-dt})/N_{gt}
其中,N_{fp}和N_{fn}为假阳性和假阴性的次数,N_{sw}为ID切换的总次数,N_{sw-dt}为断开轨道中发生ID切换的次数,N_{gt}为标注中包围盒的数量。 -
ID F1 Score[24]:反映正确识别数量与参考数据集中的真实样本及计算结果之间的平均比值。
-
ID Sw[24]:表示标识交换机数量总汇。
-
ID Sw-DT:记录断开轨道上发生的标识切换事件总量。
4.2 Multi-person pose estimation(多人姿态估计)
-
AP@我们采用平均精度(AP)来评估多人姿势的精度。该评估协议类似于DeepCut[25]:首先,如果一个姿势预测PCKh最高2,那么该预测将被分配给对应的地面真理(GT)。对于未被匹配的关键点预测,则视为假阳性。最后,根据精度-查全曲线下的面积计算平均精度(AP)。
- w-AP@\alpha 为了进一步避免仅关注非拥挤场景的方法(尽管图9展示了数据集中存在大量拥挤和复杂场景的情况),我们在测试图像权重分配上做了优化:如果一个视频包含(1)较高的克劳德指数或(2)异常行为(如打斗、摔倒、蹲伏等),则对该帧分配更高的权重。具体而言,第t帧的权重计算如下:
w^P_t=c_1e^{CI_t}+c_2N_t
其中CI_t表示通过公式1计算出的第t帧人群指数,N_t表示异常行为的数量.在计算过程中,系数c_1,c_2分别设置为2和1.这样得到的加权平均精度称为加权AP(w-AP)。
- w-AP@\alpha 为了进一步避免仅关注非拥挤场景的方法(尽管图9展示了数据集中存在大量拥挤和复杂场景的情况),我们在测试图像权重分配上做了优化:如果一个视频包含(1)较高的克劳德指数或(2)异常行为(如打斗、摔倒、蹲伏等),则对该帧分配更高的权重。具体而言,第t帧的权重计算如下:
-
我们采用AP_{avg}的方法计算关键点估计结果的整体指标,在其中AP_{\text{th}}分别取[0.5, 0.75, 0.9]三个阈值时获得对应的评估指标数值。
- 在基于加权框架下应用w-AP_{avg}模型计算视频帧的关键点估计整体指标时,在其中w-AP_{\text{th}}分别取[0.5, 0.75, 0.9]三个阈值时获得对应的评估指标数值。
4.3 Pose tracking(姿态跟踪)
- 在进行相关跟踪任务时,我们应用 MOTA 和 MOTP,并采用姿态跟踪来进行评估。
- 通过与多人姿态估计相同的计算方法来完成对该评估。


4.4 Action recognition(姿态识别)
- 基于每个帧的f-mAP评估是一种常用的时空动作检测性能量化指标。具体而言,在每一个预测结果中都会生成一个边界框区域并配上相应的动作类别标签。当与该类别标注一致且重叠度高于设定阈值时,则判定为真阳性;否则则为假阳性判断结果。
此外,在测试数据集中我们排除了由于被他人遮挡或呈现模糊状态导致难以可靠识别的对象边界框标注信息以避免影响检测性能评估结果的质量。
最终只有约36%的有效边界框用于性能指标计算。 - 针对类别分布不均衡的问题我们采用主导类别样本权重较小的方式来进行测试集划分这有助于使模型在不同场景下获得均衡的训练效果。
基于此我们在不同拥挤程度场景下给定更高的帧权重分配策略以促进模型在复杂动态环境下的检测性能表现。
这种加权计算框架与加权mAP评估方法具有相似性只不过针对的是帧级别的检测精度指标其计算结果被称为加权帧级f-mAP(简记wf-mAP)。 - 我们报告了多个门限下的f-AP指标值分别为f-AP@0.5 f-AP@0.6 和f- AP@0.75这些门限值分别对应不同的重叠度阈值标准并以它们各自的平均计算结果作为最终的整体f- map量化指标表现形式这一指标我们统称为f-mAP@avg。
- 类似地 wf-mAP@avg 也是通过对wf-AP@0.5 wf-AP@0.6 和wf-AP@0.75多个门限点上的计算取其平均值得到的一个综合性的量化指标反映整体检测性能水平这一指标同样简记为wf-mAP@avg。
5 ACTION-GUIDED POSE ESTIMATION(ACTION-GUIDED姿势估计)
基于骨架的技术[26]、[27]在视频动作识别方面已取得了较为显著的进步。相比之下,鲜有研究者关注动作信息在增强二维姿态特征学习过程中的潜在价值。凭借我们所收集数据集的巨大丰富性和全面性,并结合动作类型知识引导姿态估计过程,我们成功构建了一个改进型HiEve基准方法。相较于以往研究,该方法的独特之处在于将动作信息整合至特征学习与细化流程中。如图16所示,该算法主要包含两个关键组件:ADAM组件用于对齐动作与位姿域之间的特征表示;而PRM组件则利用对齐后特征进一步优化位姿估计结果
5.1 Action-guided domain alignment(Action-guided域对齐)
人体关键点之间某些特殊的位置关系往往预示着某种异常行为。例如,如图15所示,一个产生密集和水平关键点分布的人体骨架通常与摔倒动作相关联。反之,动作类别可以提供可靠的关键点位置先验知识。此外,这些知识还可以修正不正确的关键点位置。根据这一观察,我们提出了一个动作引导域对齐模块(ADAM),其中我们将姿态和动作视为来自两个不同域的信息。ADAM的目的是建立它们之间的映射,使两个域在特征空间上接近。
采用自顶向下的姿态估计框架,利用基卷积网络提取了个人的姿态特征F_p。然后,编码器E通过一系列下采样操作将位姿特征压缩并编码为维数为n的潜在特征f^p_l。为了提取动作信息,我们用一个热点向量\hat{y}_a表示同一个人的动作类别,通过线性变换T将热点动作向量进一步嵌入到一个潜在特征f^a_l中,嵌入的特征维数与f^p_l相同。上述过程可以表述为
f^p_l=E(F_p), f^a_l=T(\hat{y}_a), f^p_l, f^a_l\in R^{1\times N}
其中T(\bullet)=W^2_t(W^1_t(\bullet)), W^2_t\in 和 W^1_t是两个全连接层的参数。
最后,计算了两个域的潜在特征之间的对齐损失,旨在通过最小化潜在空间中的欧氏距离来促进特征之间的一致性。
L_{align}=MSE(f^p_l,f^a_l)

5.2 Pose refinement(姿态优化)
为了进一步优化姿态估计的效果, 我们开发了一个基于潜在姿态特征的细化模块, 该模块包含两个核心部分: 空间细化组件和通道细化组件. 在姿态估计过程中, 关键点的位置由空间特征图的局部响应来决定. 因此, SR通过重点突出特定骨架位置并抑制不准确的关键点响应来重新加权空间特征图. 类似ADAM编码器的设计, SR采用了上采样操作构建解码器, 从f_p输出注意力掩码\alpha:
\alpha = \sigma(W^1_s(D(f^p_l)))
其中W^1_S\in R^{N\times N}是深度可分离9x9卷积参数矩阵, 输出注意力掩码\alpha隐含了来自特定动作知识的先验关键点信息. 受 SENet [28] 的启发, CRaims采用了全局化的通道特征再平衡策略, 其中每个通道通过统计汇总得到选择性激活向量\beta:
\beta=\sigma(W^2_c\bullet \delta(W^1_cf^p_l))
其中\sigma(\bullet)和\delta分别代表sigmoid函数和ReLU激活函数,W^1_C\in R^{d\times N}以及W^2_C\in R^{N\times N}分别代表两个全连接层参数矩阵. 最终应用空间与通道注意机制引导下进行细化工位特征提取:
\hat{F}_p=F_p\bigotimes(1+\beta \bigotimes \alpha)
5.3 Implementation Details(实施细节)
基于COCO平台预训练的人脸姿态特征提取网络[29]被选作本研究的核心组件。该模块被建议添加在HRNet最后阶段之后的位置。采用U-Net中的下采样架构作为编码器模块,并使用其上采样架构作为解码器模块。将整个网络放置于HiEve训练集进行训练以获得最佳性能表现。基于相同的评估标准,在6.2节中所述的方法框架下展开比较研究:将YOLO v3作为人员检测工具应用其中。由于HiEve标注数据每20帧仅标记一次动作特性,在构建动作类别标签时我们采用了插值方法以确保每个帧内个体都能获得精确的时间戳标记信息。对于骨干HRNet及其提出的辅助模块分别设置了1e-4和1e-3的学习速率参数组合:通过实验验证了所提出框架的有效性与优越性:展示了其在细化姿态方面的潜在能力:具体而言,在培训过程中定义总损失函数L=L_{reg}+L_{align}其中L_{reg}表示传统热图回归L2损失函数而L_{align}则代表用于保持关键点位置一致性的自监督损失项:在推理阶段去除了动作嵌入层并将其输出结果与HRNet最后一层输出特征图连接以便进一步提升模型性能
