百度VidPress Sports团队获SoccerNet-v2足球视频理解竞赛双料冠军
2021欧洲杯足球赛近日" SAS 未见其人"般迟迟不见踪影,引发了众多球迷的关注与期待.视频背后隐藏着令人出乎意料的技术应用,而人工智能技术则正在重新定义体育视频产业的内容创作模式.
于最近召开的国际计算机视觉与模式识别顶级会议CVPR 2021上, 视频理解领域的最具声望的国际活动识别挑战赛(ActivityNet)工作坊下设多个子赛项均发布了排行榜。众多顶尖企业和研究机构包括百度集团等重量级企业以及清华大学等顶尖学府均参与了本次赛事。其中SoccerNet-v2挑战赛是首个专注于全面解析足球比赛视频的任务, 在这一赛事中, 在两项核心任务上百度研究院取得了压倒性胜利。


百度拿下全部两项任务冠军 01:49[

](https://baidu-ai-ar-1512380202189-8487.bj.bcebos.com/足球成片%2B字幕-6-29-1.mp4)
视频链接:
https://baidu-ai-ar-1512380202189-8487.bj.bcebos.com/足球成片%2B字幕-6-29-1.mp4
本次竞赛中采用的SoccerNet-v2数据集是该领域规模最大的, 包含来自欧洲五大联赛及欧洲冠军杯等五个顶级联赛的所有赛季的比赛视频. 该数据集总共包含500场比赛, 每场比赛平均时长约为1.5小时, 总播放时间总计764小时. 经过人工标注的数据量达到了30万, 成为公认为评估该领域性能的标准之一.
双任务项目夺冠 大幅提升基线平均 mAP
在本届 SoccerNet-v2竞赛中,设置了两个核心任务:一是基于动作识别的技术路线(action spotting),二是基于回放追踪的技术路线(replay grounding)。具体而言,在足球比赛实况转播视频中识别出一系列关键性事件,并确定这些事件发生的时间节点。这些关键性行为涉及17种不同的类别:包括如进球操作、主罚点球与任意球发球等重要行为;以及如越位动作判断与犯规行为辨识等人类难以迅速识别的场景。值得注意的是,在某些情况下这些关键性行为并未在视频画面中被直接捕捉到;推测其具体位置与时间信息则依赖于对视频画面的深入分析。
通过将足球比赛转播视频中的回放片段与原始事件进行匹配(replay grounding),我们可以实现对这些事件的详细追溯。通常会有多个回看镜头记录同一精彩瞬间,并且这些镜头之间可能相隔数十秒甚至上百秒的时间间隔;此外,在不同比赛中段落也可能采用不同的视角捕捉到这些镜头(replay);这种匹配关系实际上是对超长时间视频理解能力的一种重要评估方式。
该团队致力于算法研究与应用创新,在两项挑战赛中以优异表现斩获冠军

事件定位和回放溯源的系统流程
研究团队认为,在足球视频领域经过微调的特征提取器能够显著提升事件定位与回放追溯两个关键下游任务的性能。该研究团队在SoccerNetv2数据集上进行了五种预训练特征提取器模型的微调实验:包括TPN、GTA、VTN、irCSN以及I3D-Slow模型。这些预训练特征提取器模型在视频理解领域近期的研究中均展现出卓越的表现,并且在标准Kinetics-400数据集上的评估结果显示其性能同样优异。
基于五种不同的特征提取器模型,在充分运用数据资源的基础上
在事件定位与回放溯源阶段应用了 Transformer 模型架构
基于视觉信息语义化特征,并针对新任务定制的 Transformer 模型架构,在竞赛中实现了显著成绩领先。具体而言,在事件定位子任务中,将基线模型的平均 mAP 从52.54%提升至74.84%,较第二名的进步幅度达22.3个百分点;而在回放溯源子任务中,则将基线模型的平均 mAP 升至71.90%,较第二名的进步幅度达31.15个百分点,在该指标上超出第二名63.91%的表现8个百分点。
技术“照进”现实应用 智能视频生成工具应运而生
百度研究院凭借其在处理大规模视频数据方面的技术优势,在该竞赛中取得了显著的成绩并最终脱颖而出
该技术具有显著的应用价值,在体育赛事视频处理中具有广泛的应用潜力。借助智能识别技术,在无需人工干预的情况下,在体育赛事视频处理中具有广泛的应用潜力。通过智能分析系统,在无需人工干预的情况下,在体育赛事视频处理中具有广泛的应用潜力。借助智能识别技术,在无需人工干预的情况下,在体育赛事视频处理中具有广泛的应用潜力.
基于此项能力,团队开发出了一系列应用工具并成功落地。
这一款功能是行业内领先的自定义足球精彩集锦生成工具。当用户输入特定球员并选择比赛时间后, 系统将自动完成该球员的精彩瞬间视频集锦制作, 并提供慢动作回放功能。目前该系统已成功部署于百度百科上的400多个足球运动员及球队页面上。

输入球员名称+比赛名称,生成该球员的视频集锦
其次,在文本语义理解与视频图像理解之间实现了有效融合的基础上

根据文字直播内容智能生成对应的片段视频
此外, 团队开发了一条基于图像场景识别技术的应用化智能生产流水线。该生产线能够快速解析并分析上传的长时长视频数据, 并根据检测结果识别出是否存在进Goal事件; 通过精确识别进Goal的时间点位置实现事件追踪; 进而实现自动剪辑处理过程。

上传一段比赛视频,自动识别生成进球片段
得益于智能视频技术领域的持续创新与积累,百度研究院于2020年初推出了一款智能图文转视频工具VidPress,该技术堪称业界首个实现通用型及大规模全自动 video 生产方案.该工具不仅支持图文链接一键导入,还能够自动完成配音、字幕及画面的内容制作,显著降低素材收集、整理与匹配的时间成本.目前,VidPress已成为百度大脑智能创作平台的核心功能之一,并为包括人民日报在内的多家媒体机构提供了智能化 video 生产解决方案.此外,它还帮助秒懂百科生成了成千上万条球员精彩瞬间的短视频,并为百家号及好看视频等平台终端用户提供了便捷的一键式 video 生成服务.百度大脑智能创作平台整合了自然语言处理、知识图谱视觉与语音等多种技术优势,助力创作者完成新闻生产的全流程操作,从策划到发布全环节提升内容产出效率.
全场景视频时代全面开启之际,各行业对视频应用的体验与效能均提出了更高要求。推动智能化发展的核心驱动力源自人工智能技术的进步。从足球比赛到各类丰富多样的视频内容,百度将持续在相关领域进行技术创新,并通过技术赋能产品与服务的落地实施,为整个视频行业的持续发展注入强劲动力。
百度AI开发者社群https://ai.baidu.com/forum ,作为一个专为全国范围内的开发者打造的专业交流平台
关注下方码码(码),邀请好友加入我的小助手微信好友「京东卡、小度定制周边、神秘礼盒、行李箱」等更多优惠内容你来拿~

