根据麦肯锡的一项调查,39% 的机构已在其业务中实施某种形式的机器学习 (ML)。虽然这一采用还处于初期阶段,但更高效率、客户行为预测以及具有洞察力的商业智能性具有光明的前景,因此这将成为专业 AV 及广播市场的一项极具诱惑力的技术。
媒体系统可利用 Xilinx 平台上的 ML 功能执行 AI 边缘处理。无需网络连接,直接在边缘处理,不仅在低时延性能方面具有巨大的优势,甚至还可能帮助攻克大量有关隐私以及在云端存储识别指标的难题。将这些 ML 功能与音视频处理流水线整合在 Xilinx 灵活应变的平台中,意味着企业可以将分析货币化,提高工作流程效率并增强易用性。最终,这些集成的 ML 功能将帮助器件加速实现创新与差异化。
机器学习解决方案 | 广播使用案例 | 专业音视频使用案例 |
---|---|---|
视频目标检测 |
锁定一个对象并创建一个边界框,输出原始视频的裁剪部分 | 平移、倾斜和变焦摄影机控制,针对讲演者进行聚焦;质量比裁剪与变焦更好 |
检测特定目标,如人员、动物或汽车。识别出的目标周围的区域以一个方框为界,将方框坐标输入编码器进行 ROI 编码。 | ||
体育赛事实况转播自动化 | ||
自然语言处理 |
隐藏字幕语音至文本的转换 | 自动会议记录 |
脚本翻译或电影区域化 | 在自动服务终端交互过程中检测语音压力 | |
性别或年龄检测 |
根据性别或年龄提供标识广告 | |
视频质量分析 |
检测复杂序列并优化编码参数 | |
情绪分析 |
在现场制作过程中,检测演员的情绪,以确定其动作是否符合导演的要求。 在视频剪辑中寻找带特定情绪的演员。 在后期制作中,按照创作/艺术意图,使用 ML 微调演员的面部表情 |
使用数字自助服务终端检测一个人的情绪 |
手势检测 |
用手势比划,以免触摸交互式零售屏幕或自助服务终端屏幕 协同控制摄像头工作 |
大型视频文件及超高清内容的传输与存储成本很容易累积。目标区域 (ROI) 编码有助于缓解这个问题,其不仅可降低内容的整体比特率,然后将最佳视频质量 (VQ) 应用到自然能吸引眼球的区域,特别是人脸和人员,同时还可降低不太重要区域(如背景)的视频质量。
ROI 还可用来在控制室应用的最重要区域保存详细资料。例如,如果出事并可在大型视频墙上监测,那在后续调查中准确了解细节就很重要,其可用于培训,以便从错误中吸取教训并改进行动计划。这就意味着不仅可在使用静态坐标进行 ROI 编码的文本覆盖区域(例如时钟)保持高视频质量,而且还可在使用 ML 动态坐标的人脸或人员身上保持高视频质量。
使用自然语言处理 (NLP) 的语音识别技术现已出现在家庭中,Alexa、谷歌以及其它智能设备可响应命令、呈现信息和媒体内容,也可控制房屋的各个方面。使用构建在器件中的 NLP,相同的功能可应用于专业媒体,使设备安装更快、更简单,无需云连接,也无需任何相关订阅服务,便可执行相同的任务。有了边缘 AI,现在可使用语音至文本的算法和摘要模型自动转录会议记录。此外,还可使用任何语言的实时字幕执行区域翻译,这同样可以应用于视频会议应用,或更传统的广播及电影隐藏字幕系统。
有针对性的广告对于营销者而言极为难得。使用各种 ML 模型来分析数字标识前的受众,可以根据年龄和性别等指标,提供相关性更高、更有针对性的广告。这可帮助标识供应商吸引更多愿意为更好的广告展示支付更多费用的广告商。此外,这还可为广告商产生宝贵的数据,如观众的兴趣(可提高服务的使用率),并可为他们所代表的制造商提供有销售价值的反馈。观众还会看到更个性化的相关广告,这可改善他们的整体购物体验。备选 ML 模型可用于交互式自助服务终端,用更卫生的手势控制取代触摸屏,转向下一个广告,特别是在下单时。
想象一下这种情况:直播一场有关一所本地大学一位艺术家的作品的小组讨论。该活动预算很低,受众是小群体,因此制作成本会很低。通常会使用单个摄影机,通过偶尔的缩放和平移来捕捉整个小组的信息。使用 ML 面部跟踪,可能有一台静态 4K 摄影机捕捉整个小组信息,但可以围绕每场小组辩论创建超低分辨率的高清窗口输出,并通过对话对其进行跟踪。因此,从一台 4K 摄影机,可以有四种不同的输出镜头在现场直播期间、在广角与三个特写镜头之间切换。这可创造更多的视觉效果,无需架设任何额外的摄影机设备 — 摄影师可以成为视频混合操作员,只选择要传输的帧。
这种方法可以与各种 ML 跟踪模型一起应用于专业广播应用,如体育报道或可以自动跟踪多个视频会议与会者的协作环境等。
MuseBox 由 Xilinx 合作伙伴 MakarenaLabs 提供,是一款专门为专业 AV 及广播应用设计的实时机器学习系统。它可用于现场直播,满足交互式或实时应用需求,当您有大量文件要处理并且这些文件因法律原因不能在本地网络之外访问时,也可用于本地文件。基于使用多媒体和 ML 堆栈的 Zynq UltraScale+ MPSoC,或基于支持内部细化的 Xilinx Alveo 加速卡。MuseBox 支持面部及人员分析、对象检测以及音频分析等!
MakarenaLabs 具有丰富的机器学习经验,可为各种 AV 使用案例提供大量的库和产品。Mooseka 系统不仅可用于音频分析、识别与特性提取,而且还可用于其 Mradio 流媒体分析器,从而可为版权执行与保护、无线电推广与市场营销分析自动识别音乐内容。