当我上传一个视频到平台的时候都发生了啥

基本概念

原始帧(original-frame):你手机拍摄了一个视频,这个视频假如被tiktok编辑(增加了特效效果),那么tiktok客户端就会记录你的原始帧(默认2秒抽一张)。但是不要担心,你只要不触发“编辑”,那么tiktok客户端是不会得到你的原始帧的。为什么要有原始帧? 因为虽然你用特效遮挡了“血腥暴力淫秽”,而且观众的体验是“看不到具体的血腥暴力淫秽”,但是对平台的名声而言会有“平台成为暴力内容的传播渠道”的舆论负面评价,进而可能违反内容安全法规。而上传图片就比较简单了,只要一个最原始的图片形象就够了,一次性完成。

转码:是指将一种格式的视频转换成另一种格式的过程,以适应不同的网络带宽、不同的终端处理能力和不同的用户观看需求,以便在不同设备上都能流畅播放。

抽帧:抽帧通常在转码完成后或与转码并行进行。抽帧是视频审核的命,如果抽帧出了问题,大部分模型都不能正常推理。

合规:合规是 “不能违法” —— 必须遵守法律法规。合规的优先级高于安全,如果合规给的结论是下架,安全给的结论是通过,那么还是下架。合规是底线要求,安全是品质要求。

安全:安全是 “不能有害” —— 必须保护用户和平台。视频受它两个的监管。

具体流程

当你打开一个视频平台,准备上传视频到平台上的时候,会触发如下的流程:

首先,一个视频刚刚上传,会是一个不可见也不可推送的状态。然后根据审核的结果,来转变状态。

原始帧original-frame和加工的视频都会上传到云存储,原始帧默认60天过期(上传图片可能不会保存原始图片到CDN)。然后平台会绑定视频ID(video id)和原始帧在TOS的存储地址,实现一对一的绑定。当video id创建好了的时候,视频也开始进行转码,转码成功后会返回“成功”的消息。

拿到了原始帧之后不是马上就审核,而是采集模型特征后进入“相似度检测”。“相似度检测”就是以前的违规视频会有一些特征种子,这些种子在一个种子库里,然后会用原始帧去跟这些种子对比,如果是相似度高的,就省去审核了,直接下架or 限流处理,所以“相似度检测”是审核的第一道防线。

视频初审的模块会拿到视频“特征”,包括音频、作者、标题、etag等等,然后把这些特征去走一遍“模型审核的集合”,这个集合就是一个大模型,根据审核的结果会给这个视频综合的进行打分,比如色情分70分,暴力分20分,最后再来一个加权的计算,最后得到是否有风险的结论。审核大模型的分数就是判断是否送人审的依据。

算法不是单一判断,举一个例子,如果是一个胸部没有发育的幼女,怎么判断出来是“儿童色情”?会有多个特征模型来判断:

  1. 年龄模型判断是否为儿童
  2. 色情模型判断是否涉及色情内容
  3. 行为特征模型判断行为是否是违规,这里还会判断是否是医疗、教育还是其他用途
  4. 上下文特征来分析整体语境和意图
  5. 画面文字模型判断是否有不良导向

这里注意一下,如果机器审核总是重试,重试到一定次数的话,就会直接送到人审。

审核的时候还会拿到up主的粉丝数,粉丝数高的优先审核,粉丝数低的慢点审核。然后就去机器任何平台进行机器审核。

人工审核也不是所有的帧都看,人工审核系统会给它重点送“高危”的帧,这样极大提高了人审的效率。然后在人审平台里,审核员主要就是根据policy进行勾选,比如这个视频里有“抽烟”、“国家领导人”这样的镜头就进行勾选,然后对勾选的结果进一步进行打分,最后得到对这个视频的处理结果。然后这个结果回调给业务方。

用户如果注销了,那么它账号里所有的视频都会进入一个“下架”的状态。但是如果他后悔了操作恢复了账号,而他之前视频是不能恢复的。

上传图片和上传视频,在审核上是不一样的,上传图片只要审核最后的图片(比如加工特效的图片),但是上传视频是既要审核原始视频也要审核加工后的视频。因为审核视频的背后是“审核音频、审核时序、审核滤镜(这里涉及到肤色问题)”。但是极特殊的情况下还是要审核原始图片的,比如“未成年、政治敏感、AI生成”等等。

审核也不是只有视频上传的时候才会触发,还有一种可能,就是up主原来上传就是一个隐私视频,因为是隐私视频,所以只会通过一些非常底层基础的模型,但是一旦up主把这个隐私视频转成了公开视频或好友可见,那么就要去判断它之前是否有过转公开的记录,如果没有就变成“待进检”的状态,然后重新跑一下整个审核的流程。

如果你的视频有了观看次数(VV),那么就会触发“泛召回”,“泛召回”是调一部分怀疑有问题的item(可能是图文 视频 音乐)再来审核一遍,这样尽量避免有问题的视频影响面扩大,在扩大之前做出来处理。

什么样会漏审?

  1. 原始帧丢失
  2. 上下文依赖:某些违规内容需要结合上下文才能判断,单独审核时可能漏判
  3. 消息发送失败:仲裁 or 处罚消息未能成功发送、写入或传递
感谢你请我喝咖啡~

Welcome to my other publishing channels