浅谈百亿规模的内容审核业务

趋势一:内容审查监管力度逐步加强

从2018年大家就应该能感受到网络内容审查力度越来越大。感兴趣可以自行百度查询下最近2年的监管翻车触发的相关事件;

 

趋势二:内容态互联网公司审查人力成本逐步加大

需要大力投入内容审核的产品,大部分是:新闻资讯、视频直播、社区、IM聊天、低频法布类等;

尤其是直播最容易翻车!时效性越快,越容易翻车!

 

从网络公开资料看,字节跳动 2019审核人员1w人。快手 2019审核人员0.8w人;了解到dau 1000w的一个产品,审核人员2020目前是1100+人。

假定

dau 2-3亿+,审核人员0.8w-1w+;

dau 1000w+,审核人员1000+;

dau 100w+,审核人员500+;

从全网APP榜单分布看,dau 100w+产品,共计417个,其中和内容相关产品占比42%;

从内容审核行业打听到,目前审核人力成本6.5k~7k每人月,取中位数6.75k,即年薪8.1w; (Google内容审核人员换算人民币是26w每人)

取APP dau100w+的榜单中位数,按照dau 1000w+预估,互联网内容审核大盘为 1000人*8.1w*417*42%=141亿

内容审核,也许是个百亿大盘的行业;

 

趋势三:AI辅助人工审核是趋势

内容审核集中类型:涉政、色敏低俗、暴恐、舆情等;

信息载体暴恐:文本、图片、视频、音频等;

涉及到技术包括:词表+视觉,最常用;

AI模型判断,会遇到的挑战:

人-低头、侧脸、PS特征、漫画、光线角度等,难度极大;需要数据持续迭代模型;

OCR-字体、水印各种变体、深浅不一,需要富集样本;

语音-音频合成,模拟某些人的声音;

长线看机会:

1、AI模型准确率越来越高,可以逐步解放人力;

预期AI模型可以准确解决掉80%-90%的审核case,剩余10%-20%的内容需要全人力审核;

2、AI模型标准的高标准化、可复用性;

相关模型的标准基本在国内是可以统一维护、迭代的;样本量越大,准确率越高,服务更稳定,门槛越高;

单独公司去维护迭代这一套东西,成本是很大的;比如某社区产品的色敏模型,据说研发人员30人团队进行维护;这个模型的研发维护成本每年720w-1000w;

 

好了,大概先盘了几点看法。大家有啥新的发现和坑,欢迎留言交流哈;