一个内容社区的用户角色,大致可分为内容生产者(创作型用户)和内容消费者(浏览型用户),既有内容的生产创作,又有观众能够消化掉创作产能,形成良好的社区内容生态。 如何保证内容平台和内容社区里的“内容”,有良好的文化导向,形成良好的内容氛围,就需要平台介入到内容创作中,引导内容生产者创作符合平台价值观的内容,以及引导创作平台提倡的内容。在平台介入内容创作的各种方式中,内容风控就是其中一种。 除内容文化导向外,内容平台的监管责任,也是内容风控的关键原因。2020年3月,国家网信办针对互联网内容乱象,出台实行了《网络信息内容生态治理规定》,明确了网络信息内容服务平台的责任,这意味着,对于内容平台的信息安全,不仅仅信息的发布者要承担责任,平台也同样需要对内容风控负责。 对于很多内容平台来说,既然内容审查成为逃避不掉的责任,那么如何利用机器审核和人工相配合,如何权衡效率和成本,就成为各大平台亟需想明白的问题。 1.内容风控策略的核心要点是什么? 对于一款产品来说,其基本业务框架的抽象模型可以总结为“业务”、辅助业务的“增长”、保障业务的“风控”和支撑以上三点的“数据”。 “业务”自然是产品最关键的地方,“增长”“风控”和“数据”都是辅助业务良态运行。对B站的内容业务来说,协调内容生产者和内容消费者,形成良好的内容生态是关键的核心,辅以用户增长(包括用户增长和创作者增长两个方面),并且对社区进行风控。 通过业务的发展和增长、风控的积累,形成用户基础数据、注册信息、浏览行为、视觉偏好、用户标签等数据,然后通过这些数据,再反向支撑业务发展,形成产品内的数据打通。 本文所要着重分析的,就是风控这一环节。 金融产品、信贷产品有风控非常好理解,但其实,所有类型的产品都需要有风控。电商产品要防薅羊毛,社交产品要防欺诈,而内容产品,则是要对平台内容的质量和合规性进行风险控制。 对于内容社区等UGC产品来说,风控线就是生死线。内容和社区产品的风控压力来源于监管侧,风控对象是用户在平台发布的内容。 2.内容风控要“控”什么? 来自内容侧的风险主要有三类。 其一是政策层面的内容合规,要符合监管的要求。监管要求的内容可参考最新实行的《网络信息内容生态治理规定》,对于各项违规内容都做了详细规定,大致概括可分为涉政、违禁、暴恐、色情等四类,这部分是政策红线,一旦触及,轻则约谈,重则下架、封禁。 其二是社区氛围的良性导向,如谩骂、隐私等。这一类型的内容虽然不会触及监管红线,但倘若内容社区充斥各种负能量,对于社区氛围是非常严重的损害,伤及用户体验,导致用户流失,影响产品商业利益。这一类型内容风控还包括对于产品运营主体的保护,例如对吐槽公司工作人员的内容进行限流处理、对平台和产品的诅咒进行删除等,属于商誉和公关层面的维护,同时也是对产品官方公信力的维护。 其三是社区用户安全的保证。对于内容和社区产品而言,平台内一定会存在导流、灰产、诈骗等不法手段,如何保护平台内用户的财产安全和产品体验,是非常关键的,互联网发展至今,导流、诈骗等行为往往是成熟的灰黑产产业链所为,他们拥有丰富的反监查和防过滤经验,揪出他们并进行处理,需要平台与其斗智斗勇。 3.内容风控的方法和手段 在最早期的阶段,对内容进行风险控制,只能通过编辑人工进行审核。这种方式需要大量的人力物力,而且稿件审核需要时间长,时效性也被大大削弱。一般的公司,很难负担起庞大的内容审核团队。 之后,诞生了关键词过滤等手段,成为成本较低,并且使用最为广泛的内容风控措施。对于命中预设的违禁关键词的内容,直接阻止发出或者转交人工审核。这种方式性价比极高,耗费成本小,但基本可以过滤掉大多数的违规内容。 关键词过滤存在的问题也很明显,准确率较低,经常出现误伤和漏网的情况,对于内容和社区平台来说,这是不能容忍的,前文已经讲过,哪怕一篇违规内容被放出来,产品都有可能被封禁。再加上网络的普及,越来越多的人学会了通过拼音、乱码、谐音等方式绕开关键词,关键词过滤逐渐不再能胜任内容风控的工作任务。 以上基本还属于规则的范畴,之后内容风控的发展,就进入了AI+策略的时代。 AI方面,其实叫机器学习更加准确,这是一套组合拳。举个例子,对于一个视频稿件的审核,就需要对整个视频进行逐一拆帧,然后通过OCR文字识别检查字幕,此时对于字幕的检查和文字内容的检查基本一致,文字识别涉及到NLP分词、语义理解等AI技术;对于画面,则是图片识别,识别图片中可能出现的违禁内容,这里涉及到一个准确率的问题,暴恐视频不能够通过,但游戏视频也存在战斗画面,如何保证不误伤;对于音频,则需要两个方面的审查,一方面是视频当中的语句,将语音转文本,再通过文字的审核策略来审核,另一方面是音调识别,例如识别音频当中的娇喘等无语句的声音。 机器学习还是就稿件论稿件,而一个优秀的内容风控平台,是需要配合策略的。策略产品经理是近几年一个特别火的岗位,提供更精细化的、动态的、效率的产品解决方案。对于策略来说,内容的风控不能只在单个内容上,还需要结合更高的维度,给与更加精细化的识别判断。策略要从单个内容出发,延伸到发布该内容的用户基础信息、关系链、过往内容、实名可信度等等诸多维度进行调参和计算,以判断这名用户的这条内容是否需要更细致的识别。 这里要特别强调一点,即使平台的机器算法再先进,所有的内容还都需要过人审核。所有内容过人,所有内容过人,所有内容过人,重要的事情说三遍,至于原因,还是上面那一条,内容和社区平台不容有半点闪失。 不过机器平台越先进,能够为人工审核提供的辅助也就越全面准确,人工审核的效率自然也就变高,审核人员的压力也相应减弱。 另外,对于内容风控,又会有前置风控(先审后发)和后置风控(先发后审)等不同的方式,关于这一点,以后有机会再详细分析优劣和适用场景。 对于各大内容平台来说,随着内容量越来越大,单纯的对审核人工进行扩容,恐难以解决问题。相对来说,字节跳动旗下的抖音、今日头条、西瓜视频等,背靠百度AI的爱奇艺、好看视频、百家号,腾讯旗下的微信公众号、视频号、腾讯视频等,成立时间久,技术储备强,内容风控团队完善,机器审核系统全面,在内容审查上,有更多的经验和储备。 而新兴的内容平台,比如B站崛起晚、资源少、技术储备弱,在机器辅助审核上还比较弱势,今后加强内容风控技术,优化内容审核策略,改善审核后台的体验,不失为一个好方法,毕竟工欲善其事,必先利其器。 无论如何,内容风控的核心意义,是保障业务平稳安全运行,并且在反对“真正的恶”上发挥自己的力量。对于暴力、色情等违法犯罪内容,必须严惩不贷,但对于呼声正常表达的内容,则应当用更多元的视角去评析论证,而不能直接采用机器算法一刀切。 技术是中立的,但技术背后的人必须有立场。 文/亨哼        95后互联网产品人微信公众号:亨哼阵地(ID:hengpaper)95后互联网原生代的思考自留地用创业者和公司人的视角探索行业与商业   更多商业分析、科技分析、产品分析,请关注亨哼的微信公众号:产品变量(ID:hengpaper), 纵观TMT风云,解构产品思维。   ***********************************
点赞 15
评论 1
全部评论

相关推荐

点赞 收藏 评论
分享
牛客网
牛客企业服务