最后更新:2020-05-21 12:41:18 手机定位技术交流文章
对于信息产品和内容产品来说,内容审计是必不可少的环节之一。随着人工智能的发展,机器可以代替一些审计工作。然而,由于内容的复杂性,手动审核是必不可少的,还需要考虑其他方面。在本文中,作者为我们解释了内容审查的方式和过程,希望对您有所帮助。
什么是内容审计?
简而言之,就是审查用户在社交平台上上传、发布或共享的内容(文本、图片、音频、视频)。
其主要目的是过滤和筛选低质量和低俗的内容,以产生高质量的内容,防止用户体验的降低,并保持良好的内容色调。
在这个过程中,平台将有一个专业的内容标准作为参考。在这个时候,有一个很大的问题就是人工筛选效率低而且成本高。
因此,许多内容平台使用算法通过手动和算法的有效结合来过滤和提高效率。
过滤后的内容基本上可以保证没有危害,即使质量不高,但也没有风险问题。此时,企业将面临是先开始后评审还是先评审后发布的选择:
“审查前开始”:即用户首先发布UGC内容,然后进行审查;“发送前审核”:即用户提交UGC内容后,必须先审核,然后才能在线发布。“先评审后评审”和“先评审后评审”的适用场景:
“发布前和发布后评论”:适用于对发布内容时效性要求高的场景中的用户评论,如阅读和收听歌曲。此时,用户更多的是即兴发表评论。因此,从用户的角度来看,他们希望他们的评论能够立即成功和有效。例如:网易云音乐评论。“先评后发”:适合发表文章、观点、讨论等。在社区、论坛、新闻平台等。此时,平台端有必要对内容负责并建立权限,因此通常有必要在发布前进行审查。例如:颤抖,每个人都是产品经理。一、审计方法
无论审计的内容是什么,都应该包括以下四个基本模块:机器审计、人工审计、用户投诉审计和结果审查。
1.机器审计
根据已建立的规则或机器学习算法,对内容进行审查。
通常,一个成熟的审计系统可以自动审计和处理95%甚至99%以上的内容。很难判断问题是否会被标记并进入手动审查程序。
2.人工审查
虽然用户投诉审查和结果审查在大多数情况下也是手动审查,但这里的手动审查是指审查机器无法识别的内容,通常不超过平台内容的5%。
然而,对于一些大型内容平台,绝对数量已经非常大。在内容爆炸的时代,我们看到许多平台在全国有多个审计中心,每个中心都有数千甚至数万名员工。
3.审查用户投诉
这是对前两种情况的一种补救,而且有许多以前从未发生过的侵权行为。因此,它不在规则可以过滤的范围内,或者它是非常隐蔽的,并且规则很难严格过滤。
用户的投诉是发现新问题的重要渠道。通过智湖危机,我们应该更加重视投诉的审查,并相应地补充机器检查。
4.结果审查
一般来说,会采用抽查的方式,例如检查机器删除的内容,看规则或算法是否过于严格。例如,通过查看手动删除和批准的内容,查看员工的工作是否按要求进行;例如,通过对内容的整体检查,查看是否有任何未被注意到的新问题。
二。审查过程
具体流程,以下图为例:
首先通过机器审核,机器审核通过或失败;如果机器未能通过检查,应手动检查。如果机器检查合格,应进行人工取样检查。
3。审计的四个维度
一般来说,这里有四个维度:关键词审查、用户发布限制、重复内容过滤和白名单/黑名单用户。
1.关键词回顾
在词过滤方面,关键词主要分为三类:
1)禁止关键词
只要单词匹配,内容就会被自动删除或禁止提交。通常,只有少数数字会被包含在被禁止的关键词中,比如露骨的色情、邪教和广告。
2)审查关键词
这是最常见的关键词类型,只要匹配就会自动进入背景进行评论,文章中的关键词会被突出显示并列出,这有助于评论者快速判断。审计关键字也应该尽可能是排他性的关键字,以防止太多的内容在后台被截取。
3)替换关键词
在许多平台上,我们会在文章中看到一个无法解释的数字或首字母。这可能不是文章的作者写的,但是这个词会被系统自动替换。平台不希望这个关键字出现,但是通常可以通过用其他东西替换阅读器来读取。例如,一些政治、宗教和不文明的术语可能会被自动替换。
当然,当管理员添加关键字时,大多数时候他们不会直接在后台添加关键字。否则,用户可以通过非常简单的方式绕过关键词过滤,比如给关键词添加一个空的网格,系统很难匹配。
因此,背景通常支持限定符{x}来限制两个相邻字符之间可以忽略的文本,x是被忽略的字节数。在迪斯克兹!网站的背景中有明确的说明,如“a { 1 } s { 2 }(不带引号)可以过滤“ass”以及“axsxs”和“axsxs”等。
对于汉字,如果使用GBK和大5版本,每个汉字相当于2个字节;如果使用UTF-8,每个汉字相当于3个字节。
此外,关键字还可以支持正则表达式来匹配具有特定模式的关键字。例如"/1d {10} ([d]+| $)/(不包括引号)用于匹配手机号码。正则表达式中的内容太多。如果你感兴趣,你可以搜索并学习它们。
2.用户发布时间限制
它主要限制用户无限制地发送评论。
在这种情况下,您可以设置同一用户在一分钟内最多发送一条评论。一小时内最多发送10条评论,一天最多发送30条评论。如果评论数量超过限制,将弹出“累得说不出话,请休息”的提示。
事实上,在这一限制上线后,找到广告的人会继续注册新号码来避免这个问题,这个问题以后会考虑。新用户在发表评论前需要多长时间注册,或者发表评论前必须绑定手机号码的严格条件。
3.重复内容过滤
这通常是为了广告。
比较时,去掉除汉字以外的任何符号,如“颤音”、“快速手”,比较时,使用“颤音”和“快速手”;将该评论与同一用户以前的评论进行比较,10个以上汉字中有一个的重复率为70% (20,60%);30,50%)将弹出祝酒词“请不要发布重复的内容”;同时,该评论仅与评论库最近发布的50篇评论进行比较。如果超过20个汉字的重复率达到其中一个的80%,机器检查失败(30,70%;50.60%);
比较重复的内容时,必须删除一些不相关的符号。因为许多小广告喜欢添加空框和逗号。他们通常也会留出几个文案来比较图书馆里的评论。这样,他们也可以避免改变号码和复制的问题。
4.白名单用户,黑名单用户
白名单用户和黑名单用户需要一个可编辑的背景,可以随时增加或减少。如果同一个用户对机器审查失败的评论在一天内超过10条,它将被自动列入黑名单。
白名单用户不受他们发布次数的限制,但是内容需要检查广告词、敏感词和阻止词。如果一天内发表的超过10条评论未通过审查,它们也将被自动列入黑名单。当列入黑名单的用户发表评论时,将弹出“您暂时不能发表评论”的祝酒词,否则机器评论将直接失败。
最后,我补充说,知识产权没有限制,因为公共区域的无线网络与知识产权是一样的。虽然我非常希望摆脱垃圾评论的问题,但我仍然希望在不影响普通用户的前提下。
以上基本上是内容审查的一个要点。
这篇文章最初是由@ baa baa baa发布的,说每个人都是产品经理。未经允许禁止复制。
主题图来自Unsplash,基于CC0协议。
本文由 在线网速测试 整理编辑,转载请注明出处。