天天动画片 > 八卦谈 > 反垃圾体系

反垃圾体系

八卦谈 佚名 2022-11-22 10:48:47

反垃圾定义

反垃圾:对用户发布的无意义、敏感内容进行批量系统化的处理过程。

垃圾生产场景包括:动态、相册、聊天、注册、弹幕、评论、备注等,用户等可以自主创作内容场景。

制造垃圾的行为可以定义为两种:无意义和破坏社区环境(恶意破坏和获利性破坏)。

具体行为包括:批量注册、爬虫抓取数据、内容灌水、无关内容、散播谣言、刷数据、恶意获利、广告、违法信息等破坏行为。

反垃圾产品和逻辑的出现,就是为可系统化处理垃圾信息,减少人工审核的强度,净化社区环境。

反垃圾架构


反垃圾流程

反垃圾流程需要涉及把用户自主上传的内容,经过风控策略进行用户筛选、垃圾信息文本策略和图片策略是筛选,因为筛选逻辑存在不完整性,机器模糊不确定的内容,进行人工筛选,筛选出来的模板加入标注系统,形成标注池,完善反垃圾识别策略。

风控策略

风控策略是从用户行为识别上减少垃圾的产量,而反垃圾策略是从内容层面减少垃圾。风控策略是基于用户行为画像建立的,所以用户画像的精确度,也对应着风控策略的精确度,而风控策略切入点主要以下几点:

用户属性信息辅助(画像):通过同时间的用户角色、账号注册时间等用户基本属性构建用户画像,某一部分的用户垃圾生产率低(会员、老用户等)

高危账号识别:针对用户行为进行划分,包括异常操作、异常登录、频率异常等异常行为。

内容发布频率控制:用户自主发布内容频率,进行整体的用户统计,无论是活动期或者平常期,某一类型的用户之间的数据,都是呈现正态分布的,若该用户的内容发布频率高于平均水平,该用户的账号则为异常高危状态,要进行内容和行为重审核,避免误识别。

黑名单控制:垃圾内容的产生往往都是某一部分:手机号、IP、设备、账号产生的,这部分账号具有的共同点多,只要内容数据达到一定的层级。可以从人工筛选、机器识别、数据交换得到,大致的名单列表。

关键词策略

关键词匹配包括:硬匹配、跳词匹配、拼音匹配、联系方式匹配、标点符号匹配、长句模糊匹配等,不同的匹配算法在不同的语义下,效果各不相同。

硬匹配:将词库中的组词一字不差匹配起来,同时支持多关键词匹配,如“低价、会员”,如果文本中含有“低价……会员,加……”,本内容将被系统识别出来,匹配的是单个内容中的全部字眼选择命中,是最容易出现误处理的算法之一。

跳词匹配:将词库中的组词内容拆分成单字,只要内容中按照该顺序存在字眼,则识别为垃圾内容,但是该算法可能存在误识别情况,比如中间存在的语义是完整的,但是在拆分组词情况下,内容存在歧义。

拼音匹配将词库中组词的拼音转为英文字符,对语句中的英文进行拼音匹配,不区分大小写,但是要在长无意义的英文中识别字符。

联系方式匹配该算法出现的频率较低,仅在对社区用户防止流失的情况下存在,例如:加微信、加QQ、手机等联系方式,进行格式限定,但是对同形、同音字,就需要机器学习模型进行构建相似字体系。

长句模糊匹配该算法是对用户输入的内容进行拆分,拆分组词进行关键词匹配。

规则策略

相对于关键词策略的局限性,带关键词的规则更加具有普适性识别垃圾内容。

虽然,规则具有一定的泛化能力,只需要抓取垃圾内容的样式,就可以生成一条规则,针对该类问题统一解决。例如广告类、色情类垃圾内容,必然会包含“联系方式(链接地址、联系方式、针对性的文字描述等内容)”,基于此类内容,需要将长句中语义环境内容拆分成逻辑规则即可。如辱骂性内容,必然会包含粗鄙之语,但是近年出现很多特殊性的辱骂关键长句,可以做特殊处理。

但是,规则只能用于解决一类垃圾内容,作用长而窄。而且垃圾内容的格式日新月异,规则的迭代永远慢一步,不能完全包含全部的垃圾逻辑。如果设立过多的逻辑规则,会出现多个规则之间存在叠加冗余,规则与规则之间的界限不明显,消耗大量的资源。

模型策略

相对于规则策略的界限模糊情况,训练模型可更高效的管理色情文本、广告文本、无语义文本、辱骂文本等的变化和衍生。模型依赖于机器学习算法和人工语料标注。

对于初期而言,训练一个完善的机器学习模型,时间长,过于依赖预料标注的准确性和普适性。如果语料标注质量低下,会导致机器学习算法中出现大量误识别内容,需要大量时间和人力去矫正。完善的语料标注体系,只是模型策略的基础,垃圾内容毕竟是临时性的,变化迅速。高效的模型学习算法才是模型策略的核心。

反垃圾评估

准确率:指垃圾内容/清除垃圾内容,因为各种策略之间的漏洞,所以准确率不可能100%,大约在96%~99%之间

召回率:反垃圾系统识别垃圾内容/总垃圾内容,人工审核必不可少,反垃圾系统不可能跟上人类想法的速度(真正人工智能除外),垃圾内容召回率大约在30%~80%之间,用户可发挥空间越大的内容功能,垃圾内容召回率越低。





本文标题:反垃圾体系 - 八卦谈
本文地址:www.ttdhp.com/article/8347.html

天天动画片声明:登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。
扫码关注我们