您的位置：首页 >滚动 >

小红书社区反作弊探索与实践

2023-01-17 18:34:14 来源：DataFunTalk

17位高级专家共同打造，涉及 15个领域， 133个体系框架， 1000个细分知识点！

(资料图片)

关注公众号“大话数智” ，免费下载这份《数据智能知识地图》⬇️

导读： 本文主题是小红书社区反作弊探索与实践，主要讨论业务风控工作落地的解题思路。

今天的分享会围绕下面四点展开：

社区反作弊的意义社区黑灰产生态作弊防控策略社区反作弊实践

分享嘉宾｜费栋小红书社区风控策略算法负责人

编辑整理｜韩佳阳光

出品社区｜DataFun

社区反作弊的意义

在讨论社区反作弊之前，先明确下什么是作弊以及作弊会带来的行业风险。

1. 作弊的定义和行业风险

发现风险和定义问题是风控工作中非常关键的一环，但也是经常被大家忽略的一环。本文给出个人的定义，即“一切通过非正常手段去滥用产品功能，以谋取利益的行为”。关键词“牟利”，不论哪个行业，作弊一定是趋利的。不同行业的作弊风险形式并不固定，其需要结合产品形态和业务模式来界定。

比如，电商场景下作弊可能带来的风险有刷单、薅羊毛和黄牛等。支付场景的主要风险有交易诈骗，洗钱以及信用卡套现等。那么，社区场景下又面临着哪些风险呢？小红书 UGC 社区的环境下，面临的主要风险有如下几类，数据刷量（数据造假），内容引流，欺诈以及虚假种草。

2. 社区反作弊的意义

多数场景下，反作弊的价值通过挽回XX资损来衡量。比如，电商的薅羊毛，支付的反信用卡套现，活动的骗补贴等，衡量标准可以是为平台节约了多少资损。那在社区中，该如何去衡量价值呢？或者说社区反作弊的意义是什么？

产品生存

面向监管：如果反作弊做得不到位，相应风险问题的浓度就有可能会变高，比如诈骗和刷单问题。近期，有关部门针对互联网诈骗展开行动，如断卡行动、清网行动等等。如果这些问题得不到有效解决，会给平台带来监管的风险。

机器资源：大量的作弊行为可能占用网络资源，造成服务的堵塞，影响用户使用功能。

从以上两个角度考虑，作弊在短期内是有可能影响产品和平台生存。

数据准确率

作弊行为会产生大量的垃圾数据，而数据是产品乃至战略决策的重要支撑。如无法分辨虚假数据，当其量级和占比达到一定程度时，可能导致分析、决策的偏差和失误，影响业务的判断。

平台生态

健康和真诚的内容生态和真实的数据是用户体验的保障。

我们将 C 端用户分为两类，一类用户无法分辨虚假数据和内容，于他们而言不真实的内容或数据会带来决策的误导；另一类用户能分辨虚假数据和内容，不至于被误导，但分辨和筛选的过程大大增加获取有效信息的成本。从长期来看，作弊可能会带来对平台的不信任和用户流失。

对于作者来说，作者是社区内容生产的核心原动力。如果作弊者的数据虚假、虚高的话，对其他作者不公平。长期来看，作弊会导致“劣币”驱逐“良币”。

流量价值

最后一层，作弊行为会影响流量的价值，内容和数据的不真实，本身会降低公众对平台的认可度，长期来看会影响用户使用平台的兴致。从商业化的角度，最关心流量价值的是投放者，对于投放者，如果数据不准确会影响商业分析的结论偏差，导致投放效果不如预期，低估品牌的流量价值。

举例来说，某投放方通过数据分析挑选与其内容匹配且有流量的博主，认可其带货能力。假设该博主的数据是通过作弊刷出来的，投放后会发现效果不佳，ROI 不如预期，长此以往会引出平台互动 ROI 低的结论，导致对于平台流量价值的低估。

综上，不论是从平台生态还是流量价值的层面来看，虚假数据和内容都会影响平台发展潜力。做好社区反作弊，可以提高产品长期发展的上限。

社区黑灰产生态

1. 作弊背后的产业链：分工明确

作弊背后牟利者的产业链是什么？黑灰产的产业链分工非常明确，大致可以分上中下游三个部分。

上游主要来负责提供核心物料，比如，申请账号，如手机号（猫池、接码平台）、IP 资源（代理IP，秒波 IP）、设备的（模拟器改机、云控手机）。

中游负责技术的实现，比如做号：注册账号 ->养号 ->将号卖给下游、封装刷量自动化脚本、营销工具等。

下游实现变现，一般是运营人员，是非技术的部分。通常，在黑灰色产业链中技术人员不会直接参与服务的变现。比如刷量服务中，常见通过网站裂变的形式发展代理和下线，实现刷量服务运营。在诈骗行业中，诈骗团伙中各司其职：运营人员一部分负责引流，一部分负责引流后培养用户信任，最后引导完成诈骗。

2. 作弊手法迭代：从自动化工具逐渐演变为真人众包，作弊成本增加，识别难度变大

早期大多数的攻击是脱机类接口作弊，通过对抗慢慢衍生出虚拟机和群控的形式。近些年众包作弊的形式也慢慢成为主流。对于黑产作弊手法的迭代，可以看出作弊成本变得越来越高。脱机仅需要账号和 IP，一旦突破防护即可实现大量作弊行为；群控则需要购买真实设备；众包则是依赖真人以任务分包的形式达到目的。虽然众包技术含量没有那么高，但全量识别的成本和难度是更高的。

从上述产业链可以看出，整个作弊行业的趋利性是非常明显的，背后往往会有着比较明确的变现思路和方法。而黑产的专业性也是在利益的驱动下迅速提升。不管从上游的资源到下游的获利，都分工明确，协同高效，慢慢的衍生出识别难度越来越大的作弊形式。这也要求做风控的同学跟进行业的形势和进展，做到知己知彼，在识别对抗的过程中不断的完善自我，做到迭代的优化。

作弊防控策略

1. 作弊防控思路

面对已知风险和产业链，下面来讨论下整个作弊防控的策略。所谓策略须先明确作弊防控的目标，以及达到目标的关键路径。

首先明确对于反作弊的预期 。反作弊的本质是与作弊者成本的对抗，任何反作弊系统都无法做到 100% 的准确和召回。前面提到，无论何种形式作弊，它都是以牟利为目的的，而利益的来源是作弊成本和收益之间的价值差异。反作弊的工作就是提高作弊成本，尽量压缩作弊利益空间，降低作弊者的动机。因此，合理的目标设定是降低作弊行为在正常行为中的占比，控制风险的浓度。

关键路径是化被动识别为主动防御，如果长期作为被动方，可能没办法有全盘宏观的概念。 要做到主动防御，一是构建风险的感知能力，尽早发现风险并且快速反应迭代；二是控制黑产的核心资源（账号，设备），树立高门槛设置准入壁垒，并将有问题的账号进行存量清理。收缩作弊者能使用的账号量和设备量，相应的新账号成本也会变高，这就控制了核心资源。

下面对作弊防控思路做进一步的拆解，也是一个比较通用的方法论，个人认为可以应用到各类风险控制场景里。 首先业务风控最大的难点是对抗，无论作弊变成何种形式，唯一不变的就是对抗，它是一直存在的。 围绕对抗抽象出几个模块：风险感知、能力建设、风险识别、风险处置、效果评估。在遇到新的对抗时，这几个环节间会进行不断的循环迭代。下面以小红书社区反作弊为例，具体介绍这几个模块的设置。

风险感知层负责更快发现风险，化被动救火为主动防御。具体分为情报运营，黑产卧底和红蓝军对抗，帮助风险识别更早的发现问题，可以说情报是整个风险防控体系的眼睛，解决“看得见”的问题。

能力建设是面向对抗的快速响应能力 。这部分涉及的模块，一是端+云联防，在合法合规前提下通过端获取设备信息，并进一步加工为可用特征，供云防策略和算法使用。二是可以快速接入且可灵活配置的风控系统，以实现策略规则的快速迭代。三是为更快的实现从零到一的落地风控场景，搭建可跨场景协同使⽤的风险画像平台，在新风险场景里快速迁移和使用数据基建能力。

风险识别模块，面向对抗需提高识别的准召 。从几个角度拓展能力，首先扩充数据，结合设备特征、账号特征、行为特征，以及其他场景下识别的风险画像，做联合使用分析。其次，从挖掘的角度，利用官方平台和作弊者之间的信息不对称性，寻找作弊用户相较于正常用户的异常点：① 尝试由点到线，从分析单个行为变成分析一串行为即行为序列挖掘；② 从单点到面，通过账号、IP 或设备等节点之间的拓扑关系进行团伙挖掘，可以带来很大的增益。

风险处置方面需要选择更有效的方式提高绕过成本 。主要分为两个层面，一是处置对象，二是处置手段。在每个场景下该怎么处置，并没有一个标准答案，建议结合具体业务和业务中的风险来判断，了解风险背后的动机，在考虑应该采取怎样的处置手段才能提高绕过成本。

效果评估可以评估风险水位，一般来说常用的指标有作弊漏过量、漏过率、作弊服务价格、账号价格等。

2. 实现方案——风控体系：⽀持快速接入分析、灵活配置与能力迁移

小红书的风控体系，分为业务数据接入层，数据加工层，分析决策层，数据采集能力沉淀及运营和评估模块。

业务数据层 ，覆盖用户全场景的行为风控。从设备激活->账号注册\登录->内容浏览 ->交互->内容发布，从多场景层面实现联防联控。对于明确的作弊用户，直接拒绝访问从而加强准入的防御壁垒; 对于疑似异常用户或高难度作弊注册，建议做延迟处理或在后续关键环节上做拦截处置，可以达到增加绕过成本的目的：具体来说，如果在注册时直接拦截，作弊者可快速验证拦截原因；延迟拦截后作弊者定位识别方法的难度变大，找到绕过方法的成本也更高。

数据接入层 ，风控引擎支持实时请求接入，也支持准实时流式接入和离线数据接入。

数据加工层 重点针对身份特征，网络环境，设备信息、行为数据、时序特征，累计因子等去做加工和挖掘，并输入至决策分析层。

决策分析层 由策略引擎、模型引擎和数据引擎组成。其中策略引擎完成实时的规则产出和返回，支持灵活的策略配置和策略上下线。模型引擎，对于简单模型，可以做到线上 Serving；对于复杂模型或需要分析的模型，需通过近线或离线实现。

数据采集的能力沉淀层 ，包含设备指纹采集、名单系统、风险画像、关系图计算和风险事件模块。一方面，作为分析决策层的数据源做输入。另一方面，实现识别能力的迁移、使用等等。决策分析层也会向能力沉淀层做输出，将新识别风险点落到能力沉淀里复用至其他风险场景。

社区反作弊实践

该章节主要分享小红书社区数据刷量风险的识别和治理工作。

1. 数据刷量反作弊实践——风险治理

风险治理环节置关重要，在实践中我们发现，同样的识别结果，在选择不同的治理对象和方式时，效果差异性非常大。分享下我们的理解，可以从影响、实现链路以及作弊动机三个层面剖析数据刷量的问题：

Q：数据刷量带来的影响是什么？

A：博主的虚假粉丝，笔记的虚假点赞、收藏、分享、阅读等。

Q：实现刷量的链路是什么？

A：买量者购买刷量服务，或在众包平台发单等；刷单者提供服务来牟利。

Q：作弊背后的真实动机是什么？

A：买量者希望通过刷假数据提高自我流量的价值，但该价值是假的，他想营造出一种虚假的高价值，从而去实现商业化的流量变现。

我们有一些不同的治理方案：

一、对于影响的治理方案是清理这部分作弊的行为所得 。但是，仅清理虚假流量，唯一的损失就是买量付出的钱。但对于买量者，还可以尝试其他作弊服务。因为作弊买量价位不会非常高，不断尝试的可能性就很强。关键点在于尝试作弊是没有边际成本的，比如某人偷东西后只是要求把偷窃所得还回去，而不会把他抓起来，只要不被发现就赚了。

二、对于实现链路，针对刷量作弊的账号做治理 。比如识别到一个用于刷量的机器账号，平台将该账号封禁。从账号的成本上考虑，提供刷量服务者手上的账号量会变的越来越少，做账号成本就会变高，刷量的服务价格就会上涨，刷量者尝试新手法时成本也会变高。

三、从作弊动机角度考虑，按作弊程度作流量分发降权或商业权益限制。 对买作弊流量的笔记做流量分发限制，作弊后可以获得的流量比不作弊更少。其次是限制买作弊流量博主的商业权益，因为很多买量者想通过商业化实现流量变现，对商业权益限制使齐无法做商业合作，对作弊者来说是很大的损失。该模块治理效果，可以大大降低买量者的作弊意愿。

从实践来说，从治理【风险影响】转变为治理【实现链路】与【作弊动机】，作弊意愿降低，作弊量级下降显著。

2. 数据刷量反作弊实践——风险识别

数据刷量的风险识别实践分为三个阶段，随着对抗的展开识别方案不断迭代。

第一个阶段 ，在没有风控没有对抗的情况下，发现风险是相对容易的，粉线隐蔽性不强，该阶段基于行为的主体特征做异常识别，基本假设是作弊主体有明确的特征异常。相应的识别方法如限速策略、参数校验、环境异常、设备伪造改机等识别，以及基于统计特征的监督学习。优点是识别方式解释性非常强。缺点是比较容易绕过。拿限速策略举个例子，上线初期拦截效果明显，但很快作弊者就会摸到限速阈值，只要将速度降下来就可绕过。但是从对抗层面来说，阈值是不可能无限下压的，当速度与正常用户重合时，阈值就无法下调了。

由于第一阶段识别打击生效，出现了对抗，单点分析已不能覆盖大部分风险。所以 第二阶段 ，基于群组行为主体的特征分析挖掘异常。基本假设是作弊团伙存在明显的特征相似性。识别方式上，尝试无监督的聚类算法或频繁项挖掘等。优点是对专家知识的依赖度比较低，可以通过无监督手法找到新团伙；缺点是通过特征伪造、养号、真机可一定程度上绕过识别。

第二阶段上线后 ，黑灰产又调整了一次作弊模式。意识到，一是需要加强设备改进参数的真实性。二是通过代理做IP打散，甚至尝试真人众包的作弊模式。

在该阶段我们再次探索数据刷量背后不变的模式是什么？刷量的本质是本身没有流量的人，希望给自己的数据做作假。作弊用户倾向于给正常用户不喜爱的笔记/作者互动，且这类作弊互动是具有批量性质的。为了达到效果，买量者不会只买一个作弊行为。在这个假设下，我们基于拓扑关系设计图的构建和图相关算法。在构建过程中，尝试构建同构图，比如人与人之间的关系，有相似行为的人构边，或使用过相同介质的人构边。也尝试构建异构图，异构图中很多实体都是可以构点，不限于人或设备，可以是IP、手机号、行为的对象等。在构图完成后，可以在拓扑结构上实现图分割、高密子图挖掘、社群发现模型或者标签传播模型等。

这类方案的优点是不太容易被绕过；缺点是如果作弊者不断提高作弊成本，每个作弊账号和IP用的次数极少，在只做少量行为的情况下，关联关系很有可能在构边的过程中丢失，导致识别漏过。

不过这种情况下，每个作弊行为的成本非常高，提高作弊成本的目标也基本达到了。

今天的分享就到这里，谢谢大家。

｜分享嘉宾｜

费栋｜小红书社区风控策略算法负责人

本科毕业于南京大学，硕士就读于巴黎高科。现就职于小红书，从零到一搭建社区反作弊识别框架，负责社区风控安全策略算法体系建设。

｜DataFun新媒体矩阵｜

｜关于DataFun｜

专注于大数据、人工智能技术应用的分享与交流。发起于2017年，在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会，已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章900+，百万+阅读，近16万精准粉丝。

关键词：作弊行为风险识别决策分析

小红书社区反作弊探索与实践

相关阅读

精彩推送

热点文章

推荐文章