一、黑产的现状介绍

1.1 拼多多被薅羊毛事件

早上小诺刚到公司,就听到旁边运营部的用户运营哭天喊地的,原来他刚做的一个拉新活动又被黑产薅了羊毛,损失不小。片刻后,运营负责人就拉上老汤姆和各方一起开会,主题是——战黑产。

会上运营负责人介绍了活动的背景和活动实际效果,然后说道。

还记得19年初,知名电商平台拼多多出现重大bug(漏洞),100元的无门槛券用户可以随便领。拼多多被薅羊毛,损失惨重。类似的事件,也常常发生在各大电商平台,尤其是在促销活动期间。在这些事件的背后,我们可以看到一个共同的身影——黑产。

大家了解情况后,老汤姆让小诺介绍关于黑产的调研情况,小诺娓娓道来。

1.2 黑产的种类

那么黑产都有哪些类型呢?我认为可以分以下3种:

1.跟风用户

当某个平台出现了bug,普通用户不用伪造身份或使用专业作弊手段,即可和其他专业羊毛党一起跟风薅平台的羊毛,此类用户为正常用户。对平台来说,此类用户行为上让平台造成了损失,但本质上,不算真正的羊毛党,属于偶然的事件催生。

2.羊毛党

可以利用仿冒账号,作弊手段等,在各大电商平台促销活动期间,模仿真实用户,参与其中,并获得平台给的优惠权益,让自己获利。规模较小,类似于一个小车间。

3.黑产

黑产比羊毛党更加高级,从组织上看有明确的人员分工,从技术上来说有先进的作弊设备和手段。还可以将获利的产品,进行倒卖,让薅羊毛变成一门持续盈利的产业,更像一家工厂。

1.3 电商中薅羊毛的场景

1.电商用户生命周期

从电商用户的生命周期来看,可以大致分为5个阶段:新人期,成长期,成熟期,衰退期,流失期。

针对用户的生命周期,电商的产品经理和运营会针对性的上一些营销策略。举例如下:

⑴新人期:新人礼包,0元购,0元券,首单全额返;

⑵成长期:秒杀活动,满减活动,买送活动;

⑶成熟期:拼团活动,裂变拉新,特价商品;

⑷衰退期:签到红包,抽奖活动;

⑸流失期:通用红包,无门槛优惠券,现金奖励。

黑产一般会利用活动规则的漏洞,或利用作弊手段仿冒真实用户。

比如新人期的0元券,黑产会仿冒大量新人号,进行领取,购买对应商品,再倒卖获利。

再比如成熟期的裂变拉新,黑产控制大量假账号,来获取平台给老用户的拉新权益。

2.黑产带来的危害

无论以上哪种情况,都会给平台、商家和用户三方造成损失。

⑴对平台而言:平台花费了高昂的营销费用,却没有获得真实的用户。

⑵对商家而言:自家的商品没有得到有效的传播,因为有一部分被黑产刷单。

⑶对用户而言:黑产侵占了真实用户的权益,使普通用户无法享受平台的福利。

据有关资料显示,疑似黑产账号上千万,每年给全球电商平台造成的损失上千亿,这真是比我们想象中的要暴利。

1.4 黑产的进化趋势

近几年,黑产发展呈现团队化,专业化,全球化三大特点。

1.团队化

黑产已经发展成一支“有组织,有纪律”的团队,他们分工明确,有人四处收集各大电商平台营销活动的信息,有“产品经理”研究活动规则制定薅羊毛方案,有“研发”准备硬件软件作弊工具,有“销售”去把薅来的商品分销变现。

2.专业化

黑产的作弊手段多样,作弊设备专业:比如猫池,卡池,设备农场,地址库,打码平台,接码平台等。

3.全球化

黑产团队分布于全球,他们有隐蔽的对接渠道和沟通群,当有新的作弊手段产生,便可在黑产界迅速传播,同时也有人专门为黑产做各种作弊平台和工具,进行获利。

1.5 黑产的作弊工具

1.账号

一般电商的活动都是一个账号可以享受一次优惠,黑产想要获利,就需要有大量的账号,黑产往往会购买海外账号或者盗号。

2.设备

有了大量的账号,就需要有大量的设备去对接。黑产往往会低价买二手机或用模拟器。

3.IP

在与黑产的攻防战中,利用IP地址(互联网协议地址)进行识别与标记也是常见的风控手段。所以黑产也会用动态VPS(虚拟专用服务器)混拨对IP进行伪装。

4.猫池和卡池

卡池的作用就是提供大量的SIM(用户身份识别模块)卡,并且可以自动化的换卡。而猫池就是插卡的设备,我们也叫打/接码平台,可以连接电脑,收发短信验证码,现在已经演化到可以接打电话,保存录音,伪造语音等。

5.一键新机软件

因为一个手机的一些信息是固定的,比如型号,设备ID(设备身份标识号),MAC地址(物理地址)等,黑产为了在有限的设备上虚拟出多个设备,则会使用软件,对设备的以上信息进行更改,让设备变为一台“新机”。

6.操作模拟器

可以记录真实用户使用手机过程中的操作习惯,并进行模拟,结合软件或外接按键设备,来模拟真实的用户。

小诺汇报完毕后,大家对黑产有了一个初步的了解。用户运营同学愤愤地说:我们一定要打倒黑产。

运营负责人说:汤姆,我们有什么方案打击黑产吗?老汤姆说:今天我把研发负责人也叫了来,我们最近几天一起讨论了应对方案,我们认为打击黑产最根本的是要提高黑产的作弊成本。接下来请小诺继续介绍。

二、黑产的防控方案

2.1 损失评估

小诺说:今天我把我们的数据分析师阿北也叫了过来。

因为在做风控之前,我们需要先对平台被黑产刷单造成损失的程度进行评估,了解每次活动的损失。再用此与反作弊需要投入的成本进行比较,以此来判断投入人力财力进行反作弊是否正向。

举例:某个营销活动是给新用户0元券,可以凭此券0元购买指定的商品。

在此活动进行7天后,我们可以请阿北导出7天间用此券购买商品产生的订单的详细信息,包括:日期,订单id,商品名称,pid,订单类型,收件人姓名,支付时间,商品数量,支付金额,实付金额,运费金额,收件人电话,收货地址,活动类型等等。

数据出来后,我们会发现一部分收件人姓名相同,地址前缀重复后缀乱文,电话号码仅尾号不同等情况。我们用最原始的人工方法,统计有明显作弊特征的订单数量,除以总订单数量,以此来估计黑产订单百分比。同时我们用此次活动达到的效果与历史活动数据进行比较,发现差异较大点,评估黑产带来的影响。

2.2 反作弊案例

我们来看运营的这个活动,活动玩法是当新人购买指定的商品,完成首单支付后,可以返还等额的红包。

那么针对这个活动,我们要对它的事前,事中,事后进行策略制定。

1.事前阶段

规则设计

反作弊的主要目标是要提高黑产的作弊成本,有以下几个方向:

活动规则上设计严谨,可以自圆其说,当活动中上了一些风控策略或需要调整一些活动商品时,有事先的活动规则来解释,避免被黑产恶意投诉。

商品优惠力度克制,因为优惠越大,被黑产盯上的可能就越大,所以优惠力度和优惠门槛也要合理。

⑵此案例规则

①用户只可购买指定商品,以防止价值较大的商品被黑产刷单造成较大的损失。

②平台在用户完成首单7个自然日后返还等额红包,以防止黑产购买得到红包消费后,将首单商品退货。

③用户须绑定有效手机号,进行短信验证码验证。

④活动仅限账号为国内号段用户参加,国外号段用户无法享受,以此来减少黑产利用海外垃圾账号进行刷单。

⑶技术方案

在新用户刚进入的风控场景下,缺少信息和特征是一个难点。相应的我们的手段有:

①接入第三方风控系统

将新用户可获得的信息,如:手机号,IP地址,微信号等传入,待第三方风控系统返回标记结果,我方进行拦截。

②有监督机器学习

将后期发现的黑产订单,所有的信息当做样本集,进行机器学习,算法会提炼此类订单关联的新用户在刚进入平台参加活动时表现的特征,待下次新人活动时可对有这些特征的新用户进行拦截。

③白名单数据维护

由业务部门提供一批真实用户的信息,算法对这批用户的信息和行为进行学习,以此来辅助风控算法对恶意用户的识别。

定期的维护白名单样本的另一个作用,在于可以喂给风控模型,以此来检测模型的误杀率。

2.事中阶段

经历了第一步的风控,还远远不够,还需要对新用户进行事中的风控。

在此阶段,难点除了上面说的信息少,还需要能够尽快近实时的给出打分结果。这里,我们多采用无监督机器学习模型,也就是我们常说的特征聚类。

⑴无监督机器学习

当我们缺乏标注依据,且无法及时对样本进行标注时,使用无监督机器学习。我们需要找到对象具有的一些特征,如:地域,IP地址,网络状态,手机系统等等。

假设在某个时间段,通过聚类分析,我们发现有一部分用户,使用的手机系统相同,设备都进行了root(完全掌控系统底层及系统文件),且IP地址属于一个号段,网络状态相同,地理位置接近。经过一个个特征的叠加,我们给出一个判断分数,当达到某一个阈值,我们就认为这个用户是黑产。

⑵真人操作识别

当我们用手指在手机界面操作时,手机的传感器会记录我们的操作数据,我们可以将此数据按照时序记录下来,形成连续的波形。而通过外置设备或模拟器模拟的用户点击操作,与真实的用户是有一些区别的,所以我们可以将二者的波形进行对比,从而判断此设备是真实用户操作还是作弊机器操作。

⑶孤立森林模型

如果一次活动中有黑产,那么黑产账号产生的数据有两个特点:第一是只占全量数据的一部分,第二是这些黑产账号产生的数据和正常用户的数据有较大差别。

基于这样的思考,我们采用孤立森林模型,在一组连续数据中通过无监督机器学习,从不同的维度叠加去圈选出,那些在全量数据中分布较离散、远离高密度数据群体的样本。

由下方图11-1可见,A点和B点分布在图中不同的位置,处于聚集区的样本A点需要多次“切割”才会被划分在外边,而较离散的样本B点需要少量的切割即可被分离出。由此我们可以看出切割线总长度相对较短的样本越容易被孤立,于是我们可以设定一个阈值,路径总长度低于这个阈值的,被判别为黑产。

图 11-1 孤立森林模型

3.事后阶段

在经过前面两个阶段的风控后,在用户产生订单未发货前,我们也要进行风控,这一步的风控我们来介绍一下规则性风控。

此次活动产生的订单,见表11-1。

表11-1 活动订单

⑴Badcase特点:

①收件人姓名重复。

②手机号各不相同,判断有作弊设备。

③收件地址为反击反作弊策略,呈现个性化。

④收件地址中隐藏着收件人真正手机号。

⑤收件地址隐藏手机号时会用“联系”这个动词。

⑥收件地址部分为“馆”“店”“场”。

⑦支付时间有间隔,已用防反作弊手段。

⑵规则建设思路

①填写信息:针对收件人,联系电话,联系地址设定策略。

②重名检测:每日符合条件的新用户数量有限,可根据历史数据进行学习,得出重名阈值,重名>阈值则被拦截。

③同数字音:同数字含义“字符”拼音的同音字,也该转换为数字音节后,判断连续程度,如:联系我:幺扒零依依六捂伞弍泗漆。

④判断黑产用户应从多维度综合判断,用叠加打分计算形式,弱特征叠加和设置不同风险等级。当综合分数或者单特征分数达到设定阈值,则进行拦截。简单的打分表,见表11-2。

表11-2 打分表

整体方案介绍完后,小诺说:以上就是我们打击黑产的整体方案,在实施过程中可能会根据实际情况进行调整,同时积累经验,这块需要我们产研和运营紧密配合,我相信我们一定可以打败黑产!

运营负责人点头表示肯定,说:汤姆,看来我们和黑产要有一场持久战要打了。

Logo

网易易盾是国内领先的数字内容风控服务商,依托网易二十余年的先进技术和一线实践经验沉淀,为客户提供专业可靠的安全服务,涵盖内容安全、业务安全、应用安全、安全专家服务四大领域,全方位保障客户业务合规、稳健和安全运营。

更多推荐