大数据安全治理与防范——流量反欺诈实战

978-7-115-62560-1
作者: 张凯周鹏飞等
译者:
编辑: 傅道坤

图书目录:

详情

互联网的快速发展方便用户传递和获取信息,也催生了大量线上的犯罪活动。在互联网流量中,黑灰产通过多种欺诈工具和手段来牟取暴利,包括流量前期的推广结算欺诈、注册欺诈和登录欺诈,流量中期的“薅羊毛”欺诈、刷量欺诈和引流欺诈,流量后期的电信诈骗、资源变现欺诈等。这些流量欺诈行为给互联网用户和平台方造成了巨大的利益损失,因此为了保护互联网平台健康发展和用户上网安全,必须加大对欺诈流量的打击力度。 本书主要介绍恶意流量的欺诈手段和对抗技术,分为?5?个部分,共12章。针对流量反欺诈这一领域,先讲解流量安全基础;再基于流量风险洞察,讲解典型流量欺诈手段及其危害;接着从流量数据治理层面,讲解基础数据形态、数据治理和特征工程;然后重点从设备指纹、人机验证、规则引擎、机器学习对抗、复杂网络对抗、多模态集成对抗和新型对抗等方面,讲解流量反欺诈技术;最后通过运营体系与知识情报来迭代和优化流量反欺诈方案。本书将理论与实践相结合,能帮助读者了解和掌握流量反欺诈相关知识体系,也能帮助读者培养从0到1搭建流量反欺诈体系的能力。无论是信息安全从业人员,还是有意在大数据安全方向发展的高校学生,都会在阅读中受益匪浅。

图书摘要

版权信息

书名:大数据安全治理与防范——流量反欺诈实战

ISBN:978-7-115-62560-1

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。

版  权

著    张 凯  周鹏飞  等

责任编辑 傅道坤

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315

内 容 提 要

互联网的快速发展方便用户传递和获取信息,也催生了大量线上的犯罪活动。在互联网流量中,黑灰产通过多种欺诈工具和手段来牟取暴利,包括流量前期的推广结算欺诈、注册欺诈和登录欺诈,流量中期的“薅羊毛”欺诈、刷量欺诈和引流欺诈,流量后期的电信诈骗、资源变现欺诈等。这些流量欺诈行为给互联网用户和平台方造成了巨大的利益损失,因此为了保护互联网平台健康发展和用户上网安全,必须加大对欺诈流量的打击力度。

本书主要介绍恶意流量的欺诈手段和对抗技术,分为 5 个部分,共12章。针对流量反欺诈这一领域,先讲解流量安全基础;再基于流量风险洞察,讲解典型流量欺诈手段及其危害;接着从流量数据治理层面,讲解基础数据形态、数据治理和特征工程;然后重点从设备指纹、人机验证、规则引擎、机器学习对抗、复杂网络对抗、多模态集成对抗和新型对抗等方面,讲解流量反欺诈技术;最后通过运营体系与知识情报来迭代和优化流量反欺诈方案。本书将理论与实践相结合,能帮助读者了解和掌握流量反欺诈相关知识体系,也能帮助读者培养从0到1搭建流量反欺诈体系的能力。无论是信息安全从业人员,还是有意在大数据安全方向发展的高校学生,都会在阅读中受益匪浅。

作者简介

张凯,现任腾讯专家工程师。一直从事大数据安全方面的工作,积累了10多年的黑灰产对抗经验,主要参与过游戏安全对抗、业务防刷、金融风控和反诈骗对抗系统等项目。

周鹏飞,现任腾讯高级工程师。主要从事大数据安全方面的工作,积累了多年黑灰产对抗经验,参与过游戏安全对抗、金融风控、业务防刷、广告反作弊、电信反诈和风险情报等项目。

杨泽,现任腾讯研究员。主要从事金融风控、黑灰产对抗等业务安全工作。

郝立扬,现任腾讯研究员。主要从事反诈骗、反赌博等业务安全工作。

熊奇,现任腾讯专家工程师。一直从事业务安全方面的工作,先后参与过反诈骗、App安全、金融反诈、安全大数据合规与业务风控等项目,积累了15年的黑灰产对抗和安全系统架构的经验。

前  言

作为第一批参与到反欺诈社会治理的安全团队,2022年我们整合了团队10年反欺诈技术体系及实战经验,于2023年1月出版了《大数据安全治理与防范——反欺诈体系建设》。该书一经推出便受到广泛好评,但由于该书作为大数据安全反欺诈体系的入门教材,内容着力于基础概念与通用方法,因此无法覆盖具体领域的一些问题,如流量安全、网址安全等,因此我们进一步策划了系列书《大数据安全治理与防范——流量反欺诈实战》和《大数据安全治理与防范——网址反欺诈实战》。

作为一本流量反欺诈领域的实战图书,本书详细介绍了流量反欺诈实战中的对抗技术与细节,帮助读者掌握流量安全相关的理论基础知识,积累技术应用与实战经验。

本书分为5个部分,共12章。第1部分介绍互联网流量的发展历程、大数据时代的流量欺诈问题、流量反欺诈挑战以及流量反欺诈系统的架构;第2部分介绍流量欺诈手段及其危害;第3部分介绍流量数据治理和特征工程;第4部分介绍流量反欺诈实战中的基础技术和对抗方案;第5部分介绍运营体系和知识情报挖掘与应用。

流量反欺诈是大数据安全中一个重要的方向。能顺利完成相关技术和体系的总结和梳理,这要归功于团队协作的力量。除了两位主要作者,以下 3 位作者也深度参与了本书的撰写。

杨泽撰写了第3章“流量数据治理和特征工程”、第7章“机器学习对抗方案”、第9章“多模态集成对抗方案”、第10章“新型对抗方案”和第11章“运营体系”。

郝立扬撰写了第2章“流量欺诈手段及其危害”、第4章“设备指纹技术”和第12章“知识情报挖掘与应用”。

熊奇为本书的写作主题、方向和内容提供了建设性的指导。

在稿件完成之际,有特别多想感谢的朋友。李宁从项目的角度,为本书的写作流程、资源和后期事项提供了强力的支持。蔡超维从反欺诈行业和技术落地角度,结合多年的实战经验给出了诸多建设性的修改意见。也感谢人民邮电出版社编辑单瑞婷全程支持本书的出版工作。

虽然在写作过程中,我们尽最大努力保证内容的完整性与准确性。但由于写作水平有限,书中难免存在疏忽与不足之处,恳请读者批评指正。此外,本系列图书中还有针对网址反欺诈领域的《大数据安全治理与防范——网址反欺诈实战》一书,读者可一同参考阅读。

资源与支持

资源获取

本书提供如下资源:

本书思维导图;

异步社区7天VIP会员。

要获得以上资源,您可以扫描下方二维码,根据指引领取。

提交勘误

作者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎您将发现的问题反馈给我们,帮助我们提升图书的质量。

当您发现错误时,请登录异步社区(https://www.epubit.com),按书名搜索,进入本书页面,点击“发表勘误”,输入勘误信息,点击“提交勘误”按钮即可(见下图)。本书的作者和编辑会对您提交的勘误进行审核,确认并接受后,您将获赠异步社区的100积分。积分可用于在异步社区兑换优惠券、样书或奖品。

与我们联系

我们的联系邮箱是contact@epubit.com.cn。

如果您对本书有任何疑问或建议,请您发邮件给我们,并请在邮件标题中注明本书书名,以便我们更高效地做出反馈。

如果您有兴趣出版图书、录制教学视频,或者参与图书翻译、技术审校等工作,可以发邮件给我们。

如果您所在的学校、培训机构或企业,想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。

如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请您将怀疑有侵权行为的链接发邮件给我们。您的这一举动是对作者权益的保护,也是我们持续为您提供有价值的内容的动力之源。

关于异步社区和异步图书

“异步社区”(www.epubit.com)是由人民邮电出版社创办的IT专业图书社区,于2015年8月上线运营,致力于优质内容的出版和分享,为读者提供高品质的学习内容,为作译者提供专业的出版服务,实现作者与读者在线交流互动,以及传统出版与数字出版的融合发展。

“异步图书”是异步社区策划出版的精品IT图书的品牌,依托于人民邮电出版社在计算机图书领域30余年的发展与积淀。异步图书面向IT行业以及各行业使用IT技术的用户。

第1部分 流量安全基础

第1章 绪论

第1章 绪论

本章主要介绍流量反欺诈的相关基础知识,包括互联网流量的发展历程、大数据时代的流量欺诈问题、流量反欺诈挑战和系统架构4个方面,为后面章节阐述流量反欺诈的详细对抗方案作铺垫。

 1.1 互联网流量的发展历程

互联网诞生于20世纪60年代,其雏形是由美国国防部构建的一个小型网络——阿帕网(Advanced Research Projects Agency Network,ARPANET),刚开始网络中的节点比较少,主要包含加利福尼亚大学洛杉矶分校、斯坦福研究院、犹他大学等节点,通过网络中节点之间的数据交换和共享,实现军方、科研机构等之间的信息互通。

由于最初的互联网是小型网络,用户量很有限,因此流量很小。但随着互联网技术的不断革新,互联网逐渐发展成为拥有巨大规模的“万物互联”的全球性共享网络,连接的终端已经不局限于 PC、平板电脑和手机,甚至智能手表、智能眼镜等智能穿戴设备也可以连接上网。全球海量用户共同加入互联网,并互动和共享信息,导致互联网流量呈现爆发式增长。互联网流量爆发不是一蹴而就的,而是经历了漫长的发展历程,这里主要从中国互联网流量发展的角度进行具体阐述。根据中国互联网流量规模的不断扩大,可以将中国互联网流量的发展历程分为PC互联网时代、移动互联网时代、云计算和大数据时代3个阶段,中国互联网流量的发展历程如图1.1所示。

中国互联网流量发展的3个阶段具有不同的特点。

PC互联网时代:流量的载体以网站、PC客户端软件为主,交互模式主要是用户搜索和浏览,整体数据量相对较小。PC互联网时代的流量欺诈问题主要集中在传统的基础安全上,如恶意软件、漏洞挖掘和钓鱼木马等。

移动互联网时代:流量的载体以网站、App为主,交互模式更多是用户参与互动,所以数据量呈现爆发式增长。移动互联网时代的业务形态多种多样,业务场景也非常丰富,所以流量欺诈问题层出不穷,如推广结算欺诈、“薅羊毛”欺诈、电信诈骗等。

云计算和大数据时代:出现了公众号和小程序等新型流量载体,更有短视频等应用的快速发展,给用户更多参与互动和创作的入口和更低的门槛,致使数据量持续快速增长。同时在流量欺诈中,也出现了更便利的云端黑产工具,如云挂机、云控等。

图1.1 中国互联网流量的发展历程

下文将详细阐述中国互联网流量发展历程中3个重要阶段的流量特点和流量安全问题。

1.1.1 PC互联网时代

互联网流量发展的第一个重要阶段是PC互联网时代。该阶段的主要流量载体是各类门户网站,如腾讯、百度、搜狐和网易等。用户主要通过搜索和浏览获取信息、进行单向互动,PC互联网时代的交互模式如图1.2所示,这种交互模式降低了信息的获取门槛,提升了信息传播的效率。但该阶段用户的互动程度还不高,用户很少能深度参与到互联网内容的创作中,产生的数据形态主要以文本数据为主,也有少量的图像数据。另外,这个阶段中国互联网的普及度不高,因此流量的整体规模也比较小。该阶段的流量欺诈问题,主要是恶意软件、漏洞挖掘等基础安全问题。

图1.2 PC互联网时代的交互模式

从高用户渗透率的变化来看,PC互联网时代的互联网产品演变主要经历了3个关键节点,如图1.3所示。搜索引擎是PC互联网时代的基础设施,连接了人与信息,所以率先达到高用户渗透率的产品是百度等搜索引擎门户网站,这类产品成为互联网流量的第一入口;然后在基础设施比较完善后,开始进入连接人与人的关键节点,微博、QQ等社交娱乐产品进入了高用户渗透率产品的行列;最后是连接人与商品的关键节点,以淘宝和京东等为代表的电子商务门户网站,开始进入高用户渗透率产品的行列。

图1.3 PC互联网时代的互联网产品演变的3个关键节点

1.1.2 移动互联网时代

随着3G(第三代移动通信技术)网络和智能手机的普及,数据高速传输有了更好的支撑,互联网流量发展迎来了第二个重要阶段——移动互联网时代。该阶段出现的重要产品,有些是从PC端迁移到了移动端,如QQ、淘宝、京东、百度等。随着时代的进步,一些具有代表性的新产品应运而生,如微信、美团、拼多多和抖音等。流量载体相比第一阶段新增了移动端App,用户不再是与平台进行单向互动,用户可以根据个人喜好,随时随地分享自己的生活和工作,与平台形成了双向互动。移动互联网时代的交互模式如图1.4所示,用户在互动中产生大量的用户生成内容(user generated content,UGC)和专业生产内容(professionally generated content,PGC),互联网流量呈现爆炸式增长。该阶段的用户产生的数据形态主要以图文数据为主,还有少量的语音和视频数据。该阶段的流量欺诈问题主要是推广结算欺诈、“薅羊毛”欺诈、电信诈骗和支付欺诈等业务欺诈问题。

图1.4 移动互联网时代的交互模式

从高用户渗透率的变化来看,移动互联网时代的互联网产品演变主要经历了3个关键节点,如图1.5所示。区别于PC互联网时代,该阶段率先达到高用户渗透率的产品是社交、长视频、音乐和游戏等社交娱乐产品,其中社交产品取代了搜索引擎,成为移动互联网时代流量的第一入口;然后,电子商务从PC端迁移到移动端,也得到了进一步发展,进入了高用户渗透率产品的行列,其中具有代表性的是淘宝、京东、拼多多等产品;最后是在社交娱乐和电子商务这两大板块之外的其他细分领域,如外卖、导航和旅行等细分领域产品,也进入了高用户渗透率产品的行列。

图1.5 移动互联网时代的互联网产品演变的3个关键节点

1.1.3 云计算和大数据时代

随着云计算等相关技术的发展,互联网业务海量数据的存储、计算和应用成为可能,互联网流量发展迎来了第三个重要阶段——云计算和大数据时代。云计算和大数据时代的互联网产品演变主要经历了3个关键节点,如图1.6所示。该阶段各关键节点主要出现了直播、短视频、线上会议、在线教育等领域的产品,流量载体相比前两个阶段新增了小程序和公众号。该阶段的用户不只是简单的互动,而是根据个人爱好或者出于盈利目的,用户通过自主创作内容,深度参与到互联网的互动中,从而产生海量数据,数据规模持续增长。该阶段产生的数据形态除了图文数据,还有语音和视频数据,而语音和视频数据规模也达到了前所未有的高度,真正迎来了互联网的大数据时代。该阶段的流量欺诈问题除了有推广结算欺诈、“薅羊毛”欺诈和电信诈骗等移动互联网时代已有的业务欺诈问题,伴随着云业务的发展,还出现了云挂机和云控等新型欺诈问题,下文详细介绍大数据时代的流量欺诈问题。

图1.6 云计算和大数据时代的互联网产品演变的3个关键节点

 1.2 大数据时代的流量欺诈问题

大数据时代的互联网流量不仅规模庞大而且纷繁复杂,伴随而来的是各种类型的黑灰产欺诈问题。流量欺诈问题贯穿了App整个生命周期,大数据时代的流量欺诈问题如图1.7所示。

图1.7 大数据时代的流量欺诈问题

下文将从流量前期、中期和后期的视角,介绍流量欺诈问题。有关流量欺诈的具体手段及其危害,请读者参阅第2章。

1.流量前期的欺诈问题

流量前期主要涉及广告点击、App下载、账号注册、账号登录这4个环节。流量前期产生的流量欺诈问题主要是推广结算欺诈、下载欺诈、注册欺诈、登录欺诈等。

2.流量中期的欺诈问题

流量中期主要涉及用户进入 App 后的用户行为,如内容浏览、点击、评论、参与营销活动、传播引流URL等。流量中期产生的流量欺诈问题主要是引流欺诈、“薅羊毛”欺诈、刷赞刷榜欺诈、垃圾评论等。

3.流量后期的欺诈问题

流量后期主要涉及人与人之间的社交关系建立和交易转账等环节,流量后期产生的流量欺诈问题主要是“杀猪盘”、电信诈骗、交易欺诈等。

 1.3 大数据时代的流量反欺诈挑战

反欺诈面临的挑战是全方位的。从高维视角分析,大数据时代的流量反欺诈主要涉及监管层面、行业层面和业务层面的多重挑战,如图1.8所示。

图1.8 大数据时代流量反欺诈的多重挑战

1.3.1 监管层面

监管层面主要是监管和数据合规性的要求。近年来,随着用户隐私数据保护和个人信息权益保护等方面的要求越来越严格,国家相继出台了《中华人民共和国数据安全法》和《中华人民共和国个人信息保护法》等法律法规。在 App 数据采集和数据合规越发严格的情况下,数据合规成为大数据治理的第一要务。大数据的反欺诈识别,一定是在充分保护用户隐私和合法授权的数据基础上进行建模,对流量反欺诈体系建设提出了更高标准的要求。

1.3.2 行业层面

行业层面主要面临的挑战是来自反欺诈标识体系的变革,具体可以分为设备标识体系变革和用户身份标识体系变革两方面。

1.设备标识体系变革

设备标识作为流量反欺诈的核心要素之一,原有的移动终端和操作系统主导的设备标识体系已不再适用,取而代之的是国内各大厂商构建的去中心化的开放匿名设备标识符(Open Anonymous Device Identifier,OAID)设备标识体系,而新的OAID设备标识体系无法对设备指纹进行验证校准,也无法验证真伪。

2.用户身份标识体系变革

行业常用的用户身份标识体系是国际移动用户标志(International Mobile Subscriber Identity,IMSI),而IMSI也因为操作系统的升级而被禁止获取,所以在某些流量场景下无法进行身份验证和流量欺诈检测。

1.3.3 业务层面

业务层面主要面临的挑战是攻防博弈深化,具体可以分为欺诈升级和业务防控不足两方面。

1.欺诈升级

欺诈手法变化多端。例如在风险设备使用层面,黑灰产从假机假用户行为开始,利用模拟器进行流量欺诈;然后为了绕过业务方的风控检测,逐渐演变为通过真机假用户行为,利用群控进行欺诈;最后又升级为真机真用户假动机行为,通过众包平台给普通用户派发兼职任务来实施流量欺诈,大幅度提高了业务方的风控难度。

欺诈技术专业化。黑灰产从最开始的“单兵作战”,逐渐升级为有组织、有分工的“团伙作战”,并形成了专业化的黑灰产产业链,如图1.9所示。黑灰产也早已用上了最前沿的AI技术,欺诈的效率更高、隐匿性更强。但凡业务存在未知漏洞,黑灰产团伙就会闻风而来,利用漏洞实施欺诈,在极短时间内使业务遭受严重损失,等业务方发现时,黑灰产团队早已离开。

图1.9 专业化的黑灰产产业链

欺诈向国外转移。随着国内开展断卡和断号等严打黑灰产欺诈的行动,黑灰产开始逐步由国内转移到国外,跨国欺诈日益发展,如跨境赌博、跨境洗钱和跨境“杀猪盘”等。

2.业务防控不足

防控手段单一。业务方仅依靠简单的风险名单或者人工规则进行单点对抗,缺乏从事前、事中到事后全流程的反欺诈系统架构。

防控滞后。由于黑灰产欺诈手法的隐匿性强、变化快,获取未知欺诈手法样本容易滞后,从而导致构建的有监督模型只能识别出已知欺诈类型,对未知欺诈类型的识别存在盲区。

孤身作战。黑灰产欺诈团伙为了获利,不会放过任何有利可图的机会,通常会利用有限的黑灰产资源在各业务平台连续作恶。但业务防控未能形成有效的跨行业联防联控,防控效果差。

 1.4 流量反欺诈系统的架构

针对大数据时代的流量反欺诈挑战,接下来重点从流量反欺诈方案的演变历程和当前大数据时代反欺诈系统的架构两方面进行具体阐述。

1.4.1 流量反欺诈方案的演变历程

流量反欺诈方案的历史演变过程如图1.10所示,主要经历了PC互联网时代的专家规则对抗方案、移动互联网时代的机器学习对抗方案和深度学习对抗方案,以及云计算和大数据时代的复杂网络对抗方案和跨行业联防联控方案,随着时代的发展,这些对抗方案的对抗效果也在不断提升。

图1.10 流量反欺诈方案的历史演变过程

1.PC互联网时代

在PC互联网时代,黑灰产的欺诈手法较简单,基于专家规则的对抗方案就可以取得比较好的效果。该方案的对抗过程主要是基于专家经验,通过数据分析欺诈案例,人工提取出简单规则,再结合风险名单一起使用。该对抗方案的优点是简单易用,可解释性强,缺点是只能识别出比较明显的黑灰产欺诈手法,且人工提取成本高。

2.移动互联网时代

在移动互联网时代前期,随着互联网流量的爆炸式增长,业务特征信息越来越丰富。同时机器学习算法逐渐成熟,开始广泛应用于流量反欺诈领域。机器学习对抗方案的构建过程主要是结合业务特征信息,在黑白样本训练集上学习黑灰产欺诈范式,然后再泛化到线上进行欺诈检测。该对抗方案的优点是可以识别出复杂和隐匿性强的流量欺诈,缺点是可解释性弱、检测未知欺诈类型的结果滞后。

在移动互联网时代中期,随着图像、语音和视频等多模态数据的大量产生,传统特征提取方式的效率和效果都比较差。因为深度学习在对图像、语音和视频等多模态数据的特征提取方面具有独特的优势,学习能力更强、提取效率更高而且效果也更好,所以该对抗方案在流量反欺诈领域被广泛应用。

3.云计算和大数据时代

在云计算和大数据时代,随着算力和存储能力的提升,可以很好地支撑复杂大模型,于是迎来了复杂网络大模型的发展。复杂网络对抗方案主要是基于海量的关系数据,利用节点与节点之间的结构信息和节点属性特征信息,从整体角度识别黑灰产欺诈行为。该对抗方案的优点是可以提升覆盖能力,还能主动发现未知欺诈类型,缺点是计算量大,资源开销成本高。

同时,随着各行各业的业务逐渐上云,以及联邦学习等新型对抗方案的诞生,跨行业的联防联控方案可以以低成本落地。这种新型对抗方案从行业共治的角度出发,可以有效地对黑灰产进行升维打击,大幅度提高黑灰产的作恶成本。

在互联网流量发展的各个阶段,随着人工智能技术的发展,流量反欺诈方案也在不断演进,每个阶段都有符合该阶段特点的新的流量反欺诈方案出现,但并非淘汰旧的方案。面对变化多端的黑灰产欺诈手段,反欺诈需要同时结合多种对抗手段,形成体系化的对抗方案,才能更好应对大数据时代流量反欺诈面临的多重挑战。

1.4.2 流量反欺诈系统的架构

根据大数据时代的互联网流量欺诈特点,结合人工智能发展的最新技术,形成了大数据时代流量反欺诈系统的架构,如图1.11所示。

图1.11 大数据时代流量反欺诈系统的架构

大数据时代的流量反欺诈系统的架构自底向上主要分为4层:大数据平台层、数据治理层、反欺诈模型层和在线服务层,而情报系统和运营体系服务于整个流量反欺诈系统的架构。流量反欺诈系统架构各部分的功能具体介绍如下。

1.大数据平台层

大数据平台层作为底层平台和框架,支撑着大数据时代海量互联网流量数据的存储和计算,主要包括大数据存储和计算基础平台(Hadoop和Spark等)、分布式数据仓库(Hive和Presto等)和流数据处理框架(Flink和Storm等)。

2.数据治理层

数据治理层的核心要点是要首先确认使用的数据是经过用户合理授权的;然后是针对隐私数据和日志数据进行加密、隔离存储,保证数据安全性;最后主要是针对流量的原始日志数据,统一进行数据清洗、加工和管理,提升数据质量。由于原始日志数据来自业务各场景,因此存在字段格式不统一、命名不规范和数据“脏乱差”等各种问题。数据治理层通过数据清洗等方式将原始日志数据处理为规范化的基础层数据,然后再通过特征工程构建出流量反欺诈建模所需的高质量画像特征。

3.反欺诈模型层

反欺诈模型层主要是基于数据治理得到的画像特征数据,利用人工智能技术训练各种流量反欺诈模型,从而识别业务流量风险,流量反欺诈模型如图 1.12 所示,贯穿业务平台流量的整个生命周期。其中,在流量前期,以人机验证作为第一道安全防线识别潜在风险,然后以规则模型作为第二道安全防线,进一步识别较明显的黑灰产欺诈行为;在流量中期和后期,基于机器学习模型、复杂网络模型和多模态集成模型识别隐匿性更强、对抗更激烈的黑灰产欺诈行为,最后再利用新型对抗模型解决流量欺诈场景中的特殊情况。

图1.12 流量反欺诈模型

另外,设备指纹技术是互联网业务中用户身份的唯一标识,也是流量反欺诈的基础服务设施,覆盖了流量的整个生命周期。因为反欺诈模型均是在设备指纹技术的基础上进一步构建起来的,所以掌握设备指纹技术是不可或缺的基础能力。

4.在线服务层

在线服务层是流量反欺诈的输出层,以API接口的方式直接服务于各种业务流量场景,主要包括镜像管理、容器编排、在线存储、微服务和负载均衡等模块,可以根据业务流量请求规模进行弹性扩容,支持百亿级的并发访问,同时还保持服务的稳定性和可靠性。

5.运营体系

运营体系主要包括服务监控、存储监控、特征监控、数据监控、模型监控等核心模块,通过这些模块进行各类指标的监控和运营管理,保障反欺诈系统的稳定和健康运行。此外,运营体系还包括申诉处理模块,该模块为反欺诈系统可能涉及的风险误判建立用户反馈和处理通道,保障用户的正常权益。

6.情报系统

情报系统是流量反欺诈系统的一双“眼睛”,一方面,通过大数据分析,情报系统可以感知黑灰产的对抗变化,用来评估安全对抗效果;另一方面,情报系统也负责主动捕捉全网最新的黑灰产动态,为风控人员提供黑灰产欺诈手法、欺诈工具和交易暗网等最新情报信息,增强风控人员对黑灰产趋势变化的感知能力。

 1.5 小结

本章主要介绍了流量反欺诈的相关背景、遇到的问题、面临的挑战以及解决方案。首先,介绍了互联网流量发展经历的3个阶段和各阶段不同的流量欺诈问题;接着,以当前大数据时代的流量欺诈问题为重点,详细介绍了贯穿整个 App 生命周期的流量欺诈问题;然后,基于大数据时代的流量欺诈问题,引出当前反欺诈面临的监管层面、行业层面和业务层面的多重挑战;最后针对大数据时代流量欺诈的问题和挑战,介绍了当前流量反欺诈系统的整体架构。

相关图书

SPSS医学数据统计与分析
SPSS医学数据统计与分析
首席数据官知识体系指南
首席数据官知识体系指南
大数据技术基础
大数据技术基础
时序大数据平台TDengine核心原理与实战
时序大数据平台TDengine核心原理与实战
大数据实时流处理技术实战——基于Flink+Kafka技术
大数据实时流处理技术实战——基于Flink+Kafka技术
搜索引擎与程序化广告:原理、设计与实战
搜索引擎与程序化广告:原理、设计与实战

相关文章

相关课程