58智能监控系统 (58风控)

58同城业务涉及的场景众多,随着平台的业务越来越广,业务安全的责任和面临的挑战也越来越大。本文将带你了解58的业务风控所面临的挑战有哪些,面临这些挑战58是如何使用AI和大数据技术驱动风控落地的,并将深入到技术细节讲解风控未知风险发现的实践。

主要内容包括:

  • 58风控业务的背景
  • 智能风控架构设计
  • 未知风险感知
  • 总结和展望

01

58风控业务的背景

58同城提供的是一种信息分类服务,作为本地生活服务的入口之一,产品体系覆盖房产、招聘、二手车、本地服务等行业,各业务条线不断垂直化,并从线上向线下延伸,形态较为复杂。

信息分类场景与电商交易相比,是一种低频交易,如线下的买房买车等,并不是日常行为,账号的信用积累和平台约束对客户来说偏弱,而部分业务的交易环节必须在线下完成,平台难以获取到完整的闭环数据,容易滋生黑产。

58智能风控与未知风险感知

随着专业黑产的行为越来越隐蔽,而防守方需要在强对抗中拿到主动权,攻防双方都在不断升级。通常意义上的风控安全主要指的是内容安全和业务安全,也就是图上水面上的部分,今天的分享也讲围绕这两个方面展开,那么58平台在这方面都会遭遇哪些风险呢,下面举两个简单的例子说明。

① 违规引流

比如平台上发布的一个租房信息,只看图片以及提供的信息,内容本身没有问题,然而当用户点击微聊与房东沟通时,问:“你好在吗?什么时候可以看房”,对方可能会回:“不常上”,然后抛出一个联系方式或二维码,把客户引导到其他渠道,这个操作极有可能是黑中介的欺诈行为,有非常大的安全隐患。

② 内容违规

58智能风控与未知风险感知

第二个例子,图上是五张违规的图片。由于可能涉及欺诈或是违规引流,多数平台都不允许在图片上打联系方式。58也一样,规定了图片和联系方式的标准格式,但是从图上可以看到,从纯色背景到自然背景,从横向的文字到弯曲的、斜向的文字,说明欺诈手段是在不断升级的。

整体来说,面临业务复杂、黑产隐蔽性强、安全对抗性强三个挑战,那么如何能把主动权掌握在自己的手里呢。

02

智能风控架构设

完整的风控体系,需要在风控基础平台上,进行数据的组织能力和算法的识别能力的智能化。

数据的组织能力,指的是数据的集成、再加工、以及数据流转的效率,它决定了风险识别的上限,而算法的识别能力决定了风险识别的基线。

算法的识别能力,不是一个单一的模式,不同类型的风控场景,有相应的针对性的不同的识别方式,无法一概而论。

58智能风控业务业务架构

为了更好支撑数据的组织能力和算法的识别能力,58设计了三层业务架构,分别是大数据的技术平台,业务支撑的支撑层,以及公共应用层,如下图所示。

58智能风控与未知风险感知

大数据平台主要为上层的业务提供基本资源保障,如数据资源、模型资源、推理框架等。上面的两层按行为安全和内容安两个不同方向进行切分。

行为类识别对于支撑全站行为的应用,是非常核心的,主要包括数据中心、诊断分析中心、知识中心三个中心。

数据中心保证整体数据的兼容性和时效性,提供任意时间周期、任意时间窗的数据获取能力,目前每天的存取调用量在千亿级,响应时长是毫秒级。

诊断分析中心为整个风控体系提供完善的数据研判能力,如线索获取等,从而可以有效对风控策略或对用户进行定性。58的风控场景是一个低频非闭环的场景,较难客观性判断界定信息的好坏,需要不断提升对信息或者用户的客观判断的能力,比如说,在与黑产过程对抗的过程中,黑产的行为其实也是越来越隐蔽的,需要持续对识别能力进行优化。

知识中心是整个58风控知识的沉淀,将整个58的风控体系看成一个生态,其参与角色包括审核,运营,数据分析,算法工程师等等,在日常工作中会产出风控的知识,对其进行体系化表示和统一管理后,可形成多元化的知识类型。知识管道用于打通线上不同的数据流之间的相互的调用链,并保证多路数据源的兼容性。最后,通过知识管理形成工作的合力和知识积累,快速复用到未来的突发性风险中。

在三个中心的基础上,行为类应用分为四个方面,风控策略自动化,反欺诈,反作弊,及账号安全。风控自动化主要是持续完善构建一些较为通用的能力和模式,通过构建自动化感知、自动化识别、自动化评估能力,来实现自动化的对抗。后三个主要与业务相关度较大,不赘述了。

右边的内容安全部分,主要是通过算法解决图像、音视频类载体的问题,分为兜底的安全能力如*赌黄**毒, 业务的安全能力如广告、吸粉类的问题。

应用层上的应用没有通用的解法,需要具体问题具体分析,绝不能指望一类算法解决所有问题。比如根据业务的一些管控力度去区分和平时期和战争时期,不同时期打法不同,如战争时期,就需要进行一些针对性的精准打击。

03

未知风险感知

1. 如何感知未知风险

接下来是实践的环节,介绍如何感知未知风险。这是一个很重要但是容易被忽视的环节。

58智能风控与未知风险感知

如上图,风控本身是一个对抗的过程,“1” 黑产发起攻击到平台发现被攻击;“2” 平台进行数据分析和调研,产生有效的拦截策略并上线策略;“3” 平台开始防御该攻击到黑产发现攻击失效;“4” 黑产重新尝试新的攻击方式并发起攻击,它是一个循环往复的过程。

“1”是风险感知,“2”是风险识别,作为平台方来说,整体目标是使“1+2”的时间变短,“3+4”的时间变长。但是“3+4”的长短不受控,最多是使用一些延时判定或是延时处理来稍微延长一下“3”,但是“1+2”对平台来说可操作空间很大。大多数团队把时间放在“2”也就是发现有效策略上,而忽略了环节“1”也就是风险感知环节,据统计,如果省略了环节“1”,那么平均响应一个有效策略的时间会拉长六个小时。

2. 风险感知策略和识别策略的什么区别

那么风险感知策略和识别策略有什么区别呢?下图从五个方面解答了两者的区别。

58智能风控与未知风险感知

感知策略识别的是未召回(线上露出的风险,机器识别不了但是人是可以判断的,主要由于黑产用户的行为侧或者内容侧发生了比较大改变)及未定义(人和机器都无法进行判断,是一类新型问题,需要业务线重新定义标准,把他纳入已知范畴,或者确认这类事务无需召回)的问题,更关注召回的覆盖性和抗噪性,不管风险转移还是通过行为改变改进攻击策略,都应能有效识别,时效和准确率要求都不高,而风险识别策略主要解决未召回的问题,要保证策略可解释性和精准度,时效要求较高,一个好的风险识别策略,只需要召回特定风险即可。

感知策略不是直接由机器处理的,它应该是指导下游决策,便于真正识别策略的产出;而一个好的识别策略就应该能召回尽量多应召回的内容,如果一个策略召回了不是该模型想召回的结果,就不能说是一个好策略。

风险感知模块的技术架构如下图所示,分为三层:数据层、风险召回层、风险发现层。

58智能风控与未知风险感知

数据层负责整体数据的结构化、外部数据的特征补全及明细的落地存储,便于上层计算使用。

风险召回层是整个未知风险感知框架的一个核心部分,面对不同的风险问题,会使用不同的感知能力进行挖掘,分为常规风险和突发性风险。在识别之前,需先判断问题类型,一般常规风险检测可细拆为群体性风险、独立性风险,或是从已知问题变异成未召回问题的变异性风险等。右侧的异常波动检测,主要是针对持续发生波动的风险进行检测,最终注入疑似风险池里,在发现层进行提纯。

风险发现层一般对不同类型的风险检测后,会形成诸多碎片化的风险,通过一些算法进行关系拓展的二次计算。

3. 风险召回层的两种检测方式

常规风险检测

对于常规检测的聚类、离群检测,58选用了patchwork网格密度和孤立森林的方案,patchwork的好处是对于任意分布的问题有很好的聚合能力,并且可以有效地过滤一些噪声,并且它计算复杂度是线性的,可以支持大规模的并行计算。而孤立森林也是线性复杂度的算法,主要是用来发现未定义的问题,并且有比较好的识别效果。

58智能风控与未知风险感知

在未召回问题的处理方面,我们使用PU learning算法进行召回,它由三个集合组成,P集合(确认的异常数据,即正样本集合,)、U集合(海量未标注集合)和RN集合(正常数据,即确认的负样本集合)。算法的通过挑出RN集合,最终获得疑似风险,也就是U-RN,主要处理流程是通过标注过的P和U集合进行集合的一些训练,在P集合中挑选一些间谍样本划分到U集合,进行分类训练,找到间谍样本最小的阈值,用这个阈值挑出U集合中的负样本,放在RN集合中。该算法通过挑出RN集合,对于想发现异常的未被召回的问题,疑似风险就是U集合-RN集合,这就是对于未召回风险的一个识别。

58智能风控与未知风险感知

异常波动检测

未知异常波动检测在业务场景较多,流量较大的情况下,面临两个问题,一是如何感知到波动,二是如何定位到原因。比如某时刻流量瞬间爆发了,超过上下限的阈值,对于这种情况,设置一个波动报警,算法方面选择Prophet(波动检测) + HotSpot(根因分析)搭配使用,前者用于动态阈值调整和波动预测,后者用于根因分析,定位到问题具体是由哪一个维度的指标产生的。

58智能风控与未知风险感知

整个流程是这样的,我们已经有了一套较为通用的监控指标,在对全域流量进行分析时,用Prophet算法进行实时预测,如果在某一时刻超过了阈值,需要给根因分析模块发送指令,根因分析模块接收到指令后,就会去拿到前几分钟的时序数据,包括一些交叉验证的因子、预计值和实际值一并输入给HotSpot,最终算出具体的根因的子维度,并且把这个数据导入疑似流量池里。

简单介绍一下这两个算法的特点,为什么用这两个算法做技术支撑。首先facebook的Prophet算法目前在监测实时预测的应用已经比较广泛了,在实时预测这方面,对数据的缺失、异常值等有很好的适应性,不需要数据标注就可以进行数据预测,相对于其他的持续预测的算法,总体的拟合效果也是非常好的。

多维的根因分析,主要面临两个挑战,第一个是如何度量和表示根因,HotSpot的POTENTIAL SCORE可以排除掉波及性的因素,很好地度量根因的独立性。第二个是解决空间搜索过大的问题,HOTSPOT算法内置了蒙特卡洛树搜索,还内置了层次剪枝的方法,提升了搜索的速度。因为它解决了多维度根因分析的定位问题,并且算法的精度和速度都符合我们对于风险感知的要求。

因为这两个算法都满足了异常波动检测对精度和速度的要求,因此选用这两个搭配使用。

04

总结和展

今天给大家介绍了三个方面,整个58风控的背景,风控架构的设计思想,以及未知风险感知的一个实践。

首先,针对58的业务特点、信息安全的特点,讲了两个例子,引出了58风控面临的一个挑战,较高的业务复杂性,较强的动作隐蔽性以及攻防的对抗性。

其次,智能风控架构的理论部分,强调了数据的组能力和数据的算法的识别能力,它们是同等重要的。数据的组织能力代表了风控识别的一个上限,算法识别代表了风控安全识别能力的基线。

在风险感知环节。介绍了为什么要做风险感知,其重要性以及整体设计思路。讲了58在常规检测,波动检测,还有风险发现环节的做法。

最后,做一个简单的展望,后续信息安全智能化工作可以在用户行为预训练模型,基于强化学习的风控引擎方面做一些投入。作为集团的信息安全中台,需要在上百条业务线上做风控的治理,挑战是非常大的,但是不同的业务场景的作弊有一些相似的模式,所以后续会针对黑产的作业模式构建一些通用的训练模型,在一些新的场景中进行复用和微调,以达到新的业务场景和风控能力的快速部署的目标。

作者:张鹏,58同城信息安全部-安全智能部负责人,2010年加入58同城,有多年的风控行业经验,目前主要负责通过算法和大数据技术提升整个58集团的业务风控能力。