58同城业务涉及的场景众多，随着平台的业务越来越广，业务安全的责任和面临的挑战也越来越大。本文将带你了解58的业务风控所面临的挑战有哪些，面临这些挑战58是如何使用AI和大数据技术驱动风控落地的，并将深入到技术细节讲解风控未知风险发现的实践。

主要内容包括：

58风控业务的背景

智能风控架构设计

未知风险感知

总结和展望

01 58风控业务的背景

58同城提供的是一种信息分类服务，作为本地生活服务的入口之一，产品体系覆盖房产、招聘、二手车、本地服务等行业，各业务条线不断垂直化，并从线上向线下延伸，形态较为复杂。

信息分类场景与电商交易相比，是一种低频交易，如线下的买房买车等，并不是日常行为，账号的信用积累和平台约束对客户来说偏弱，而部分业务的交易环节必须在线下完成，平台难以获取到完整的闭环数据，容易滋生黑产。

58智能风控与未知风险感知

随着专业黑产的行为越来越隐蔽，而防守方需要在强对抗中拿到主动权，攻防双方都在不断升级。通常意义上的风控安全主要指的是内容安全和业务安全，也就是图上水面上的部分，今天的分享也讲围绕这两个方面展开，那么58平台在这方面都会遭遇哪些风险呢，下面举两个简单的例子说明。

① 违规引流

比如平台上发布的一个租房信息，只看图片以及提供的信息，内容本身没有问题，然而当用户点击微聊与房东沟通时，问：“你好在吗？什么时候可以看房”，对方可能会回：“不常上”，然后抛出一个联系方式或二维码，把客户引导到其他渠道，这个操作极有可能是黑中介的欺诈行为，有非常大的安全隐患。

② 内容违规

58智能风控与未知风险感知

第二个例子，图上是五张违规的图片。由于可能涉及欺诈或是违规引流，多数平台都不允许在图片上打联系方式。58也一样，规定了图片和联系方式的标准格式，但是从图上可以看到，从纯色背景到自然背景，从横向的文字到弯曲的、斜向的文字，说明欺诈手段是在不断升级的。

整体来说，面临业务复杂、黑产隐蔽性强、安全对抗性强三个挑战，那么如何能把主动权掌握在自己的手里呢。

02 智能风控架构设计

完整的风控体系，需要在风控基础平台上，进行数据的组织能力和算法的识别能力的智能化。

数据的组织能力，指的是数据的集成、再加工、以及数据流转的效率，它决定了风险识别的上限，而算法的识别能力决定了风险识别的基线。

算法的识别能力，不是一个单一的模式，不同类型的风控场景，有相应的针对性的不同的识别方式，无法一概而论。

58智能风控业务业务架构

为了更好支撑数据的组织能力和算法的识别能力，58设计了三层业务架构，分别是大数据的技术平台，业务支撑的支撑层，以及公共应用层，如下图所示。

58智能风控与未知风险感知

大数据平台主要为上层的业务提供基本资源保障，如数据资源、模型资源、推理框架等。上面的两层按行为安全和内容安两个不同方向进行切分。

行为类识别对于支撑全站行为的应用，是非常核心的，主要包括数据中心、诊断分析中心、知识中心三个中心。

数据中心保证整体数据的兼容性和时效性，提供任意时间周期、任意时间窗的数据获取能力，目前每天的存取调用量在千亿级，响应时长是毫秒级。

诊断分析中心为整个风控体系提供完善的数据研判能力，如线索获取等，从而可以有效对风控策略或对用户进行定性。58的风控场景是一个低频非闭环的场景，较难客观性判断界定信息的好坏，需要不断提升对信息或者用户的客观判断的能力，比如说，在与黑产过程对抗的过程中，黑产的行为其实也是越来越隐蔽的，需要持续对识别能力进行优化。

知识中心是整个58风控知识的沉淀，将整个58的风控体系看成一个生态，其参与角色包括审核，运营，数据分析，算法工程师等等，在日常工作中会产出风控的知识，对其进行体系化表示和统一管理后，可形成多元化的知识类型。知识管道用于打通线上不同的数据流之间的相互的调用链，并保证多路数据源的兼容性。最后，通过知识管理形成工作的合力和知识积累，快速复用到未来的突发性风险中。

在三个中心的基础上，行为类应用分为四个方面，风控策略自动化，反欺诈，反作弊，及账号安全。风控自动化主要是持续完善构建一些较为通用的能力和模式，通过构建自动化感知、自动化识别、自动化评估能力，来实现自动化的对抗。后三个主要与业务相关度较大，不赘述了。

右边的内容安全部分，主要是通过算法解决图像、音视频类载体的问题，分为兜底的安全能力如*赌黄**毒，业务的安全能力如广告、吸粉类的问题。

应用层上的应用没有通用的解法，需要具体问题具体分析，绝不能指望一类算法解决所有问题。比如根据业务的一些管控力度去区分和平时期和战争时期，不同时期打法不同，如战争时期，就需要进行一些针对性的精准打击。

03 未知风险感知

1. 如何感知未知风险

接下来是实践的环节，介绍如何感知未知风险。这是一个很重要但是容易被忽视的环节。

58智能风控与未知风险感知

如上图，风控本身是一个对抗的过程，“1” 黑产发起攻击到平台发现被攻击；“2” 平台进行数据分析和调研，产生有效的拦截策略并上线策略；“3” 平台开始防御该攻击到黑产发现攻击失效；“4” 黑产重新尝试新的攻击方式并发起攻击，它是一个循环往复的过程。

“1”是风险感知，“2”是风险识别，作为平台方来说，整体目标是使“1+2”的时间变短，“3+4”的时间变长。但是“3+4”的长短不受控，最多是使用一些延时判定或是延时处理来稍微延长一下“3”，但是“1+2”对平台来说可操作空间很大。大多数团队把时间放在“2”也就是发现有效策略上，而忽略了环节“1”也就是风险感知环节，据统计，如果省略了环节“1”，那么平均响应一个有效策略的时间会拉长六个小时。

2. 风险感知策略和识别策略的什么区别

那么风险感知策略和识别策略有什么区别呢？下图从五个方面解答了两者的区别。

58智能风控与未知风险感知

感知策略识别的是未召回（线上露出的风险，机器识别不了但是人是可以判断的，主要由于黑产用户的行为侧或者内容侧发生了比较大改变）及未定义（人和机器都无法进行判断，是一类新型问题，需要业务线重新定义标准，把他纳入已知范畴，或者确认这类事务无需召回）的问题，更关注召回的覆盖性和抗噪性，不管风险转移还是通过行为改变改进攻击策略，都应能有效识别，时效和准确率要求都不高，而风险识别策略主要解决未召回的问题，要保证策略可解释性和精准度，时效要求较高，一个好的风险识别策略，只需要召回特定风险即可。

感知策略不是直接由机器处理的，它应该是指导下游决策，便于真正识别策略的产出；而一个好的识别策略就应该能召回尽量多应召回的内容，如果一个策略召回了不是该模型想召回的结果，就不能说是一个好策略。

风险感知模块的技术架构如下图所示，分为三层：数据层、风险召回层、风险发现层。

58智能风控与未知风险感知

数据层负责整体数据的结构化、外部数据的特征补全及明细的落地存储，便于上层计算使用。

风险召回层是整个未知风险感知框架的一个核心部分，面对不同的风险问题，会使用不同的感知能力进行挖掘，分为常规风险和突发性风险。在识别之前，需先判断问题类型，一般常规风险检测可细拆为群体性风险、独立性风险，或是从已知问题变异成未召回问题的变异性风险等。右侧的异常波动检测，主要是针对持续发生波动的风险进行检测，最终注入疑似风险池里，在发现层进行提纯。

风险发现层一般对不同类型的风险检测后，会形成诸多碎片化的风险，通过一些算法进行关系拓展的二次计算。

3. 风险召回层的两种检测方式

常规风险检测

对于常规检测的聚类、离群检测，58选用了patchwork网格密度和孤立森林的方案，patchwork的好处是对于任意分布的问题有很好的聚合能力，并且可以有效地过滤一些噪声，并且它计算复杂度是线性的，可以支持大规模的并行计算。而孤立森林也是线性复杂度的算法，主要是用来发现未定义的问题，并且有比较好的识别效果。

58智能风控与未知风险感知

在未召回问题的处理方面，我们使用PU learning算法进行召回，它由三个集合组成，P集合（确认的异常数据，即正样本集合，）、U集合（海量未标注集合）和RN集合（正常数据，即确认的负样本集合）。算法的通过挑出RN集合，最终获得疑似风险，也就是U-RN，主要处理流程是通过标注过的P和U集合进行集合的一些训练，在P集合中挑选一些间谍样本划分到U集合，进行分类训练，找到间谍样本最小的阈值，用这个阈值挑出U集合中的负样本，放在RN集合中。该算法通过挑出RN集合，对于想发现异常的未被召回的问题，疑似风险就是U集合-RN集合，这就是对于未召回风险的一个识别。

58智能风控与未知风险感知

异常波动检测

未知异常波动检测在业务场景较多，流量较大的情况下，面临两个问题，一是如何感知到波动，二是如何定位到原因。比如某时刻流量瞬间爆发了，超过上下限的阈值，对于这种情况，设置一个波动报警，算法方面选择Prophet(波动检测) + HotSpot(根因分析)搭配使用，前者用于动态阈值调整和波动预测，后者用于根因分析，定位到问题具体是由哪一个维度的指标产生的。

58智能风控与未知风险感知

整个流程是这样的，我们已经有了一套较为通用的监控指标，在对全域流量进行分析时，用Prophet算法进行实时预测，如果在某一时刻超过了阈值，需要给根因分析模块发送指令，根因分析模块接收到指令后，就会去拿到前几分钟的时序数据，包括一些交叉验证的因子、预计值和实际值一并输入给HotSpot，最终算出具体的根因的子维度，并且把这个数据导入疑似流量池里。

简单介绍一下这两个算法的特点，为什么用这两个算法做技术支撑。首先facebook的Prophet算法目前在监测实时预测的应用已经比较广泛了，在实时预测这方面，对数据的缺失、异常值等有很好的适应性，不需要数据标注就可以进行数据预测，相对于其他的持续预测的算法，总体的拟合效果也是非常好的。

多维的根因分析，主要面临两个挑战，第一个是如何度量和表示根因，HotSpot的POTENTIAL SCORE可以排除掉波及性的因素，很好地度量根因的独立性。第二个是解决空间搜索过大的问题，HOTSPOT算法内置了蒙特卡洛树搜索，还内置了层次剪枝的方法，提升了搜索的速度。因为它解决了多维度根因分析的定位问题，并且算法的精度和速度都符合我们对于风险感知的要求。

因为这两个算法都满足了异常波动检测对精度和速度的要求，因此选用这两个搭配使用。

04 总结和展望

今天给大家介绍了三个方面，整个58风控的背景，风控架构的设计思想，以及未知风险感知的一个实践。

首先，针对58的业务特点、信息安全的特点，讲了两个例子，引出了58风控面临的一个挑战，较高的业务复杂性，较强的动作隐蔽性以及攻防的对抗性。

其次，智能风控架构的理论部分，强调了数据的组能力和数据的算法的识别能力，它们是同等重要的。数据的组织能力代表了风控识别的一个上限，算法识别代表了风控安全识别能力的基线。

在风险感知环节。介绍了为什么要做风险感知，其重要性以及整体设计思路。讲了58在常规检测，波动检测，还有风险发现环节的做法。

最后，做一个简单的展望，后续信息安全智能化工作可以在用户行为预训练模型，基于强化学习的风控引擎方面做一些投入。作为集团的信息安全中台，需要在上百条业务线上做风控的治理，挑战是非常大的，但是不同的业务场景的作弊有一些相似的模式，所以后续会针对黑产的作业模式构建一些通用的训练模型，在一些新的场景中进行复用和微调，以达到新的业务场景和风控能力的快速部署的目标。

作者：张鹏，58同城信息安全部-安全智能部负责人，2010年加入58同城，有多年的风控行业经验，目前主要负责通过算法和大数据技术提升整个58集团的业务风控能力。

58智能监控系统 (58风控)

01

58风控业务的背景

02

智能风控架构设 计

03

未知风险感知

04

总结和展 望

智能风控架构设计

总结和展望