本篇文章6031字,读完约15分钟
高风险和高回报是金融业永恒的标签。为此,金融业非常重视风险控制。根据一些高级财务人员的说法,他们在从事风险控制后总是忐忑不安。他们最后一次大规模的担忧发生在十多年前。世纪之交,美国缺乏对风险控制含义的认识,明显通过互联网的东风半途而废。
新技术的出现必然会对原有产业产生一定的影响。技术的利弊无关紧要,但问题在于人们的使用。现在风力控制已经得到了足够的重视,人工智能已经成为最热门的技术,许多从业者不禁思考人工智能的应用价值,以及如何将人工智能与风力控制结合起来,发挥其积极的作用。
在雷锋这个开放的班级里。来自氪星的资深数据科学家朱民受邀分享他的经验,并深入解释如何建立一个基于人工智能的金融风险控制系统。
嘉宾简介:朱民,氪星高级数据科学家,深入应用统计和数据挖掘领域。复旦大学生物统计学硕士,曾在paypal担任高级分析师,负责核心风险控制数据变量、排名策略和评价指标的设计与开发,在反欺诈策略和行为特征方面有丰富的研究经验。曾担任易趣数据分析师,负责ab测试和搜索算法评估。多年来,他专注于金融统计和风险评估算法的研究,在互联网级机器学习算法和统计理论的商业应用领域拥有丰富的理论研究和实践经验。
下面是这个公开课的记录。雷锋。com所做的编辑并未改变其初衷:
今天,我将与大家分享人工智能在金融风险控制领域的工业应用的主题。我主要负责数据和模型,所以今天的公开课不仅会分享宏观理念,还会在具体实践中比较模型和数据。事实上,这个话题是一个非常大的话题,所以我们将重点放在金融领域,特别是消费金融,并解释氪星如何利用互联网、机器学习和人工智能技术和经验来解决实际问题。
金融人工智能时代已经到来了吗?
首先,我想和你们分享三个数字——40万亿消费信贷,35%的信贷覆盖率和44zb数据。
据统计,2019年中国消费信贷市场将达到40万亿元,但这一数字在2015年仅为20万亿元,近年来一直保持着较高的增长速度。我们可以看到市场非常大,而且还在增长。
但是,信贷覆盖率跟不上市场规模。第二个数字是35%,这意味着在消费金融领域只有35%的客户有信用记录,剩下的65%没有信用记录,因此传统和成熟的风险评估方法不能用来评估这些人的风险。
第三个数字是44zb。对于其中65%没有传统信用数据的人,我们可以收集其他相关数据进行评估,可能是申请材料、互联网使用记录、沟通记录等。由于硬件的发展和数据采集的自动化,我们可以采集到大量的数据,这也是巨大的。一方面,大数据是一件好事,另一方面,它也是一个难题,比如如何使用一些技术手段从大量数据中提取信息。我们认为消费金融是切入人工智能商业领域的好机会。
大数据时代的金融风险控制之痛大数据时代的金融风险控制市场庞大,需求巨大,但仍有许多问题需要解决。
从技术上讲,有三个问题。
首先是价值困境。尽管我们已经意识到大数据的价值,但我们不知道如何实践它,也不知道如何从数据中挖掘有用的信息。
第二个是高维困境。对于65%没有被传统信用报告覆盖的人来说,他们的特征维度非常高,这通常会产生数千个维度变量。那么,如何处理高层次的功能,如何有效地将它们整合起来,形成1+1 > 2的效果呢?
第三,敏捷困境。随着人工智能和风险评估的不断发展,我们敌人的欺诈行为演变得非常快。一旦发现业务漏洞,它将钻模型的缺陷,并利用这些缺陷最大化收益。单一的个人欺诈正在演变成有组织的大规模群体欺诈。
从战略角度来看,上述问题的后果是风险控制决策效率低下且耗时,员工成本高,坏账率高。在金融领域,人工智能和机器学习对于帮助解决问题是必要的。
构建基于人工智能的金融风险控制体系
上图显示了基于人工智能的理想金融风险控制系统。从左到右,我们将收集各级数据源,包括交易数据和高值黑名单,这是常见的传统信用数据。此外,我们还将收集互联网行为、运营商数据、信用申请材料等。
当不同的数据源合并在一起时,他们将学习知识地图技术,并在知识地图上构建高价值财务属性的特征。
数据融合后有数以千计的维度特征,然后我们将做一个基于深度学习的特征处理项目。下一步是建立模型。这里有一些非常主流的机器学习和深度学习模型,如xgboost或深度神经网络。这些模型,再加上经过处理的高价值财务特征,我们认为可以解决实际财务风险控制中会遇到的问题。
在解决问题的过程中,经验会被抽象化,所以我们会把这些经验变成产品。上图列出了几个风险控制引擎,包括将刚才提到的财务特征制作成特征引擎、模型引擎和规则引擎。这些产品将帮助我们更好地积累数据,并将积累的经验更好地应用到更多的场景中。
以下内容也将遵循这一模式。首先是数据管理,关键词是金融知识地图。第二部分是基于深度学习的特征工程。最后,整合模型是我们如何将这些数据特征构建成一个分类模型来帮助我们判断。
知识地图:重新定义金融数据架构系统从知识地图开始。知识地图是谷歌在2012年5月开发的。它可以将搜索结果的知识系统化,任何关键词都可以得到一个完整的知识系统。本质是语义网络和基于图的数据结构。在知识地图中,实体被表示为一个节点,节点之间通过关系连接,这种构建模式与传统的关系数据网络完全不同。
与传统的关系数据库相比,它在金融领域有一些优势。
首先,金融知识地图更具可扩展性。我们收集的数据来源在结构和内容上有很大不同。如何管理这些具有不同结构和内容的数据源一直是关系数据库中的一个大问题。
然而,如果所有的数据和知识都表示为一个可接受的知识地图结构,我们就可以统一异构数据。无论是新数据源发生变化,还是原数据源的数据结构发生变化,都可以灵活调整。这种灵活性也是基于知识地图的特点。无论是节点还是关系,添加或更改其属性都非常灵活。
从上图中我们可以看出,金融风险控制中还使用了很多数据,包括历史积累数据、实时数据和第三方数据。当然有很多分类方法,但是无论你如何看待数据格式和结构,它都将是完全不同的。
如果将其构建成统一的金融地图,将对下游的特征处理和建模有很大的帮助。对数据库的某个数据结构的依赖性不是很强。只要我们优化金融知识地图的知识结构,我们工作中的相关问题就可以得到解决。
基于知识地图的社会网络分析
从上图可以看出金融知识地图的第二个优势,知识地图相对直接。用户面对的关系数据库主要是表。知识地图可以将这些关系构建成一个更直观的图形。
反欺诈是非常重要的一点,我们经常在反欺诈中进行交叉验证。用户具有来自不同数据源的特征。如果他们描述了同样的事情,我可以验证他们。如果在这个过程中有矛盾,我们会觉得这个人的风险水平偏高。我们想象一个场景,其中个体的数据源相对单一。在这种情况下,没有办法通过交叉验证找到矛盾。知识地图可以帮助我们。
以上两个例子证实了知识地图的可视化和表达性。先看看左边,我们需要判断这张图片中名叫蓝点的人的风险等级,我们可以得到这个人的相关信息,比如手机号码和电子邮件地址。从这个人的单个信息来看,实际上很难判断他的风险水平,但是如果我们把他放在一个网络中,比较个人和个人,我们会发现一个有趣的地方——他的邮箱和其他几个人的邮箱是一样的,这些人在我们的判断中已经是坏人了,所以我们会对这个申请人的风险水平做出判断。
右边还有一个判断用户风险的例子。如果你只看他的手机号码或电子邮件地址,目前成熟的方法是看电子邮件地址是否乱码。把他放入网络后,我们会发现他的手机号码和很多用户的手机号码都是单向连接的。那么这实际上是一个非常明显的特征——骚扰电话,类似于中介或广告骚扰。基于此,也可以形成对该人的风险等级判断。
这两个例子表明,知识地图可以包含更多的信息。这些信息量是直观的。如果专家手动查看这些案例,他们会发现一些特征来判断此人的风险水平。借助一些先进的算法,我们可以从社交网络中自动发现一些特征,并自动判断哪些是好的,哪些是坏的。
深度学习:超越人为定义的深度来耗尽风险。数据量大、维数高是消费者金融风险控制不可避免会遇到的实际问题。此外,还会遇到许多非结构化数据,如文本、图像等。这些都不是传统信用报告所遇到的问题,在深度学习领域会有一些成熟的应用。
深度学习的本质是特征学习的过程。对于难以手工处理的海量非结构化数据,基于深度学习的特征生成框架可以自动生成特征,弥补手工定义特征的局限性。
dnn文本数据的特征提取框架
首先,讨论了文本数据特征提取框架。事实上,在金融风险控制过程中会遇到许多这样的非结构化数据,例如申请材料的文本信息,或者已经通过信用和合规要求的沟通文本。对于这些文本的分析,自然语言处理领域已经有了一些成熟的技术,比如cnn。一些特征可以从金融场景中提取出来。如果这些特征可以进入下面的分类网络,它还可以学习好人或坏人的特征。
实践中的第一步是预处理文本数据,提取分词或关键词,并对每个词进行矢量化表示,然后这些矢量化表示将进入卷积神经网络,并从该卷积神经网络中提取特征。在下一步中,这些特征将进入一个完全连接的神经网络来学习分类并形成一个分类器。
此外,嵌入式学习也在其中发挥着巨大的作用。虽然使用小规模的文本数据库来学习用于特征提取的词向量并不是不可能的,但是我们发现,如果使用行业中成熟的大规模语料库,特征提取的性能可以得到提高。
dnn时间序列数据的特征提取框架
另一个例子是时间序列数据的特征提取框架。总之,它结合和学习不同周期和时间序列模式的循环神经网络,有效捕捉时间序列数据特征的隐藏信息和不同时间序列模式的协同影响。
在实践中,我们会遇到一些问题,例如,我们没有太多的工作去了解每一条数据是什么样的,它的分布是什么样的,以及如何提取特征。因此,时间序列的特性实际上可以借鉴短时记忆技术在深度学习中做同样的事情和分析时间序列。它主要在自然语言处理中被考虑,这在许多文本中都被使用,也就是说,语境之间是有关系的。为了根据这种关系建立一个特征提取网络,我们从通信记录或交易记录中借用了这个思想。
在实际应用中,时间序列特征可以是通话记录或交易记录,因此其特征不仅在舞台平面上提取,而且在时间轴上提取。在财务场景中,我们将通话记录划分为不同的时间段,根据不同的时间段构造三个lstm子网,并以时间序列的方式将三个lstm子网混合,可以大大减少时间序列数据分析和特征提取的工作量。
整合机器和专家经验,实现充分的价值提取
这里还应该提到的是,虽然刚才已经提到了深度学习的特点,但是专家的特点也是非常重要的。我们将整合机器和专家经验,以实现充分的价值提取。因为我们相信专家们多年积累的成熟的风险评估方法也是非常有效的。基于深度学习的特征智能生成框架使用不同的网络结构来适应不同的数据类型,从复杂的非结构化数据中自动生成高质量的深度学习特征,并与专家人工特征一起集成到模型中。融合特征将被移交给下一个模型进行学习。
集成模型:最大化人工智能和现有服务之间的集成深度
我们之前已经讨论过数据和特性,现在我们讨论的是集成模型。
综合学习模式的优势表现在两点:
不同维度/领域的数据有不同的特点,需要不同的建模方法。集成学习框架可以支持不同类型的模型算法作为子模型。集成模型已经取得了很多成果,因此使用集成模型无疑将有助于提高模型的性能。
此外,在实际进行金融风险控制时,从用户的角度来看,我们可以看到许多金融产品,如分期付款产品或消费金融产品。不同的产品将有不同的配额、不同的客户群和不同的客户获取渠道(在线客户和本地客户)。面对不同的商业方法,我们最终会抓到的坏人是完全不同的,所以这需要我们建立不同的模型。那么,面对不同的业务场景,这是否要求我们从头开始进行数据、特性和建模?
不是这样。单个领域的子模型可以快速迁移并应用到新的业务领域,以实现快速原型化和持续优化。
实践中最好的应用是冷启动。对于一个新的业务,遇到的坏人与以前的业务完全不同,坏人采用的欺诈手段也完全不同。但是,由于模型的集成,一些特性、数据和模型经验可以借鉴,这将有很大的帮助。
集成学习模型在大额现金贷款场景中的实际应用
上图总结了前面的内容。数据是结构化和非结构化的,根据不同数据的特点进入不同的特征提取框架。利用网络关联特征的方法提取关系密切的数据;有些数据是文本和图像,用卷积神经网络提取。时间序列数据,用lstm方法提取特征;还有一个专家人工特征提取框架。
综合特征提取框架,综合评价产生三个风险分值:行为风险、社会风险和语义风险。
事实上,社会风险主要是从网络关联特征系统的框架中延伸出来的。
行为风险主要来自互联网和运营商的行为。
语义风险主要从两个方面进行评估:申请材料和通信文本。
最后,根据这三种风险建立综合模型,并给出违约概率。
集成模型可以提高性能,氪星以前将集成模型应用于大规模消费金融场景。在他们以前的风控制中使用的特征并不多,而用来判断模型分类性能的ks值指标也比较笼统。经过与我们的合作,使用刚才提到的技术和框架,模型的性能明显提高,ks值从0.19提高到0.35。就业务而言,他们的坏账率下降了46%。
基于网络的反欺诈,以应对在线群体欺诈
接下来,我们来谈谈基于网络的反欺诈。举一个虚假申请的例子。
一个人通过篡改个人数据申请贷款,这可以用来通过交叉验证判断该人的风险水平。
但在另一种情况下,例如,当有人申请信息时,张三的信息被完全使用,因为张三的风险评级非常安全。在这种情况下,金融风险控制机构很难进行评估。在没有人为干预的情况下,此人的风险评估是基于张三的信息。对于这样一个虚假的申请,仅仅根据个人的数据是很难判断的。但是把他放到社交网络上就不一样了。不同的人有相同的属性或相同的信息,所以我们会对风险产生怀疑。
和集体欺诈。这主要是指高频聚焦在当时或空之间,或高频应用。举一个简单的例子,我们发现申请材料的数量远远大于历史,然后这些申请材料,如手机定位的位置,都来自同一个地区。如果能够排除线下客户的可能性,那将是一件非常奇怪的事情,而且存在很高的集团欺诈风险。
已经提到了两个社交网络中交叉验证的例子。这里显示的是网络反欺诈流程。
首先,收集数据,然后构建一个网络,基于这些特征分析社交网络,并构建反欺诈规则。当然,这种可视化将被展示给专家,他们将从可视化的社交网络中找到一些规则,然后使用这些规则来做出早期反欺诈警告,包括将这些规则作为特征放入反欺诈模型中。
一方面,社会网络分析可以制定规则和模型,另一方面,它的可视化可以帮助我们整合专家的力量。所以这将形成一个闭环。我们已经从网络中学习了特征和应用规则。专家将从这些规则中获得灵感,并提出新的规则。这些规则将反馈到网络上,告诉网络什么关系是值得怀疑的,这将是一个良性循环。
这就是我要分享的。谢谢你。
雷锋网(公开号:雷锋网)公开课录像
雷锋原创文章。严禁擅自转载。详情请参考转载说明。
来源:搜狐微门户
标题:AI在金融风控领域的工业应用
地址:http://www.shwmhw.com/shxw/59682.html