基于金融行为数据的商业银行大数据实践 周文凯 余宣杰 南京银行 2016 年, “十三五”规划纲要中明确将大数据作为国家基础性战略资源, 指出要全面实施促进大数据发展行动, 加快推动数据资源共享开放和开发应用, 助力产业转型升级和社会治理创新人民银行和银监会分别在《中国金融业信息技术“十三五”发展规划》和《中国银行业信息科技“十三五”发展规划监管指导意见 (征求意见稿) 》中提出, 商业银行要引入大数据等新技术, 推进大数据基础设施建设, 加快推动银行业务创新, 加强风险控制能力2017 年 7 月 14~15 日, 全国金融工作会议针对银行业特别强调了“防风险”与“严监管”两个重要工作思路在当前移动互联网盛行的大环境下, 银行业务风险水平急剧上升, 传统风险管理体系存在灵活性差、防控手段较为落后等弊端大数据技术的引入, 使得更多体现风险因素的数据信息可以从更多分析角度与维度切入, 并且在可以接受的时间内得以统计、分析与挖掘, 比之传统的数据分析方法能更快速有效地识别和防范金融风险, 大数据技术已越来越受到银行业的青睐为了积极响应国家战略, 切实落地监管思路, 各家商业银行都在摸索大数据技术与银行业务的融合路径。
而在商业银行现行的风险管理架构当中, 反洗钱、打击非法集资的技术手段略显单薄, 担保圈风险由于与信用风险关系密切而受到一定关注, 却依然缺乏有力的识别技术本文将列举某城商行在防范金融风险、加强金融监管方面所做的三个大数据应用实践案例, 分别用于反洗钱、打击非法集资、严查担保圈等金融风险识别, 为同业在大数据应用方面提供一些新的思路与技术路线一、方法论简述1. 定义金融行为在大数据应用领域内, 用户行为数据分析的课题研究相对成熟电商、资讯等网站已成常态, 基于用户浏览、点击、注册等行为进行的客户留存、客户转化率、活跃用户数、客户群体标签等统计分析, 其结论多用于精准营销的场景随着移动互联网的发展, 银行业逐步开始对银行、网上银行的客户行为进行跟踪、分析进而挖掘价值, 并在推荐金融服务产品、改进客户服务体验等场景中逐渐发挥价值鉴于此, 本文中的金融行为指商业银行参与的各种金融场景下的各种行为, 包括零售客户常见的存款、取现、消费、转账等行为, 购买理财、申请贷款、开具资产证明等资产行为, 还有为企业客户开立信用证等等2. 定义金融行为数据本文将金融行为数据定义为所有银行业务发生时所产生的数据, 包括账单打印、更换联系号码等客户行为。
融资业务过程中登记的贸易对象、订单信息、担保方信息等, 也纳入金融行为数据体系讨论范畴本文后续要分析的主要数据对象有网银登录信息、客户交易信息、客户关系网络信息其中, 网银登录信息指客户与银行接触网银渠道所涉及的客户行为信息, 主要包括登录时间、登录 IP、登录设备客户交易信息指客户的资金交易行为信息, 主要包括客户账户信息、交易金额、借贷方向、交易时间、交易渠道、交易柜员、对手方账户信息客户关系网络信息指客户关联关系信息, 包括根据对公客户交易行为分析得出的上下游客户信息、从客户征信报告中贷款信息引出的的担保客户信息、客户工商登记信息中披露的股东信息与对外投资信息等3. 探索大数据应用价值大数据技术的 4V 特征分别是大量、异构、低价值密度、快速, 可以在足够短的时间内处理海量规模的异构数据, 进而得出有价值的结论借助于以分布式计算框架为主要特征的大数据技术, 某城商行以往当天无法进行深入分析的上亿笔交易明细、上千亿笔网银服务, 在短时间内通过多台服务器并行处理即可达到分析目标本文基于金融行为数据进行了大数据技术应用实践方面的探讨, 以推动商业银行在防范金融风险、强化金融监管方面的业务应用。
1) 反洗钱行为模式识别洗钱活动严重威胁金融体系的安全稳定, 也对国家的政治稳定、社会安定、经济安全构成严重威胁随着互联网的普及, 电子银行已经成为商业银行最重要的虚拟柜台之一, 在为客户提供方便快捷的自助金融服务的同时, 也不可避免地为不法分子提供了犯罪机会他们只要用任何真实身份获取到银行账号, 就可以通过或者电脑完成不法资金的转移虽然洗钱的行为模式多种多样, 但是其必然要涉及巨大数额的非法资金流动, 交易行为与常人有所区别鉴于此, 本文将账户交易资金量与客户登录信息两类要素进行交叉分析, 引入大数据技术对海量的历史数据进行分析, 发现了若干账户行为异常2) 非法集资行为模式识别非法集资以高回报为诱饵, 以骗取资金为目的, 严重损害群众利益, 且涉及面广、危害极大随着对非法集资打击力度的加强, 非法集资的网络分布越发隐蔽, 趋于分散在多个银行机构这就给银行机构识别非法集资行为造成了极大阻碍为此, 我们基于银监会要求各商业银行报送的 EAST 标准化数据构建模型算法, 从海量交易数据当中排查非法集资行为模式, 发现了若干核心账户3) 广义担保圈识别当前经济形势下, 小微企业为了在不同银行机构获取到融资贷款, 进行企业间互保, 形成担保链、担保圈, 这一现象给信用风险管理带来巨大压力。
一旦发生过度融资风险, 极其容易形成区域、行业的系统性风险, 引发“多米诺骨牌效应”传统的担保圈识别方法需要监管从 4000 万家企业和数以亿计的贷款主体的关系数据中利用嵌套循环或递归算法进行广度和深度并进的搜索, 风险识别效率极端低下在引入大数据技术之后, 在监管层面就可以快速地完成担保圈与长担保链的识别, 大大提高了工作效率但是, 对于各家商业银行而言, 担保圈的企业客户是割裂的, 单一的业务风险识别策略难以在贷前发现被刻意隐蔽的担保圈如何在不完全担保关系的数据支撑情况下甄别担保圈风险, 是商业银行控制信用风险、加强风险监管的重要课题之一本文认为, 假设客群存在担保圈, 那么客群必然还存在着其他的关联关系, 否则担保关系也不能够成立鉴于此, 本文尝试通过扩大担保关系的数据范围来探查被刻意隐藏的担保圈, 将对公客户之间的集团关系、投资关系、上下游关系、公司和个人的股东关系网络、资金贸易网络等纳入分析范围, 利用图分析手段, 寻找复杂、密集的客户网络, 寻找到潜在担保圈二、案例实践本文中的实践案例已做过数据脱敏与简化, 重点在于阐述分析思路1. 结合网银应用日志与核心交易登记簿进行反洗钱识别本文着对虑账户交易资金量与客户登录信息两类要素进行交叉分析。
某客户在 2016 年自 6 月 23 日至 7 月 12 日期间, 平均每天资金累计交易额大于50 万元, 平均交易次数大于 200 次 (如图 1 所示) 截取该时间段的网银系统日志检索该客户登录信息, 发现该网银账号登录时间段为 21:00 至次日 9:00, 登录 IP 地址归属地在福建、马来西亚、香港等地频繁切换疑似利用网络代理工具访问某行网上银行, 并进行大量的资金转移活动该案例已由该行业务主管部门上报人民银行2. 基于客户交易历史数据进行非法集资行为识别(1) 专家模型在以 EAST3.0 为标准的报送数据的基础上, 提取某月交易流水数据和账户、客户信息表, 对约 9000 万笔交易流水进行分析依据专家规则对不同情况的交易统计信息进行评分 (见表 1) , 构建甄别模型, 并加以人工辅助决策, 调整账户风险级别表 1 专家评分卡 下载原表 图 1 客户网银资金交易量变化情况 下载原图图 2 中客户 A 的交易对手分为三种类型, n=1992, m=112, k=11基于表 1 的评分卡模型, 贷方交易对手个数 n+k=2003, 得分 15 分;借方交易中 k=11, A 与 di (1≤i≤k) 之间累计交易额超过 4 万且不高于 7 万, 得分 30 分;借方交易中, m+k=123, 其中小于 5000 元累计交易额的客户数经统计有 53 人落入区间100~500, 有 57 人落入区间 500~1000, 2 人落入区间 1000~2000, 11 人在 2000以上, 故取本项最高分 40 分。
客户 A 总得分为 85 分, 预警后由人工审核判断2) 无监督算法模型首先, 以账户为顶点, 交易流水为边, 构建交易网络图根据 Page Rank 算法, 计算得出客户之间的权重系数然后, 结合入账资金、出账资金等指标应用聚类模型, 得出聚集度较高的网络子图, 找到核心账户后进一步排查, 实现非法集资行为核心账户的定位算法过程如图 3 所示, 甄别出来的子图如图 4 所示3.结合客户交易历史与客户关系网络识别广义担保圈本文结合客户的资金网络、担保关系、投资关系、股东关系、家庭关系等, 构建出客户的复杂关系网络图图 5 所揭示的是在某商业银行业务过程中发现的隐式担保圈A、B 为自然人, C 为企业授信客户 A1、A2、A3 与某对私客户B2 有资金关系案例中 B2 为该行客户, 追寻 B2 的资金关系源 B3, 发现 B3 与A1 存在同名关系本文假设 B3=A1, 依据 A1 的身份信息可以基于工商信息进行深入探查, 发现了 B3 与企业 C2 的隐藏关系本文认为图 5 中主要风险要点如下:第一, 不同个体经营融资行为的主要担保方聚集为某一企业客户;第二, 融资客户的资金来源方与担保方存在长链路的关联关系。
本案例经业务主管部门核查后, 认定存在极大的风险隐患, 涉及的授信余额已提前回收三、前景展望从宏观上看, 商业银行肩负着维护金融稳定、努力减少金融犯罪的重要责任, 这也是银行监管的具体目标之一随着大数据应用技术的日趋成熟, 未来可以从风险排查的效率入手, 更及时地发现洗钱活动, 更深入地探查非法集资, 更智能地甄别担保圈图 2 专家模型识别的非法集资模式示意 下载原图图 3 复杂网络高聚集型子图甄别模型 下载原图图 4 基于无监督算法识别的子图示意 下载原图图 5 某授信客户群的复杂关系网络示意 下载原图1. 基于流计算的洗钱活动实时甄别近几年, 移动网络支付极其便捷, 伴之而来的是高发金融诈骗为解决该问题, 各家金融机构引入大数据的“流”式处理技术, 旨在实现海量交易的实时反欺诈可以借鉴的是, 将洗钱活动模式识别技术从批量数据分析同样转换到实时计算场景, 当账户资金活动触发洗钱活动模式发出实时告警时, 通过监管的实时计算框架, 由计算机应用实现监管层面的自动排查, 然后返回如果确实为洗钱行为, 则及时提升账户风险级别, 并进行账户冻结等操作2. 基于大数据构建的金融知识图谱近年来, 许多银行开始通过知识图谱技术整合内外部的结构化、非结构化数据以及互联网采集数据, 构建对公客户与零售客户之间的复杂关系网络, 包括企业之间的集团关系、投资关系、上下游关系、担保关系以及企业与个人之间的任职、实际控制、一致行动关系等。
然后, 基于图计算方法排查各种以往难以发现的异常金融行为本文着重对非法集资、担保圈进行了些许探索, 并尝试应用图算法和无监督聚类方法进行目标甄别, 未来随着机器学习与图计算方法的成熟运用, 对这些风险因素的识别将更加准确及时3. 基于人工智能的智能金融风控随着大数据技术的不断进步, 以深度学习为代表的人工智能技术也逐渐渗透到金融领域, 围绕人工智能技术构建金融风控系统已经被很多初创企业所尝试商业银行可以通过获取足够多、足够新且具有表征能力的数据, 经过有效的数据治理与整合, 抽取精细化的维度特征, 基于深度学习算法来训练各类风控模型, 从而准确识别风险因素, 并且不断地采集模型应用反馈信息进行迭代改进, 不断优化模型。