互联网大数据征信模式及存在问题研究

上传人:豆浆 文档编号:16822526 上传时间:2017-11-09 格式:DOC 页数:14 大小:37KB
返回 下载 相关 举报
互联网大数据征信模式及存在问题研究_第1页
第1页 / 共14页
互联网大数据征信模式及存在问题研究_第2页
第2页 / 共14页
互联网大数据征信模式及存在问题研究_第3页
第3页 / 共14页
互联网大数据征信模式及存在问题研究_第4页
第4页 / 共14页
互联网大数据征信模式及存在问题研究_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《互联网大数据征信模式及存在问题研究》由会员分享,可在线阅读,更多相关《互联网大数据征信模式及存在问题研究(14页珍藏版)》请在金锄头文库上搜索。

1、-范文最新推荐-1 / 14互联网大数据征信模式及存在问题研究摘要随着互联网金融的发展,一批运用网络信用信息进行征信的大数据征信机构初步建立。它们在网上采集个人或企业的互联网数据,运用云计算、大数据等新技术,对这些数据进行整理分析,通过信用评估体系进行信用评测。因此,大数据征信能够提供传统征信无法提供的金融服务,对传统征信起弥补作用,拓展了征信市场,帮助实现普惠金融。但是,互联网大数据征信尚处于初级阶段,在法律框架、行业规范、顶层设计等各个方面尚未成熟,存在很多问题,需要强有力的协调和规范。本文将在分析现有的互联网大数据征信模型的基础上,从宏观和微观的角度出发,研究大数据征信的优势和不足,并提

2、出相关建议,促进我国构建更加理想的互联网大数据征信体系。4372 一、互联网大数据征信的相关概念(一)大数据的定义最近几年,随着信息技术的发展,大数据引起了产业界、科技界和政府部门的高度重视大数据被视为与自然资源、人力资源一样重要的战略资源,大数据是现有产业升级和新产业诞生的重要推动力力量。出于大数据的重要地位,各产业界纷纷展开对大数据的应用的研究。然而,对“大数据 ”的概念,大家却持不同的观点。在维基百科给出的定义中,大数据是指所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的形式的信息。而大数据技术就是指能在海洋般的数据

3、中快速取得有价值的数据的技术。也就是说,大数据是不通过诸如抽样调查等的捷径,而是运用大数据技术对所有有价值的数据进行清洗、归档、加工。总而言之,大数据并不是简单的数据沉淀,而是一组可以产生经济价值的数据,其可以运用于科学研-范文最新推荐-3 / 14究、疾病防御、社会学、公共部门、市场分析等。大数据本身就是资产,这在业界已经形成共识。而如何盘活大数据资产,使其产生价值,则是大数据的核心议题,也是大数据的研究方向。(二)征信的概念征信指依法采集、整理、存储、加工自然人、法人及其他组织的信用信息,并对外提供信用报告、信用评估、信用信息咨询等服务,帮助客户判断、控制信用风险,进行信用管理的活动。征信

4、按被征信主体的不同,可以分为企业征信和个人征信。企业征信是对企业、金融机构等市场参与主体的财务状况、经营水平、信用记录、所处外部环境等诸因素进行研究分析的基础上,对其信用能力(履约意愿和履约能力)作综合评价。个人征信是相对于企业征信而言的,它以个人为征信对象,通过合法的渠道和手续采集个人的基本信息、财务状况和信贷记录等信息,通过整合分析,评估得出个人的信用状况,最后根据客户的要求,为客户提供个人信用信息查询和评估服务,以帮助客户管理、控制信用风险。图 1 芝麻信用模式(二)拍拍贷征信模式拍拍贷采集的数据分为三大类:基本数据(包括年龄、性别、婚姻、学历等) 、财务数据(包括收入、财产、信贷历史数

5、据等)和互联网行为数据(来自微博、论坛、拍拍贷登录等) 。拍拍贷约采用 2000 个数据维度,平均使用 400 个数据维度去评价一位借款人(银行为 70-80 个) 。拍拍贷在这些数据的基础上总结归纳,挖掘出 18 个信用评估子模型其中一位借款人匹配一个子模型。其次,拍拍贷还构建了三个全自动风险控制系统,即反欺诈系统(决定是否放贷) 、信用评级系统(决定放贷金额)和风险定价系统(决定放贷利率) 。其中,信用等级是由信用评级系统评-范文最新推荐-5 / 14估的,是由认证分数转化而来,认证等级由高到低分为 A、B、C、D 、E、HR 共 6 个等级,它在很大程度上影响了借款人的借款成功率、最高贷

6、款额度等。最后,再根据以上三个风险控制系统来决定是否放贷、贷款额度和放贷利率。拍拍贷运用大数据征信技术对借款人进行信用评估的模型如图三所示。图 2 拍拍贷信用评估体系(三)总结分析互联网大数据征信模式大数据征信模式与传统征信模式最根本的区别是数据量变巨大。从原有的传统信贷数据开始逐步扩展,加上公共政务数据,加上行为数据,获取更多的数据,形成成千上万个特征变量。但这些数据采集回来并不是直接运用,而是先入库。数据团队要进行深度的数据清洗,要进行客户归档,并且要进行原始的加工。只有数据归档之后才可以知道哪些数据是可以被利用的。数据归档后还要进行变量筛选、精细化研究,凭着专家经验和变量衍生的分析方法,

7、即特征工程研究。把这些变量入库以后并且提取出来可用的变量,再来选择最合适的算法。通过创新的方法和创新的技术对筛选出来的数据进行深度挖掘,建立匹配的模型。这些算法和技术最终会归结到三点,就是准确性、稳定性和普适性。这三点能够帮助征信机构建设一个值得信赖的征信体系。通过评估得到的是一个结果,可以用信用分、信用级别或者其他的方式来表示。最后把它运用在金融领域、生活领域还有其他一些创新的细分市场。如图 3 所示: 数据来源主要为金融机构提交的信贷数据金融机构,政府机构,商业合作伙伴,用户自身等数据类型信贷数据信贷数据、行为数据、关系数据等数据格式结构化数据结构化数据+非结构化数据算法应用逻辑回归深度机

8、器学习-范文最新推荐-7 / 14变量特征还款记录和贷款类别等水电煤缴费记录,网络消费支付记录,理财偏好,行为偏好,人脉关联度等变量个数数十个成千上万个 1.采集的数据是否准确无论是在传统金融领域,还是互联网金融领域,评估客户信用资质的前提是必须确定这个人就是客户自己。但是在复杂的网络环境下,大数据征信如何确定所收集的数据是客户的数据呢?所以如何证明客户的身份是大数据征信首先要解决的问题。尤其是金融业务互联网化程度越来越高的今天,“反欺诈”面临的挑战更大。各项监管文件中也反复强调“身份认证”的重要性,而各家机构也在不断创新方法、创新技术完善客户网

9、上身份的核实。其中成熟度和准确率较高的人脸识别,其有效性和安全性仍备受质疑,比如说如果客户在脸部整形后要如何才能通过人脸识别登录系统?2.社交数据与个人信用的相关度用社交数据来进行信用评估一直备受争议。且不说社交信息对于判断借款人的还款意愿和能力暂无预测力,如果有效的话,那么那些社交数据与人的信用相关度比较高?据了解,美国暂时还没有哪一家征信机构采用社交数据进行信用评估,而国内获得牌照的征信机构,比如芝麻信用,社交数据在信用评分中所占的比例很低(5%以下) 。再者,社交数据容易被操控。与贷款记录不同,人们可以通过某些手段操控自己的社交数据以提高信用评价,比如芝麻信用出来后网上出现的刷分攻略。3

10、.算法模型的有效性互联网记录了借款人在传统金融机构以外不被采集的信息,获得了以前无法获取或获取成本很高的数据,为放贷人了解借款人的身份、还款能力和还款意愿提供了新的角度。但是,相关的信息究竟如何使用-范文最新推荐-9 / 14有待进一步研究验证。我们在一些文章中会看到一些反映大数据征信不能准确评估客户信用状况的案例,如用户经常半夜上网可能会降低其信用评分,因为他会被认为没有稳定的工作,但是这也有可能只是用户的个人习惯而已,并不能说明用户没有固定工作。比如买双开门冰箱的用户可能因为有家庭而信用评分较高,但是我们都知道这个结论不一定准确。这是需要进行数据处理的,我们需要把它放到具体环境里,本来收入

11、很低买了个大冰箱的人跟本来收入很高买了个大冰箱的人,这两者得出来的信用结果是不一样的。比如说被评估者本来收入很低,但却买了个超一流的大冰箱、超一流的沙发等,说明被评估者的履约能力是很差的,因为他的消费节制能力比较差,很可能会引发财务危机。再比如微博更新频繁的用户可能因为社交活跃而信用评分较高等,但事实上微博上存在一些推手他们只是专门负责更新微博而已。 3.个人隐私被泄露由谁承担责任网上什么人都有,网络背后谁知是人是狗。大数据处理技术越进步,也就意味着我们每一个人在网上会成为一个 360 度无死角的人,我们的一举一动都会被获悉,我们也就毫无隐私可言。征信机构在数据采集、存储、利用的过程中都有可能

12、泄露隐私,而一旦隐私泄露,我们很难确定是在哪个环节被泄露,也很难确定是谁的责任,由谁负责。所以央行在个人征信上一直非常谨慎,就是出于对隐私的保护。(三)征信机构的独立性大数据征信机构多是从互联网企业发展起来。这些互联网企业拥有海量的用户数据,本身就有从事征信行业的优势,但也存在一个问题。他们既生产数据,又评估数据,还使用数据,不符合“独立第三方”的规则,会影响征信产品的公正性和独立性。例如芝麻分可用在租赁、订酒店、分期消费等场景,但其数据主要从阿里系得到,这就意味着个人要想获得高芝麻分,必须与阿里生态圈里产生更多的联系,比如加芝麻分高的人为好友,使用支付宝缴纳水-范文最

13、新推荐-11 / 14电煤气费,使用花呗分期购物等。相较而言,央行的征信系统则完全独立于信贷交易双方,具有中央银行的公信力,而且不以盈利为目的。(四)征信机构之间缺乏信息共享大数据时代,得数据者得天下。每一家征信机构都有自己获得数据的途径,比如芝麻信用依托于阿里系,腾讯征信依托于腾讯集团,华道征信依托于新奥能源和亿美软通等,各家征信机构掌握着各自行业的大数据。由于我国活跃在市场上的征信机构的信用数据不能公开收集,在利益的驱使下,各征信机构往往不会把收集到的数据与其他征信机构共享。企业的垄断会使行业内信息不能交流汇总,缺乏信息的透明度,各家征信机构之间是不合作的,各个征信机构所收集的信息只会在内

14、部使用,是排外的。即使有行业内的数据互换,比如银湖网、手机贷等与芝麻信用达成数据互换协议,向芝麻信用提供自身的网贷数据。但这也只是少数企业之间的信息交流,不能达到完全信息共享所带来的效益。信息共享机制落后,导致他们在某些领域重复征信,并且这种商业化的行为也导致各家征信机构所收集的数据都不是完整的,使用这些数据进行评估得到的结果不会全面客观地反映征信主体的信用资质,不能准确预测个人是否存在信用风险。 (二)加强征信产品的创新在满足数据和技术能力平台的需求情况下,征信机构所做出来的数据产品和应用能力要非常贴切每一个领域的需求,如果说其他的机构所谓的数据产品只是一个副产品的话,征信机构的数据产品则是其唯一的产品。因为征信机构拥有的资源就是数据和模拟能力、建模能力,其产品的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号