身边的大数据

上传人:工**** 文档编号:458900644 上传时间:2022-12-15 格式:DOC 页数:10 大小:26KB
返回 下载 相关 举报
身边的大数据_第1页
第1页 / 共10页
身边的大数据_第2页
第2页 / 共10页
身边的大数据_第3页
第3页 / 共10页
身边的大数据_第4页
第4页 / 共10页
身边的大数据_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《身边的大数据》由会员分享,可在线阅读,更多相关《身边的大数据(10页珍藏版)》请在金锄头文库上搜索。

1、躲不开的大数据提起大数据,很多人都有一个误解,过去我们认为,随着 人类信息记录技术和传输技术的发达,以及成本越来越低, 我们的数据记录就从一些小数据慢慢变成一个巨大的数据 包,大数据是这样吗?错!大数据的本质不在于它的大,而 在于它的全!我们是通过多维的、多角度的记录一个世界, 或者一个人的真相和行为轨迹,我们来判断它原本的本来面 目很多人一提大数据,就把它当做一个高大上的事物来对 待,其实所谓的大数据,更多的是一种理念,今天,我就将 我对大数据的理解和大家做一个分享。(1 02”)【Part 1】大数据有一个关键词,叫做交叉复现,或者叫做交 叉复用。什么意思呢?我举一个例子。在时装界有个大品

2、牌叫Prada,它在纽约的旗舰店最近几 年就搞了一个小改革,每一件衣服上都有一个芯片,当这件 衣服被拿到试衣室的时候,试衣室有一个记录仪,就记录一 次,说明这件衣服进过试衣室,但这件衣服是不是被买了, 这个探测器不管。过去的所谓的商业数据就是进、销、存, 我进货多少、销出去多少、库存有多少,它只记录这些信息, 这叫大数据吗?这不叫大数据,因为它虽然数据量非常大, 但是它记录的是一个单维信息,可是当Prada做了这个小实 验,虽然只记录一个并不太大的一个数据规模,但是由于它 角度变了,于是大数据的规模就突然一下出来了,大家想啊, 原来Prada只能知道我哪件衣服好销,但是有一类衣服是这 样的,大

3、家一看很喜欢,摘下来到试衣间试,试完了之后, 因为某种缺陷,大家把它撂下了,没买,所以当这两个数据, 就是柜台边的销售数据和试衣间里面的试衣数据,两个一 碰,Prada就能找出一些衣服的地款型,它们很好看,第一 感觉很好,但是卖不掉,一定是因为有什么缺陷,把这个缺 陷改进完了,等于Prada就马上多了几款热销的品种,所以 在商业上,这样多维的交叉复现就这样用起来了。(2 97”) 再比如说互联网金融,虽然现在学术界对其争论非常多, 但它一定是一种先进的方式,因为它正在用大数据的方法, 点一点地去逼近在传统社会中要用极高的成本去解决的 个问题,就是信用差别。传统的银行要决定给一个贷款客 户办理贷

4、款业务,这得下多少功夫啊!这得老师傅带一个团 队,做各种各样的调查,最后发现信用不错,我们放心把钱 借给你。可是在互联网时代,所有的信用判别,要用大数据 的方法,它的成本会低到不像话,比如一家互联网金融公司, 他做P2P的贷款,你要找这家公司贷款,它只要你填一个简 单的表格就行了:姓名、住址、电话号码、你的单位、你的 工资卡的卡号,就是证明有人正常给你发工资,你有基本的 信用记录,就行了!你申请贷款几万、几十万,就这么给你 了!那你说这不是不负责任嘛?对,在传统社会看来,这就 叫不负责任,但在大数据时代来看,未必如此。他可以通过 多个信息、通过交叉复现得知你很多东西,比如说你的住址, 这是不是

5、一个好的小区,你住不住得起好房子?那你说我填 个假地址行不行?不行的!大数据交叉验证,它可以到你 微博上看呀,看你微博在哪儿发,因为发微博,最多的可能 性一个是家、一个是单位,你如果有单位,因为你有工资卡, 对不对?那另外一个点,发微博最多应该就是你家,那你常 住的地址和你填的这个地址是不是吻合,这就是交叉去验 证。然后再比如说,它能够知道你每个月交的电费,它就知 道你家里的电器的使用量,这基本上也可以衡量出一个人的 生活水平和收入水平。再比如说,它知道你的电话号码,那 你电话费交的情况是怎么样呢?你买这个电话是分期付款 还是一把付掉的呢?你用的电话是一种什么类型的电话 呢?等等。所有这些信息

6、通过交叉验证,就又能呈现出来。 甚至在洛杉矶,有一家专门就做给那种叫高风险贷款,就是 你没啥信用记录,或者信用记录不好的人,我给你放贷款, 这家公司就用了很多大数据的手段,它甚至细到什么程度, 比如说你在银行,你总要填自己姓名吧,它就看你怎么填, 它不会告诉你的。你如果全是小写,这是一种很不规范的填 法,说明你这个人有点粗枝大叶;如果你全是大写,说明你 这个人有点狂妄自大。那最标准的填法是什么?首字母大 写,后面小写。就说明你这个人很精细,那很精细的人通常 来说,你的信用度要好那么一点点,那它就把这一点点记入 对你信用的判别的整体的数据库,人家监控的就这么细!洛 杉矶这家公司试验下来,它的坏账

7、率比同样做这一行,但是 没有用大数据的整个坏账率要低60% !这是我用最简单的方 法给大家讲大数据起作用的原理。(4 21”)【Part刀那有些人又说了,这和我有什么关系呢?我不排斥别人用 大数据,但我自己用不上大数据,碰到大数据我躲着行不 行?实话告诉你,还真不行,因为在座的每一个人,都是大 数据的提供者。比如说你用的是智能手机,你新装软件的时 候,它会有一条提示的:这个软件会调用你的通话记录、短 信、WIFI、LBS、你的地址所有这些东西要调用,可不 可以?可以你就装,不可以你别装!人家软件公司做的有问 题吗?人家没有问题,全告诉你了!时间长了之后,你根本 看都不看,大家扪心自问,有几个人

8、安装软件的时候,会把 这些提示条款全部看清楚的?几乎没有吧!所以大数据时代 原来保护隐私的那一整套方法全部失效!原来你愿意告诉别 人你就告诉,不愿意告诉你留着。现在,你把愿意告诉的告 诉出去,不愿意告诉的自然也就泄露了。(1 20)大家说那为什么商业社会这么大劲头呢?打一个比方,比 如说保险公司,我们就说汽车保险吧,保险公司就特别有积 极性,去搜集你驾车的一系列的记录,我们假设,大家用的 都是全自动的,大数据的那种汽车,所有的数据都被记录。保险公司当然要知道啊,你每天要开多少公里,你是从哪儿 到哪儿,是风险路段还是低风险路段,然后就通过你踩油门、 踩刹车的行为习惯,来判断你有没有很好的驾驶习惯

9、,你这 个是白天出去还是晚上出去,是愿意开快车还是愿意开慢车 等等,这些数据搜集来了之后,保险公司有大用场!现在保 险公司来判断你的驾车习惯,只能根据你一年事故量,然后 确定你明年的保险额,但是未来保险公司可以制作非常精细 的产品,对于那些上班族,开不了几分钟就到单位的,车一 下就放到了停车场,开车习惯很好,他可以把保险费用降得 非常之低。而对那些开车习惯不好,经常在风险路段上的, 他可以把保险费用提高。如果一个保险公司有了大数据,以 及相应的分析手段,那么,它跟它竞争的那些保险公司,不 要玩了,其他公司怎么竞争得过它!所以商业竞争有时候就 靠这么一丝一毫的妙到毫巅的竞争差距,所以你想,这些保

10、 险公司还不疯了似的去搜集你的这些数据!这样的事情离我 们很远吗?其实就在我们身边,头两天,ETC办理升级业务, 我就去了,当我把身份证复印件、行车证复印件提交给办业 务的小姑娘,办理完之后,小姑娘嫣然一笑,大哥,来, 和你的爱车合个影!”当她按动快门的那一瞬间,我就知道, 她用高速路通行费优惠5%这么廉价的成本,就把我的身份 信息、家庭住址、联系方式、车辆型号、上下高速的时间、 地点、距离等等一系列的数据,就这么拿走了 !(2 42”)【Part 3】大数据时代还有一个关键词,叫全息可见。就像一个 人看澡盆里的鱼那样,真相看得清清楚楚,很多科幻小说是 用四维世界对三维世界的比方来说明这个道理

11、,四维世界需 要点想象力,我们降低一个标准,打另外一个比方,就是三 维对二维。我们假设二维世界,就是一个平面上有生物,这 些生物是平面的,两个生物见面打招呼,这个生物看另外一 个生物是什么?它不是个图形,它就是一个线段,俩图片这 么遇见了,这个图形长什么样?隐私!不告诉你!但是对我 们三维世界的人哪有什么隐私可言呢?往下一放,站在高处 看,每一个图形是什么样清清楚楚!对,四维世界的人看 我们,也是这样,所以中国古代的诗人就说得好啊:会当凌 绝顶,一览众山小;欲穷千里目,更上一层楼。只要站得高, 只要你有足够的视野,你看到的真相不仅全,而且真。所以 这个大数据时代,每个人几乎都成了透明。这才是残

12、酷的真 相。(1 35”)那这会引发什么样的动荡呢?有些东西说来你可能不信, 我们的理论体系可能会因此而崩塌。比如说因果关系,这是 人类认知世界的一个最重要的工具。从小老师就告诉我们: 知其然,还要知其所以然!但是大数据时代不这么看待问题, 当我的数据足够多,维度足够丰富,我可以直接看到结果, 我为什么要知道过程呢?有一个非常经典的例子,很多人在很多场合都听过,就是 沃尔玛发现,啤酒和尿布这两个东西的销售量严重相关,有 的人买啤酒多了,他就会买尿布。或者反过来说,买尿布多 了就会买啤酒。学者们就分析了,找理由,有的人这么解释, 说你看,买尿布的一般是爸爸,因为孩子在家刚生出来,妈 妈在家看着呢

13、,所以爸爸出来买尿布,逛着逛着,一看正好 有啤酒,好,犒劳一下自己,就随手拎上两瓶,所以这个就 相关的。你看,这还能回头倒出点联系,倒出点因果关系。 可是我要再告诉你沃尔玛的几个数据,你就傻眼了。比如说 刮飓风的时候,蛋挞卖得好,你说为啥吧?雨天的时候,蛋 糕卖得好;随着气温的升高,三明治卖得好。对商家来说, 他才不像我们的学者们还得硏究为啥,他需要知道为什么干 什么?他只需要有这个结果就可以了!啤酒和尿布相关,就 把两样东西摆在了一起来卖。下雨天的时候多备蛋糕,随着 气温的升高多备三明治,他只需要做这个就可以了!所以有 个材料就显示,在欧洲的超市里面,就因为利用了大数据 这种分析,这欧洲的蛋

14、糕店、面包店它的平均利润提高了 20%,对于商家来说,这已经是他要的结果了,我不需要推 导过程,我甚至不需要知道它为什么发生。所以现在就有一 个观点,让我们大惊失色:随着大数据的到来,理论终结 了”!因为人们只需要知道相关关系就可以了。大数据时代 的人们可以真扑真相,传统社会人们获得知识的很多方式, 在大数据面不堪一击,大数据一来,告诉你,我有独特的方 法,我可以直接获取世界的真相和知识!(3 20)【Part 4】那我说了这么多,就要回到我想要说的真正主题了,大数 据时代的税收工作如何做?省局领导给利用大数据思维开展税收管理工作起了一个 非常好的名字:风险管理。对内,可以识别出我们税务干部

15、的内控风险、执法风险;对外,可以识别出纳税人的遵从风 险。识别的方式就是利用刚才我们说的大数据思维模式下的交叉复现和全息可见。举个例子,我在基层工作的时候, 我们就设计了一个很好的关于契税的指标。有这么四个数 据:土地出让金,在国土局存着;土地开垦费,在财政局存 着;城市配套费,在规划局存着;契税征收数据,在我们的 征收系统存着。公式很简单(A+B + C)x4%二契税,小学 生都会做。可过去这四个数据之间相互之间见不着面,四个 衙门的门槛都高嘛!当数据没有发挥它的比较优势时,它不 是数据,它仅仅是一堆无用的数字而以。我们从其他三个部 门拿到了数据,和我们的征收数一碰,交叉复现,就发现了 问题

16、。这个数据规模并不大,每个单位只有几十个数据,但 它却是多维的,发现的问题却不少,一下发现了十几个问题。 辖区内所有类似的问题全部曝露无疑,这就是全息可见!有 人就会问了,纳税人的遵从度怎么这么低?你从来就没有监 管过嘛!你这次一 交叉复现,全息可见,下次它就知道 了,哦,人家信息共享了,那咱还是遵从吧,始于纳税人 需求、基于纳税人满意、终于纳税人遵从不就实现了吗? 我这么一说,大家就明白了,原来风险管理是高科技啊! 哪有!它的原理和买菜做饭是一样的。比如说,税政部门为 了加强税种管理,做出了一个风险指标,这就是列菜谱;数 据管理部门一看指标,好,采集数据,这就是按照菜谱买菜; 风险管理部门按照指标对数据进行加工,生成风险任务,这 就是掂锅炒菜,我们现在正在上线的风险管理系统就是炒菜 的锅,就是一个生成风险任务的工具。所以说,风险管理部 门其实在整个税收风险管理体系当中,是一个服务部门,是 直接为税收管理服务的。(3 27”)【结束语】大数据时代已

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 建筑资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号