大数据分析技术与应用介绍—从传统统计到人工智能

上传人:lcm****801 文档编号:94788641 上传时间:2019-08-11 格式:PPT 页数:40 大小:3.24MB
返回 下载 相关 举报
大数据分析技术与应用介绍—从传统统计到人工智能_第1页
第1页 / 共40页
大数据分析技术与应用介绍—从传统统计到人工智能_第2页
第2页 / 共40页
大数据分析技术与应用介绍—从传统统计到人工智能_第3页
第3页 / 共40页
大数据分析技术与应用介绍—从传统统计到人工智能_第4页
第4页 / 共40页
大数据分析技术与应用介绍—从传统统计到人工智能_第5页
第5页 / 共40页
点击查看更多>>
资源描述

《大数据分析技术与应用介绍—从传统统计到人工智能》由会员分享,可在线阅读,更多相关《大数据分析技术与应用介绍—从传统统计到人工智能(40页珍藏版)》请在金锄头文库上搜索。

1、大数据分析技术与应用介绍 从传统统计到人工智能,主讲人 马亮 博士,2019/8/11,清华大学计算机系毕业,博士学位。长期面向大型企业海量数据/大数据环境下的分析挖掘与深度洞察服务。客户主要为世界/中国500强企业与国家部委。 2011加入HCR, 任CTO & 首席数据科学家, 负责公司大数据技术战略与相关深度应用服务,HCR(慧辰资道),3,核心业务 通过大数据分析 帮助企业洞察市场与消费者,4,4,了解市场,构造更好的产品,监测/倾听消费者,目标消费者传达,影响消费者的未来,发现消费者特性,HCR Business Consulting,HCR Consumer Insight,HCR

2、 Channel,HCR Communication,HCR Innovation,HCR Loyalty,围绕市场与经营过程,全面洞察企业与消费者行为,2015年 新三板上市 2016年 营收超过3亿 2017 中国大数据行业地图 大数据研究咨询 排名第一,研究能力 从消费者出发洞察,服务企业多业务场景,商业大数据分析 基本要素,6,大数据的4V 核心特征,7,数据体量巨大 数据记录规模 亿 ( 亿 - 百亿 -千亿) 数据文件尺寸: 百G -TB - PB -ZB,数据来源/维度多样 数据属性 大大丰富 1 传统线下 - 线上 2 数据产生场景 增加 商业交易 /位置/ 浏览/社交媒体/物

3、联网. 数据格式 更加复杂 结构化 - 半结构化 / 非结构化 - 音视频 / 富媒体 属性维度 扩展,高处理/响应能力 高速存储/查询/处理 亿级规模 秒级反应 更高的分析能力 实时计算/高维向量计算 结果快速呈现 更优化/易懂,巨大的价值 更大分析空间/维度 新的研究分析方法 意味insight/应用可能 数据只有分析后才有价值!,Volume,Variety,Velocity,Value,商业大数据 分析数据有哪些 (以消费类市场为例),态度 (基本认知),目标 消费 者,围绕企业服务生命期所产生的所有数据,消费前决策行为 线上搜索/浏览 线下店面/对比,消费行为 线上购物 线下店面交易

4、,消费者属性 基本属性 深层画像,服务使用行为 产品/服务的使用 吐槽/评论,企业经营过程 公关/广告/渠道 /客服.,持续消费行为 ARPU提升/流失,消费类业务分析数据 结构化 非结构化,打通 融合,线上 (行为/日志),线下 (终端/人工),业务系统采集 (CRM/客服),网络/第三方 (电商/社媒/第三方),市场调研 (问卷/访谈),更多,主要分析方法论,9,1 总体/全局 2 相对变化 3 产生原因,What(全局特征) Why (原因解析) 自顶向下(总体-局部),传统经典方法论,What(局部 /个体) Forecast(未来) 关联性/弱-强相关 自下向上(个体-群体),1 个

5、体化 2 多弱-强 3 发现异常 4 未来预测 5 不关注原因,全局的定性/定量结果,找全局最优,个性化分析(个人评估/征信/画像),新方法论,分布/份额/排名/分组,预测/推荐 (推荐引擎/DSP/精准营销),总体趋势,统计学(分布/方差),机器学习为代表的,分析方法论 不同应用场合和关注点,真正分析 是要发现以上因素 不是简单统计,统计性方法论 擅长 分布/主要原因 往往 Common Sense 变化比分布更重要 发现趋势有价值 发现后面的原因更有意义,新方法论 擅长 多个弱相关因素 组成的强相关 发现异常 往往很有价值 分清主要次要(降维),不同分析方法论的分析点 不同,3个最主要的分

6、析点 因果性 相关性 周期性,ToC类消费业务分析 核心目标 分析人(消费者),投其所好 不是分析物(商品/产品),分清因果性/相关性 常错误导致很多结论,统计 - 分析 - 洞察 分析 :变现变化/异常 洞察:找出原因/预测未来,数据分布假设/验证不能忽视 数据规模大时更困难,各方法论并不对立, 结合实施 才有最大效果,11,大数据 & 小数据 整合研究分析,外部/第三方,商业大数据分析场景 典型实施过程,12,数据预处理,建模探索,验证/最终实现,应用与优化,相关数据源,做: 整合 预处理 清洗 关联,基于整合的数据(大规模数据采用小规模抽样,如千万级,结合小数据分析),分析与算法人员,结

7、合工具,进行建模挖掘,将模型初步固定,将模型在更大数据规模上进行有效性验证,考虑过拟合/最优化参数问题 验证良好的模型,最终代码实现(大规模数据的模型需人工算法实现),将模型模块投入业务应用 通过应用反馈,持续的优化和提升模型,分析体系设计,基于分析场景,确定: 研究分析方法,技术建模方法,所需数据要求,商业大数据分析 相关技术,13,核心技术理论 统计 - 机器学习/NLP/Graph - 深度学习,14,无监督/有监督 机器学习 (聚类/贝叶斯/SVM/随机森林 ),Open Accnt,Add New Product,Decrease Usage,Time,预测/推荐(CF/UBR/IB

8、R ),统计(多元回归/结构方程),用户决策路径 组合/交叉销售 用户倾向性分析,商品个性化推荐 用户预期预测,用户细分 行为特性发现 预期行为分组,深度学习( CNN/ RNN),异常行为模式发现 行为模式识别,用户观点/兴趣挖掘 用户背景分析 产品特性挖掘 智能问答,自然语言处理/文本挖掘 (句法分析/LDA/多主题PLSA),传播路径分析 KOL影响力分析 异常(如交易欺诈)检测,Graph图/关系挖掘,常用分析工具/技能与应用场景,结构化数据,非结构化数据,NLP /图像/语音API,基本统计 Excel VBA,统计分析 SPSS SAS R,可视化/快速 TableAU,挖掘/机器

9、学习建模探索 SPSS Modeler/Rapid Miner,图分析 Gephi,图数据库 Neo4J/Titan,算法编程 Spark MLib Python Java,百万级数据,亿-百亿级数据,千万级数据,适合大企业/非技术背景的分析人员 可视化/大数据支持/服务端发布,其他API,面向数据分析的大数据平台 典型技术架构,16,业务计算层(分布式) Spark/ 为主的分布式计算框架 Spark Sql 检索 / ES Sql检索 KETTLE + Kafka 数据ETL与分发,海量数据存储/管理 文件存储: 结构化/非结构化记录存储 : 百亿级,硬件架构/网络 分布式集群,多层/深度

10、分析建模分析支持 传统统计学建模 机器学习/非结构化建模 基于深度学习的深度模型 可视化/行为模式分析(专利),企业级内外数据整合 百亿级数据 小团队简单架构,各种大数据相关技术/开源工具,17,海量/非结构化存储管理/检索,分布式计算应用框架,机器学习/自然语言处理/图挖掘,统计查询/分析工具 / BI/可视化,Storm,人工智能 / 深度学习 / VR.,Caffe/Mxnet,MLib,人工智能 多年低潮后重新崛起,18,1987 - 1997,1998-2005,2006-2014,2015,深度学习,知识图谱,分布式计算,GPU计算,增强学习,机器学习,计算语言学,神经元网络,基础

11、脑科学理论,理论体系建立与发展 对未来过于乐观 相关支撑远远跟不上,进入低潮 机器学习等理论产生 受限于硬件/数据 缓慢 瓶颈,理论与计算技术进化 智能认知学习理论 硬件计算/计算体系,图像/语音识别,图像/语音识别,大数据,人机问答系统,机器人,自动驾驶,人机智弈 AlphaGo,自动驾驶,机器智能(深蓝),自然语言处理,再次突破与爆发 (若干行业),语义理解,机器翻译,本轮AI技术的新特点,19,智能技术理论 深度学习 NN网络 的演进版本 DNN/RNN/LSTM/强化学习,硬件计算架构 提供高速处理的硬件支持 GPU/ 谷歌 TPU 低计算力+ 多核心/ 类神经元细胞,大数据 提供必要

12、的模型训练支持 提升智能分析精度的重要推手,+行业深入 封闭环境 有限规则 更高效 深入/稳定,AlphaGo 战胜4段以下选手,自动驾驶 应对大多数路况,代替普通司机,领域/行业 能力金字塔,Master 新棋谱,医学图像分析 代替初级医生,大数据深度洞察 应用案例,20,基于大数据与相关分析技术 可以,HCR,21,应用1 分析潜在客户 购物决策路径/心理,22,传统方法 调研 + 抽样+基本统计 问卷调研/定性深访 辅助数据(如上牌数据),低频 高价值行业 (汽车/房地产) 了解潜客的心理与及时影响他们,最重要 1 消费者定位/消费者画像 目标消费者在哪里,都是什么样 2 消费者购物决策

13、路径 买车决策模式/周期/流程/竞品车型选择,新的大数据方法 行为数据+全量/连续+自然语言处理/统计 所有用户买车前后的连续网络行为数据:浏览/比价行为/购买评价/使用反馈. 自然语言处理:行业知识库抽取、语义特征抽取、LDA主题聚合.,深层特性的标签 更不易变化 预测更准确 / 消费者接收度更高,应用2 通过消费者画像 来 认知已有客户的深入特性,用户画像 Profile Modeling 大数据下识别消费者的主要方法,常规模式 互联网/技术企业/友商 1 关注直接兴趣(购物/浏览) 2 标签体系:以访问/购买商品的品类为基础的浅层/兴趣标签,消费者深层特性 1 关注消费者/人为中心 2

14、全生活场景/行业专家知识模型抽象 3 标签体系:发掘用户深层特性/专业特性为基础的标签,用户高频消费行为 健怡可乐 . XX牌木糖醇,喜欢可乐 喜欢木糖醇,糖尿病高可能,用户画像分析,商品推荐预测,可乐类产品/相似购买产品,所有无糖食品/血糖仪/试纸,零售业 英国TESCO (组合销售/新产品/库存) 中国 华润超市,消费者画像 要关注消费者的深层特性,24,消费者用户画像(标签化) Profile Modeling Behavior-Based Profile Modeling 基于行为的消费者研究,在消费者研究中 已有20年的历史 不是什么新东西,消费者画像 通过用户行为 发现其深层特性/

15、行为模式,25,常规/兴趣 购物偏好 品类 品牌 浏览偏好 类型 电视剧/ 电影 音乐偏好 类型/歌手/歌星 体育偏好 足球/篮球 旅游偏好 团/自助/穷游 国内游/出国游.,常规/属性 性别 婚姻状态 星座 年龄 年龄段 70/80/85/90/95/00 初中/初三/高中/高三/大学/大三/大四 学历 收入水平 信仰 健康情况 家有病患 疾患种类 ,社会/生活属性 行业/职业 职务/职级 工程师/管理者 孩子状态 无/孕期/婴儿(1-2)/幼儿(3-5)/小学 车辆使用情况 学车/买车/有车/卖车 房屋居住 租房/自有房/还贷中 手机(价位/品牌) 移动运营商 品牌 网络(2g/3g/4g

16、) 流量特点(高/中/低),行为习惯 常住城市 作息时间 交通方式 日常 开车/地铁/公交 出行(火车/飞机/自驾) 居住酒店类型 经济型/中档/高级 经济/理财特性 股民/基民/银行/保险 餐饮习惯 自主烹饪/外卖/品牌 网购特性 品类(服装/化妆品) 方式(海淘) ,心理学/行为模式/性格 【生活方式】 作息规律 爱打扮 关注健康 喜欢绿色食品 【个性】 小清新 文艺青年 爱尝新 性格外向 爱炫耀 特立独行 【价值观】 崇尚自然 勇于冒险 关注性价比 关注品质 喜欢大牌 ,基本方法论(行为心理学/消费者研究),用户移动互联网行为 当前日常行为重要场景 可发现许多重要特性 百亿级,数据 用户移动互联网/APP使用行为数据,行为数据:匿名用户 手机设备ID / App名称 / 使

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号