图数据库引擎助力AI下一个变革

上传人:I*** 文档编号:148921479 上传时间:2020-10-23 格式:PDF 页数:38 大小:17.73MB
返回 下载 相关 举报
图数据库引擎助力AI下一个变革_第1页
第1页 / 共38页
图数据库引擎助力AI下一个变革_第2页
第2页 / 共38页
图数据库引擎助力AI下一个变革_第3页
第3页 / 共38页
图数据库引擎助力AI下一个变革_第4页
第4页 / 共38页
图数据库引擎助力AI下一个变革_第5页
第5页 / 共38页
点击查看更多>>
资源描述

《图数据库引擎助力AI下一个变革》由会员分享,可在线阅读,更多相关《图数据库引擎助力AI下一个变革(38页珍藏版)》请在金锄头文库上搜索。

1、图数据库引擎助力AI下一个变革 释放互联数据力量,更深度的洞察力和更有价值的结果 人工智能和图数据库 人工智能-机器学习面临的挑战 机器学习结合图数据库 实例分析 小结 2018 技术市场的两个热点 人工智能 具备强大的“”预测“”和“智能”能力的系统, 高速发展,离成熟广泛应用仍有距离 图数据库 - Graph Database 一种新的,令人兴奋的方式来存储、表示 信息并进行查询 高速发展,行业标准还未统一 人工智能与机器学习 人工智能和图数据库 人工智能-机器学习面临的挑战 + 图数据库 机器学习结合图数据库 实例分析 小结 推动人工智能-机器学习发展三大关键要素 数据 算法 算力 瓶颈

2、? 三大关键要素 - 数据 数据 算法 算力 瓶颈? 海量数据,时刻增长 数据相互关联 数据自带语义 获取更容易,查询缓慢 2018 TigerGraph. All Rights Reserved 图模型 描述世界关联最自然的模型 数据关联的最自然的表达模型 从表关联到边的跳跃(Hop) 多维度 vs 不同类型的边 最自然的计算模型 三大关键要素 - 算法 数据 算法 算力 瓶颈? 演化日益复杂 关注数据相关性 关注对象特征 对于数据获取有依赖性 图数据库典型算法 越来越多的图数据库可以提供标准图形算法库,用于发现图的特征 如:PageRank,社区检测,中心度分析,最短路径,标签传递等 关联

3、分析子图发现模式匹配社区发现 三大关键要素 - 算力 数据 算法 算力 瓶颈? 计算复杂度膨胀 计算结果实时返回 计算层级深度不断增加 图数据计算效率的优势 效率不随数据量扩张而线性下降 跨维度(不同类型点、边)的计算方式 自然的适应并行计算 大数据、机器学习和图 为什么没有广泛应用? 支持的数据规模有限 缺乏实时数据处理能力 能够快速学习,充分发挥图计算模型的开发语言 计算的深度只有2-3层 释放互联数据的量 更深度的洞察和更有价值的结果? 历经5年研发,2017年正式推出1.0版本 TigerGraph公司 首个原生、分布式、并行图数据库 TigerGraph 公司创始人,CEO 美国加州

4、大学计算机技术与科学博士 曾任Twiiter公司大数据架构总监; 曾任TeraData公司大数据架构总监; 30+ 工程师, 一半博士学位 15 个专利 总部在硅谷红木城 北京,上海分公司 人工智能和图数据库 人工智能-机器学习面临的挑战 机器学习结合图数据库 - TigerGraph 实例分析 小结 数据 算法 算力 支持数据规模: 千亿级别顶点 万亿级别边 实时数据处理能力: 百万条记录/秒实时更新 0.01秒单次查询相应速度 G-SQL 图灵完备 开源算法库 并行计算 3 - 10+度实时分析 支持复杂的计算和机器学习算法 数据准备 - 数据加载性能 TigerGraph 2.0 支持分

5、布式部署及并行计算 开源GSQL图算法库 算法均用GSQL实现,通过RESTful API直接调用 类SQL语言 可视化交互界面 高性能并行计算 - 累加器(Accum) TigerGraph 特有机制 TigerGraph 图数据库查询语言中独特又重要的特性 实时 遍历+计算同时进行 在进行图遍历的同时可以执行自定义的复杂计算逻辑(函数) 真正并行架构 原生支持多条路径并行执行函数(也可以是子查询) 灵活算法支持 多个基于起点-边-终点的函数组合成复杂图或者机器学习算法 高性能并行计算测试 两度查询三度查询 人工智能和图数据库 人工智能-机器学习面临的挑战 机器学习结合图数据库 实例分析 小

6、结 机器学习交互流程 数据准备抽取特征训练模型评估模型 机器学习和图数据库 - 数据准备 机器学习(ML) 希望数据为矢量,数组或张量 计算密集型; 漫长而耗时 需要高质量的输入数据 多种方法可供选择 图数据库 将数据存储为节点和边。 边(链接)是数据对象。 所有都是好的存储数据 灵活的分析能力 机器学习 对于特征和属性的应用 几乎所有的机器学习的都会用到目标对象相关特征的关联 特征 1特征 2特征 3 Result 对象 1 X00X 对象 2 XX00 对象 3 X0X? 挑战: 机器学习模型的质量依赖于特征的质量 如何获取正确的特征 如何获取正确的分布的值和结果 再进一步: 在建立模型的

7、时候: 哪些特征是需要的? 是否会影响模型效率? 案例:基于图数据库的反洗钱方案 基于图数据库智能反洗钱方案 通过多度分析,告警被升级为高风险 客户电话与已知有SAR告警相关 同时分析地址、电话、职业等 分析之前并不指定特定参与的属性 分析深度达到 5 度 (Hop) 告警被识别为低风险(Low AML)交易 客户为新客户 无交易历史 无历史的告警 SAR 不在高风险地区 传统反洗钱方案 1st 度2nd 度3rd 度4th 度 5th 度 图数据库增强的智能反洗钱工作流程 深度 实时 关联 机器学习的智能演进 捕捉商业契机 增长业务 示例: 产品推荐,兴趣行为捕捉 每多一度,指数级知识增长

8、示例:社交网络 更深入地寻找新的见解 防范风险 示例:薅羊毛,反欺诈 及时洞察及反应 基于图特性和机器学习 提高欺诈侦测准确性 ?31 用户甲用户乙用户丁用户丙 SIM卡使用时间2 周4 周3 周2 周 单项通话比例50% 10%55%60% 被拒接比例40%5%28%25% 机器学习根据历史记录预测的结果疑似欺诈者普通用户疑似欺诈者疑似欺诈者 稳定组是是否否 许多组内关联否是否是 三朋友关系环链否是否是 机器学习根据图特性深度链接分析预测 结果 疑似恶作剧者普通用户疑似欺诈者疑似销售人员 普通用户 恶作剧者 欺诈者销售人员 运营商 - 通过分析网络或图形关系特征来检测电话欺诈行为 训练模型

9、Phone 1 Features (1) High call back phone (2) Stable group (3) Long term phone (4) Many in-group connections (5) 3-step friend relation Phone 2 Features (1) Short term call duration (2) Empty stable group (3) No call back phone (4) Many rejected calls (5) Avg. distance 3 夜间对数据进行批量计算 实时通话检测反馈为分钟级 Tra

10、ining Data 实时更新呼叫记录 分析4.6亿部手机、100亿次呼叫和上千次新 呼叫,检测反馈达到秒级 10-20个常用特征 特征通常为预先计算后存储 创建超过118项特征 实时对通话双方的2-5度关联属性进行计 算,提交机器学习模型 在线电商 实时推荐- 对客户行为特征进行个性化生成 社交媒体互动 小明 小红 浏览及搜索 历史 购买记录 所在地址 使用设备 兴趣 漫画超级英雄 Effort/DIY Sensory Variety 关注特征 Convenience Graph analysis is possibly the single most effective competiti

11、ve differentiator for organizations pursuing data-driven operations and decisions after the design of data capture.” 对于已经准备好了数据之后,追求以数据驱动进行操作和决 策的组织而言,基于图结构的数据分析可能是唯一最有效和 具有竞争差异性的解决方案。 TigerGraph图数据计算平台 事务型图数据库 (增删改查) 每秒十万多的更新,每天十亿级的交易 易于开发和部署 轻松使用查询语言(GSQL)开发并且用使用RESTful 接口轻松部署复杂的分析 敏感数据隐私保护 基于用户的角色、部门或公司组织控制对敏感数 据的访问权限 实时的强劲性能 对于触及到千万级节点和边的查询不到1秒钟 高可扩展性对于巨大数据集的支持 千亿个节点,一万亿条边 深度多步分析 3步到10多步的深度关系查询并且进行复杂的计算 小结 数据 算法 算力 机器学习 Innovate with 2018 TigerGraph. All Rights Reserved 2018 TigerGraph. All Rights Reserved

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 云计算/并行计算

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号