《2023数据治理平台解决方案》由会员分享,可在线阅读,更多相关《2023数据治理平台解决方案(80页珍藏版)》请在金锄头文库上搜索。
1、数据治数据治理平台理平台解决方案解决方案上海最闻信息科技有限公司数据治理平台数据治理平台 DStreamDStream兼收并蓄各类数据来源,丰富数据资产,实现优 势互补,打通数据流向。通过多源融合、多路择优、自主计算、网络爬虫 等技术手段,大幅提升资讯数据及时性、准确性、全面性。构建灵活多样的数据服务体系,满足下游系统多 种数据需求,支持不同业务场景。针对共性需求、热点需求,打造资讯业务专题,使资讯触手可及 数据数据治理核心需求治理核心需求数据资产数据生态数据服务数据质量 丰富 数据服务形式与能力提升 数据质量监控与择优降低 对单一数据源的依赖打造 自主品牌的资讯终端打通 内外部各系统数据流统
2、一 资讯数据模型与标准避免 重复的数据资源投入节约20%以上资源重复投入有效解决资讯数据繁杂难用充分融合和挖掘数据价值主动发现和优化数据错误避免因数据源变化影响业务全面支持各类业务系统需求建立可持续的资讯数据资产数据数据治理实现目标治理实现目标第三代数据中心平台FinDig(2010年)第二代数据中心平台(2007年)第一代数据中心库(2018年)最闻科技2007年之前最闻数最闻数据治理发展据治理发展DDSDDS:数据转换设计系统数据转换设计系统DVSDVS:数据校验监控系统数据校验监控系统DTSDTS:数据采集跟踪系统数据采集跟踪系统DCSDCS:数据多源比对系统数据多源比对系统DISDIS
3、:数据融合服务系统数据融合服务系统DMSDMS:数据管理服务系统数据管理服务系统DPSDPS:数据终端平台系统数据终端平台系统DSSDSS:数据同步分发系统数据同步分发系统 数据融合:数据融合:采集和融合各种渠道和形态 的数据来源,打造统一模型标准和质量 监控机制的数据仓库体系。数据应用:建立灵活高效的数据发布服 务管理系统,打造自主品牌和高可控的 资讯数据服务终端平台。应用应用融合融合最闻数最闻数据治理平台解决方案据治理平台解决方案DMSDMSDPSDPS DDSDDS融合融合应用应用DISDIS最闻数最闻数据治理方案据治理方案 数据源支持广泛分布式调度平台完整的产品体系融合大数据平台数据加
4、工套件库增加大数据特性数据处理流式化数据治理平台数据治理平台(DStream)DStream)高时效支持批量数据定时处理支持增量数据实时跟踪处理通过CDC技术实现数据源变动的零延时监控多形式结构化数据和非结构化数据、厂商数据和自产数据、传统关系型数据、海量大数据多种形式数据处理网站、邮件、文件(PDF)、图片、终端、接口智能化采集处理能力全监控数据库跟踪、服务器状态、作业运行与负载压力监控数据质量跟踪校验预警监控多源融合比对择优异常提醒与运维监控上海最闻信息科技有限公司 真正的分布式调度集群架构 实现服务集群和任务分片2层维度分解 支持对作业进行 CPU内存资源细粒度控制,确保高效稳定最闻数最
5、闻数据治理平台优势据治理平台优势技术技术优势优势结构化非结构化分布式 集群架构批流一体模式数据库作业血缘高可用 金融资讯数据有二进制文件、文本等大字段,这 些大字段不适合推送到Kafka等消息总线 金融资讯数据的处理经常需要用到关联查询,如 果采用纯流式,每条数据在处理时需要单独去查 询,这样效率非常低。同样,数据处理完成后需要写入到数据库时,也 需要批量插入这样效率最高 资讯数据模型众多,数据清洗逻辑复杂,运维易 操作要求高,大量硬编码模式,可操作性低 数据的批流处理能力 具备实时窗口统计能力 Flink Beam高可用集高可用集群体系架构群体系架构大数据集群框架金融资讯数据不适合于类似框架
6、框架主要能力 Mesos ElasticJob Mesos-master Mesos-slave JobSchduler JobExecutor高可用集高可用集群体系架构群体系架构基于Apache开源框架分布式弹性资源管理分布式作业调度管理 Mesos:分布式资源管理框架 ElasticJob 分布式作业调度框架高可用集高可用集群体系架构群体系架构 作业失败自动重试作业资源按需配置集群资源弹性扩容作业服务器动态分配作业分作业分布式集群运行布式集群运行 充分利用集群资源多分片高并发模式大幅提升处理效率业务数据顺序保证作业分作业分片高并发运行片高并发运行1、CDC服务监听数据源变动2、变动数据推入
7、kafka对应topic3、转换作业监听kafka对应Topic变动数据记录4、转换作业执行数据清洗逻辑5、转换作业推送每条数据成功/失败状态到Kafka6、数据处理结果回写到Mysql数据库,提供管理支持 DStreamDStream产品集群产品集群架架构构每一行记录的处理都是并行的,不是串行 的,不需要等待一行记录处理完成,会通过putRow方法,直接送到下一个处理组件整个处理过程中,不需要序列化,不需要 内存复制,没有效率损失所有执行过程是可重复执行 资讯数据除了新增,还有大量更新和删除操 作同一张表同一条记录的多次变动,处理过 程要保持顺序。多次执行,结果冥等(多次执行结果一致)基于并
8、行架构的基于并行架构的ETLETL技术技术实实现现ETL并行处理的批模式金融资讯数据特点 金融资讯数据转换过程中,业务逻辑复杂,如果纯编码方式进行处理,开发效率低,测 试周期长,成本高。需要图形化工具来设计 转换业务逻辑。适用于金融数据处理的组件。提供了提高处 理效率的组件。DSTREAM还优化了部分KETTLE原生组件。对于ETL任务的运行,DSTREAM平台使用了 KETTLE的组件模型,但是接管了任务所有其 它工作。DSTREAM提供了大量ETL组件ETL业务逻辑的图形化设计工具一个ETL任务数据流程模式的应用KettleKettle在在DStreamDStream中的应中的应用用DST
9、REAM基于KETTLE的组件模式,定制开发 1000万条数据初始化完成清洗转换8分钟完成单个作业平均数据吞吐量可以达到120万条/分钟(和服务器性能和服务器性能有关有关)高效数据高效数据处理能力处理能力初始化初始化 100万增量数据变动-10个分片并发,每秒处理15002000条数据-10分钟左右完成整个数据清洗处理高效数据高效数据处理能力处理能力增量变动增量变动制定中长期方向明确中短期目标 资讯数据中心技术平台建立数据源梳理厂商数据库内部业务库行业网站文件文档电子邮件数据终端插件终端数据校验比对数据校验多源比对异常预警运维管理数据模型设计业务分类数据编码逻辑关联数据冗余数据扩展ETL设计与
10、运行设计工具源数据跟踪作业调度数据转换应用服务搜索引擎专题服务指标服务文件服务数据推送运营分析流量分析业务分类多维统计启动数据源 清洗转换开发实施启动多源数据 比对策略配置发布数据接口数据库表 同步推送金融数据模型设计数 据 应 用 分 析 金融金融资讯数据治理方法论资讯数据治理方法论金融资讯 数据中心筛选和确 定数据源内部数据外部数据集成 非结构化数据解析某券商某券商数据治理应用平台架构图数据治理应用平台架构图分布式存储OCR识别数据清洗系统App移动端数据校验数据接口服务数据订阅推送服务数据静态化中心库采集服务数据表同步服务PC终端小程序审计平台系统资管风控系统投顾平台系统大投行系统优理宝
11、App信用评级系统财务核算系统基金评价系统产品中心数据源交易所 网站固定收益系统业 务服 务研究 报告港澳 短信产品 中心基金 发行天天 基金聚源 数据巨潮 数据万得 数据 支持各种资讯源接入兼容银行文件接口规范支持多应用灵活接入高效稳定的技术平台某银行某银行金融数据治理平台应用案例金融数据治理平台应用案例上海最闻信息科技有限公司治理平治理平台台服务服务数据采集数据采集融合融合-高质量模型化数据仓高质量模型化数据仓库库 数据模数据模型设计型设计 基础数据证券分类金融机构股票基金债券理财产 品银行证券公募保险资讯新闻公告研究报告舆情新闻分 类公告类 别盈利预 测标签正负面行情数据国内港股美股公司
12、数据基本资 料股东和管理层财务数据信息变 更记录行业与 板块股本与 限售财务附 注Level2资金流 向高频数 据宏观行业新三板宏观经济行业数据行情财务产业上 下游领域领域数据模型数据模型 领域领域数据模型数据模型 oracle ms SQL server mysql postressql.关系型数据库分布式数据库 greenplum数数据存储据存储 数数据字典据字典 数据采数据采集集xml/json/文本pdf/word/图片网站服务接口excel插件/终端接口等 oraclems SQL server mysql postressql greenplum.hadoop/hdfs/mongo
13、/redis/kafaka.多样化数多样化数据源据源各种应用服务接口各种数据库大数据平台文件类 数据binlog方式数据库CDC方式数据库自有日志跟踪表扫描方式 万得金融数据库 聚源金融数据库。oracle mssql server。数据数据库库-数据采集数据采集 各类型数据库 mysql Bloomberg数据采集 Excel插件数据采集终端及终端及ExcelExcel插件插件数数据采集据采集 网络网站网络网站爬虫采集爬虫采集 文件文档文件文档 内容内容采采集集 数据清洗转换数据清洗转换(ETLETL)图形化拖拽式设计系统自然语言组件大数据处理组件网络爬虫组件满足行业数据处理的定制化组件OC
14、R组件数据治理平台数据治理平台数据数据清清洗融合洗融合ETLETL 最闻最闻ETLETL特色特色功功能能 Redis缓存编码对照转换 数据库加速编码对照转换主体主体/常量常量 编码转换编码转换 文本分文本分析挖掘应用析挖掘应用 自然语言分析自然语言分析(NLPNLP)应应用用转换转换 抓取验证码 识别验证码网页验证码自动识别网页验证码自动识别 AIAI应用组应用组件件 大数据大数据平台交互能力平台交互能力 数据校数据校验验 单源数据量校验 双源数据量校验 单源数据内容校验 多源数据内容校验 单源数据验证 多源交叉验证 黄金拷贝 数据数据校验系统校验系统事后校验事前校验 数据数据校验支持多种校验
15、类型校验支持多种校验类型 数据校验任务可以 的配置丰富 资源配置 检验目标 检验规则 校验周期 校验后控制数据数据校验功能全面校验功能全面 数据数据校验系统校验系统校验结果校验结果 数据校验系统数据校验系统校验结果校验结果检验结果详细信息检验结果详细信息数据比数据比对对 支持数据值浮动偏差策略支持整表单一来源策略支持数据选举算法策略支持入库优先级策略支持字段单一来源策略支持数据源权重策略多源链路比对规则多源链路比对规则数据数据比对系统比对系统 支持一键切换来源支持手工修改数据支持差异高亮提醒支持人工运营处理所有操作留痕可追溯数数据比对运营处理据比对运营处理数据数据比对处理比对处理 新新增多源比
16、对作业增多源比对作业 设置多设置多源比对策略源比对策略 运营监运营监控比对结果控比对结果 处理处理数据比对结果数据比对结果数据服务应数据服务应用用-平台化响应式数据服务体平台化响应式数据服务体系系上海最闻信息科技有限公司上海最闻信息科技有限公司数据管理系统数据管理系统(DMSDMS)中心库模型对象的建立与管理数据分类数据展示的定义与管理指标与统计报表管理系统各种常量的管理系统应用服务的管理数数据治理平台功能据治理平台功能数据管理系统数据管理系统 最闻数最闻数据治理平台功能据治理平台功能数据管理系统数据管理系统数据服务数 据 中 心 库数据治理工具ESHTTP SOCKETRedis账户中心应 用 库BAS JOB(基 础 数 据 服 务)数 据 源、专 题、资 讯、检 索令 牌 验 证RedisAccount Center用 户、产 品、权 限、支 付 高效的数据模型设计工具,无需编码,快速实无需编码,快速实现现接 口的开发和上线发布 基于微服务架构体系,支持弹性扩展支持弹性扩展,随时调整服 务承载能力 两级数据加速两级数据加速设计,大幅提高数据服务效率,减小 对数据存储层的压力 全面