用于数据分析的可视化的系统和方法

上传人:ting****789 文档编号:310022510 上传时间:2022-06-14 格式:DOCX 页数:11 大小:35.75KB
返回 下载 相关 举报
用于数据分析的可视化的系统和方法_第1页
第1页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《用于数据分析的可视化的系统和方法》由会员分享,可在线阅读,更多相关《用于数据分析的可视化的系统和方法(11页珍藏版)》请在金锄头文库上搜索。

1、用于数据分析的可视化的系统和方法专利名称:用于数据分析的可视化的系统和方法技术领域:本发明的实施例涉及数据分析的可视化,更具体地,涉及显示分析的交互式可视化。背景技术:随着手机和存储数据的增加,存在分析和弄清大量数据的增加的需求。大的数据集的示例可在金融服务公司、石油勘探、生物技术和学术界中找到。遗憾的是,之前对大的多维数据集的分析方法趋向于(如果可能)不足以识别重要的关系并且可能是计算低效的。在一个示例中,先前的分析方法通常利用分簇(clustering)。分簇通常是一种过于生硬的手段以至于无法识别数据中的重要关系。类似地,之前的线性回归、投影寻踪(projection pursuit)、主

2、成分分析(principal component analysis)禾口多维定标 (multidimensional scaling)方法通常并未揭示重要的关系。现有的线性代数和分析工具对于大尺度距离来言过于敏感了,结果失去了细节。另外,即便数据被分析,资深的专家通常必须要解释和理解之前方法的输出。虽然某些之前的方法允许描绘了在数据中的某些关系的示图,但是,该示图不是交互性的,并且,需要这种专家组花费大量的时间来理解关系。另外,之前方法的输出并不允许说明性数据分析(该分析可被快速修改以发现新的关系)。而是,之前的方法需要在测试之前公式化假说。发明内容提供了用于对数据分析的可视化的示例性系统和方

3、法。在各种实施例中,一种方法包括访问数据库;分析数据库以标识数据的分簇;生成包括多个节点和多个边的交互式可视化,其中,多个节点中的第一节点代表分簇,并且,多个边中的边代表多个节点中的节点的交集;响应于用户动作,选择并拖住第一节点;以及响应于用户选择并拖住第一节点的动作,重定向交互式可视化。在各种实施例中,该方法还包括将数据保存在与所选第一节点相关联的数据库中。该方法可包括选择第二节点并显示关于第一节点和第二节点的信息。在某些实施例中,该方法可包括接收对数据库的数据标识符的选择,并且,加亮显示多个节点中的与选择相关联的某些节点。交互式可视化的第一节点和第二节点基于所选的第一函数被不同地着色。在一

4、个示例中,第一函数是过滤器。该方法还可包括接收第二函数选择,并且,基于第二函数选择来变更第一节点和第二节点的颜色。在各种实施例中,该方法还包括接收间隔值和重叠百分比,基于间隔值和重叠百分比重新分析数据库,以及基于重新的分析来重新生成交互式可视化。另外,该方法可包括在生成后显示交互式可视化的移动,移动是基于对多个节点的视觉最优化的。在某些实施例中,该方法还可包括显示关于第一节点和所选第二节点的统计信息。对数据库的分析是拓扑分析。在某些实施例中,对数据库的分析是非线性数据分析。一种示例性系统,包括处理器、输入模块、分析模块和可视化模块。该输入模块被配置为访问数据库。该分析模块被配置为分析数据库以标

5、识数据的分簇。该可视化模块被配置为生成包括多个节点和多个边的交互式可视化,其中,多个节点中的第一节点代表分簇,并且,多个边中的边代表多个节点中的节点的交集,该可视化模块还被配置为响应于用户动作,选择并拖住第一节点,以及响应于用户选择并拖住第一节点的动作,重定向交互式可视化。一种示例性计算机可读介质可包括指令。指令通过处理器执行以执行一种方法。 该方法包括访问数据库;分析数据库以标识数据的分簇;生成包括多个节点和多个边的交互式可视化,其中,多个节点中的第一节点代表分簇,并且,多个边中的边代表多个节点中的节点的交集;响应于用户动作,选择并拖住第一节点;以及响应于用户选择并拖住第一节点的动作,重定向

6、交互式可视化。图1是实施了实施例的示例性环境。图2是示例性分析服务器的框图。图3是描绘了在某些实施例中的对数据集分析和可视化的示例性方法的流程图。图4是在某些实施例中的示例性ID字段选择界面窗口。图5是在某些实施例中的示例性数据字段选择界面窗口。图6是在某些实施例中的示例性测量标准和过滤器选择界面窗口。图7是在某些实施例中的示例性过滤器参数界面窗口。图8是在某些实施例中的用于数据分析和生成可视化的流程图。图9是在某些实施例中的示例性交互可视化。图10是在某些实施例中显示了说明信息窗口的示例性交互可视化。图11是在某些实施例中的交互式可视化的功能的流程图。具体实施例方式在各种实施例中,此处描述了

7、不同于利用基于文本的方法的用于利用拖放(drag and drop)方法处理、分析并可视化数据的系统。明智地,数据分析工具不必被看做是“解算机(solver)”,而是被看做用于与数据交互的工具。例如,数据分析可包括若干个迭代处理,其中,计算工具指向在数据集中的兴趣区域。然后,数据集可被具有关于数据的领域专长的人检查,并且,数据集可随后受制于进一步的计算分析。在某些实施例中,此处所描述的方法提供在一边的数学构造(包括交互式可视化(例如,示图)和在另一边的数据之间来回反复。在此处所描述的某些实施例中的对数据分析的一个示例中,讨论了可比现有技术更加强大的示例性分簇工具,因为人们可在分簇中找到结构并学

8、习分簇如何在时段中变化或在尺度或分辨率的变化中变化。示例性交互性可视化工具(例如,此处进一步所描述的可视化)可以以可被容易地可视化的示图的形式产生组合输出。在某些实施例中,示例性交互式可视化工具可比当前的方法(诸如,多维定标)对距离的概念中的变更更加不敏感。此处所描述的某些实施例允许对来自可视化的数据的操纵。例如,从可视化被认为是有趣的数据的一部分可被选择并被转换成可随后被进一步分析的数据库对象。此处所描述的某些实施例允许在可视化中的对兴趣点数据的位置,使得在给定可视化和可视化所代表的信息之间的联系可被容易地理解。图1是实施例可被实施的示例性环境100。在各种实施例中,可本地执行数据分析和交互

9、式可视化(例如,通过在本地数字设备上的软件和/或硬件),或通过网络(例如, 经由云计算),或二者的组合。在许多这些实施例中,数据结构被访问以获取用于分析的数据,基于由用户所选择的属性和参数来执行该分析,并且,交互式可视化被生成和显示。在本地执行所有或某些活动和通过网络执行所有或某些活动之间存在许多优点。环境100包括用户设备10 到102、通信网络104、数据存储服务器106和分析服务器108。环境100描绘了功能通过网络被执行的实施例。在该实施例中,一个或多个用户可通过在通信网络104上将数据存储在数据存储服务器106中来利用云计算。分析服务器108可执行分析和对交互式可视化的生成。用户设备

10、10 到102可以是任意数字设备。数字设备是包括存储器和处理器的任意设备。图2中进一步描述了数字设备。用户设备10 到102可以使任意类型的可用于访问、分析和/或查看数据的数字设备,其包括但不限于桌面型计算机、膝上型笔记本、 笔记本或其他计算设备。在各种实施例中,诸如数据分析师的用户可通过用户设备10 生成将要保存在数据存储服务器106中的数据库或其他数据结构。用户设备10 可经由通信网络104与分析服务器108通信,以执行对在数据库中的数据的分析、检查和可视化。用户设备10 可包括用于与一个或多个在分析服务器108上的应用相交互的客户端程序。在其他实施例中,用户设备10 可利用浏览器或其他标

11、准程序来与分析服务器 108通信。在各种实施例中,用户设备10 经由虚拟私用网来与分析服务器108通信。本领域技术人员将理解,可加密或否则保护在用户设备10 、数据存储服务器106和/或分析服务器108之间的通信。通信网络104可以是允许数据设备通信的任意网络。通信网络104可以是因特网和/或包括LAN和WAN。通信网络104可支持无线和或有线通信。数据存储服务器110是被配置为存储数据的数字设备。在各种实施例中,数据存储服务器110存储数据库和/或其他数据结构。数据存储服务器110可以是单个服务器或服务器的组合。在一个示例中,数据存储服务器110可以是安全服务器,其中,用户可在安全的连接上(

12、例如,经由https)存储数据。数据可被加密和备份。在某些实施例中,数据存储服务器106被诸如亚马逊的S3服务之类的第三方所操作。数据库或其他数据结构可包括大的高维度数据集。传统上,这些数据集很难以分析,结果是利用之前的方法可能无法识别在数据中的关系。另外,之前的方法可能是计算低效的。分析服务器108是可被配置为分析数据的数字设备。在各种实施例中,分析服务器可执行许多功能以解释、检查、分析和显示数据和/或数据中的关系。在某些实施例中,6分析服务器108应用由用户所选择的度量标准(metric)、过滤器和分辨率参数来至少部分地执行对大的数据集的拓扑分析。这里分析被进一步在图8中讨论。分析服务器1

13、08可生成对分析的输出的交互式可视化。交互式可视化允许用户观察并探索数据中的关系。在各种实施例中,交互式可视化允许用户选择包括已被分簇的数据的节点。用户可随后访问下面的数据、在下面的数据撒谎能够执行进一步的分析(例如, 统计分析),并且,在交互式可视化中手动重定位一个或多个示图(例如,此处所描述的节点和边的结构)。分析服务器108还可允许用户与数据交互,请参看图形结果。交互式可视化被进一步在图9到图11中讨论。在某些实施例中,分析服务器108在私用和/或安全通信网络上与一个或多个用户设备10 到102交互。用户设备10 可包括允许用户与数据存储服务器106、分析服务器108、另一用户设备(例如

14、,用户设备102)、数据库和/或执行在分析服务器108上的分析应用相交互的客户端程序。本领域技术人员将理解,所有或部分数据分析可出现在用户设备10 处。另外, 所有或部分与可视化(例如,示图)的交互可在用户设备10 上执行。虽然描绘了两个用户设备10 和102,但是,本领域技术人员将理解,在任意位置(例如,彼此远离)中可存在任意数量的用户设备。类似地,可存在任意数量的通信网络、 数据存储服务器和分析服务器。云计算可允许在更快的连接上对大数据集(例如,经由商用存储服务)的更棒的访问。另外,本领域技术人员将理解提供给一个或多个用户的服务和计算资源可以是可扩展的。图2是示例性分析服务器108的框图。

15、在示例性实施例中,分析服务器108包括处理器202、输入/输出(I/O)接口 204、通信网络接口 206、存储(memory)系统208,以及贮存(storage)系统210。处理器202可包括任意处理器或带有一个或多个内核的处理器的组合。输入/输出(I/O)设备204可包括用于各种I/O设备(诸如,例如,键盘、鼠标和显示设备)的接口。示例性通信网络接口 206被配置为允许分析服务器108与通信网络104 通信(参见图1)。通信网络接口 206可支持在以太网连接、串行连接、并行连接和/或ATA 连接上的通信。通信网络接口 206还可支持无线通信(例如,802. lla/b/g/n, WiMa

16、x, LTE, WiFi)。对本领域技术人员而言,将很显然,通信网络界面206可支持许多有线和无线标准。存储系统208可以是任意类型的存储器,包括RAM、ROM或闪存、高速缓存、虚拟内存等。在各种实施例中,工作数据被存储在存储系统208中。在存储系统208中的数据可被清除或最终转移到贮存系统210。贮存系统210包括任意被配置为检索并存储数据的贮存器。贮存系统210的某些示例包括闪存驱动、硬盘驱动、光驱动和/或磁带。存储系统208和贮存系统210中的每一个包括计算机可读介质,该计算机可读介质存储由处理器202所执行的指令(例如,软件程序)。贮存系统210包括多个由本发明的实施例所利用的模块。模块可以是硬件、软件 (例如,包括由处理器可执行的指令)、或二者的组合。在一个实施例中,贮存系统210包括处理模块212,该处理模块212包括输入模块214、过滤模块216、分辨率模块218、分析模块220、可视化引擎222和数据库存储224。分析服务器108和/或贮存系统210的可替换实施例可包括更多、更少或功能上等同的组件和模块。输入模块

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号