一小时建立数据分析平台_光环大数据培训

上传人:gua****an 文档编号:52361968 上传时间:2018-08-20 格式:DOCX 页数:18 大小:3.08MB
返回 下载 相关 举报
一小时建立数据分析平台_光环大数据培训_第1页
第1页 / 共18页
一小时建立数据分析平台_光环大数据培训_第2页
第2页 / 共18页
一小时建立数据分析平台_光环大数据培训_第3页
第3页 / 共18页
一小时建立数据分析平台_光环大数据培训_第4页
第4页 / 共18页
一小时建立数据分析平台_光环大数据培训_第5页
第5页 / 共18页
点击查看更多>>
资源描述

《一小时建立数据分析平台_光环大数据培训》由会员分享,可在线阅读,更多相关《一小时建立数据分析平台_光环大数据培训(18页珍藏版)》请在金锄头文库上搜索。

1、 光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/一小时建立数据分析平台一小时建立数据分析平台_ _光环大数据培训光环大数据培训光环大数据培训机构,优秀的数据分析平台,首先要满足数据查询、统计、多 维分析、数据报表等功能。可惜很多分析师,工作的第一年,都是埋葬在 SQL 语句中,以 SQL+Excel 的形式完成工作,却用不上高效率的工具。今天教大家如何搭建一套数据分析平台。它可能是最简单的搭建教程,有一点 Python 基础都能完成。比起动辄研发数月 的成熟系统,借助开源工具,整个时间能压缩在一小时内完成。优秀的数据分析平台,首先要满

2、足数据查询、统计、多维分析、数据报表等功 能。可惜很多分析师,工作的第一年,都是埋葬在 SQL 语句中,以 SQL+Excel 的形式完成工作,却用不上高效率的工具。说 Excel 也很好用的同学,请先回避一下。另外一方面,以互联网为代表的公司越来越重视数据,数据获取不再是难点, 难点是怎样敏捷分析获得洞察。市面上已经有不少公司推出企业级的分析平台和 BI,可惜它们都是收费的。我 相信不少读者听说过,但一直没有机会体验,或者老板们囊中羞涩。现在,完 完全全能免费建立一套 BI 系统,即可以单机版用以分析,也能私有化部署到服 务器,成为自家公司的分析工具。光环大数据光环大数据-大数据培训知名品牌

3、大数据培训知名品牌http:/ 光环大数据光环大数据 http:/这一切,只需要一小时。SupersetSuperset 是一款轻量级的 BI 工具,由 Airbnb 的数据部门开源。整个项目基于 Python 框架,不是 Python 我也不会推荐了,它集成了 Flask、D3、Pandas、SqlAlchemy 等。这是官网的案例(本来是动图的,可惜压缩后也超过微信图片大小限制,吐槽下), 想必设计界面已经能秒杀一批市面上的产品了,很多 BI 真的是浓烈的中国式报 表风因为它的前端基于 D3,所以绝大部分的可视化图表都支持,甚至更强 大。光环大数据光环大数据-大数据培训知名品牌大数据培训知

4、名品牌http:/ 光环大数据光环大数据 http:/Superset 本身集成了数据查询功能,查询对分析师那是常有的事。它支持各类 主流数据库,包括 MySQL、PostgresSQL、Oracle、Impala、SparkSQL 等,深度 支持 Druid。后台支持权限分配管理,针对数据源分配账户。所以它在部署服务器后,分析 师们可以通过它查询数据,也能通过数据建立 Dashboard 报表。介绍了这么多,想必大家已经想要安装了吧。安装安装Superset 同时支持 Python2 和 Python3, 我这里以 Python3 作为演示。它支持 pip 形式的下载,不过我不建议直接安装,

5、因为 Superset 的依赖包较多,如果 直接安装,很容易和现有的模块产生冲突。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/这里需要先搭建 Python 的虚拟环境。虚拟环境可以帮助我们在单机上建立多个版本的 Python。简而言之,即可以 Python2 和 Python3 共存,也能 Python3.3、3.4、3.5 共济一堂,彼此间互相独立。虚拟环境的安装方式很多,pyenv 和 virtualenv 等。这里用 Anaconda 自带的conda 工具。打开电脑终端/cmd,输入以下命令。conda create -n

6、superset python=3.4conda create 是创建虚拟环境的命令。-n 是环境的命名参数,在这里,我们创 建了名为 superset 的环境,它安装在 Anaconda 的 envs 目录下。python 版本 为 3.4(superset 暂时不支持 3.6)。该命令只会安装基础包,如果需要额外安装其他包,在命令行后加上想要的包 名字即可,如 python=3.4 numpy pandas。安装很迅速,完成后,我们的 Python 环境还是默认版本,现在需要激活虚拟环 境。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 htt

7、p:/source activate supersetsource activate 是激活命令,superset 为想要激活的虚拟环境名。windows 和 mac 的命令不一样,win 只要 activate superset 。如果要退出,则是 source deactivate 或者 deactivate。激活成功后,命令行前面会多出一个前缀(superset),表明切换到了新的虚拟 环境。接下来安装 superset。pip install supersetpip 会自动安装所有的依赖,速度可能有点慢,建议更改 pip 源。命令行后加上 -i https:/ ,我这里用了豆瓣的镜像

8、源,速度嗖嗖的。如果安装过程中报错,是部分程序缺失,像系统比较老旧的 win 用户,需要安 装新版的 visual c+,网上搜索教程即可。在官网的教程中,还要求 pip install cryptography=1.7.2,我没有安装也没有影响,供大家参考。其他报 错,都可以通过搜索解决。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/安装成功后,需要进行初始化配置,也是在命令行输入。fabmanager create-admin -app superset首先用命令行创建一个 admin 管理员账户,也是后续的登陆账号。会依次提示

9、输入账户名,账户使用者的 first name、last name、邮箱、以及确认密码。 fabmanager 是 flask 的权限管理命令,如果大家忘了密码,也能重新设立。superset db upgrade初始化数据源。superset load_examples载入案例数据,这里的案例数据是世界卫生组织的数据,也是上文演示的各类 可视化图表,大家登陆后能够直接看到。下载速度还行。superset init初始化默认的用户角色和权限。superset runserver最后一步骤,启动 Superset 服务。因为我们是本地环境,所以在浏览器输入 http:/localhost:808

10、8 即可。在 runserver 后面添加 -p XXXX 可更改为其他端口。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/进入登陆界面,输入登陆密码,大功告成。使用使用先别急着使用,因为 Superset 是英文,我们先把它汉化了。Superset 自身支 持语言切换。进入到 Superset 所在目录文件,按我之前的步骤,应该在 anaconda/envs/superset/lib/python3.4/site-packages/superset 中,路径 视各位情况可能有差异。在目录下有一个叫 config.py 的文件,打开它

11、,找到 Setup default language 这一行,修改变量。BABEL_DEFAULT_LOCALE 调整为 zh,这样界面默认为中文。languages 字典中 zh 前面的注释#去掉。保存后退出。接下来还是在 Superset 的目录下新创建文件夹,按 translations/zh/LC_MESSAGES 的路径依次创建三个。Superset 官网提供了汉 化包,在最大的同性交友网站 github 上下载,目录为:光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/https:/ superset/blob/master/

12、superset/translations/zh/LC_MESSAGES/messages.mo网址路径有点长,下载后把 mo 文件放在 LC_MESSAGES 文件下。清除浏览器的缓存,重新登陆 localhost。搞定!需要注意的是,它并非完全汉化,而是汉化了 superset 相关的部分。部分文字 被写入在 flask app 的文件中,汉化起来比较麻烦。Superset 分为多个模块,安全模块是账号管理相关,包括角色列表,视图权限 控制,操作日志等。管理模块没什么用,主要是设计元素。数据源可以访问和连接数据库,切片是各类数据可视化,均是单图;看板即为 Dashboard,是切片的集合,

13、Superset 提供了三个初始案例,SQL 工具箱是数据 查询平台。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/麻雀虽小,五脏俱全,对于大部分中小型的企业,Superset 足以应付数据分析 工作。先学习连接数据库,这里以我电脑中的数据库为准,如果大家学习过早前的教 程,那么数据库中都应该有数据分析师的练习数据,我这里不重复了,可以看 历史文章。也可用自带的卫生数据照着练习。Superset 使用了 sqlalchemy 框架,使用前需要安装数据库驱动程序,先退出 runserver,进入 superset 虚拟环境,安装 Python 中的 MySQL 驱动程序。pip install pymysqlMySQL 的驱动程序很多,除了 pymysql,还有 mysqlclient 等。安装好后,进入 数据源,新建一个 database 连接。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/在 SQLAlchemy URL 中加入数据库的地址,格式为:mysql+pymysql:/root:xxxxlocalhost:3306/qin?charset=utf8mysql 是数据库类型,pymysql 是驱动程序,表示用 pymysql 连接 my

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 数据结构与算法

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号