1、硕士专业学位论文基于Web的金融数据收集与智能分析系统的设计与实现Design and Implementation of Financial Data Collection andIntelligent Analysis System Based on Web作者:蔡海峰导师:孔令波讲师北京交通大学2015年6月(illllRHY2917247学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供査阅和借阅。 同意学校向国家有

2、关部门或机构送交论文的复印件和磁盘。(保密的学位论文在解密后适用本授权说明)学位论文作者签名:签字日期:3毬年(月日签字日期;年乳月8日力方数据北京交通大学硕士专业学位论文基于Web的金融数据收集与智能分析系统的设计与实现Design and Implementation of Financial Data Collection andIntelligent Analysis System Based on Web作者姓名:蔡海峰学号:13126056导师姓名孔令波职称:讲师工程硕士专业领域:软件工程学位级别:硕士北京交通大学2015年6月致谢本论文的工作是在导师的悉心指导下完成的,孔令波老师

3、严谨的治学态度和 科学的工作方法给了本人极大的帮助利影响。在此衷心感谢两年来孔令波老师对 本人的关心和指导。孔令波老师悉心指导本人完成了实验室的科研工作,在学习上和生活上都给 予了很大的关心和帮助,在此向孔令波老师表示衷心的谢意。孔令波老师对于本人的科研工作和论文都提出了许多的宝贵意见,在此表示 衷心的感谢。在撰写论文期间,同学们和同事们对本人论文中的研究工作给予了热情帮助, 在此向他们表达本人的感激之情。另外也感谢家人,他们的理解和支持使本人能够在学校专心完成学业。丿j方数据北京交通大学硕士专业学位论文ABSTRACT摘要该项目来自于本人实习期间所在的公司汤森路透(北京)。作为一家信息提 供

4、商,汤森路透所提供的信息质量和信息服务是至关重要的。在如今的信息时代, 人们己经被信息的洪流所包围。数据已经渗透到当今每一个行业和业务职能领域, 成为重要的生产因素。数据化信息资源已经成为推动社会进步和经济增长得战略 性资源。汤森路透金融交易业务部的数据分析师们每天都需要面对来自全球250 多家证券交易所、几百个场外交易市场的实时数据和历史数据。如果仅依靠数据 分析师们手工去收集和分析这些数据是不现实的。将这一过程实现自动化,开发了这套基于Wbb的金融数据收集与智能分析系 统ACE (Accelerated Content Engine) o ACE系统后台可以帮助分析师全自动化采集实时交易数

5、据,然后将采集到的数据进行自动分析处理或者分发处理。ACE系 统前台为数据分析团队提供了自动化的数据检查和半自动化数据分析功能。本人结合汤森路透数据分析师的业务流程开发了该系统,具体工作如下:(1) 完成了该系统的需求分析,本人在学习软件工程相关课程基础上,通过与 ETI (ExchangeTrade Instrument)和Corax团队的分析师进彳亍需求调研后,完成了 该系统的需求分析工作。 完成了该系统的设计与实现,包括ControllingMaster采集子系统、 DataDistribution分发处理子系统和数据库的设计。(3) 釆集子系统的设计和实现,包括AppEngnes爬虫引

6、擎模块、AppEngine Wrapper调度模块、AppHost (SlaveHost)爬虫引擎工厂模块。(4) 分发处理子系统的设计和实现。包括ACE Web UI (User Interface)半自 动化数据处理界面模块、ACE Fully Automation全自动化数据处理模块。(5) 进行了系统测试,系统功能调试通过后,还分别执行了白盒测试和黑盒测 试。该系统已经完成,并在汤森路透数据分析师团队投入使用,运行期间一切正 常,未出现大的问题。从功能上基木实现了数据采集和数据智能分析的需求,具 有一定的实用性。关键词:爬虫;数据采集;数拯分析;自动化ABSTRACTThis proj

7、ect comes from my internship company Thomson Reuters (Beijing). As an information provider, it is crucial to provide the qualified information and qualified information service. In the information age, we are surrounded by the torrent of information. Nowadays, data is needed by every industry and bu

8、siness functional areas and become an important factor of production. Digital information has become the strategic resources to promote social progress and economic growth. The data analysts in the financial trading department of Thomson Reuters have to deal with the real-time data and historical da

9、ta from more than 250 stock exchanges or hundreds of over-the-counter markets around the world every day. It is unrealistic to collect and analyze the data only by human work.In order to realize the automation of the process, we develop the system ACE (Accelerated Content Engine) of financial data c

10、ollection and intelligent analysis based on Web. The background of ACE system can help analysts get the real-time trading data with full automatization, then the collected data for automatic analysis process or distribution process. The foreground of ACE system provides automated data checking and s

11、emi-automated data analysis function for data analysis team.Combined with the analysts1 business processes, this system was developed.Details of the work are as follows:(1) Completing the demand analysis of the systenL Based on my study of software engineering courses and my survey of demanding with

12、 the analysts of ETI (Exchange Trade Instrument) and Corax, I completed the system demand analysis.(2) Completing the overall architecture design and initial implementation of the system. ACE system includes ControllingMaster acquisition subsystem, DataDistribution distribution processing subsystem

13、and the design of the database.(3) The design and implementation of the collecting subsystem. Including App Ermines the crawler engine module, scheduler module of Wrapper and the module of crawler engine plant of App Host (Slave Host).(4) The design and implementation of the distributed processing s

14、ubsystem. Including ACE Web UI (User Interface) semi automatic data processing interface module, ACE Fully Automation automatic data processing module.(5) Testing the system. After the completion of system function debugging, I tested the white box and black box respectively.IV丿J方数据北京交通大学硕士专业学位论文ABS

15、TRACTThe system has been completed and used in the data analyst team of Thomson Reuters. It works well and meets the demands of data acquisition and intelligent analysis. It is very advanced and practical.KEYWORDS: Web Crawler; Data Acquisition; Data Analysis; Automation丿J方数据北京交通大学硕上专业学位论文目录目录摘要iiiABSTRACTiv1绪论11.1系统开发背景11.2系统要解决问题21.3 本人工作总结31.4论文组织结构31.5本章小结42相关技术介绍52爬虫技术52.2分词技术82.3负载均衡技术92.4 AngularJS 框架92.5 MVC 模式102.6緻捷开发模式112.7本章小结113系统的需求分析123.1系统概论123.1.1 需求调研123.1.2用户角色划分133.2系统功能性需求133.2.1 登录注册功能需求143.2.2 公告处理功能需求15323公告分发功能需求163.



