基于文本挖掘的创业板股票风险关系研究 张颖莹

上传人:yanm****eng 文档编号:594974 上传时间:2017-04-09 格式:PDF 页数:17 大小:1.01MB
返回 下载 相关 举报
基于文本挖掘的创业板股票风险关系研究 张颖莹_第1页
第1页 / 共17页
基于文本挖掘的创业板股票风险关系研究 张颖莹_第2页
第2页 / 共17页
基于文本挖掘的创业板股票风险关系研究 张颖莹_第3页
第3页 / 共17页
基于文本挖掘的创业板股票风险关系研究 张颖莹_第4页
第4页 / 共17页
基于文本挖掘的创业板股票风险关系研究 张颖莹_第5页
第5页 / 共17页
点击查看更多>>
资源描述

《基于文本挖掘的创业板股票风险关系研究 张颖莹》由会员分享,可在线阅读,更多相关《基于文本挖掘的创业板股票风险关系研究 张颖莹(17页珍藏版)》请在金锄头文库上搜索。

1、基于文本挖掘的创业板股票风险问题研究投资者 情绪和投资者关注 视角张颖莹上海财经大学目录 研究背景和意义 相关知识和文献综述 研究思路与方法 投资者情绪和投资者关注指数建立 网络信息与创业板风险关系实证研究 创新点与不足总结 未来研究展望研究背景基于文本挖掘的创业板股票风险关系研究 -投资者情绪和投资者关注视角 张颖莹 3 中国创业板市场风险风险的界定: (广义 )不确定性 创业板大盘成交量、价格的波动(狭义 )损失的不确定性 创业板市场的异象:新股破发新股破发:上市首日收盘价低于发行价 行为金融学行为金融学的核心包括噪声交易、投资 者 情绪理论 投资者关注度理论 网络信息新闻、论坛、搜索引擎

2、 大数据时代的文本挖掘研究意义基于文本挖掘的创业板股票风险关系研究 -投资者情绪和投资者关注视角 张颖莹 4 理论意义完善行为金融学 理论比较文本分类算法的效率 现实意义监管部门网络舆情监控投资者有效决策创业板走势预测和风险监控相关知识和文献综述基于文本挖掘的创业板股票风险关系研究 -投资者情绪和投资者关注视角 张颖莹 5 网络变量与股票市场关联的研究现状网络变量并非噪音数据源研究视角对于不同的市场有不同的具体关系股票论坛投资者情绪指数确定基于文本挖掘的创业板股票风险关系研究 -投资者情绪和投资者关注视角 张颖莹 6 数据获取:编写爬虫 东方财富股吧(创业板吧 30125条帖子和 45支个股吧

3、 61921条帖子) 论坛帖子情感分类:人工标注: 3000帖子的情感(噪音、中性 、 积极、消极) 5人标注取众数编程实现:分词(导入自定义词典和停用词表)特征 表示( VSM 向量空间 模型)特征选择(卡方统计)分类器: 朴素贝叶斯算法 NB、支持向量机 SVM算法性能评估:训练集 和测试集( 5: 1),根据查全率和查准率综合值 F1选择最佳分类器股票论坛投资者情绪指数确定基于文本挖掘的创业板股票风险关系研究 -投资者情绪和投资者关注视角 张颖莹 7分类器BernoulliNBSVC(rbf) LinearSVC特征维度500 0.688889 0.422222 0.6888891000

4、 0.711111 0.433333 0.7222221500 0.711111 0.433333 0.7777782000 0.711111 0.433333 0.7222222500 0.711111 0.433333 0.7666663000 0.711111 0.422222 0.744444注:特征维度是 1500分类器BernoulliNB SVC(rbf) LinearSVC特征表示方法将所有词作为特征0.611111 0.4 0.6555560.488889 0.366667 0.5555560.577778 0.433333 0.7111110.711111 0.433333

5、 0.7555560.711111 0.433333 0.777778股票论坛投资者情绪指数确定基于文本挖掘的创业板股票风险关系研究 -投资者情绪和投资者关注视角 张颖莹 8搜索引擎投资者关注指数确定基于文本挖掘的创业板股票风险关系研究 -投资者情绪和投资者关注视角 张颖莹 9 数据获取百 度指数 VS谷歌趋势Matlab处理图像的技术 +手工整理 大盘2011年 1月 4日至 2014年 2月 21日所有交易日关键词“创业板指数”的百度指数,共计 757条记录 45支个股每支个股上市前后 10天的关键字搜索强度注:关键字采取 股票 名称和股票代码相结合 指标体系 计量方法相关性分析平稳性检验

6、协整检验(长期稳定关系)格兰杰因果分析向量自回归 VAR模型、脉冲响应分析(探究变量随机扰动的影响)实证研究 1网络信息与创业板大盘风险关系基于文本挖掘的创业板股票风险关系研究 -投资者情绪和投资者关注视角 张颖莹 10股市变量 网络变量创业板指数 发帖量收益率 乐观情绪指数成交量 意见分歧指数波动率 搜索强度实证研究 1网络信息与创业板大盘风险关系 重要结果基于文本挖掘的创业板股票风险关系研究 -投资者情绪和投资者关注视角 张颖莹 11变量 1 变量 2 是否协整发帖量 创业板指数 不协整成交量 不协整搜索强度 创业板指数 协整成交量 协整表 4协整检验结果原假设 F统计量 P值 结论发帖量

7、不是创业板指数的格兰杰原因 2.89824 0.0343 拒绝原假设创业板指数不是发帖量的格兰杰原因 2.66485 0.0469 拒绝原假设意见分歧指数不是成交量的格兰杰原因 4.55938 0.0012 拒绝原假设收益率不是乐观情绪指数的格兰杰原因 10.192 0.0015 拒绝原假设波动率不是搜索强度的格兰杰原因 3.2179 0.0124 拒绝原假设表 5格兰杰因果检验结果实证研究 2创业板新股破发成因探究基于文本挖掘的创业板股票风险关系研究 -投资者情绪和投资者关注视角 张颖莹 12因变量 自变量首发抑价率 市场指标 创业板指数发行指标 首发价格首发数量 单位 股发行前总股本 单位

8、 股首发市盈率 PE首发募集资金 单位 元每股发行费用首发超募资金 单位 元机构参与情况指标 大股东持股比例 单位 %限售股比例 单位 %财务指标 资产收益率 ROA净资产收益率 ROE论坛指标 上市当天发帖量前十天发帖量后十天发帖量前十天情绪指标前十天意见分歧后十天情绪指标后十天意见分歧当天情绪指标当天意见分歧搜索引擎指标 上市前十天平均搜索强度上市当日搜索强度上市后十天平均搜索强度上市前五天平均搜索强度上市后五天平均搜索强度实证研究 2创业板新股破发成因探究 相对于未考虑网络变量的模型,拟合优度从 67%提升到了 93% 运用十折交叉检验法发现预测准确率 从 60%-70%提高到了 80%

9、-90%。基于文本挖掘的创业板股票风险关系研究 -投资者情绪和投资者关注视角 张颖莹 13实证结论基于文本挖掘的创业板股票风险关系研究 -投资者情绪和投资者关注视角 张颖莹 14 结论( 1) 股市变量与网络变量的总体关系( 2)股市变量与网络变量的具体关系( 3)网络信息对创业板股票破发的 影响 建议( 1)完善对论坛、搜索引擎等网络平台的监管( 2)增加公司信息披露,减少信息不对称性( 3)加强投资者教育,引导情绪,促进其理性投资( 4)利用网络变量预测股市走势 ,开发 敏捷预警系统创新点与不足基于文本挖掘的创业板股票风险关系研究 -投资者情绪和投资者关注视角 张颖莹 15 创新点( 1) 研究视角 方面( 2) 数据来源 方面( 3) 文本 分类 实现路径( 4)计量 模型建立 不足( 1) 缺乏股市的高频 数据( 2) 样本容量 有限( 3) 未考虑 帖子回帖未来研究展望基于文本挖掘的创业板股票风险关系研究 -投资者情绪和投资者关注视角 张颖莹 16 进一步 丰富数据源 拓展 研究的股票 板块 提升 文本挖掘 能力 建立综合 型 股票 风险监控系统谢谢大家!恳请大家批评指正。基于文本挖掘的创业板股票风险关系研究 -投资者情绪和投资者关注视角 张颖莹 17

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号