数据挖掘在信息披露中的应用翻译剖析

资源描述

《数据挖掘在信息披露中的应用翻译剖析》由会员分享，可在线阅读，更多相关《数据挖掘在信息披露中的应用翻译剖析（12页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘在信息披露中的应用基于台湾股票市场投资者服务角度目录一、引言1（一）研究背景1（二）研究意义2二、文献综述2（一）信息披露2（二）股权结构与信息披露3（三）数据挖掘3（四）由决策树提取分类规则4（五）提高精度5三、实证研究5（一）数据准备5（二）论文结构6（三）实证结果7四、结论10五、论文评析11数据挖掘在信息披露中的应用基于台湾股票市场投资者服务角度 Chi-Lin Lu Ta-Cheng Chen 摘要：金融理论与实践在过去几十年已经证明无论公司监管的重要性无论是公司经营还是保护投资者。信息披露作为公司监管的一个关键环节，信息披露现状良好有助于有效地减少公司内部和外部信息不对称和

2、代理成本。然而投资者在下一年度官方报告出来之前很难评估上市公司信息披露的现状。该研究的主要目的是挖掘上市公司（台湾股票市场）信息披露现状中的隐含知识模型。本文主要的运用决策树算法探索对台湾股票市场上市公司的信息透明度水平进行分类的分类规则。与此同时，利用boosting（提升）构建多分类器模型。数据结果表明，多分类器模型降低了一类错误和二类错误，提高了分类精度。特别地，数据挖掘的方法可以发展成类似于专家咨询系统用于预测上市公司信息披露现状并对其进行分类的计算机模型。关键词：信息披露；数据挖掘；分类规则。一、引言（一）研究背景最近几年类似于美国安然公司和世界通信公司会计丑闻事件的爆发，对实务界和

3、学术界都敲响了警钟需要更加关注公司监管。此类问题的出现大多是由于公司内部与外部信息不对称。国际经济合作与发展组织（OECD）已经提出以公司监管作为直接的监管系统，通过透明度和效率机制实现公司价值最大化。OECD在2004年发布了公司监管的6个原则，在这6个原则中，信息披露原则是保证内部和外部治理机制是否发挥作用的关键的原则。内部和外部治理机制是由世界银行在1999年定义的，其主要内容如下：内部控制包括董事会的监管、管理层的工资薪酬激励计划（避免产生委托代理成本）等；外部控制包括外部审计、政府和投资者监管等。这两大监管发挥作用的效果大小依赖于公司信息披露的质量。某些上市公司倾向于发公司有利的消息

4、布对消息而隐瞒对自己不利的消息，该行为违背了信息披露准则，且存在隐瞒不利消息的上市公司往往已经出现财务问题。全世界的股票市场当局应该对上市公司披露的信息进行监管和评估，以维护投资者和公众的利益。（二）研究意义信息披露不仅仅是将其年度评估报告和年度财务报告公布或者上传至网上。根据美国2002年公众公司会计改革和投资者保护法案规定公司披露的信息在保证其准确性以外必须涵盖以下方面：资产负债表外的业务、模拟财务信息、大股东的股票交易信息、管理层对内部控制的评估报告、首席执行官的职业资格、财务专家的意见等。显而易见地是，普通投资者甚至专业投资者有时很难理解公司披露的信息，因而，我们永远无法知道披露的信息

5、是否准确地描述了真实的情况，只有权威机构才能鉴别信息是否真实。为更好地理解上市公司的透明度，台湾证券与期货交易所对所有上市公司的信息透明度水平进行了调查，尽管调查报告是年度报告，但是其经常花费超过一年的时间完成该工作。因此，即使投资者在知道该过期报告后也不能做什么改变。（信息公布不及时，信息具有时效性）。同时，信息披露和公司的经营业务有明显的关系。Chen ，Jaggi (2000) 和Eng ， Mak (2003)利用数据挖掘的方法证明了信息披露状况和公司所有权、董事会构成、企业特征等存在联系。本文应用数据挖掘技术发展了透明度评估方法，有助于投资者理解公司经营管理情况，及时地做出正确的投资

6、决策。本文的创新之处在于，之前很少有人将数据挖掘技术应用到该领域用决策树方法挖掘股权结构和公司特征的数字特征，本文构建的模型可以及时地对处于不同股权结构和公司特征下的具有不同透明度水平的上市公司的信息披露现状进行预测和分类和预测，而不需要等待下一年度的官方报告，（与传统专家对信息披露状况进行事后评估相比，应用本文构建的模型进行预测和分类更具有时效性）。二、文献综述（一）信息披露现代公司理论表明公司监管的主要问题是公众和公司内部信息不对称问题。投资者希望上市公司公布高质量的信息的需求激发了对上市公司信息透明度需求。信息透明度高的上市公司在股票市场上股票价格更高。Ball ，Brown (1968

7、)应用事件研究法得出公布会计盈余对股票价格具有正向影响。Amir ，Lev (1996) 和 Eng，Mak (2003)的研究成果表明财务信息对公司股票价格和公司价值有显著的正向影响。Verrecchia (1983)指出信息披露可以应用于公司监管和减少代理成本的问题，尽管需要付出一些代价，但是投资者对信息透明度更高的信息更有投资信心。Bushee 和Noe (2000)研究信息披露和急购投资者的关系，结果表明机构投资者更倾向于投资透明度高的公司，而不是透明度较低的公司。Sandeep, Amra,和Liliane (2002)通过对四大新兴市场的研究发现信息披露也是公司监管的重要一环。以上

8、研究表明，信息披露在公司监管中占有重要地位。（二）股权结构与信息披露股权结构决定了监控程度，从而决定了信息披露的程度，研究表明股权结构与信息披露之间存在着强相关关系。Cerf(1962)证明信息披露程度和公司特征如公司规模、管理层持股比例，杠杆作用等之间存在显著关系。最近关于信息披露和股权结构的实证研究表明公司监管和股票持股披露情况有显著关系。Chen和Jaggi (2000)检验了独立非执行董事和信息披露状况的关系。Eng 和 Mak (2003)概况了股权结构和信息披露的意愿的联系。以上研究表明，股权结构会影响信息披露现状，但是没有解释如何影响信息披露。（三）数据挖掘数据挖掘经常被定义是

9、挖掘隐含的、未知的、潜在的、有价值的信息的一种方法，它可以被看成一个在某些特定领域的知识发现的形式。基于数据挖掘技术，将会建立可以进行预测和对主要问题进行分类的响应模型，比如像专家系统这样的模型。现实研究中，很多问题都是非线性关系，因此很难形成一个较为全面的模型（一个考虑所有变量相互独立的传统统计模型）。众所周知，得益于数据获取和存储速度快、便宜等优点，存储在数据库里的数据以惊人的速度增长，与此同时也使得知识模型越来越难被发掘和为实践服务。如果数据挖掘技术能被应用到诊断信息披露和公司经营情况的关系中，投资者在投资时将会获得更多指导性意见。最近，非线性和复杂机器学习方法已经得到运用，如神经网络法

10、、支持向量机（SVM）、蚁群算法、遗传算法与SVM或者神经网络结合的方法、模糊理论和粗糙集理论结合等方法。虽然上述文献论述了神经网络和支持向量机的重要意义，但无法建立模型和运用模型进行分类仍是上述研究的主要缺陷。在训练后的神经网络和支持向量机根据网络的内部分布赋权，其存在的主要问题是无法解释为什么这么赋权是有效的。如果一个显性规则能被引入到赋权过程中而不是多层前馈网络赋权，则该规则对于隐含知识的获取是相当有价值的。基于数据挖掘技术，Wei & Dong（2006）列出6种模型如下所列：分类、聚类、关联规则、序列模式、估计和预测。因此，当决策树模型用于解决分类问题时，与此相关的If-Then规

11、则也被引入该模型。本文决策树分类模型区分信息披露状况良好的公司和信息披露状况较差的公司。分类规则可被用于构建一个标准分类规则模型，解决复杂问题的标准化问题。Roiger & Geatz（ 2003）运用multiple-model 方法提高分类精度。这些数据挖掘方法已经广泛应用销售、银行、医学、制造业、客户关系管理领域，但是应用数据挖掘技术分析上市公司的信息披露问题较为少见。（四）由决策树提取分类规则决策树在分类和预测中较为常用。Han & Kamber（2006）指出以决策树为基础的分类并不需要行业信息和参数设置，因此，决策树分类是较为合适的知识挖掘的一种方法。决策树是一种类似于流程图的树结

12、构，其中内部结点（非树叶结点）表示一个或者多个属性的测试，终端结点反映决策结果。显而易见，决策树可以转化为显式分类规则。各种决策树算法在各文献中被广泛应用。决策树归纳发展历程为：20世纪70年代后期到80年代初期，Quinlan(1986)开发迭代二分器（ID3）,随后开发C4.5（ID3的后继），成为新的监督学习算法的性能比较基准。1984年多位统计学家（L. Breiman, J. Friedman,R. Olshen和 C. Stone (Han & Kamber, 2006)）出版著作classification and regression tree (CART)一书介绍二叉决策树的

13、产生，CATR只支持一代二叉决策树即每个母节点最多只有两个子节点。相反的，C4.5算法母节点可以生成两个以上的子节点即一个母节点可以生成各种各样的分支。C4.5和CATR都采用非回溯方法这种自顶向下递归的分治方式构造的方法，但是C4.5应用树剪枝对数据进行筛选剔除分支中的噪声和训练数据中的异常值。C4.5比其他决策树算法应用更广。规则是表示信息和少量知识的好方法，基于规则的分类器使用一组If-Then规则进行分类。一个If-Then规则是一个如下形式的表达式：If 条件Then 结论（分类）。对于一个给定元组，如果规则前件中的条件（即所有的属性测试）都成立，则而我们说规则前件被满足（或者简单地

14、说规则被满足），并且覆盖了该元组。如果这些If-Then规则可以被提取，这意味着可将潜在和有价值的知识转化为显性知识。这种If-Then规则可以从决策树规则中提取，且If-Then规则更易于理解，特别是决策树特别庞大复杂。由决策树的每一个从根点到叶子节点的分枝都可以得到一条用于判断数据元组类别的规则。每一个节点的分类标准是由逻辑连接词and构成的规则前件，规则的结论包含类预测。逻辑词or用于元组分类时可按任意次序使用规则，每个规则之间是析取（or）关系，但是该种规则更难理解且结果更难解释，还可能会造成不相关和过度属性测试。因此，为使规则集简明扼要，修剪规则集是很有必要的。对于给定的规则前件，不

15、能提高规则的估计准确率的任何条件都可以剪掉（即删除）。C4.5具有对不必要规则的进行修剪从而提高分类精度的优势。（五）提高精度除了决策树中引入剪枝技术可提高精度以外，组合分类器也是常用方法之一。bagging(装袋）和 boosting（提升）是常用的组合分类方法。两种分类方法都可用于分类和预测。两种组合分类方法都把k个学习得到的模型（或者基分类器）组合在一起，创建一个改进的复合分类模型。给定一个待分类元组，每个基分类通过返回类预测投票，组合分类器基于分类器的投票返回类预测。处理未知数据分类的问题时，与bagging(装袋）相比，boosting（提升）往往得到更高的准确率（(Roiger

16、& Geatz, 2003)。三、实证研究本文研究运用SPSS中的C5.0 of Clementine版块处理信息分类，C5.0是C4.5决策树算法的最新版本。本文希望可以为投资者为评估台湾上市公司信息披露程度提供隐形知识（即发掘已披露信息中所隐含的信息），从而帮助投资者投资于好的公司。（一）数据准备根据Chen等研究，本文选择了17个和信息透明度可能高度相关的特征变量和1个信息披露变量。数据来源TEJ资料库和证券暨期货市场发展基金会。每个公司信息披露的数据包括18个变量（见表1）。18个变量中的第一个变量是反映各公司信息披露现状的变量（好或者坏），在调查的389家公司里面，信息披露现状较好的公司有114家（占比29.31%），信息披露现状较差的有275家公司（占比70.69%）。表1涵盖的主要内容为：信息

展开阅读全文