文档详情

基于MD&A文本和深度学习模型的财务报告舞弊识别

杨***
实名认证
店铺
DOCX
323.74KB
约25页
文档ID:316646549
基于MD&A文本和深度学习模型的财务报告舞弊识别_第1页
1/25

    基于MD&A文本和深度学习模型的财务报告舞弊识别    赵纳晖 张天洋【摘 要】 财务报告舞弊是企业舞弊的手段之一,不仅会导致会计信息失真,而且会危害经济的健康发展,因此,如何克服传统的人工检测和基于数值指标的浅层模型识别等方法的弊端,找到一种更为高效的智能化识别方法具有重要的现实意义选取2015—2019年间存在舞弊行为的A股上市公司定期报告,以其中的管理层讨论与分析章节(Management Discussion and Analysis,MD&A)为样本,同时确定了规模相同的控制样本,通过实证研究对比了深度学习模型和以往常用的浅层模型在检测财务报告舞弊时的性能结果表明,在规模对等的舞弊和非舞弊类财务报告组成的文本数据集上,深度学习模型表现出明显优于基准模型的分类性能研究结果为利用MD&A文本数据和深度学习方法识别企业财务报告舞弊的有效性提供了直接的证据Key】 财务报告舞弊识别; 管理层讨论与分析; 文本数据; 深度学习; 卷积神经网络F239.1  A  1004-5937(2022)08-0140-10一、引言由于财务舞弊可能引发严重的经济和社会问题,有效识别舞弊成为会计和财务领域的研究热点。

财务报告舞弊因其发生频率相对较低,且通常由行业内具有丰富知识和从业经验的人实施,企业很容易掩盖这类舞弊行为2021年《关于依法从严打击证券违法活动的意见》提出,要依法严厉查处证券违法犯罪案件,加强诚信约束惩戒,强化震慑效应上市公司财务报告舞弊现象,严重削弱了财务报告本身的风险预警作用相较于耗时且昂贵的人工检测方式,开展效率更高的自动化和智能化检测已成为财务报告舞弊识别研究的关键问题早期关于财务报告舞弊智能化识别的研究大多利用各类会计和财务指标预测企业的舞弊行为,而现实的金融市场中充斥着各种复杂的模式,仅靠一些数值指标构建的识别模型,其预测性能是相对局限的因此,之后的研究开始逐步重视文本信息对于识别财务舞弊的作用,相当数量的研究也已证实利用定期报告中的管理层讨论与分析章节(Management Discussion and Analysis,MD&A)能够发掘部分财务报告舞弊现象[1]在已有研究中,利用机器学习模型对文本数据进行分类预测的方法较为流行但传统的机器学习模型,也称“浅层模型”,在处理文本信息时需要借助先验知识人工提取样本特征,这种方式对数据含义的表达能力较弱为了充分利用文本数据的价值,对能够更高效地提取和利用文本信息算法的需求愈加强烈。

深度学习模型作为机器学习的另一种范式,能够自动实现特征的多次提取和变换,以实现数据更高层次的抽象表示,从而弥补了浅层模型的不足[2]基于此,本文采用了一种字符级卷积神经网络[3]的深度学习算法,并结合上市公司定期报告中的MD&A文本,构建了识别财务报告舞弊的智能化模型研究收集了2015—2019年的上市公司舞弊样本以及同样规模的控制样本,利用词嵌入层将MD&A中的文本转换为特征矩阵,以识别具有舞弊性质的财务报告同时,为了比较不同模型的预测性能,研究还选取了部分统计学模型和浅层模型作为基准模型结果表明,深度学习模型利用MD&A文本识别上市公司财务报告舞弊的性能明显优于基准模型本文的贡献在于,不同于以往基于浅层模型的研究,本文引入了人工智能领域兴起的深度学习技术,以构建检测舞弊的智能化模型;此外,研究还证明了财务报告这种可得性和可靠性更强的文本数据同样具备识别企业舞弊行为的价值,可以为舞弊识别及相关研究提供新的数据支持二、文献综述早期针对财务报告舞弊识别的研究集中在对舞弊影响因素和信号的识别上,并利用统计学模型发现违规披露行为[4],但这种方法取得的成果相当有限,可能和在选取与舞弊相关的财务指标时存在一定的主观性有关。

之后,数据挖掘和机器学习等智能化模型的应用成为舞弊识别研究的一个新趋势与统计学方法相比,智能化识别模型对数据的假设更少,且支持非线性决策,这些特征提高了模型的可塑性和分类性能,也使得此类模型很快得到了广泛的应用[5]起初的智能化模型普遍采用数值指标,其样本属性有限,且选取过程存在较强的主观性,严重限制了模型的预测性能因此,研究人员开始更多地关注文本这类具有复杂性和隐藏性的非结构化数据,通过提取文本的特征以判断它们是否能够作为识别财务报告舞弊的信息来源[6]由于财务报告的MD&A部分由企业的管理团队使用通用且正式的商业语言编辑而成,涵盖了对企业的财务状况、经营成果和前瞻性声明等内容的讨论,也被大多数研究用作识别财务报告舞弊的文本来源[7]本章节之后的内容主要讨论基于数值和文本數据以及各类智能化模型识别财务报告舞弊的研究一)基于数值数据的智能化财务报告舞弊识别目前基于数值数据的智能化财务报告舞弊识别模型主要基于浅层模型和数据挖掘模型构建,包括神经网络、决策树、随机森林、进化算法、支持向量机和混合方法等神经网络主要涉及BP神经网络、概率神经网络、数据处理组合算法、径向基函数神经网络和生长分层自组织映射网络。

决策树包括单个决策树和决策树的集合,如随机森林尽管决策树和随机森林模型可以处理舞弊检测问题中的非线性特征,但训练过程中容易出现过拟合的问题,即识别模型的泛化性能普遍较差进化算法(如遗传规划和萤火虫算法)也被用于辅助决策树模型的设计和训练支持向量机能够通过线性分类的方式解决财务报告舞弊识别这一复杂的非线性问题,而不需要增加计算的复杂度然而,在处理噪声较多的数据集时,支持向量机可能表现出性能不佳的问题混合方法是利用多种模型的优势组合而成的新模型,在针对特定的问题域时能够表现出优于单个模型的分类性能表1按照时间顺序总结了基于数值数据实现智能化财务报告舞弊识别的研究二)基于文本数据的财务报告舞弊智能化识别目前研究所采用的文本主要包括企业披露的定期报告、新闻、金融社交媒体平台的用户生成内容(User-Generated Content,UGC)以及各类利益相关者提出的关于企业经营情况以及公开披露信息的分析和讨论等其中,新闻、社交媒体和各类利益相关者产生的数据包含较多噪音,而企业披露的定期报告则具有更易于处理的结构和更可靠的来源,且其中包含很多具有误导性陈述的语言变量可以作为识别企业舞弊的依据,因而被很多研究用作识别财务报告舞弊的直接证据[16]。

在利用文本识别舞弊性的财务报告时,需要对文本数据进行预处理由于浅层模型不进行或只进行一次特征选择的局限,必须借助有效的文本表示方法单独提取文本特征,以保证下游模型的识别性能目前研究中应用的文本表示方法大致可以分为两类:第一类是对某些Key、Key元组或词汇和句子特征等的统计描述例如文本的情感分析,利用语言模型构建的文本分析框架和基于词汇多样性和句法复杂度等语言特征实现对文本数据的量化处理等第二类是基于某类算法实现特定的文本格式主要的算法类别有:(1)词袋模型,即一种预先定义的单词列表,能够表示财务报告的负面性、不确定性和诉讼性的单词列表通常与企业的舞弊行为之间存在关联;(2)主题模型,例如LDA(Latent Dirichlet Allocation)模型,在企业舞弊的研究中常被用来提取财务报告的语义主题;(3)TF-IDF(Term Frequency-Inverse Document Frequency)算法,该算法能够实现词语级的文本特征提取,并基于词语权重形成的词向量集合表示文本集合表2按照时间顺序总结了基于文本数据实现智能化财务报告舞弊识别的研究三)文献评述在对已有文献的综述中,有三点内容值得关注。

首先,大多数研究运用的智能化识别方法对数据的假设更小,且允许非线性决策边界,这些特性提高了模型的灵活性和分类性能;其次,单纯使用数值指标构建智能化预测模型的局限性愈发突出,更多的学者开始关注文本这类来源广泛且数据量庞大,同时包含更多样本属性的非结构化数据;最后,对于财务报告舞弊的检测,浅层模型和数据挖掘算法只能利用数据集中存在的显式属性,却很难发掘同样存在的其他形式的隐藏属性而文本数据恰恰包含较多隐藏的属性和模式,需要进一步探求更为有效的智能化识别方法对比浅层模型,深度学习模型的结构更为复杂,能更好地发掘数据集中存在的特征而目前,基于文本数据识别财务报告舞弊的研究则是由浅层模型和数据挖掘模型占据主导地位,鲜有基于深度学习模型的探索因此,本文的研究基于文本数据和深度学习算法构建识别财务报告舞弊的智能化模型,试图探究人工智能技术是否能更有效地挖掘和利用MD&A文本中预示企业舞弊行为的潜在信号,以识别财务报告舞弊,进而检验深度学习方法在财务报告舞弊识别研究中的应用价值三、数据选取和样本来源我国上市公司各级监管机构的公开披露是判定上市公司是否存在舞弊行为最客观和有效的依据之一一方面,研究依据中国证监会、上海证券交易所、深圳证券交易所和地方证监局对上市公司的处罚报告和收录这些披露文件的CSMAR数据库,并按照CSMAR数据库对处罚公告的分类,选取其中涉及虚构利润、虚列资产、虚假记载、重大遗漏、披露不实和一般会计处理不当六类定期报告舞弊行为的公告确定为舞弊样本。

另一方面,由于2015年之前的部分定期报告将MD&A合并在董事会报告一节中未单独披露,研究将2015年作为选取舞弊样本的时间起点据此,本文选取了2015—2019年存在上述舞弊行为的上市公司定期报告(包含具有MD&A章节的年度报告和半年度报告)共计454份同时,为了保证控制样本与舞弊样本具有相同的规模,研究还依据中国社会科学院金融研究所等在2015—2018年发布的《中国上市公司质量评价报告》和报告中的上市公司价值管理能力排名,以及恒大研究院发布的《中国上市公司质量报告:2019》中的合规质量,选取每年排名前45的上市公司作为控制样本,得到半年度报告和年度报告共计450份图1总结了研究的分析过程,包括文本数据的选取、文本预处理、样本特征提取、模型构建和结果评估5个部分四、模型构建文本分类是自然语言处理(Natural Language Processing,NLP)领域的一个经典问题,具体指按照事先定义好的主题类别来划分数据集中每个文本的类别研究参考Zhang et al.[3]提出的字符级卷积神经网络,利用上市公司财务报告中的MD&A文本,构建了一种通过文本分类方式识别舞弊性财务报告的智能化模型,并选取了部分统计学模型和浅层模型作为基准模型,以对比不同模型的分类性能。

对于输入深度学习模型和基准模型的MD&A文本,研究采用了不同的文本預处理流程,尤其是根据浅层模型和深度学习模型各自的特点选取了不同的文本表示方法,以尽可能提升下游模型的分类性能后面将详细阐述深度学习模型和基准模型各自的文本预处理方法,以及深度学习模型的具体架构和实现对于基准模型,本文只进行简要的介绍一)深度学习模型深度学习模型的设计过程主要分为两个阶段:一是文本的预处理;二是模型的构建1.文本预处理深度学习模型的文本预处理主要包括两个步骤:一是数据集类别的划分;二是文本字符的初步量化大多数基于智能化模型的财务预测研究采用了二分法的方式,即将数据集划分为训练集和测试集,其中训练集通常占80%,测试集占20%为了尽可能避免训练阶段产生的模型出现过拟合的问题,研究增加了验证集的划分同时,为了保持数据划分的一致性,避免因数据划分过程中存在额外偏差而影响最终的结果,参照机器学习研究对小样本集(样本总数通常小于10 000)的划分惯例,本文按照 的比例将MD&A文本集划分训练集、验证集和测试集,且每类数据集都保持舞弊类和非舞弊类的样本数量对等样本在划分为不同类别的数据集后还需要经过进一步的预处理:首先,去除了MD&A文本中的数字、字母、标点符号和一些特殊符号。

这种对文本信息的过滤也是NLP中常用的方法,有助于降低下游分类。

下载提示
相似文档
正为您匹配相似的精品文档