医疗领域文本结构化

上传人:小** 文档编号:34138625 上传时间:2018-02-21 格式:DOC 页数:11 大小:130KB
返回 下载 相关 举报
医疗领域文本结构化_第1页
第1页 / 共11页
医疗领域文本结构化_第2页
第2页 / 共11页
医疗领域文本结构化_第3页
第3页 / 共11页
医疗领域文本结构化_第4页
第4页 / 共11页
医疗领域文本结构化_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《医疗领域文本结构化》由会员分享,可在线阅读,更多相关《医疗领域文本结构化(11页珍藏版)》请在金锄头文库上搜索。

1、医疗领域文本结构化 丁祥武 张夕华 东华大学计算机科学与技术学院 摘 要: 现有通用分词工具对医疗专业术语的识别效果不理想, 影响了医疗文本结构化的效果。针对该问题, 提出一种基于词向量的新词发现方法, 利用新词发现过程中构建的词库抽取信息, 得到结构化数据。使用 Google 开源词向量工具word2vec 训练文本, 将词映射到抽象的 n 维向量空间;根据词与词之间的得分、词的左右信息熵和在文本中的词来发现新词, 把发现的新词加入用户自定义词库;设计信息抽取规则, 根据发现的关键词提取对应的关键信息, 将其组织为结构化数据。实验结果表明, 用该方法进行结构化处理在准确率上比传统方法提高了

2、10%, 在效率上比传统方法提高了 18%。关键词: 医疗文本; 中文分词; 词向量; 信息熵; 信息抽取; 作者简介:丁祥武 (1963-) , 男, 上海人, 博士, 副教授, 研究方向为大数据与列存储技术、分布式处理、多核与众核并行技术等;作者简介:张夕华 (1992-) , 男, 江苏淮安人, 硕士研究生, 研究方向为大数据处理技术、分布式处理等。E-mail:收稿日期:2016-08-24基金:上海市科技行动计划基金项目 (15511106900) Text structuralization in medical fieldDING Xiang-wu ZHANG Xi-hua Sc

3、hool of Computer Science and Technology, Donghua University; Abstract: The effects of general-purpose word segmentation tools recognizing medical terminology are not ideal, which greatly affects the accuracy of text structure.In view of the above problem, a method of discovering new words based on w

4、ord embedding was put forward.Google open source word vector tool word2vec was used to train text and to map the words into abstracted n-dimensional vector space.New words were found using the information entropy, word frequency and the internal associative strength between word and word.The key inf

5、ormation was extracted according to the key words.As a result, the structured data were made of key words and key information.Experimental results on real medical data show that the accuracy of the proposed method is improved by 10% compared to traditional method and the efficiency of the proposed m

6、ethod is improved by 18% compared to traditional method.Keyword: medical text; Chinese word segmentation; word embedding; information entropy; information extraction; Received: 2016-08-240 引言文本结构化处理一般要经过以下 4 个步骤:分词、构词分析和词典处理、句法分析、领域分析。通常使用如下 3 种方式进行中文分词:基于词典、基于统计、基于规则。文献1对基于词典的正向最大匹配算法进行描述, 文献2讲述了逆向

7、最大匹配算法, 文献3主要介绍了全二分最大匹配算法。基于统计的互信息的概率统计算法见文献4, 文献5主要描述了 N-Gram 算法, 文献6主要描述了基于组合度的分词决策算法。这些方法都被用于现在流行的分词工具中, 如中科院的 ICTCLAS7、复旦大学的 FNLP8以及开源的轻量级 IK Analyzer9等。医疗文本具有以下 3 个特点: (1) 特定用语; (2) 同义词表达; (3) 缩略语。这 3 个特点使得目前通用的中文分词工具对医疗文本分词的效果不是特别地明显。例如, 对专业术语例如“皮细胞”、“胶质物”无法做到正确分词。针对上述问题, 本文使用 Google 开源词向量工具 w

8、ord2vec10将文本中的词转化为向量, 根据词向量计算词与词之间的得分, 得分的高低表示它们之间的内部结合度的大小, 再利用内部结合度以及词的左右信息熵、词频等统计信息, 发现新词, 并构建用户自定义的词库, 将构建的词库添加到分词工具中, 完成词库的扩展, 对文本重新分词。最后, 设计信息抽取规则, 根据关键词库 (指标名称) 获取关键信息 (指标值) , 并将它们构造为结构化数据。1 基本定义令 S=W1, W2, , Wi, , Wn, S 代表文本中的某条记录, W i表示文本中该记录的第 i 个词。词 Wi的长度 L 等于 S 中的词 Wi包含单个字的个数。W i在文本中出现的次

9、数记作词频 Cnt。词位 Loc 顾名思义是指词 Wi在记录 S 中的位置。定义 2 M 定义为词 Wj与词 Wi之间的互信息, 定义 3 新词 (neword) 定义为一个词集合, neword=w|Cnt (w) t 1E L (w) t2E R (w) t3。t 1表示词频, t 2表示左信息熵的阈值, t 3表示右信息熵的阈值。2 结构化处理流程文本分析的前提是需要对文本进行结构化处理。文本结构化处理过程主要可以分为 3 个阶段: (1) 预处理; (2) 中文分词; (3) 信息抽取。图 1 是对文本数据进行结构化处理的流程。图 1 结构化处理的整体框架 下载原图预处理主要负责清洗文

10、本中的数据, 使得文本中不存在重复信息, 没有明显的表达性错误, 并且保证数据具有一致性。中文分词主要是对预处理后的文本进行分词, 通用的分词工具无法正确地识别专业术语。通用的分词工具都有各自的词库, 无法正确识别专业术语的原因是自带词库中不包含某个领域的专业术语, 所以需要对词库进行扩展, 添加自定义词库用于中文分词。从图 1 可以看出, 构建词库需要将文本中的词转换为词向量, 然后通过词向量来发现新词, 最终将新词扩展成词库。词向量转化是将文本中的词转化为向量, 通过对向量进行处理, 可以将词的操作转化为对向量的操作。CBOW 和 Skip-gram11,12是 word2vec 的两种训

11、练模型, 它们的共同点是去除了非线性隐层, 缩短训练时间。新词发现主要是查找本文中所述的专业术语, 专业术语没有被包含在分词工具自带的分词词库中。构建一个用户自定义词库, 用于存放新词发现过程中发现的新词。然后把用户自定义词库添加到分词工具中, 医疗文本中的专业术语能够被分词工具正确地识别。最后根据专业术语和特定的抽取规则进行信息抽取, 得到结构化数据。3 构建词库由于现有的分词工具对专业术语的分词效果并不理想, 需要构建一个专业术语词库用于文本分词。本文主要使用 word2vec 将文本中的词转化为词向量, 然后利用词向量来发现新词, 构建用户自定义词库, 即专业术语词库。将用户自定义词库添

12、加到分词工具中, 分词工具对专业术语能够正确地分词。3.1 词向量文中提到的词向量都是通过 word2vec 生成, word2vec 把训练文本中的词映射到 N 维实数向量。向量之间不是毫无联系, 而是代表词与词之间的潜在语义关系。本文在生成词向量时使用的训练模型是 Skip-gram, 它将隐含层去掉, 提高了训练的效率。尽管神经网络的隐含层很重要, 一般不会去掉隐含层, 但是实践证明了去除隐含层的可行性。从图 2 可以看出, Skip-gram 模型的基础是预测概率 P (Wi|Wj) 。假设存在一个词组序列, 把它表示为 W1, W2, , Wj, , Wt, Skip-gram 模型

13、的目标是最大化 的值。本文中使用的训练窗口大小是 5, 即每个词在预测概率时只考虑前 5 个词和后 5 个词。图 2 Skip-gram 模型 下载原图3.2 新词发现新词发现的作用是识别文本中的“新词”, “新词”是特指某个领域的专业术语, 文中研究的是医疗领域。本文基于词向量提出一个新词发现算法, 根据每个词的得分、左右信息熵和词频, 发现医疗文本中的新词 (专业术语) 。具体的算法流程如图 3 所示。图 3 算法流程 下载原图算法 1:GetScore(1) 计算词 Wi的 Score。(2) 找出与词 Wk, 该词与词 Wi的内部结合度得分最高。(3) 比较 k 与 i+1 之间的大小

14、关系。如果 i+1=k, 构造一个新词 W, 词 W 由词Wk、词 Wi拼接而成。然后, 运行第 (12) 步。(4) 计算 3 个连续词的长度和 Size, 分别是第 i, i+1 和 i+2 个词。如果Size5, 跳转执行第 (8) 步。(5) 计算词 Wi+2的左信息熵、词 Wi+1的左信息熵、词 Wi+1的右信息熵、词 Wi的右信息熵。(6) 判断本文信息熵设置的阈值与第 (5) 步计算的 4 个信息熵的大小关系。如果阈值不是都小于 4 个信息熵的值, 执行第 (8) 步。(7) 定义一个新词 W, 词 W 由词 Wi、词 Wi+1和词 Wi+2组成, 跳转执行第 (12) 步。(8

15、) 判断设置的阈值是否小于词 Wi+1的左信息熵以及词 Wi的右信息熵。如果不是都小于, 跳转第 (15) 步。(9) 计算互信息 M。(10) 比较 M 与设置阈值的大小关系。如果 M 小于设置的阈值, 跳转执行第 (15) 步。(11) 定义一个新词 W, 词 W 由词 Wi和词 Wi+1组成。(12) 计算词 W 的词频 Cnt。(13) 比较 Cnt 与设置阈值的大小关系。如果 Cnt 小于设置的阈值, 跳转执行第 (15) 步。(14) 向用户自定义词库中添加 W。(15) 判断词 Wi是否位于 S 的末尾。如果词 Wi还有后续词, 令 i=i+1, 跳转到第 (1) 步。4 信息抽

16、取创建一个用户自定义词库, 该词库包含所有的“新词”。并把其添加到所用的分词工具中, 利用用户自定义词库, 对文本重新分词。然后对重新分词后的文本进行信息抽取, 最终生成结构化数据。具体的信息抽取算法如 4.1 节和 4.2节所述。4.1 基于词库的信息抽取本次的实验样本选取的是甲状腺穿刺数据, 这类数据格式相对固定, 描述简单。通过简单的人为统计, 可以获取到指标值词库。有了指标值词库以及前面得到的用户自定义词库 (指标名称词库) , 按照一定的规则, 可以完成信息抽取, 最终生成结构化数据。具体的算法如算法 2 所示。算法 2:DirectoryStructuralization输入:甲状腺穿刺文本中的任意一行数据输出:该行数据对应的结构化数据(1) 对文本中的长句进行切分, 生成多个短句。(2) 对多个短句一一进行中文分词操作。(3) 得到指标名称库 A, 根据 GetScore 算法。(4) 得到指标值库

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 管理论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号