LIDC中肺结节注释信息的提取及数据库的建立

上传人:油条 文档编号:2615097 上传时间:2017-07-25 格式:DOC 页数:7 大小:28.50KB
返回 下载 相关 举报
LIDC中肺结节注释信息的提取及数据库的建立_第1页
第1页 / 共7页
LIDC中肺结节注释信息的提取及数据库的建立_第2页
第2页 / 共7页
LIDC中肺结节注释信息的提取及数据库的建立_第3页
第3页 / 共7页
LIDC中肺结节注释信息的提取及数据库的建立_第4页
第4页 / 共7页
LIDC中肺结节注释信息的提取及数据库的建立_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《LIDC中肺结节注释信息的提取及数据库的建立》由会员分享,可在线阅读,更多相关《LIDC中肺结节注释信息的提取及数据库的建立(7页珍藏版)》请在金锄头文库上搜索。

1、1LIDC 中肺结节注释信息的提取及数据库的建立【摘要】 目的: 对 LIDC 数据库的注释文件中有关肺结节的相关数据进行提取、整合、汇总,并导入到 Access 数据库表中。方法:通过对 LIDC 数据库 XML 格式的注释文件的分析、解读,利用Visual Basic 语言编程提取数据,并导入到 Access 数据库表中。结果: 数据提取和显示程序将 LIDC 中的 68 个病例的相关数据(如病例号、专家号、结节号、结节的各种 CT 征象、结节的 X 坐标和Y 坐标等)加以提取和显示,并保存到数据库中。结论: 将 LIDC数据库中包含的每个病例 CT 图像的 XML 格式注释文件导入到Ac

2、cess 数据库中,较之纯文本格式的数据组织更加结构化,进而可以借助数据库强有力的数据管理和查询功能对 CT 图像上肺结节形态、位置、CT 征象等进行查询和比较。 【关键词】 LIDC; XML 文件; Access 数据库; CT 图像1 引言随着科学技术的不断发展、更新,现如今医生进行医学诊断的方法与模式已经发生了巨大的转变。与过去仅凭经验、惯例等不同的是,现今的医学诊断更多的倾向于科学的、数字化的精细诊断模式,其中最为突出的示例就是计算机辅助诊断及计算机辅助检测的飞速2发展。CT 的计算机辅助肺癌诊断的研究证实,CAD 技术可以为病变部位的探测提供有效的帮助,甚至可以在连续的 CT 检查

3、中辅助确定病变部位是否稳定或是否发生了大小的改变。为了为各种图像处理或 CAD 技术的相互比较和测评提供一个参考数据库,美国国家癌症研究会(NCI)于 2001 年 4 月起陆续颁布了肺部图像数据库联盟(Lung Image Database Consortium,LIDC) 。该影像数据库可以通过互联网访问和下载1 。目前 LIDC 包括 68 个病例的约10000 张全肺 CT 扫描图像(扫描层厚1.25mm3mm,512512 像素) ,总容量超过 6GB。每个病例对应一个文件夹,包括完整的肺部 CT 扫描图像(DICOM 格式)100 300 张,以及一个注释文件( XML 格式) 。

4、在注释文件中给出了 4 名放射学专家对每张 CT 片中出现的结节的定义,包括结节的主要 CT 征象,如毛刺征( Spiculation) 、分叶征( Lobulation) 、钙化(Calcification)等以及结节的恶性度( Malignancy) 。由于 LIDC 数据库中病例的注释文件是采用 XML 格式编写的纯文本文件,所有注释内容均以标识符加以区分,不具备数据的查找、统计等功能。本研究将 LIDC 数据库所提供的原始 XML 注释文件信息加以提取,建立相应的 Access 数据库进行存储,方便其他研究人员的使用。32 方法与实验2.1 XML 注释文件2.1.1 XML 文件 X

5、ML 文档是由元素组成的,每个元素都包含一个“起始标记” (如 ) 、一个“结束标记” (如) ,以及两个标记之间的信息即元素的内容。元素可以使用属性进行注解,属性包含了关于元素及其内容的元数据。XML 信息集主要用作各种 XML 技术使用的定义集,以正式描述需要技术处理的 XML 文档部分。XML 信息集是 XML 文档的树状层次表示。一个 XML 文档的信息集包含许多信息项,这些信息项是 XML 文档组件的抽象表示,其中包括表示文档、文档的元素、属性、处理指令、注释、字符、表示法、命名空间、未分析的实体、未扩展的实体引用和文档类型声明的信息项。2.1.2 LIDC 提供的 XML 格式数据

6、示例 在每个病例的所有 CT 图像后面都有一个注释文件,其中给出了 4 名放射学专家对每张 CT片中出现的结节的定义,包括结节的主要 CT 征象,如毛刺征(Spiculation) 、分叶征(Lobulation) 、钙化(Calcification )等以及结节的恶性度(Malignancy) 。对于大结节(直径3mm 的结节) ,给出了轮廓点的坐标,小结节(直径3mm 的结节)给出了4中心点的坐标。所有信息的含义定义在一对标签中。一个典型的XML 文件片段如图 1 所示。2.2 存储 LIDC 中肺结节数据的数据库从每个病例的原始注释文件中提取如表 1 所示的基本信息,并写入相应数据库表的

7、字段中。表 1 存储 LIDC 中肺结节数据的数据库表的结构注:如 CT 图像上某一结构为小结节(直径小于 3mm)或非结节,则上述字段 412 的取值均为 0。2.3 提取 LIDC 中肺结节数据Step 1 提取患者号,以作为患者号的标识符。Step 2 提取专家号。注释中未给出放射学专家编号,但是通过对文件的大体框架的分析可以看出,每一对中包含一位专家对这个病例做出的诊断。所以通过筛选,可以将专家号分别定义为A、B 、C 和 D。Step 3 判别是否为结节、非结节或是另一名专家的诊断。同时搜索 3 个标识符、 、:Step 3.1 如果搜索到,则继续搜索是否有、或标识符;5Step 3

8、.1.1 如果指针搜寻的结果为,则表示此结节分类为大结节,继而提取大结节的结节号、CT 号,并依据要求继续提取大结节的相关征象值和所有坐标。因为所提供的原始注释文件中小结节和非结节都只有一对坐标,指针在查找到起始坐标的标识符后直接提取即可。但是对于大结节来说,由于每个大结节都含有多个坐标,所以在这里只提取第一对坐标作为起始坐标,其余的坐标统一提取后存在 txt 格式的文件中,在最后整合的数据表中指保存文件的文件名,以做提示。Step 3.1.2 如果指针搜寻的结果为,则表示此结节的分类为小结节,只需提取结节号、CT 号及 X、Y 坐标即可,其余的结节征象参量标识符对应的值为 0。Step 3.

9、1.3 如果指针搜索结果为,即说明该结节数据读取完毕,须将所有已读信息保存至实现定义的数组中,等所有数据读取完以后一起输出显示。Step 3.2 如果筛选结果为,则指针所指的结构为非结节,根据非结节所需信息要求,筛选出数据即可。Step 3.3 如果筛选结果为,表明已读取完一个专家的所有数据,6可以开始继续读下一个专家,直至整篇文档读取完毕。3 结果3.1 提取注释文件的程序在如图 2 所示的程序窗口, “文件”菜单用于打开病例数据,在显示的对话框中选择病例文件。程序将自动提取文件中肺结节的信息,并将它们显示在一个文本框控件中。“显示”菜单用于以报表形式显示保存到数据库中的数据,如图3 所示。

10、3.2 建立的数据库在 LIDC 数据库的 68 个病例中,4 名放射学专家共标注大结节331 个(累及 CT 层数 1589 张) 、小结节 920 个(累及 CT 层数920 张) 、非结节病变 2370 个(累及 CT 层数 2370 张) 。对每张CT 上的大小结节及非结节病变,用一条记录保存其相应信息,所以整个数据库共 68 张表、4879 条记录。此外还有保存大结节轮廓点坐标的文本文件 1589 个。74 结论LIDC 数据库是在整合了多位放射学专家对多份病例的 CT 扫描图像的意见的基础上建立起来的,为肺部图像数据的收集制定了一个指导方针,为今后的科学研究打下坚实的基础。LIDC 数据库的建立为早期肺癌诊断提供了强有力的辅助手段,灵活的应用 LIDC 数据库,可以更快更好地评价计算机辅助诊断和检测算法的性能。本研究将 LIDC 数据库中包含的每个病例 CT 图像的 XML 格式注释文件导入到 Access 数据库中,较之纯文本格式的数据组织更加结构化,进而可以借助数据库强有力的数据管理和查询功能对 CT图像上肺结节形态、位置、CT 征象等进行查询和比较。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号