版式电子文档表格自动检测与性能评价

上传人:xmg****18 文档编号:116861154 上传时间:2019-11-17 格式:PPT 页数:19 大小:1.92MB
返回 下载 相关 举报
版式电子文档表格自动检测与性能评价_第1页
第1页 / 共19页
版式电子文档表格自动检测与性能评价_第2页
第2页 / 共19页
版式电子文档表格自动检测与性能评价_第3页
第3页 / 共19页
版式电子文档表格自动检测与性能评价_第4页
第4页 / 共19页
版式电子文档表格自动检测与性能评价_第5页
第5页 / 共19页
点击查看更多>>
资源描述

《版式电子文档表格自动检测与性能评价》由会员分享,可在线阅读,更多相关《版式电子文档表格自动检测与性能评价(19页珍藏版)》请在金锄头文库上搜索。

1、版式电子文档表格自动检测与性能评估 房婧,高良才,仇睿恒,汤帜 2012-11-04 研究目的(1/2) p移动阅读 研究目的(2/2) p问题与挑战(1) n现有方法多处理图像和网页格式的文档 n不支持中文版式文档的处理 n页面布局和表格自身布局的复杂性 p问题与挑战(2) n缺少公开可用的数据集 n缺少合理的评估准则 n人工评估效率低且不易复现 研究方法 p表格定位 n针对版式文档的特点,提出一种表格线分割符和表格 文本布局特征相结合的方法 p效果评估 n建立一套自动评估系统,提供免费下载* p构建数据集 p标注基准 p细粒度评估准则 * 表格定位(1/6) p页面布局(分栏) n表格既可

2、能位于单栏内,也可能贯穿多栏 n单页页面上的前景空白*和多页文档的分栏位置相似性 p表格线检测 n解析图形流 p绘制指令(m,l,re,c, v, y)与坐标参数 n直线、矩形拆分,坐标拼接和聚类直线段 n裁剪区缩小范围 Breuel TM. Two geometric algorithms for layout analysis. DAS, 2002, Princeton, USA, 188-199 表格定位(2/6) p解析文字流 n字符(文本、最小包围矩形、字体、坐标等) p文字行 n竖直方向包围矩形的交叠,字符间距 表格定位(3/6) p布局特征 n每列上的单元格之间都有水平方向的交叠

3、,列与列之 间互不干扰,由空白分隔开 n表格和页面正文内容的排版遵从相同的规则,即向右 向下的顺序排版,向右成行、向下成列 p形成文本块 n深度遍历(行间向下,行内向右) 表格定位(4/6) p文本块筛选 p表线筛选 n距离表格块远(页眉页脚线) n表格线上下两侧多文本段 表格定位(5/6) p有线表 n水平表格线按照长短排序 n从最长线开始判断是否与多条竖直表格线相交 p确定表格边界 p删除与边界有交集的其他表线,避免区域交叠与嵌套 p直到所有水平线遍历完成 p无线表 n在栏内横向贯穿合并候选表格列文本块 n相邻块纵向空白检测合并 表格定位(6/6) p后处理 n表格区域内至少包含两行两列

4、n区域内不包含曲线图形元素(区分图形) n区域内不会只包含竖直方向的直线(区分矩阵) 自动评估(1/4) p数据集构建 n2000PDF页面 n中英文比例 1:1 p中文:阿帕比数字图书馆 p英文:网络爬取的科技文献 n表格页与非表格页 1:1 p数据集 n以XML格式描述的被标注基准结果 n600dpi的页面原图像 n页面基本对象(字符、图形、图像元素)的XML描述 自动评估(2/4) p表格 n表格标题,表格体,表格脚注 p文本行 字符 p其他逻辑结构 n段落、图像、公式等 自动评估(3/4) p评价准则错误类型 fake_matrix; fake_list; fake_mix ampli

5、fiedamplified_tabaccessory; amplified_matrices; amplified_mix splittedsplitted_horizontal; splitted_vertical mergedmerged_horizontal; merged _vertical reducedreduced missedmissed 自动评估(4/4) p评估准则 n由每个表格分别命中的错误类型(可能对应多种),统计 每种错误类型被命中的表格总数 n每个表格综合惩罚分值(各错误类型惩罚分值的最大值) 符号注释符号注释 NR真实表格的数目NFA误判,但可接受表格的数目 NM

6、遗漏表格的数目NFU误判,且不可接受表格的数目 NA可接受表格的数目 准确率 NA / (NR + NFA + NFU - NM) 召回率NA / (NR + NFA) 实验结果(1/2) 英文测试集中文测试集 方法pdf2tabletableseer本文pdf2tab le tableseer本文 NR667667667682682682 NM512081506324991 NA261232374223192547 NFA22137504 NFU111272118819 准确率0.350.480.650.350.440.89 召回率0.380.350.530.340.280.80 实验结果(2/2) 结论 p提出版式电子文档表格定位与自动评估方法 p优势尤其体现在: n文本布局复杂,但是具有表格线的表格 n分栏页面中的表格,跨栏表或者栏内表 n没有标题的表格等 p中文数据集的评测结果明显优于英文数据集 n中文样例的表格线无论从元素组成,或者在表格中被 使用的频率,都比英文样例稳定 Q&A 谢谢 知识回顾知识回顾 Knowledge Knowledge ReviewReview

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号