excel文件碎片数据恢复方法研究

上传人:公**** 文档编号:487987308 上传时间:2023-04-29 格式:DOCX 页数:50 大小:1.29MB
返回 下载 相关 举报
excel文件碎片数据恢复方法研究_第1页
第1页 / 共50页
excel文件碎片数据恢复方法研究_第2页
第2页 / 共50页
excel文件碎片数据恢复方法研究_第3页
第3页 / 共50页
excel文件碎片数据恢复方法研究_第4页
第4页 / 共50页
excel文件碎片数据恢复方法研究_第5页
第5页 / 共50页
点击查看更多>>
资源描述

《excel文件碎片数据恢复方法研究》由会员分享,可在线阅读,更多相关《excel文件碎片数据恢复方法研究(50页珍藏版)》请在金锄头文库上搜索。

1、山东科技大学工程硕士学位论文 目录目 录1 绪 论11.1 课题研究的背景和意义11.2 国内外研究现状11.3 论文的研究内容22 复合文档结构分析32.1 复合文档综述32.2 扇区与扇区链42.3 复合文档头62.4 扇区配置表92.5 符合文档目录93 Excel文件结构分析93.1 Excel文件的workbook流93.2 Summary Information流和Document Summary Information流94 Excel文件碎片的数据恢复方法研究94.1 碎片产生的原因94.2 Excel文件碎片的识别方法94.3 Excel文件碎片的重组方法9总结与展望9致谢9

2、参考文献9山东科技大学工程硕士学位论文 ContentsContents1 Introduction11.1 The background and significance of the research11.2 Research at home and abroad11.3 Research paper Content22 Compound documents32.1 composite document review32.2 sector and sector chain42.3 composite document head62.4 sector configuration table9

3、2.5 Compound documents directory93 Excel file structure analysis93.1 Excel file workbook flow93.2 Summary Information flow and Document Summary Information flow94 Excel file fragments of data recovery methods study94.1 the cause of debris94.2 Excel file fragment the recognition method94.3 Excel file

4、 fragment the restructuring of the way9Conclusion and Prospect9Thanks9Main Reference Documents9山东科技大学工程硕士学位论文 绪论1 绪 论1.1 课题研究的背景和意义Excel软件是微软办公套装软件的一个重要的组成部分,它可以进行各种数据的处理、统计分析和辅助决策操作,广泛地应用于管理、统计财经、金融等众多领域。在电子表格软件领域,Excel软件唯一的竞争对手就是自己,基于这样的绝对优势地位,Excel已经成为事实上的行业标准,用户众多,而且大量的关系到单位生死的重要数据都保存成Excel文件。然而

5、Excel文件经常被编辑修改,这样组成这个文件的数据块在硬盘当中存储往往就不是连续存放在一起的,对于不连续存放的碎片文件,如果被删除或格式化,用当前的数据恢复软件恢复的效果是很差的,往往都是文件恢复出来了,但是打不开,或者是打开乱码。因此研究一种有效的恢复Excel碎片文件的方法是有意义的。 1.2 国内外研究现状Excel文件被删除或者格式化后,我们通常的方法是用相关的数据恢复软件去恢复,但是恢复后的文件,很多时候不能正常打开或者打开乱码,造成这种现象的原因是文件在删除或格式化前是不连续存放的,也就是产生碎片了,用软件恢复过来的文件都是假设文件是连续存储的情形,因此恢复过来的文件并不是删除或

6、格式化前的文件。对于有碎片的Excel文件的恢复需要研究它的结构、识别和重组方法,当前的情况是:1. Excel文件结构的研究情况Excel是微软公司的办公软件Microsoft Office的组件之一, Office组件的结构官方并没有公开过,然而要恢复Excel碎片文件就必须要精通它的文件结构,为此国外的黑客组织用反编译的方法来推测它的结构,并形成了一些文档,比如compdocfileformat、excelfileformat等等,这都是心血之作,后来人们利用这些文献写出了很多Excel文件修复软件,像国外的有ExcelFIX 、ExcelRecovery、Advanced Excel

7、Repair、Xlviewer OfficeFIX、Easyrecovery等,国内的有宏宇Excel修复向导等,但这些软件都不是针对有碎片的Excel的。2.文件碎片识别方法的研究情况识别文件碎片要依赖文件的结构,不同的文件结构有不通的特点,需要采用不通的方法。这个国内外有相关的文献对识别碎片进行了一些研究,但是这只是从大类来分,具体到Excel文件的碎片识别的方法还没有出现。本文对Excel文件碎片的识别提出了自己的方法。3.文件重组方法的研究情况对Excel文件碎片识别出后,如何将碎片重新组合成源文件,这个还没有相关文献记载。本文在研究了Excel文件的结构的基础上提出了自己的重组方法。

8、 1.3 论文的研究内容1.通过参考大量文献,对复合文档的结构进行了分析总结2.对Excel文件流的结构进行了分析总结3.给出了识别Excel文件碎片的方法4.给出了重组Excel文件碎片的方法5.最后,对全文进行了总结,分析了取得的成果和不足,并提出了相应的工作展望。46山东科技大学工程硕士学位论文 复合文档2 复合文档结构分析2.1复合文档综述Excel文件结构是一种复合文档。复合文档(Compound Document)是一种不仅包含文本而且包括图形、电子表格数据、声音、视频图象以及其它信息的文档。可以把复合文档想象成一个所有者,它装着文本、图形以及多媒体信息如声音和图象。目前建立复合文

9、档的趋势是使用面向对象技术,在这里,非标准信息如图像和声音可以作为独立的、自包含式对象包含在文档中。Microsoft Windows就是使用这种技术,叫做“OLE2 storage file format”或“Microsoft Office compatible storage file format”。 3复合文档跟FAT文件系统很相似。FAT文件系统开始是操作系统引导记录DBR,存储有系统必须的每簇扇区数、扇区大小、FAT表大小、分区大小、目录起始簇号等重要参数,对应于复合文档就是它的头部,也有扇区大小、FAT表大小、目录起始扇区等重要参数。FAT文件系统接下来是FAT表存放区、目录存

10、放区、用户数据存放区,对应于复合文档就是接下来的SAT表、目录存放区、流存放区。它们的对应关系如图2.1所示。文件头标准流SAT表目录复合文档DBR数据FAT表目录FAT文件系统图2.1 对应关系图Fig2.1 Corresponding relationship chart综上可以看出,复合文档相当于一个小型文件系统,即Excel文件结构类似于一个文件系统。从原理上说,复合文档的结构类似于一个文件系统(尤其是FAT)。复合文档是由许多流(Streams)构成的,这些流又存储在不同的仓库(Storages)里。如果把复合文档比作你的D盘,D盘用的是FAT格式,流就好比是D盘里的文件,仓库就好比

11、是D盘里的文件夹。我们知道同一个文件夹下的文件和文件夹不能重名,同理流和仓库的命名规则也要求同一个仓库下的流及仓库不能重名,不同仓库下可以有同名的流。每个复合文档都有一个根仓库(root storage)。根仓库仓库1流1 流2仓库3流3流11流3 流32 图2.2 流和仓库Fig2.2 Streams and Storages 2.2扇区与扇区链2.2.1 扇区与扇区标识数据流可以再分成更小的数据块,称作逻辑扇区(sectors),不同于磁盘中的物理扇区。Sectors 可能包含控制数据或用户数据。整个文件由一个头部(Header)以及其后的所有Sectors组成。Sectors的大小在头中

12、确定,且每个Sectors的大小都相同,一般为512字节。以下为示意图:HEADERSECTOR 0SECTOR 1SECTOR 2SECTOR 3SECTOR 4SECTOR 5SECTOR 6Sectors 的编号以其在文件中的顺序列举(从0开始),一个扇区的索引叫做扇区标识(SID:sector identifier)。SID是一个有符号的32位的整型值。复合文档中描述的扇区编号和用winhex打开时的扇区编号相差1,复合文档中头部占用一个扇区,但是不给它编号,用图来描述一下如下图所示:文件头扇区0扇区1扇区2扇区3扇区4扇区5扇区N复合文档中扇区扇区0扇区1扇区2扇区3扇区4扇区5扇区

13、6扇区N winhex打开的扇区:图2.2 扇区编号对应图Fig2.2 Sector Numbers corresponding figure如果一个SID的值非负,就表示真正存在的那个Sector;如果为负,就表示特殊的含义。下图给出有效的特殊SID:表2-1 特殊SIDTable 2-1 Special SIDSIDNameMeaning-1Free SID空闲sector,可存在于文件中,但不是任何流的组成部分-2End Of Chain SIDSID链的结束标记 -3SAT SID此Sector用于存放扇区配置表(SAT)-4MSAT SID此Sector用于存放主扇区配置表(MSAT)2.2.2扇区链与扇区标识链用于存储流数据的所有Sectors的列表叫做扇区链(Sector Chain)。1这些 Sectors 可以是无序的。因此用于指定一个流的 Sectors 的顺序的SID 数组就称为 SID chain 。一个 SID chain 总是以 End Of Chain SID(2)为结束标记。例:一个流由4个Sector组成,其链为1, 6, 3, 5, 2头部扇区0扇区1扇区2扇区3扇区4扇区5扇区6图2.3

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 营销创新

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号