cdal资源统计报告

上传人:Wo****W 文档编号:192897553 上传时间:2021-08-19 格式:DOC 页数:49 大小:58.50KB
返回 下载 相关 举报
cdal资源统计报告_第1页
第1页 / 共49页
cdal资源统计报告_第2页
第2页 / 共49页
cdal资源统计报告_第3页
第3页 / 共49页
亲,该文档总共49页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《cdal资源统计报告》由会员分享,可在线阅读,更多相关《cdal资源统计报告(49页珍藏版)》请在金锄头文库上搜索。

1、cdal资统计报告CDAL资统计报告陈翀报告编号 PKUCSNCISTR207003报告编号 PKUCSNCISTR207003提交时间 207-3-12北京大学 信息科学技术学院网络与信息系统研究所,100871CDAL资统计报告陈翀+(北京大学 信息科学与技术学院, 100871) 【摘要】:p :本文针对CDAL资库藏进行一次较为全面的统计,与之前主要基于资粒度的统计不同,这次关注资内部的文件,统计的项目涉及资总量、重复资情况、文件总量、文件后缀种类、频度及分布情况、文件命名长度、文件大小、不同后缀类型的文件大小分布;并按照资内容类别对上述信息进行统计,尤其是不同内容类别中各后缀类型对应

2、的文件大小分布;此外还计算了资目录内部通常包含的子目录平均深度。统计工作的目的除了进行普查之外,还希望能有助于发现哪些文件特征能够表达文件对所在资目录或同目录其它文件的代表性。【关键词】:p :统计 文件 大小 扩展名 名字 类别 CDALThe General Statist on CDAL ResourceChen ChongCNDS Lab, PekingAbstract: This is a statist report on CDAL (Chinese Dital Assets Library) resources.What is different with those we di

3、d before is we focus on the attributes of files in the resources instead of the resource items themselves.Beside of the size volume, duplation, files number in all and by resource-types, the file attributes like file etension (e.g.the types, the frequency of each etension type, the size proportion o

4、f the files with certain etension), file name length (e.g.the general distribution of file name length, the relation with the etension types), and the file size (e.g.the general distribution of file size with different file etensions) have also been counted or analyzed.As CDAL resources have been cl

5、assified according to the content types manually, we make use of the achievement by pare those of the statist items mentioned above.Also by these data, we aimed to find out how to evaluate the representation of a file to this holder-directory.Key words: statist; distribution; CDAL; dital resources;

6、representation of files; 引言在207年1月17-23日,对203年以来四年间搜集的CDAL资进行了一次普查,并在207年3月2-11日进行数据分析p 。本文记录各项统计数据,并分析p 所发现的一些有意思的现象。本文数据可以说明目前CDAL中,各种内容类型、文件格式的资的分布情况。并且由于CDAL的资除有少数内容为捐赠或购买,基本来自互联网上尤其是教育网内流传的数字资。在资收集的时候也没有专门针对内容类型做筛选,教育网资种类丰富数量也较多,有理由粗略地认为CDAL的统计数据能够反映互联网流传资的一些规律。CDAL数据基本情况概述在CDAL中,一个资是指表达独立内容的目录

7、,其中所包含的子目录和文件共同表达一个与资目录名吻合的主题。资目录名基本上是从互联网收集时带有的原始命名,很少做修改。一个完整的资标识包含资的物理存储地点+分类路径+资目录名,分类路径是指收集资时按照资内容类别加入CDAL分类体系,具体表现在分类目录树中的特定节点对应的路径。在线的机器3台(head,head2,head4),同时承担服务提供和数据存储。CDAL总资量、唯一资量和重复资量按照资目录数和存储容量分别为表1所示:表1:资概要统计统计项资目录(个)存储容量(TB)总资169267.5唯一资16284,占资个数总量96.21 7.3重复资560,占3.310.2空资82,占0.480空

8、文件的资一些资目录非空,但是其中包含的文件为空。0对表1的说明:总资:所有在线存储的库藏的资数。统计包括唯一资、重复和内容为空的资。重复资和空资:是以资目录计量的。重复资是指资的分类路径+资目录名和其他资重复;空资是指资标识唯一,但实际内容为空。这两种资需要被删除。唯一资:资在持续搜集的过程中有可能被重复地加入库藏。而且会混杂少数空目录也被误认为是一个资,这里统计中剔除了这两种情况唯一资在不同服务器上的情况如表2。“包含的文件数”一项括号中的数据是在扫描每个服务器资目录的时候,将其中包含的一些特殊功能文件过滤掉后统计得到的,这些文件包括“.listing”, “.metadata.dc”, “

9、nohup”, “MD5SUM”等。后续我们统计用到服务器中的文件数,不加说明则是唯一资中未作清理的文件数。表2:各服务器唯一资服务器编号(ip)唯一资数包含的文件数占用的存储量(TB)Head(146.41)4108135973 (135815)2.10Head2(146.42)11525431899 (430775)4.49Head4(146.20)64948424 (48423)0.62针对唯一资的调查统计文件数:这些资目录中包含的文件总数616,296个,清除掉上文所说的部分无意义文件之后,总数为615013个。其中的文件允许有重复,因为文件是所属资的构成部分,它可以用来说明不同的资内

10、容。文件命名:多数文件是符合我们惯常的认识有名字有后缀,但是也有:1)只有文件名没有后缀,例如文件名为“Readme”、“md5sums”,总数为3971个,占全部数量0.6;2)只有后缀没有文件名,例如一些功能性的隐含文件“.listing”等,总数为635,占0.1。后缀:616,296个文件的不重复后缀类型为3036种,长度从0到58个字符,共31种不同长度。按照长度、所占百分比、出现频率如表3所示,后缀长度的比例和该长度后缀的文件在616,296个文件中占的比例如图1所示。需要说明的是,并非所有的后缀类型都值得列为一类,清理结果见第3.1节。表3:文件后缀类型长度与所占比例长度比例对应

11、后缀长的文件数比例11.252.6525.145.35375.9286.903且6且105.340.01表3说明,从对文件后缀类型长度的统计中可以知道,网络资常见的后缀类型长度为3,长度超过6的后缀,通常可以不视为约定的后缀类型。图1:文件名的后缀长度及其对应文件数比重图1中,横坐标是后缀长度,纵坐标代表比例,红色曲线代表长度为i(i=1,2,3)的后缀对应的文件数占所有文件数的比例,蓝色代表长度为i的后缀在后缀类型总数中占据的比例。峰值为后缀长度=3。内容类别:从后缀类型出现频率,后缀类型对应的文件字节数占全部存储量的比重来看,文件数占优势的为图片,文件字节数占优势的为视频和音频。说明CDA

12、L库存中这些多媒体资是占主要份额的。见表4。表4:常见后缀类型及反映出的CDAL资内容分布情况Rank后缀类型出现频率5后缀类型对应的文件字节数占存储总量比重的5后缀类型出现频率文件数后缀类型文件字节比重1jpg17.23106avi28.3429.3257439rmvb20.463zip6.8442rm15.774pdf5.6935061iso7.005tt5.59344623.74结合表4的数据可以对互联网数字资的预测:流传度最高的网络资是静态图片和音频类数字资;各类视频内容占据网上传播文件总字节量的半数以上;由于大文件的传输较多,zip, iso等压缩文件也在数量和文件字节数占重要比重;

13、小巧轻便的纯文本格式在记载和传播信息方面被广泛应用;多数知识类文字内容使用pdf发布。对文件后缀进一步分析p 后缀作为文件类型的标示,可以是:1)创建该文件的专门程序生成;2)创建者人为指定作为文件辅助识别的标记,例如后缀为“readme”、“01”等。我们不考虑情况2,以及情况1中一些文件切割程序生成的诸如“r01”等形式的后缀,只考虑约定的标准后缀类型,按照前面统计中对后缀模式、长度和所对应文件的数量的发现,制定筛选规则为:长度6个字符出现频度10次(在整个文件集合中这种后缀对应的文件不超过10个)全为数字数字1到多个+标点+数字1到多个英文字母1-2个+标点至多出现一个+数字1到多个过滤

14、之后,得到的后缀相关数据如下:后缀类型535种,对应的文件数603244个,占总文件数的97.88。后缀出现频度表现为重尾分布,频度按从大到小排序,排在首位的后缀对应的文件共106个,第100位的后缀只出现214次,相差近500倍。从清理后的后缀类型对应的文件数比例占到97.88来看,有理由认为这500多种后缀是我们平时用各种软件、编程语言生成、流传度比较高的标准后缀。如图2所示,图中横坐标为后缀类型的序号,纵坐标代表后缀类型的出现频度,都取log10。图2:清理后的后缀类型出现频度分布表5:CDAL所有文件的集合中排名前30的后缀类型为:RankSuffi出现概率RankSuffi出现概率R

15、ankSuffi出现概率1jpg0.172311ee0.02021avi0.0100720.0932120.018022nfo0.008143zip0.068413swf0.017723wma0.007844pdf0.056914rar0.017124null0.007495tt0.055915rmvb0.015725Mid0.006016f0.053216wav0.014326chm0.005857htm0.049817bmp0.012927doc0.005408rm0.025418pdg0.011728rtf0.005159wmf0.023119h0.011229diz0.0040610gz

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号