caida提供互联网数据共享服务

上传人:w****i 文档编号:106357374 上传时间:2019-10-14 格式:PDF 页数:2 大小:890.54KB
返回 下载 相关 举报
caida提供互联网数据共享服务_第1页
第1页 / 共2页
caida提供互联网数据共享服务_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述

《caida提供互联网数据共享服务》由会员分享,可在线阅读,更多相关《caida提供互联网数据共享服务(2页珍藏版)》请在金锄头文库上搜索。

1、2 0 0 8 . 5 中国教育网络27 研究与发展 研究人 文/ 杨望 在互联网研究领域,除了纯理论研究, 大多数的研究需要以各种互联网数据为研 究对象,本期介绍的C A I D A 就是最重要的 互联网数据提供者之一。C A I D A的全称是 互联网数据分析合作协会( C o o p e r a t i v e A s - s o c i a t i o n f o r I n t e r n e t D a t a A n a l y s i s ) , 1 9 9 7 年由加州大学圣迭戈分校的K . C . C l a f f y 博士和T r a c i e M o n k 博士联

2、手创立,本部 坐落于加州大学圣迭戈分校中的圣迭戈超 级计算中心。C A I D A的目标是为协助建造 和保持一个健壮的、可扩展的全球互联网 结构提供工具和分析手段。从C A I D A 的名 字可以看出,C A I D A的重心在于数据,所 有的工作包括数据的采集、分析、可视化、 共享都是围绕互联网数据展开的。C A I D A 获取数据的途径很广泛,通过和商业、教 育、研究、政府组织的合作, 从各种类型的 链路上获取各种类型的互联网数据,然后 通过工具分析和可视化收集到的数据来更 好地理解现在和将来的网络的拓扑、路由、 安全、D N S 、负载、性能和经济学行为。 C A I D A 以数据

3、为核心的原则缘起于互 联网研究的特殊性。尽管互联网的研究需 要以互联网的各类数据为基础,但是由于 设备、 技术、 隐私等多种因素的制约, 收集 互联网数据是一件困难的事情,而在不同 的研究者间共享数据是一件更困难的事情。 这导致在其他科学领域作为常识的可重复 性实验在互联网研究中很难进行,有时甚 至会出现“A 算法在B 数据上实验得到1 % 的误报率,C 算法在D 数据上实验得到5 % 的误报率,所以A算法优于B算法”的荒 谬结论。C A I D A 提供数据共享服务让研究 者可以有一个共同的实验对象,从而保证 不同的理论或算法有一个公平比较的平台。 下文将重点介绍C A I D A 的研究领

4、域、提供 的数据和开发的工具。 研究领域 C A I D A收集的数据围绕着C A I D A的 研究领域,C A I D A 目前关注的研究领域包 括以下几个方面: 路由寻址 (R o u t i n g a n d A d d r e s s i n g ) 研究如何将分布式计算理论的成果应用 到路由协议的开发上,来解决将来会面临的 可扩展性问题。C I A D A 同时也分析现有的互 联网路由和寻址数据,为目前面对的I P v 4 地 址耗尽, I P v 6 的推广等问题提供信息支持。 拓扑 (T o p o l o g y ) C A I D A的拓扑研究包括以下三个领 域:宏观拓扑

5、测量 (M a c r o s c o p i c T o p o l o g y M e a s u r e m e n t ) ,对被观测I S P 的A S 层次拓 扑分析,以及针对路由研究的拓扑建模。 域名服务(D N S ) 域名服务系统是互联网关键的基础设 施组件。C A I D A 的研究致力于提高D N S 服 务器的监控能力和完整性保护能力。 安全 (S e c u r i t y ) C A I D A 的安全研究包括基于网络的攻 击(如拒绝服务攻击) ,以及对网络中传播 的蠕虫和病毒的趋势和影响进行测量和统 计性分析。C A I D A希望开发一套有意义的 和实时的关于攻

6、击行为的定量测度,从而 能够深入理解互联网上的恶意行为的本质, 并对消除恶意行为的危害提出最佳的指导 意见。 流量分析 (T r a f f i c A n a l y s i s ) C A I D A通过流量分析研究互联网链 路的负载变化和组成,从而更好地理解互 联网流量的本质。 性能 (P e r f o r m a n c e ) 性能研究主要指对互联网中指定端点 间的链路延迟的测量,这个研究项目是为 拓扑建模服务的。 策略 (P o l i c y ) 在C A I D A 的研究中,发现除了各类技 术问题,在互联网最顶层的问题中还存在 着经济、所有权、信任关系这些非技术性 的障碍,

7、所以互联网经济学也是C A I D A 的 研究对象之一。 可视化 (V i s u a l i z a t i o n ) 为了能更好地理解各种互联网数据的 本质,C A I D A 开发了各种不同的可视化技 术来显示各类互联网数据。 CAIDA提供互联网数据共享服务 28中国教育网络 2 0 0 8 . 5 研究与发展 研究机构 C A I D A 数据 收集用于科学研究网络功能的数据是 C A I D A 的核心目标之一。C A I D A 在各种不 同的链路和交换中心收集了不同种类的网络 数据,目前C A I D A 拥有的数据量已经达到 8 9 T B ,并在尽可能保证数据提供者隐私

8、的前 提下,向研究界共享这些数据。根据收集方 法的不同,C A I D A 的数据可以分为被动测量 数据、主动测量数据、外部数据和I M D C 。 被动测量指从路由器或交换机等互联 设备上复制数据输出到测量设备,由于没 有额外的流量在测量过程中被引入网络, 这种数据收集方法不改变它测量的链路, 所以称之为被动测量。 被动测量的数据包括O C 4 8 链路的匿名 化数据、D D o s 背景辐射数据、蠕虫传播数 据、D N S 根服务器数据等。O C 4 8 链路匿名 化数据包括了该链路1 天的完整报文数据, 可以用于流量分析,比如流量趋势变化预 测,流量中的流行应用程序分析,恶意行为 检测和

9、应用协议交互方式研究。D D o s 背景 辐射数据指由于拒绝服务攻击伪造地址造成 被攻击者对伪造地址报文发出的响应报文, 背景辐射数据不能直接反映攻击进行过程, 但可以用于推测正在发生的拒绝服务攻击的 行为特性。C A I D A 提供的蠕虫数据包括了 2 0 0 1 年R e d C o d e 蠕虫和2 0 0 4 年W i t t y 蠕 虫在全世界范围内的传播过程, 是对蠕虫进 行行为建模的有效依据。D N S根服务器数 据则包括了1 3 台根服务器中的F 服务器上 记录的D N S 请求和应答报文信息。 主动测量指根据研究目的需要,向被 测量网络中注入定制的流量,因为这种方 法改变

10、被测量网络的流量构成,所以被叫 做主动测量。 一般的主动测量包括估计互联网链路 的可用带宽或确定两台主机之间的拓扑路 径。C A I D A 通过自行开发的S k i t t e r 工具, 用 主 动 测 量 方 式 获 取 宏 观 拓 扑 项 目 (M a c r o s c o p i c T o p o l o g y P r o j e c t ) 所需要 的网络路径和链路延迟等数据。 除了C A I D A 测量的数据,还有一些数 据是由其他渠道获取用于配合主动和被动 测量获得的数据。这些数据包括互联网主 机和地理位置的对应关系,D N S 缓存中主 机名和 I P 地址的对应关系

11、,以及 R o u t e V i e w s 等组织提供的路由数据。 I M D C的全称是互联网测量数据目录 (I n t e r n e t M e a s u r e m e n t D a t a C a t a l o g ) 。 这是C A I D A为非C A I D A的测量数据建立 的门户目录。在C A I D A 之外,还有很多没 有C A I D A 规模大,但是也提供互联网数据 的组织,研究者要想找到这些数据资源比 较困难,C A I D A 通过I M D C 将这些资源统 一到一个门户之下。I M D C本身不存储这 些数据,但提供了每个注册的互联网数 据的元信息

12、,包括数据的位置,格式,内 容,以及相应的研究文献等等,研究者可 以在 I M D C中查找符合自己需求的数据, 再去下载试验,并很容 易找到使用同样数据的 研究者,对比他人的研 究成果。 C A I D A的数据并 不是完全开放,根据内 容的不同分为三个等 级。第一个等级是完全 自由的访问,用户自己 可自由下载,不需要提 供自己的信息。这一级 数据包括A S 信息,路由 信息和R e d C o d e 蠕虫 数据。 第二个等级是基于申请的访问, 用户 必须在线填写申请表格,介绍自己的研究 背景和使用数据的目的,在C A I D A 审阅后 给予访问权限。这一级数据主要有拓扑数 据,D D

13、o s 攻击的背景辐射数据,W i t t y 蠕 虫数据,根D N S 服务器数据和匿名化后的 主干节点数据。最高等级是C A I D A 访问数 据,只允许在C A I D A 访问的学者对数据进 行研究,以保证敏感信息不会在研究成果 中泄露,主要是各类非匿名化的数据。 C A I D A 工具 为了促进对数据的研究,C A I D A 还开 发了各类工具, 包括测量工具、 分析工具和 可视化工具。 测量工具指C A I D A用于主动和被动 测量的各类工具,分析工具则是对测量得 到的数据的各类测度进行进一步统计分析。 这两种工具往往结合在一起。 C o r a l R e e f 软 件

14、套件是C A I D A用于被动测量的主要工 具, 提供了从驱动、 开发库到程序在内的一 整套系统,支持l i b p c a p 、D A G 卡等几种常 用格式的网络数据的抓取和分析,并能动 态实时地显示流量报告。 C o r a l R e e f 支持的 速率为O C 3 和O C 1 2 ,针对O C 4 8 的版本还 在开发中。S k i t t e r 和S c a m p e r 则是C A I D A 用于主动测量的工具,可以用于刻画互联 网宏观的可连接性和性能。 可视化工具是C A I D A 的特色之一,特 别是W a l r u s 、O t t e r 等工具可以将网

15、络数 据映射到地球的地理模型,通过三维球面 视图来展示网络数据的趋势和变化,让研 究者从以前没有过的角度来观察和审视数 据。 限于篇幅, 这里不能详细介绍, 感兴趣 的读者可以通过扩展阅读给出的链接了解 详细信息。 ( 作者单位为东南大学计算机科学与工程学院) 扩展阅读 1 C A I D A . h t t p : / / w w w . c a i d a . . o r g 2 I M D C . h t t p : / / i m d c . c a i d a . o r g 3 C o l l e n S h a n n o n .“C A I D A a n d D a t C a t ”M O M E N T K i c k o o f f M e e t i n g , J a n 2 1 , 2 0 0 8 C A I D A的目标是为协助建 造和保持一个健壮的、可 扩展的全球互联网结构提 供工具和分析手段。图为 全球I P v 4 网络拓扑。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号