网序列分析系统课程设计

资源描述

《网序列分析系统课程设计》由会员分享，可在线阅读，更多相关《网序列分析系统课程设计（39页珍藏版）》请在金锄头文库上搜索。

1、目录第一章绪论1第二章数据基本分析22.1数据阐明22.2质量分析22.3 基本描述分析2第三章数据预解决43.1 数据解决过程43.2 数据预解决措施43.3 数据预解决成果6第四章数据模型构建84.1 数据流的构建8第五章模型成果分析125.1成果的分析解决125.2 成果合理性分析13第六章应用系统设计166.1模型接口166.2人机接口196.3软件测试24结论30参照文献31结束语32第一章绪论由于网站的构造设计，对特定顾客而言信息获取的代价与所通过的浏览途径长度成正比，这些位于途径中间的不必要的文档就无疑增长了顾客获取信息的代价。本文运用Clementine数据挖掘的

2、措施和技术对顾客所访问的页面序列进行挖掘，构建网页推荐的模型，实现对目前站点排序方式的优化，从而最大限度地优化顾客访问体验，提高目前站点信息获取的整体效率。核心词网页推荐；Clememtine数据挖掘；访问序列老式的Web网站以系统自身为中心，为了容纳大量的信息，以图构造组织网站，页面之间存在着比较复杂的层次关系。这些预先设计好的浏览途径(网站的构造)严格按照设计者编辑好的层次返回页面，因此，为了获取特定的信息，从同一页面出发的所有顾客都不得不反复地通过诸多与自己毫无关系的、不但愿看到的中间链接页面，使得顾客为了获取少量的信息付出较大的代价。如果在保证网页内容的前提下，实现网站物理构造的调节

3、和再组织，就可以避免混乱。站点途径优化事实上就是站点管理者优化其站点构造，它的浮现就是为了提高顾客的访问效率以及顾客对站点的忠诚度。第二章数据基本分析2.1数据阐明本数据来自网络信息服务（IIS）网站和1999年9月28日全天日记记录，每行持续数据表达单个顾客24小时内浏览网页的记录，持续数据中的数字表达顾客对相应网页的浏览祈求，该访问祈求不会被记录成具体的记录，即具体的网址，而只是单单记录了网页类型。这些网页类型分别是 frontpage, news, tech, local, opinion, on-air, misc, weather, health, living, business

4、, sports, summary, bbs (bulletin board service), travel, msn-news, and msn-sports。通过超高速缓冲器（寄存器）每个网页的服务祈求不会被记录到服务日记，因此，它不会体目前数据中。2.2质量分析本次分析的数据总共有989818，平均每个顾客点击网页的次数是5.7次，每个不同类型的网页有10到5000个不同的URL（网页地址）。从数据的质量上看，这是一种较大的数据集，数据的量足够大，可以用于数据的挖掘分析，且数据来源于Internet Information Server (IIS)，有足够可信度。顾客平均点击网页的数据

5、也有5.7次，合用于分析点击网页序列，每种类型的网页也有足够多的不同网址，符合客观规定。因此从数据质量上看，所选用的数据有分析的必要。2.3 基本描述分析截取部分数据如下：1 1 2 3 2 2 4 2 2 2 3 3 5 1 6 1 1 6 6 7 7 7 6 6 8 8 8 8 6 9 4 4 4 10 3 10 5 10 4 4 4 1 1 1 11 1 1 1 12 12 1 1 每一行代表一种顾客所点击的网页，本次选用的数据之中一共有17个不同类型的网页，分别是：frontpage news tech local opinion on-air misc weather msn-ne

6、ws health living business msn-sports sports summary bbs travel为了以便解决，将以上各个网页进行编号，分别为1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17。一第三行数据为例对单个顾客的数据进行阐明。顾客3第一次点击3号网页，第二次点击2号网页，第三次点击2号网页，第四次点击4号网页等一次类推下去。每一行都是一种顾客的记录第三章数据预解决3.1 数据解决过程本次任务是设计基于网页点击顺序来推送下一次也许点击的网页。选用的措施是Clementine 的序列关联，因此要将数据解决成Clementine可

7、读取的格式，并且要删减不必要的数据，改写数据的格式，这样才干达到分析解决的规定。结合提供的数据具体分析：每行数据是一种顾客的信息记录，表达的含义是第n号顾客点击了哪个网页，是第几次点击的。举出部分数据样例如下：1 1 2 3 2 2 4 2 2 2 3 3 5 1 6 1 1 6 6 7 7 7 6 6 8 8 8 8 6 9 4 4 4 10 3 10 5 10 4 4 4 1 1 1 11 1 1 1 12 12 1 1由于本次任务是进行序列关联分析，因此顾客只进行了一次点击状况的记录可以直接删除，例如样例中2，4，5，6，8号顾客。又由于最后要进行的操作是推送下一种也许点击的网页，如果顾

8、客只是在不断的点击同一种网页，这样的记录也无法分析可推送的网页，故也要剔去，如样例中1号顾客。尚有一种状况就是在多次点击过程中有反复点击的网页，这样的状况只需选用一次即可，由于我们所关系的是网页点击的顺序而不是次数，现对样例中9号顾客的数据进行分析，顾客9第一次点击6号网页，第二次点击7号网页，第三次点击6号网页，第四次点击8号网页。根据以上的规定，可将数据解决成三列，分别表达顾客号，顾客点击的网页号，本次点击的顺序号。将解决好的数据保存在文献中档待解决即可。3.2 数据预解决措施根据数据解决过程，决定运用microsoft visual c+软件，进行编程解决，程序分析过程如下：1.先取数据

9、文本中一行数据赋值给数组msn2.将msn数组按照空格分隔符分割，并将分割后数据转换为整型，赋值给msn1数组。3.对msn1数组中数据进行前后比较，如若相等，则将前一种赋值为04.将数组msn1中数据进行判断，不小于0，则将数据赋值给数组msn2。5.将数组msn2中数据个数不小于1的，按形式为三列，分别是顾客号，顾客点击的网页号，点击网页的顺序号的格式写入e.txt文本文献。6.具体代码分析如下：#include #include #include memory.h#include stdlib.husing namespace std;void main() cout正在解决，请稍等.;

10、 /void quchu(); int i=0,count=0; char msn100000;/保存字符型数据数组 int msn1100000;/保存一行int型数据数组 int msn210000;/保存无反复数据数组 fstream out; ofstream in;/定义文本输入输出流out.open(msnbc990928.seq,ios:in);/打开文本数据in.open(e.txt,ios:trunc); /ios:trunc表达在打开文献前将文献清空,由于是写入,文献不存在则创立 while(!out.eof() out.getline(msn,100000,n);/get

11、line(char *,int,char) 表达该行字符达到100个或遇到换行就结束 const char * split= ; /将数据变为int型 char * p; i=0; p=strtok(msn,split); while(p!=NULL) msn1i=atoi(p); /将截取数字转换为整型，赋值给数组 p=strtok(NULL,split); i+; int ii=i; int a=0; for(i=0;i0)/将符合条件的赋值给数组 msn2a=msn1i; a+; int aa=a;/保存一行数字个数 if(aa1)/将一行的个数不小于1的按规定写入文献 for(i=0;

12、iaa;i+) incount+1,msn2i,i+1n; count+; out.close();/关闭文献3.3 数据预解决成果数据解决好之后，形式为三列，分别是顾客号，顾客点击的网页号，点击网页的顺序号。取部分解决好的成果如下：ID,CONTENT,TIME1,3,11,2,21,4,31,2,41,3,52,6,12,7,22,6,32,8,43,6,13,9,23,4,3开头是加上的字段名。体现的含义是一号顾客第一到第五次分别点击3，2，4，2，3号网页。这个数据就可以用Clementine进行解决分析了。第四章数据模型构建4.1 数据流的构建打开Clementine软件，在源选

13、项卡中选择“可变文献”节点，单击编辑，进行如下设立：在文献设立中，导入解决好的数据，勾选“读取文献中的字段名”，在定“界符中”选项框中勾选“逗号”，“新行”；在类型设立中，将ID字段设为无类型，CONTENT设为集，TIME设为范畴。设立过程截图如下：图1 导入数据图2 数据类型设立再点击选用表节点，连接可变文献，执行，观测数据与否对的导入了。然后在数学建模选项卡中选择“序列”节点，连接可变文献，点击编辑，进行如下设立：在字段设立中，将ID字段设立为ID,勾选“设立时间字段”，选择TIME，内容字段中选择CONTENT。在模型设立中，设立合适的最小规则支持度，最小规则置信度，最大序列大小，要添加到流的预测。设立过程截图如下：图3 序列分析字段设立图4 序列分析模型参数设立以上过程设立好后，对“序列”字段点击执行，产生成果。数据流的构建过程截图如下：图5 数据流构建第五章模型成果分析5.1成果的分析解决一方面在“序列”节点的模型设立中设立好合适的最小支持度，最小置信度。目前将最小支持度设立为3%，最小置信度设立为60%，取其成果进行相应的分析。成果如下：

展开阅读全文

网序列分析系统课程设计

最新文档