目录详细设计说明书

上传人:第*** 文档编号:34263903 上传时间:2018-02-22 格式:DOC 页数:12 大小:574.50KB
返回 下载 相关 举报
目录详细设计说明书_第1页
第1页 / 共12页
目录详细设计说明书_第2页
第2页 / 共12页
目录详细设计说明书_第3页
第3页 / 共12页
目录详细设计说明书_第4页
第4页 / 共12页
目录详细设计说明书_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《目录详细设计说明书》由会员分享,可在线阅读,更多相关《目录详细设计说明书(12页珍藏版)》请在金锄头文库上搜索。

1、目录1 引言 .22 系统的结构 .23 网页信息采集及数据预处理模块设计说明 .34 候选话题发现模块设计说明 .65 话题能量计算模块设计说明 .96 热点话题排序模块设计说明 .11详细设计说明书1 引言1.1 编写目的a. 定义系统总体开发过程,作为开发人员项目开发的基础;b. 撰写此文档的目的在于让开发人员明确开发过程,各部分接口及数据传递过程;c. 作为软件总体测试和项目验收的依据;1.2 背景a 待开发软件系统的名称:BBS 热点话题发现系统b 本项目的用户:网站访问者1.3 定义a. BBS 话题:BBS 话题是由一个或者多个讨论类似内容的 BBS 主题集合1.4 参考资料a

2、项目需求分析报告2 系统的结构如图 2-1 为 BBS 热点话题发现系统的框架图:网页信息采集及数据预处理W e b网页数据采集网页文本解析热点话题发现及热度排序分词 ,去除停用词文本特征提取及文本表示对主题进行增量单边聚类话题能量计算热点话题排序及显示数据库图 2-1 BBS 热点话题发现系统的框架图3 网页信息采集及数据预处理模块设计说明3.1 程序描述网页信息采集及数据预处理子系统主要分为:网页数据采集、网页文本解析、网页文本分词及去除停用词四部分。3.2 功能如下图 3-1 为网页信息采集及数据预处理子系统的 IPO 图:用户选择 B B S 站点 , 系统获取初始 U R L1 .

3、获取 w e b 页面数据 ;2 . w e b 文本解析 ;3 . 文本分词 ;4 . 分词结果过滤1 . 将帖子内容存储到 p o s t表中 ;2 . 将过滤后的分词结果存入到 w o r d 表中输入处理输出图 3-1 网页信息采集及数据预处理子系统的 IPO 图3.3 性能本模块采用多线程的方式,同时对数据进行解析、分词、过滤的操作,大大提高了运行速度,使得系统可以快速的处理大量数据;3.4 流程逻辑开始输入初始 U R L 及结束点提取网页中的新U R L s , 将新 U R L s 加入相应的 U R L 队列进入 U R L s 队列中的U R L 获取 w e b 数据对

4、w e b 数据进行解析 , 并将所需帖子信息存入帖子队列调用 I C T C L A S 对帖子队列中帖子的标题和内容进行分词 , 并将分词结果以词为对象存入分词队列用停用词表和停用词性对分词队列中的词进行过滤 , 并将结果以词为对象存入过滤队列用户词典u s e r d i c t . t x t停用词表k e y w o r d . t x t将过滤队列中的词语对象存入数据库S e g m e n t a t i o n 表中新建一个线程 , 将帖子队列中的帖子对象存入数据库 P o s t 表中结束结束图 3-2 网页信息采集及数据预处理子系统流程图3.5 接口用图的形式说明本程序所隶

5、属的上一层模块及隶属于本程序的下一层模块、子程序,说明参数赋值和调用方式,说明与本程序相直接关联的数据结构(数据库、数据文卷) 。1. ICTCLAS 接口调用; 将下载的 API 文件拷到系统根目录下; 将 ICTCLAS 类放入相应接口路径下; 加载 dll 文件;2. 数据库接口及相关数据结构数据库表结构设计如下:Post 表:名 类型 允许为空 意义Pid Int no 主键subID Varchar Yes 识别每个帖子的唯一标识topicID Varchar Yes 主题帖标识url Varchar Yes 帖子的 URLBoard Varchar Yes 帖子所在版面Title

6、Varchar Yes 帖子标题authorid Varchar Yes 发帖人 idAuthorname Varchar Yes 发帖人名Content Text Yes 帖子内容Issuetime Datetime Yes 帖子发表时间Querytime datetime Yes 插入数据库时间IP varchar Yes 发帖 IPWord 表:名 类型 允许为空 意义wid Int No 主键sPOS Varchar Yes 词性word varchar Yes 词语PostSeg 表:名 类型 允许为空 意义psid Int No 主键pid Int No FKwid int No

7、FKweight Double Yes 词语在文档中的权值segtime Datetime Yes 分词过滤时间type varchar yes 词语在帖子中的位置3.6 限制条件由于 mysql 数据库单表不能超过 4G 的限制,本程序将数据存储后不能超过 4G;3.7 尚未解决的问题ICTCLAS 不能开启多线程调用;4 候选话题发现模块设计说明4.1 程序描述在数据处理完成之后,对需处理的时间片依次聚类,探测话题的存在,以找出热点话题。4.2 功能如下图 4-1 为候选话题发现模块的 IPO 图分词结果 , 数据库s e g m e n t a t i o n 表1 . 特征提取 ;2

8、. 文本表示 ;3 . 计算相似度4 . 增量单边聚类1 . 将聚类后的话题结果存入到 t o p i c 表中2 . 更新 s e g m e n t a t i o n表中词语权重输入处理输出图 4-1 候选话题发现模块 IPO 图4.3 性能由于采用单边增量聚类的方法,每个时间片处理的数据量缩减,使得聚类速度加快;4.4 算法1. 增量向量空间模型对分词后的主题进行文本表示,应用改进后的 TFIDF 评估函数对各主题的词项进行特征提取。改进后的 TFIDF 计算主题的词项权重: maxmax0.5().4()0.4j jjTFWtf TElog(.1)Nidff,jdti其中,表示词项

9、j 在本主题出现的频数;jTF表示词项 j 在单个主题出现的最大频数;max表示词 j 所处的文档位置的权重(标题,正文等) ;jTW表示所有位置权重的最大值;max表示命名实体的权重(人命名、地名、机构名) ;jE表示主题集中主题总数;N表示包含词项 j 的主题数;df表示词项 j 在主题 d 中的频数;t表示词项 j 的逆主题频数;if表示词项 j 在主题 d 中的权重;,jdW随 BBS 数据处理时间推移变化,需动态更新:f 1()()ttctdfjfjdfj其中,表示词项 j 在 t 时刻的主题频数;()tdfj表示词项 j 在 t-1 时刻的主题频数;1t表示在 t 时间片中新加入的

10、 BBS 主题个数。()ctfj话题的词项权重更新方法: , ,(1)jTjTjdW其中,表示词项 j 在以探测到的话题 T 中的权重;,jTW表示词项 j 在新进入的主题 d 中的权重;,jd表示 参数,取值范围在 0 到 1 之间。Rochi2. 增量单边聚类一个话题的所有主题在时间上具有连续性,故只要比较与新主题时间相邻的话题与新主题之间的相似性。热点话题的提取过程按时间次序依次进行,聚类形成的候选话题都需要经过能量的更新和衰变,所以与新主题比较的是上一个时间片进行能量计算后尚存活的话题。算法步骤:1) 主题 到来后,依照 对该主题进行空间向量表示,形如( ,创1d,jdW12(,.)n

11、w建一个包含主题 的话题簇 。11T2) 新主题 到来,根据更新方法更新 ,对主题进行增量向量空间表示。()tdf3) 根据上一个时间片结束时尚存活的候选话题簇类集,计算新主题与每个簇类的相似度,大于一定阈值,则将该话题加入该簇,并对话题类簇的向量进行更新:i. , ,(1)jTjTjdWii. 否则创建新的话题簇类。4) 返回步骤 2)继续执行。4.5 接口相关数据库表如下:Topic 表:名 类型 允许为空 说明Tid Int no 主键Energy double yes 话题能量值vector varchar yes 本时间片的营养值TopicPost 表:名 类型 允许为空 说明Tpi

12、d Int No 主键Tid Int No FKPid Int No FKSimilarity Double Yes 相似度Clustertime datetime Yes 聚类时间Nutrition double yes 营养值4.6 尚未解决的问题1. 需要用训练集测试阈值;2. 关于如何提高聚类算法处理速度的问题;5 话题能量计算模块设计说明5.1 程序描述在每一个时间片上进行候选话题发现之后,评估每个话题在本时间片结束时拥有的能量。 (能量值可以表征当前话题在 BBS 讨论的热门程度)5.2 功能如下图 5-1 为话题能量计算模块的 IPO 图:聚类结果 , 数据库 t o p i c

13、 表1 . 计算上一个时间片的营养值 ;2 . 计算当前时间片的营养值将计算结果更新到 t o p i c 表中输入处理输出图 5-1 话题能量计算模块的 IPO 图5.3 算法1、 相关参数及函数营养转换值 :从输入文档中提取的营养增长率营养衰减值 :一个时间片内营养的损失值.纯营养值 : ,由每个时间片上的 组成的,表ty1(,.,)ttgx1,.tx,示不同话题不同的营养值。1,. 1,.()ti iit ityx话题的能量函数 : ,其中 自行设定, 表示时间片个数。F()IrsrsIBBS 中每个帖子营养值计算公式为:(3-1)lg(2)()1ngpz其中,:表示帖子 的营养值():

14、表示帖子和话题之间的相似度z:表示帖子被其他帖子引用的次数nBBS 中各主题的营养值计算公式为:(3-2).()()ptimedGg其中,:表示时间片 t 上主题 d 所含的营养值()p:表示帖子 p 在时间片 t 上产生.timet:表示帖子 p 属于主题 dpd定义 BBS 各话题的能量值计算公式为:(3-3)1111,00,ttttTtye2、 算法的具体步骤(1)计算上一个时间片结束时话题 T 能量值 所对应的营养值。通过对话题能量函1tTe数(3-3)求反函数即可得到该话题对应的营养值 。1ty(2)计算该话题 T 在本时间片上所有帖子的营养值 。 ( 为话题内各贴),计算()tgp方法如公式(3-1)。(3)计算该话题 T 在时间片结束时的营养总值 。ty.1()ptimetttdyg(4)计算当前时间片结束时

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号