软件度量模型毕业论文.doc

资源描述

《软件度量模型毕业论文.doc》由会员分享，可在线阅读，更多相关《软件度量模型毕业论文.doc（27页珍藏版）》请在金锄头文库上搜索。

1、软件度量模型毕业论文软件度量模型毕业论文摘要软件度量模型是基于软件工程项目的度量值（如项目团队大小）为将来的软件工程预测目标软件度量值，例如软件的开发工作量和错误率。很明显，构建这样的软件度量模型需要利用过去的类似项目的数据样本。但是，这些数据样本中往往存在缺失数据的现象。回归建模中确定选择哪些度量变量作为自变量很可能基于直觉或是经验性的假设。模型建立以后很少对经验性的假设做事后检验，这样就容易产生多余的度量变量，从而增加不必要的复杂性。再者，这些度量值很可能既有连续型又有离散型的变量。如何对带有缺失数据的数据样本构建简化的软件度量模型是本论文讨论和研究的主要课题。本论文的主要内容包括以下几

2、个部分：第一章为绪论，讲述论文的主要研究背景，以及初步介绍所遇到的3个困难和现有的相关解决方法（这些会在二，三，四章里详细论述）。第二章是缺失数据的统计处理。该部分首先介绍了一些缺失数据相关的背景知识；然后提出了一些对缺失数据问题的处理方法；最后详细地阐述了本文所采用的k-NN法及蒙特卡洛模拟法。第三章主要考虑离散型变量的处理方法。介绍一种比较常见的虚拟变量的方法。第四章是变量选择的方法。在本章中，我们介绍了3种传统的变量选择方法。通过比较我们选出比较好的逐步回归作为本文变量选择的方法。第五章是案例分析。用R、SPSS、Java等语言及程序把二，三，四章介绍的方法和理论应用到实际的数据样本中

3、,完成了数据缺失下软件度量数据模型的简化。关键词：软件度量，变量选择，缺失数据，逐步回归，虚拟变量法ABSTRACT 19Software metric models can predict target software metric(s), e.g. the development work effort or defect rates for any future software project based on the project predictor software metric(s) such as project team size. Obviously, the cons

4、truction of such software measurement model requires use of past similar project data samples. However incomplete data often appear in such data samples. The decision on whether a particular predictor metric should be included is most likely based on the intuition or experienced-based assumption. Un

5、fortunately this assumption is usually not verifiable after the model is constructed, leading to redundant predictor metric(s) and/or unnecessary complexity of predictor metric selection. Moreover, these predictor metrics may contain continuous and discrete variables. This thesis mainly considers ho

6、w to simplify the software metrics model with incomplete data. The contents of this thesis include the following sections:Chapter 1 is an introduction about the background of this study and details on three main problems encountered and their solutions (details will be discussed in Chapters 2, 3 and

7、 4).Chapter 2 discusses the methods how to deal with the missing data in statistics. In this chapter, we describe current research progress associated with the missing data processing and provided some methods related to this study. At last, we discuss the k-NN method and Monte-Carlo simulation meth

8、od.Chapter 3 mainly focuses on the processing method for discrete variables. A relatively simple approach using so called virtual variables is discussed.Chapter 4 shows the study details of a method for variable selection. In this chapter we introduce 3 classical methods often used for variable sele

9、ction. After some comparison, we choose stepwise regression method for our paper.Chapter 5 gives a case study. Using R, SPSS, and Java language, we apply the methods from Chapter 2, 3 and 4 to the real data, a simplified software metrics model is constructed successfully. Key words: software metrics

10、, variable selection, missing data, stepwise regression, virtual variable method目录第一章绪论4 第一节课题背景及意义4 第二节研究内容及方法4 一、缺失数据的处理4 二、变量选择4 三、离散型变量（度量）的分类简化4第二章缺失数据的统计处理4第一节缺失数据相关背景介绍5第二节形成缺失数据的原因5第三节缺失数据的处理方法6一、人工填写(filling manually) 6二、平均值填充(MeanMode Completer) 6三、K最近邻法(k-nearest neighbor method，简

11、记k-NN) 6四、演绎估计法6第四节 k-NN填补法7第三章离散型变量的处理方法8第一节简单情况9第二节复杂情况9第四章变量选择的方法（经典方法）9 第一节前进法10 第二节后退法10 第三节逐步回归法10第五章案例分析11第一节数据资料说明及预处理11第二节用改进的k-NN方法填补缺失数据13 第三节虚拟变量法处理离散型变量13第四节模型简化14第五节多重填补方法18第六节总结19结论20致谢20参考文献20附录内容名称20 第一章绪论第一节课题背景及意义软件度量就是对软件系统的一些性能或者规格的测量。为了探究这些度量中可能存在的相关性，就必须构造恰当的

12、模型。所有这些模型被认为是软件度量模型。通常，每一个模型都给出了一个特定的目标度量（应变量）和一个或多个度量（自变量）之间的关系。例如，对一项工程根据 “工程函数点的数量”建立一个模型去预测“总工作量”。这个模型非常重要，因为它能在一项工程发展的早期阶段估计出预期的总工作量。在这个估计的基础上，我们就可以确定这个工程是否应该被继续或者为了在最终期限之前完成这项工程需要进行哪些方面的调整（比如说聘请更多的开发者）。第二节研究内容及方法一、缺失数据的处理另一点值得注意的就是缺失数据经常出现在用于构造度量模型的数据样本中。因为缺失数据的问题并不是软件工程中所特有的，所以可以毫不惊讶地发现有很多处理

13、缺失数据的方法已经被提出。常见的处理缺失数据的方法如平均值填补，EM算法，演绎估计法等，大多存在一定的局限性或者误差较大。最近的研究表明k最近邻（k-NN）填补方法是一种比其他填补方法更加稳健的方法。因此在这篇论文里面，我们运用k-NN填补方法来处理缺失数据。二、变量选择在软件度量模型的构建中所面临的挑战之一就是自变量的选择。一般情况下，一个度量变量是否应该包含在软件度量模型中，常于直觉或者根据经验做出的假设，即认为该度量对目标变量的影响在统计上显著。有大量的文献关于变量选择的讨论。比较经典的方法有前进法、后退法和逐步回归法，经我们后面的分析，选用逐步回归法。三、离散型变量（度量）的分类简化此外，我们面临的另一个挑战分类简化。是不是所有开头指定的离散型的度量自变量的分类都是必需的呢？它们是否可以合并

展开阅读全文