实数公理的等价命题2的证明

上传人:mg****85 文档编号:34166347 上传时间:2018-02-21 格式:DOC 页数:23 大小:282.50KB
返回 下载 相关 举报
实数公理的等价命题2的证明_第1页
第1页 / 共23页
实数公理的等价命题2的证明_第2页
第2页 / 共23页
实数公理的等价命题2的证明_第3页
第3页 / 共23页
实数公理的等价命题2的证明_第4页
第4页 / 共23页
实数公理的等价命题2的证明_第5页
第5页 / 共23页
点击查看更多>>
资源描述

《实数公理的等价命题2的证明》由会员分享,可在线阅读,更多相关《实数公理的等价命题2的证明(23页珍藏版)》请在金锄头文库上搜索。

1、第 5 章评估假设对假设的精度进行经验的评估是机器学习中的基本问题。本章介绍了用统计方法估计假设精度,主要为解决以下三个问题:首先,已知一个假设在有限数据样本上观察到的精度,怎样估计它在其他实例上的精度。其次,如果一个假设在某些数据样本上好于另一个,那么一般情况下是否该假设更准确。第三,当数据有限时,怎样高效地利用这些数据,通过它们既能学习到假设,还能估计其精度?由于有限的数据样本可能不代表数据的一般分布,所以从这些数据上估计出的假设精度可能有误差。统计的方法,结合有关数据基准分布的假定,使我们可以用有限数据样本上的观察精度来逼近整个数据分布上的真实精度。5.1 动机多数情况下,对学习到的假设

2、进行尽可能准确的性能评估十分重要。原因之一很简单,是为了知道是否可以使用该假设。例如,从一个长度有限的数据库中学习,以了解不同医疗手段的效果,就有必要尽可能准确地知道学习结果的正确性。另一原因在于,对假设的评估是许多学习方法的重要组成部分。例如在决策树学习中,为避免过度拟合问题必须进行后修剪,这时我们必须评估每一步修剪对树的精度产生的影响。因此,有必要了解已修剪和未修剪树的精度估计中固有的可能误差。当数据十分充足时,假设精度的估计相对容易。然而当给定的数据集非常有限时,要学习一个概念并估计其将来的精度,存在两个很关键的困难: 估计的偏差(Bias in the estimate)。首先,学习到

3、的概念在训练样例上的观察精度通常不能很好地用于估计在将来样例上的精度。因为假设是从这些样例中得出的,因此对将来样例的精度估计通常偏于乐观。尤其在学习器采用了很大的假设空间,并过度拟合训练样例时,这一情况更可能出现。要对将来的精度进行无偏估计,典型的方法是选择与训练样例和假设无关的检验样例,在这个样例集合上检验假设。 估计的方差(Variance in the estimate)。其次,即使假设精度在独立的无偏检验样例上测量,得到的精度仍可能与真实精度不同,这取决于特定检验样例集合的组成。检验样例越少,产生的方差越大。本章讨论了对学到的假设的评估、对两个假设精度的比较、和有限数据样本情况下两个学

4、习算法精度的比较。其中的讨论多数集中在统计和采样理论的基本定律,而本章假定读者在统计学方面没有背景知识。假设的统计检验需要较多的理论知识。本章提供了介绍性的综述,集中讨论那些与假设的学习、评估和比较相关的问题。5.2 估计假设精度在评估一个假设时,我们一般更感兴趣于估计其对未来实例的分类精度。同时,也需要知道这一精度估计中的可能的误差(即与此估计相联系的误差门限) 。本章使用的学习问题的框架如下。有一所有可能实例的空间 X(如所有人的集合) ,其上定义了多个目标函数(如计划本年购买滑雪板者) 。我们假定 X 中不同实例具有不同的出现频率,对此,一种合适的建模方式是,假定存在一未知的概率分布 D

5、,它定义了 X 中每一实例出现的概率(如 19 岁的人的概率比 109 岁的人概率高) 。注意 D 并没有说明 x 是一正例还是一反例,只确定了其出现概率。学习任务是在假设空间 H 上学习一个目标概念(即目标函数)f。目标函数 f 的训练样例由施教者提供给学习器:每一个实例按照分布 D被独立地抽取,然后它连同其正确的目标值 f(x)被提供给学习器。为说明这一点,考虑目标函数“计划本年购买滑雪板者” ,可以调查去滑雪板商店的顾客,通过此调查来收集训练样例。在这里实例空间 X 为所有人组成的集合,每个实例可由人的各种属性描述,如年龄、职业、每年滑雪次数等。分布情况 D 指定了在滑雪板商店中遇到的每

6、个人的概率。目标函数 f:X0,1将每个人进行分类,判断它是否会在本年内购买滑雪板。在这个一般的框架中,我们感兴趣的是以下两个问题:1. 给定假设 h 和包含若干按 D 分布随机抽取的样例的数据集,如何针对将来按同样分布抽取的实例,得到对 h 的精度的最好估计。2. 这一精度估计的可能的误差是多少?5.2.1 样本错误率和真实错误率为解决上述的两个问题,需要确切地区分出两种精度(或两种错误率) 。其一是可用数据样本上该假设的错误率。其二是在分布为 D 的整个实例集合上该假设的错误率。它们分别被称为样本错误率和真实错误率。对于于从 X 中抽取的样本 S,某假设关于 S 的样本错误率(sample

7、 error) ,是该假设错误分类的实例在 S 中所占比例:义义义 假设 h 关于目标函数 f 和数据样本 S 的样本错误率(标记为 errorS(h))为:SxSxhfnhero)(,1)(其中 n 为 S 中样例的数量,而 在 时为 1,否则为 0。,ff真实错误率(true error)是对于按 D 分布随机抽取的实例,该假设对它错误分类的概率。义义义 假设 h 关于目标函数 f 和分布 D 的真实错误率(由 errorD(h)表示) ,为 h 误分类按 D 分布随机抽取实例的概率: )(Pr)(xhfherox这里,记号 表示概率在实例分布 D 上计算。DxPr我们通常想知道的是假设的

8、真实错误率 errorD(h),因为这是在分类未来样例时出现错误的可能性。然而我们所能测量的只是样本错误率 errorS(h),它所要求的数据样本 S 是我们所拥有的。本节所要考虑的主要问题就是“error S(h)在何种程度上提供了对 errorD(h) 的估计?” 。5.2.2 离散值假设的置信区间为解决“error S(h)在何种程度上提供了对 errorD(h) 的估计”的问题,先考虑 h 为离散值假设的情况。具体地说,比如要基于某离散值假设 h 在样本 S 上观察到的样本错误率,估计它的真实错误率,其中: 样本 S 包含 n 个样例,它们的抽取按照概率分布 D,抽取过程是相互独立的,

9、并且不依赖于 h n30 假设 h 在这 n 个样例上犯了 r 个错误(error S(h)=r/n)已知这些条件,统计理论可给出以下断言:1.没有其他信息的话,error D(h)最可能的值为 errorS(h)2.有大约 95的可能性,真实错误率 errorD(h)处于下面的区间内: neroeroheroSSS )(196.1)(举例说明,假如数据样本 S 包含 n=40 个样例,并且假设 h 在这些数据上产生了 r=12个错误。这样,样本错误率为 errorS(h)=12/400.3。如果没有更多的信息,对真实错误率errorD(h)的最好的估计即为样本错误率 0.3。然而我们不能期望

10、这是对真实错误率的完美估计。如果另外搜集 40 个随机抽取的样例 S,样本错误率 errorS(h)将与原来的 errorS(h)存在些许不同。这种不同是由 S和 S 组成上的随机差异所产生的。实际上,如果不断重复这一实验,每次抽取一个包含 40 样例的样本 Si,将会发现约 95%的实验中计算所得的区间包含真实错误率。因此,我们将此区间称为 errorD(h)的 95%置信区间估计。在本例中,r=12 和n=40,根据上式, 95%置信区间为 0.30(1.960.07)0.300.14。上面的 95置信区间表达式可推广到一般情形以计算任意置信度。常数 1.96 是由 95%这一置信度确定的

11、。定义 zN为计算 N%置信区间时的常数。计算 errorD(h)的 N%置信区间的一般表达式为:(5.1)nheroherozheroSSNS )(1)()(其中 zN的值依赖于所需的置信度,参见表 5-1 中的取值。表 5-1 双侧的 N置信区间的 zN值置信度 N% 50% 68% 80% 90% 95% 98% 99%常量 zN 0.67 1.00 1.28 1.64 1.96 2.33 2.58因此,正如 errorD(h)的 95置信区间为 0.30(1.960.07)(其中 r=12,n=40) ,可以求得同样情况下 68%置信区间为 0.30(1.00.07) 。从直觉上我们也

12、可以看出 68置信区间要小于 95置信区间,因为我们减小了要求 errorD(h)落入此区间的概率。等式 5.1 描述了为了在 errorS(h)基础上估计 errorD(h),如何计算置信区间(即误差门限)。这一表达式时只能应用于离散值假设。它假定样本 S 抽取的分布与将来的数据抽取的分布相同,并且假定数据不依赖于所检验的假设。还有,该表达式只提供了近似的置信区间,不过这一近似在至少包含 30 个样例并且 errorS(h)不太靠近 0 或 1 时很接近真实情况。判断这种近似是否接近真实,更精确的规则为: 5)1eroeronSS上面我们概述了计算离散值假设的置信区间的过程,下一节将给出这一

13、过程的统计学基础。5.3 采样理论基础本节介绍了统计学和采样理论的几个基本概念,包括概率分布、期望值、方差、二项分布和正态分布、以及双侧和单侧区间。对于这些概念的基本了解将有助于理解假设评估和算法评估。更为重要的,它们提供了一种重要的概念框架,以便于理解相关的机器学习问题(如过度拟合问题)以及理解在成功的泛化和训练样例数目之间的关系。已经熟悉这些概念的读者可以跳过本节。其中介绍的关键概念在表 5-2 中列出。表 5-2 统计学中的基本定义和概念 随机变量(random variable)可被看作是有概率输出的一个实验。它的值为实验的输出结果。 某随机变量的概率分布(probability di

14、stribution)指定了 Y 取值为任一可能的值 yi的可能性Pr(Y=yi) 随机变量 Y 的期望值(expected value)或均值(mean)为 。通常用符号 Y来iiy)Pr(表示 EY。 随机变量的方差(Variance)为 Var(Y)=E(Y- Y)2。它描述了 Y 关于其均值分布的宽度或分散度。 Y 的标准差(Standard deviation)为 。通常用符号 Y来代表。(Var 二项分布(Binomial distribution)是在硬币投掷问题中,若出现正面的概率为 p,那么在 n 个独立的实验中出现 r 次正面的分布情况。 正态分布(Normal distr

15、ibution)是一钟形的概率分布,它在许多自然现象中都会出现。 中心极限定理(Central Limit Theorem)说明独立同分布的随机变量在大量实验中的和遵循正态分布。 估计量(estimator)为一随机变量 Y,它用来估计一基准总体的某一参数 p。 P 的估计量 Y 的估计偏差(estimation bias)为(E Yp)。无偏估计量是指该偏差为 0。 N%置信区间(confidence interval) 用于估计参数 p,该区间以 N%的概率包含 p。5.3.1 错误率估计和二项比例估计在样本错误率和真实错误率之间的差异与数据样本大小的依赖关系如何?这一问题在统计学中已透彻

16、研究。它可表述为:给定一总体中随机抽取的部分样本的观察频率,估计整个总体的概率。在这里,我们感兴趣的观察量为 h 是否误分类样例。解决该问题首先要注意到,测量样本错误率相当于在作一个有随机输出的实验。我们先从分布 D 中随机抽取出 n 个独立的实例,形成样本 S,然后测量样本错误率 errorS(h),如前一节所述,如果将实验重复多次,每次抽取大小为 n 的不同的样本 Si,将可以得到不同的 errorSi(h)的值,它取决于不同 Si的组成中的随机差异。这种情况下,第 i 个这样的实验的输出 errorSi(h)被称为一随机变量(random variable) 。一般情况下,可以将随机变量看成一个有随机输出的实验。随机变量值即为随机实验的观察输出。设想要运行 k 个这样的随机实验,测量随机变量 errorS1(h) ,error S2(h), errorSk(h)。然后我们以图表的形式显示

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号