《加权极端支持向量机的研究》由会员分享,可在线阅读,更多相关《加权极端支持向量机的研究(42页珍藏版)》请在金锄头文库上搜索。
1、HEBEI UNIVERSITY密 级 :分 类 号 :学校代码: 10075学 号 : 20100970硕 士 学 位 论 文加 权 极 端 支 持 向 量 机 的 研 究 学 位 申 请 人 : 周 旭 指 导 教 师 : 鲁 淑 霞 教 授 王 熙 照 教 授 学 位 类 别 : 理 学 硕 士 学 科 专 业 : 应 用 数 学 授 予 单 位 : 河 北 大 学 答 辩 日 期 : 二 一 三 年 六 月Classified Index: CODE: 10075U.D.C.: NO: 20100970A Dissertation for the Degree of M.Science
2、The Research of Weighted ExtremeSupport Vector MachineCandidate: Zhou XuSupervisor: Prof. Lu ShuxiaProf. Wang XizhaoSpecialty: Applied MathematicsAcademic Degree Applied for : Master of ScienceUniversity: Hebei UniversityDate of Oral Examination: June , 2013摘 要摘 要标 准 极 端 支 持 向 量 机 是 基 于 极 端 学 习 机 和
3、支 持向量 机 的 理 论 基 础 提 出 来 的 , 具 有较 快 的 学 习 速 度 , 但 是 标 准 的 极 端 支 持 向 量 机 并 没 有 考 虑 到 数 据 集 中 样 本 点 的 分 布 情况 , 对 所 有 样 本 点 的 误 差 项 给 予 了 相 同 的 惩 罚 因 子 , 这 样 会 使 得 分 类 器 的 分 类 效 果 极 易受 到 噪 声 、 野 值 数 据 及 不 平 衡 数 据 的 干 扰 。针 对 这 个 问 题 , 文 中 对 加 权 的 极 端 支 持 向 量 机进行 了 研 究 , 主 要 包 括 以 下 两 个 方面 :1 噪 音 点 、 野 值
4、点 一 直 困 扰 着 分 类 器 的 分 类 精 度 。 论 文 基 于 每 个 样 本 点 到 本 类 样本 类 中 心 距 离 的 不 同 , 给 予 每个样 本 不 同 的 权 重 。 与 此 同时, 文 中 还 考 虑 到 了 样 本 的 k近 邻 问 题 , 对 于 密 度 比 较 大 的 样 本 , 给 予 较 大 的 权 重 。 反 之 , 给 予 较 小 的 权 重 。 从 而 降低 极 端 支 持 向 量 机 对 噪 音 点 的 敏 感 度 。2 数 据 分 布 不 平 很 衡 问 题 , 一 直 是 数 据 挖 掘 中 的 热 点 问 题 之 一 。 标 准 的 极 端
5、支 持向 量 机 并 没 有 考 虑 到 这 个 问 题 , 论 文 利 用 样 本 的 分 布 信 息 来 决 定 权 重 , 从 而 使 分 类 器 能够 适 应 于 不 平 衡 的 数 据 集 。 首 先 利 用 样 本 的 类 中 心 直 接 确 定 出 超 平 面 的 初 步 法 向 量 ; 然后 基 于 数 据 集 在 这 个 法 向 量 的 投 影 信 息 确 定 出 不 同 类 别 样 本 的 权 重 ; 最 后 用 加 权 的 极 端支 持 向 量 机 来 得 到 最 终 的 分 类 超 平 面 。论 文 还 将 改 进 的 极 端 支 持 向 量 机 和 标 准 的 极 端
6、 支 持 向 量 机 在 UCI 数 据 集 上 进 行 分类 性 能 的 验 证 , 实 验 表 明 后 者 具 有 更 好 的 分 类 精 度 和 泛 化 能 力 。关 键 词 极 端 支 持 向 量 机 极 端 学 习 机 支 持 向 量 机 权 重IAbstractAbstractThe standard extreme support vector machine is proposed based on the theorys ofextreme machine learning and support vector machine, which has very fast stu
7、dying speed,but the extreme support vector classification did not take into account the distribution of thedata sets. The error term for all sample points are given the same punishment factor and theclassifier effect is very susceptible to noise interference of outliers in dataTo address this issue,
8、 we propose the weighted extreme support vector machinealgorithm, which mainly includes the following two aspects:1. The accuracy of the classifier has always been plagued by the noise points and outliers,we decide the weight of each different sample based on the distance between the sample tothe sa
9、mple class center. At the same time, the article also take into account the problem of thesamples density, which is relatively closeness, we give the sample a larger weight.Conversely, give a smaller weight. This method can reduce noise sensitivity of the extremesupport vector machine.2. The distrib
10、ution of the datasets has always been one of the hot issues of data mining.The standard extreme support vector machine did not take into account this problem. Wedecide the samples weights based on the information of datasets distribution, so that it canadapt to the imbalance data set. Firstly, a pre
11、liminary normal vector of the separationhyperplane is got directly by geometric analysis. Secondly, penalty factors are obtained whichare based on the information provided by data sets projecting onto the preliminary normalvector. Finally, the final separation hyperplane is got through the improved
12、extreme supportvector machineExperimental results show that the improved extreme support vector machine caneffectively enhance the classification performance on imbalanced data sets.Keywords Extreme Support Vector Machine Extreme Learning Machine SupportVector Machine WeightedII目 录目 录第 1 章 绪 论 . 11.1 研 究 背 景 及 意 义 . 11.2 极 端 学 习 机 的 研 究 现 状 . 21.3 不 平 衡 数 据 算 法 的 研 究 现 状 . 31.4 处 理 带 有 噪 音 点 数 据 算 法 的 研 究 现 状 . 41.5 本 文 的 主 要 内 容 . 5第 2 章 基 础 知 识 . 62.1 极 端 学 习 机 . 62.1.1 基 本 定 理 . 62.1.2 极 端 学 习 机 的 提 出 . 62.1.3 极 端 学 习 机 的 算 法 分 析 .