数学建模高等教育信息推荐模型

资源描述

《数学建模高等教育信息推荐模型》由会员分享，可在线阅读，更多相关《数学建模高等教育信息推荐模型（21页珍藏版）》请在金锄头文库上搜索。

1、竞赛题目在AB上打勾： A B竞赛队编号参赛学生不填写：_ / 目录问题的提出3问题的分析与假设3模型的建立与求解6效绩评价12预测评估13信息推荐方案13模型的评价与推广14附：给有关部门的信15 参考文献16高等院校教育信息化推荐模型摘要本文针对当前我国高等院校教育信息化过程关于信息推荐方面存在的问题，进展了分析研究，建立了包含满意度、准确率、覆盖率、实时性这四个方面的信息推荐评价指标体系，通过问卷调查的方式收集相关数据，确定了各指标的权重因子。主要利用奇异值分解法和LSA方法建立了信息推荐模型，并利用相关算法对我们设计出的模型的效绩进展检验，最后给出了具体的信息推荐方案，并对我们的

2、模型进展了评价推广。问题一、我们对不同用户的评测标准进展了问卷调查，通过数据分析，给出了各个指标的权重，满意度是0.243，准确率是0.265，覆盖率是0.238 ，实时性是0.255。确定了外生变量: 用户个体差异、建设。生变量：信息资源建设如学术、期刊杂志、选修综合课。问题二、建立信息推荐模型，对奇异值分解后的矩阵进展降维, 构建潜在语义空间。通过计算得出外表上没有关联的关键词和文章之间的相关性达0.9333，验证了模型的效绩，并对模型进展了优化，给出了信息聚类图。问题三、提出了我国高等院校教育信息推荐的具体方案。奇异值分解和LSA方法建立信息推荐模型的优势：1、应用条件易得；2、不在局限

3、于计算方阵，可以适用于任意矩阵，更加具有普适意义。3、相比传统向量空间，潜在语义空间的维度更小，语义关系更明确。4、低维空间表示可以刻画同义词，同义词可对应一样或相似的主题。5、降维可去除局部噪声，使特征更明显。关键词：教育信息推荐模型、奇异值分解法、LSA方法、Spearman coefficient相关系数一、问题的提出1、问题背景：21世纪是信息时代，随着信息技术越来越广泛的应用，互联网已经成为我们日常生活中必不可少的工具，而传统教育体系所暴露出来的弊端也日益明显，例如严重受到地域限制，教育资源分配不均，相互之间交流不够等，为使之适应信息化社会对教育开展的新要求，建设更好的教育信息平台来

4、满足学生互联网学习的需求，教育体系信息化改革刻不容缓。由于教育信息化表现出快捷高效、节约本钱，不受地域时间限制、资源共享，交流开放等优势，所以在教育教学与管理的各个领域都开始推出各种形式的信息教育平台，例如远程教育，管理，网课、论坛等很大程度上促进了教育信息化的开展，然而，目前的教育信息体系还是不够完善的，例如信息推荐体系这一块被严重忽略，而现有的推荐体系仍存在推荐准确率不够高，推荐方式单一等一系列的问题，因此建立出合理的数学模型来完善教育信息推荐体系是一项迫切等待解决的工作。2、需要解决的问题：1建立信息推荐的指标体系，确定信息推荐的变量2建立高等学校信息推荐模型3就信息推荐模型设计推荐算法

5、4给有关部门写一封信，推介你们的信息推荐模型。二、问题的分析与假设通过读题可知，有效信息推荐是目前教育信息化的重要问题，我们需要明确信息推荐的指标以与其推荐变量，然后为高等院校建立合理有效的信息推荐模型，设计其相应的算法，最后向相关部门推介我们的模型。1、信息推荐的指标体系为了提高信息推荐模型的准确度，我们的评测指标主要有包含以下四个方面的容：1满意度O：即用户的需求被满足的程度。满意度是用户的一种心理状态，它能够反映推荐的信息和用户的期望之间的契合程度，用数学式量化表示如下：O= exp(a1*x1+ a2 *x2+ a3 *x3+ a4 *x4)其中，x1是下载率、x2是点击率、x3是停留

6、时间、x4是分享率，a1,a2,a3,a4分别是各自的权重，令a1=0.4,a2=0.2,a3=0.05,a4=0.35，这里我们假设用户的行为无出错。注：O值越大，用户满意度越高。2准确率：信息推荐的准确性也是评价此体系的一个重要指标，可以有效的提高用户的搜索效率。我们这里用准确率P和召回率R来评测信息推荐的准确性1。假设：系统检索到的相关信息A系统检索到的不相关信息B相关但是系统没有检索到的信息C不相关且没有被系统检索到的信息D如此：准确率P： P = A / ( A + B )，0P1召回率R： R = A / ( A + C )，0R1准确率P越大，说明检索到信息越准确，但检索围相对较

7、窄；召回率R越大，说明检索到的信息比拟全面，但准确度会降低。综合考虑，我们用这两个指标进展调和后的指标F来反映信息推荐的准确率。F= 当=1时，F=注：F越大，准确率越高。3覆盖率：信息的覆盖率可以验证资源是否有效的传送给了用户，我们采用信息熵H和基尼系数G来量化这一指标2。假设，信息i的流行度是的。p(i)=b(i)/ b(i) ，H=-p(i) log p(i) ，G=(2j-n-1)p(ij)b(i)为信息i的流行度， ij 是按照信息流行度p()从小到大排序的信息列表中的第j条信息注：H和G越小，覆盖率越高。4实时性T：因信息具有更新速度快的特点，所以信息推荐的实时性更显得尤为关键。实

8、时性反映所推荐给用户的信息是否是最新最有参考价值的。T=vf f=m/nv是推荐列表的变化率，m是新信息的数量，n是所有推荐信息的总数量注：T越大，实时性越高。以上的评测指标可以通过在线或离线来计算。对于以上四个评测指标，我们对不同用户的评测标准进展了问卷调查，通过数据分析，给出了各个指标的权重，满意度是0.243，准确率是0.265，覆盖率是0.238 ，实时性是0.255。图一各指标的平均得分5分制图二各指标的比例2、信息推荐的变量外生变量: 用户个体差异、建设用户个体差异：由于用户个人的文化水平，个人喜好，搜索习惯，对搜索容的熟悉程度等的差异会对教育推荐的指标体系造成一些影响。建设：

9、现在的浏览器五花八门、种类繁多，其建设质量也良莠不齐，有好多为了追求商业利益，更是商业捆绑，推荐一些用户不需要的广告娱乐八卦等垃圾推送信息，有些甚至其本身就存在着一些系统漏洞等问题，这无疑对用户高校的获取有用推送信息造成干扰，对教育信息推荐的指标体系造成一定负面影响。生变量：信息资源建设,如学术，期刊杂志，选修综合课包括校课程与网络公开课学术：作为用户获取信息的直接来源，其应该保持应有的学术严谨性，直接决定着用户获取信息的满意度、准确率、覆盖率、实时性。对信息推荐体系起这至关重要的作用。期刊杂志:市场上形形色色的期刊杂志百花齐放，竞争激烈，彼此之间也拉开了档次，用户的认可度也在很大程度上受到其

10、知名度的影响，然而，无论是哪个档次的期刊，其收纳的文章都是层次不与的，只是比重有差异罢了，而由于认可度所带来的弊端暴露了出来，例如不能以批判理性的思维去区分认可度高的期刊，更容易对认可度低的期刊产生偏见。另一方面，当今社会，期刊杂志已经成为了人们茶余饭后，休闲娱乐，候车等人时打发时间的不二之选，而且人们也乐于将自己喜欢的期刊杂志推荐给亲朋好友，或是坚持追某一系列的期刊杂志，所以期刊杂志也是构成信息推荐体系的重要组成局部。选修综合课：选课系统作为高校教务管理系统中必不可少的一局部，然而，选修综合课推荐系统还不够完善，学生很难高效准确的找到与自己的兴趣安好一致的课程，因此加强选修综合管理系统建设，

11、会显著影响到信息推荐体系的评价指标。决策变量：用户需求3、确定主要的信息推荐方式：网络信息推荐。三、模型的建立与求解一理论方法介绍1、奇异值分解法3特征值分解是一个有效提取矩阵特征的方法，但是它只是对方阵而言的。在现实的世界中，我们看到的大局部矩阵都不是方阵，而奇异值分解法能适用于任意的矩阵。分解方式如下： 1假设A是一个n *m的矩阵，那么得到的U是一个n * m的方阵U里面的向量是正交的，称为左奇异向量，是一个n* m的矩阵除对角线的元素外都是0，对角线上的元素称为奇异值， VT(V的转置)是一个n* m的矩阵V里面的向量是正交的，称为右奇异向量，即 2在很多情况下，前10%甚至1%的奇

12、异值的和就占了全部的奇异值之和的99%以上了。所以，我们也可以用前r个奇异值来近似描述矩阵，这里定义一下局部奇异值分解： 6r是一个远小于m、n的数，这样矩阵的乘法形式如下： 7右边的三个矩阵相乘的结果将会是一个接近于A的矩阵，r越接近于n，相乘的结果越接近于A。2、LSA法4 LSA(latent semantic analysis)潜在语义分析，也被称为LSI(latent semantic index)，是Scott Deerwester, Susan T. Dumais等人在1990年提出来的一种新的索引和检索方法。该方法和传统向量空间模型一样使用向量来表示词和文章，并通过向量间的关系

13、(如夹角)来判断词与文档间的关系。二模型的建立假设：信息资源系统自动获取。采用奇异值分解法和LSA方法相结合建立模型，以用户查找文章的行为为例，假设用户需求为“文章，其输入为“关键词。1、分析关键词与文章之间的关联性，建立关键词-文章矩阵X。假设有m个关键词，n篇文章，X就是一个m*n的矩阵。其中，第i行、第j列的元素是Xij，是第i个词在第j篇文章中出现的次数。下边以m=12,n=9为例：X=观察这个矩阵，第一个词b1和第二个词b2，他们没有在某篇文档中共同现过，他们的关系使用Spearman coefficient相关系数来计算。具体代码与结果如下：即得到b1和b2的相关系数为-0.378

14、0，说明它们两者的相关性不大。2. 对X进展奇异值分解。分解公式为X=USVT，代码与结果如下：矩阵U的每一行代表的是一个关键词，每一列表示一个语义相近的词类，元素Uij表示的是第i个词和第j个语义的相关性，数值越大越相关。矩阵V的每一行代表一篇文章，每一列表示一个主题，元素Vij表示的是第i个文章和第j个主题的相关性，数值越大越相关。矩阵S表示的是词的语义和文章的主题的相关性，数值越大越相关。因此，通过奇异值分解，我们不但可以得到词的语义分类和文章的分类，而且得到了每个词的语义和文章每个主题之间的相关性。3、对奇异值分解后的矩阵进展降维, 构建潜在语义空间。对关联矩阵进展重构，然后选取S矩阵中最大的两个值，作为重构矩阵的条件，即X=U(:,1:2)*S(1:2,1:2)*V(:,1:2)。U的第一列表示每一个词的出现频繁程度，虽然不是线性的，但是可以认为是一个大概的描述；V的第一行表示每一篇文章中的出现词的个

展开阅读全文

数学建模高等教育信息推荐模型

最新文档