《数学之美》读书笔记10篇6224

上传人:re****.1 文档编号:573577197 上传时间:2024-08-15 格式:PDF 页数:38 大小:1.69MB
返回 下载 相关 举报
《数学之美》读书笔记10篇6224_第1页
第1页 / 共38页
《数学之美》读书笔记10篇6224_第2页
第2页 / 共38页
《数学之美》读书笔记10篇6224_第3页
第3页 / 共38页
《数学之美》读书笔记10篇6224_第4页
第4页 / 共38页
《数学之美》读书笔记10篇6224_第5页
第5页 / 共38页
点击查看更多>>
资源描述

《《数学之美》读书笔记10篇6224》由会员分享,可在线阅读,更多相关《《数学之美》读书笔记10篇6224(38页珍藏版)》请在金锄头文库上搜索。

1、数学之美读书笔记 10 篇 数学之美读书笔记 1 很多人都觉得,数学是一个太高深、太理论的学科,不接近生活,对我们大多数人来说*时也根本用不到,所以没必要去理解数学。但事情真的是这样吗? 其实不然,数学一直渗透在我们生活的各个方面,尤其是在今天这个信息时代,很多简单朴素的数学思想,能发挥一般人很难想象的巨大作用。比如,计算机处理自然语言,用到的最重要工具是统计学的思想;计算机对新闻内容的分类,依靠的是数学里的余弦定理;而电子电路的基本逻辑,则来源于仅有0 和 1 两个数字的布尔代数。 在数学之美里,吴军用自己在工作中使用数学的亲身经历,为我们展现了数学的重要性,以及他对数学之美的理解。吴军是“

2、得到”App 专栏吴军的谷歌方法论的主理人。曾先后供职于谷歌和腾讯, 是著名的.自然语言处理专家和搜索专家。 同时,他还是位畅销书作家,除了这本数学之美以外,还写过文明之光 智能时代 浪潮之巅等多本畅销书。 数学之美读书笔记 2 数学之美是一本领域相关的数学概念书,生动形象地讲解了关于数据挖掘、文本检索等方面的基础知识,可以作为数据挖掘、 文本检索的入门普及书。 另外, 就像作者吴军老师提到的,关键是要从中学到道_解决问题的方法,而不仅仅是术。书中也启发式的引导读者形成自己解决问题的道。 下面记录一下自己读这本书的一些感想: 第一章文字和语言 vs 数字和信息 :文字和语言中天然蕴藏着一些数学

3、思想,数学可能不仅仅的是一门非常理科的知识,也是一种艺术。另外,遇到一个复杂的问题时,可能生活中的一些常识,一些简单的思想会给你带来解决问题的灵感。 第二章 自然语言处理_从规则到统计 : 试图模拟人脑处理语言的模式,基于语法规则,词性等进行语法分析、语义分析的自然语言处理有着很大的复杂度,而基于统计的语言模型很好的解决了自然语言处理的诸多难题。人们认识这个过程,找到统计的方法经历了 20 多年,非常庆幸我们的前辈已经帮我们找到了正确的方法,不用我们再去苦苦摸索。另外,这也说明在发现真理的过程中是充满坎坷的,感谢那些曾经奉献了青春的科学家。自己以后遇到问题也不能轻易放弃, 真正的成长是在解决问

4、题的过程中。事情不可能一帆风顺的,这是自然界的普遍真理吧! 第三章统计语言模型 :自然语言的处理找到了一种合适的方法_基于统计的模型,概率论的知识开始发挥作用。二元模型、三元模型、多元模型,模型元数越多,计算量越大,简单实用就是最好的。对于某些不出现或出现次数很少的词,会有零概率问题,这是就要找到一数学方法给它一个很小的概率。以前学概率论的时候觉的没什么用, 现在开始发现这些知识可能就是你以后解决问题的利器。最后引用作者本章的最后一句话:数学的魅力就在于将复杂的问题简单化。 第四章 谈谈中文分词 : 中文分词是将一句话分成一些词,这是以后进一步处理的基础。 从开始的查字典到后来基于统计语言模型

5、的分词, 如今的中文分词算是一个已经解决的问题。 然而,针对不同的系统、不同的要求,分词的粒度和方法也不尽相同,还是针对具体的问题, 提出针对该问题最好的方法。 没有什么是绝对的,掌握其中的道才是核心。 第五章隐马尔科夫模型 :隐马尔科夫模型和概率论里面的马尔科夫链相似, 就是该时刻的状态仅与前面某几个时刻的状态有关。基于大量数据训练出相应的隐马尔科夫模型, 就可以解决好多机器学习的问题,训练中会涉及到一些经典的算法(维特比算法等)。 关于这个模型, 没有实际实现过, 所以感觉好陌生,只是知道了些概率论讲过的原理而已。 第六章信息的度量和作用 :信息论给出了信息的度量,它是基于概率的,概率越小

6、,其不确定性越大,信息量就越大。引入信息量就可以消除系统的不确定性, 同理自然语言处理的大量问题就是找相关的信息。 信息熵的物理含义是对一个信息系统不确定性的度量, 这一点与热力学中的熵概念相同, 看似不同的学科之间也会有着很强的相似性。 事务之间是存在联系的, 要学会借鉴其他知识。 第七章贾里尼克和现代语言处理 :贾里尼克是为世界级的大师,不仅在于他的学术成就,更在于他的风范。贾里尼克教授少年坎坷,也并非开始就投身到自然语言方面的研究,关键是他的思想和他的道。贾里克尼教授治学严谨、用心对待自己的学生,对于学生的教导,教授告诉你最多的是“什么方法不好”,这很像听到的一句话“我不赞同你,但我支持

7、你”。贾里克尼教授一生专注学习,最后在办公桌前过世了。读了这章我总结出的一句话是“思想决定一个人的高度”。 在这章中对于少年时的教育,以下几点值得借鉴: 1、少年时期其实没有必要花那么多时间读书,他们的社会经验、生活能力以及在那时树立起的志向将帮助他们一生。 2、中学时花大量时间学会的内容,在大学用非常短的时间就可以读完,因为在大学阶段,人的理解力要强很多。 3、学习(和教育)是一个人一辈子的过程。 4、书本的内容可以早学,也可以晚学,但是错过了成长阶段却是无法补回来的。 第八章 简单之美_布尔代数和搜索引擎的索引 : 布尔是 19世纪英国的一位中学教师,但他的公开身份是啤酒商,提出好的思想的

8、人不一定是大师。 简单的建立索引可以根据一个词是页中出现而设置为 0 和 1,为了适应索引访问的速度、附加的信息、更新要快速,改进了索引的建立,但原理上依然简单,等价于布尔运算。 牛顿的一句话“ (人们) 发觉真理在形式上从来是简单的,而不是复杂和含混的”。 做好搜索, 最基本的要求是每天分析 10-20 个不好的搜索结果, 积累一段时间才有感觉。 有时候, 学习、处理问题,可以从不好的方面入手,效果可能更好。 第九章图论和网络爬虫 :图的遍历分为“广度优先搜索(Breadth-FirstSearch ,简称 BFS)”和“深度优先搜索(Depth-FirstSearch,简称 DFS) 。互

9、联网上有几百亿的网页,需要大量的服务器用来下载网页,需要协调这些服务器的任务,这就是网络设计和程序设计的艺术了。另外对于简单的网页,没必要下载。还需要存储一张哈希表来记录哪些网页已经存储过 (如果记录每个网页的 url, 数量太多, 这里可以用后面提到的信息指纹, 只需要一个很多位的数字即可) ,避免重复下载。另外,在图论出现的很长一段时间里, 实际需求的图只有几千个节点, 那时图的遍历很简单,人们都没有怎么专门研究这个问题, 随着互联网的出现,图的遍历一下子有了用武之地,很多数学方法就是这样,看上去没有什么用途, 等到具体的应用出来了一下子开始派上大用场了,这可能就是世界上很多人毕生研究数学

10、的原因吧。一个系统看似整体简单,但里面的每个东西都可能是一个复杂的东西,需要很好的设计。 第十章PageRank_Google 的民主表决式网页排名技术 :搜索返回了成千上万条结果, 如何为搜索结果排名?这取决与两组信息: 关于网页的质量信息以及这个查询和每个网页的相关性信息。PageRank 算法来衡量一个网页的质量,该算法的思想是如果一个网页被很多其他网页所链接, 说明它收到普遍的承认和信赖,那么它的排名就高。谷歌的创始人佩奇和布林提出了该算法并用迭代的方法解决了这个问题。 PageRank 在 Google 所有的算法中依然是至关重要的。该算法并不难,可是当时只有佩奇和布林想到了,为什么

11、呢? 第十一章如何确定网页和查询的相关性 :构建一个搜索引擎的四个方面:如何自动下载网页、如何建立索引、如何衡量网页的质量以及确定一个网页和某个查询的相关性。搜索关键词权重的科学度量 TFIDF,TF 衡量一个词在一个网页中的权重,即词频。IDF 衡量一个词本身的权重,对主题的预测能力。一个查询和该网页的相关性公式由词频的简单求和变成了加权求和,即 TF1*IDF1+TF2*IDF2+.+TFN*IDFN。看似复杂的搜索引擎,里面的原理竟是这么简单! 第十二章 地图和本地搜索的最基本技术有限状态机和动态规划 :地址的解析依靠有限状态机,当用户输入的地址不太标准或有错别字时, 希望进行模糊匹配,

12、 提出了一种基于概率的有限状态机。 通用的有限状态机的程序不是很好写, 要求很高,建议直接采用开源的代码。 图论中的动态规划问题可以用来解决两点间的最短路径问题,可以将一个“寻找全程最短路线”的问题,分解成一个个寻找局部最短路线的小问题。 有限状态机和动态规划问题需要看相关的算法讲解,才能深入理解,目前对其并未完全理解。 第十三章GoogleAK-47 的设计者阿米特辛格博士 :辛格坚持选择简单方案的一个原因是容易解释每一个步骤和方法背后的道理, 这样不仅便于出了问题时查错, 而且容易找到今后改进的目标。 辛格要求对于搜索质量的改进方法都要能说清楚理由, 说不清楚理由的改进即使看上去有效也不会

13、采用, 因为这样将来可能是个隐患。 辛格非常鼓励年轻人要不怕失败, 大胆尝试。遵循简单的哲学。 第十四章余弦定理和新闻的分类 :将新闻根据词的 TF-IDF 值组成新闻的特征向量,然后根据向量之间的余弦距离衡量两个特征之间的相似度,将新闻自动聚类。另外根据词的不同位置,权重应该不同,比如标题的词权重明显应该大点。大数据量的余弦计算也要考虑很多简化算法。 第十五章矩阵运算和文本处理中的两个分类问题 :将大量的文本表示成文本和词汇的矩阵,然后对该矩阵进行奇异值SVD分解, 可以得到隐含在其中的一些信息。 计算余弦相似度的一次迭代时间和奇异值分解的时间复杂度在一个数量级,但计算余弦相似度需要多次迭代

14、。 另外, 奇异值分解的一个问题是存储量大,而余弦定理的聚类则不需要。奇异值分解得到的结果略显粗糙,实际工作中一般先进行奇异值分解得到粗分类结果,在利用余弦计算得到比较精确地结果。我觉得这章讲的 SVD 有些地方不是很清楚,已向吴军老师请教了,等待回信。 第十六章信息指纹及其应用 :信息指纹可以作为信息的唯一标识。有很多信息指纹的产生方法, 互联网加密要使用基于加密的伪随机数产生器,常用的算法有 MD5 或者 SHA-1 等标准。 信息指纹可以用来判定集合相同或基本相同。 YouTobe 就用信息指纹来反盗版。128 位的指纹,1.8*1019 次才可能重复一次,所以重复的可能性几乎为 0。判

15、定集合是否相同,从简单的逐个比对到利用信息指纹,复杂度降低了很多很多。启发我们有时候要用变通的思想来解决问题。 第十七章由电视剧暗算所想到的谈谈密码学的数学原理 :RSA 加密算法,有两个完全不同的钥匙,一个用于加密,一个用于解密。该算法里面蕴含着简单但不好理解的数学思想。信息论在密码设计中的应用:当密码之间分布均匀并且统计独立时,提供的信息最少。均匀分布使得敌人无从统计,而统计独立能保证敌人即使知道了加密算法,也不能破译另一段密码。 第十八章 闪光的不一定是金子谈谈搜索引擎反作弊问题 :把搜索反作弊看成是通信模型,作弊当做是加入的噪声,解决噪声的方法:从信息源出发,增强排序算法的抗干扰能力;

16、过滤掉噪声,还原信息。只要噪声不是完全随机并且前后有相关性,就可以检测到并消除。作弊者的方法不可能是随机的,且不可能一天换一种方法,及作弊是时间相关的。因此在搜集一段时间的作弊信息后,就可以将作弊者抓出来,还原原有的排名。一般作弊都是针对市场份额较大的搜索引擎做的,因此,一个小的搜索引擎作弊少,并不一定是它的反作弊技术好,而是到它那里作弊的人少。 第十九章谈谈数学模型的重要性 :早期的行星运行模型用大圆套小圆的方法, 精确地计算出了所有行星运行的轨迹。 但其实模型就是简单的椭圆而已。 一个正确的数学模型应该在形式上是简单的; 一个正确的模型可能开始还不如一个精雕细琢过的错误模型来的准确,但是,

17、如果我们认定大方向是对的,就应该坚持下去;大量准备的数据对研发很重要;正确的模型可能受到噪声干扰,而显得不准确,这是不应该用一种凑合的修正方法来弥补它,要找到噪声的根源,这也许能通往重大的发现。 第二十章不要把鸡蛋放在一个篮子里谈谈最大熵模型 :对一个随机事件预测时,当各种情况概率相等时,信息熵达到最大,不确定性最大,预测的风险最小。最大熵模型的训练非常复杂,需要时查看资料做进一步的理解。 第二十一章拼音输入法的数学原理 :输入法经历了以自然音节编码, 到偏旁笔画拆字输入, 再回归自然音节输入的过程。任何事物的发展, 螺旋式的回归不是简单的重复, 而是一种升华。输入法的速度取决于编码的场地*寻

18、找这个键的时间。传统的双拼,记住编码太难,寻找每个键的时间太长,并且增加了编码上的歧义。根据香农第一定理可以计算理论上每个汉字的*均最短码长。全拼不仅编码*均长度较少,而且根据上下文的语言模型可以很好的解决歧义问题。 利用统计语言模型可是实现拼音转汉字的有效算法,而且可以转换为动态规划求最短路径问题。如今各家输入法的效率基本在一个量级, 进一步提升的关键就在于建立更好的语言模型。可以根据每个用户建立个性化的语言模型。输入的过程本身就是人和计算机的通信, 好的输入法会自觉或者不自觉的的遵循通信的数学模型。 要做出最有效的输入法, 应该自觉使用信息论做指导。 第二十二章自然语言处理的教父马库斯和他

19、的优秀弟子们 :将自然语言处理从基于规则到基于统计,贡献最大的两个人,一个是前面介绍的贾里尼克教授,他是一个开创性任务;另一个是将这个方法发扬光大的米奇马库斯。马库斯的贡献在于建立了造福全世界研究者的宾夕法尼亚大学LDC 语料库以及他的众多优秀弟子。 马库斯的影响力很大程度上是靠他的弟子传播出去的。 马库斯教授有很多值得钦佩的地方: 给予他的博士研究生自己感兴趣的课题的自由,高屋建瓴,给学生关键的指导;宽松的管理方式,培养各有特点的年轻学者;是一个有着远见卓识的管理者。他的学生为人做事风格迥异,但都年轻有为,例如追求完美的迈克尔柯林斯和寻求简单美的艾克尔*。大师之所以能成为大师,肯定有着一些优

20、秀的品质和追求。 第二十三章布隆过滤器 :判断一个元素是否在一个集合当中时, 用到了布隆过滤器, 存储量小而且计算快速。 其原理是:建立一个很长的二进制, 将每个元素通过随机数产生器产生一些信息指纹,再将这些信息指纹映射到一些自然数上, 最后在建立的那个很长的二进制上把这些自然数的位置都置为 1。布隆过滤器的不足之处是它可能把不在集合中的元素错判成集合中的元素,但在某些条件下这个概率是很小的, 补救措施是可以建立一个小的白名单, 存储那些可能误判的元素。 布隆过滤器背后的数学原理在于完全随机的数字其冲突的可能性很小,可以用很少的空间存储大量的信息, 并且由于只进行简单的算术运算, 因此速度非常

21、快。 编程珠玑中第一章的那个例子就是布隆过滤器的思想。开阔思维,寻找更好更简单的方法。 第二十四章马尔科夫链的扩展贝叶斯网络 :贝叶斯网络是马尔科夫链的扩展, 由简单的线性链式关系扩展为网络的关系, 但贝叶斯网络仍然假设每一个状态只与它直接相连的状态相关。 确定贝叶斯网络的拓扑结构和各个状态之间相关的概率也需要训练。在词分类中,可以建立文章、主题和关键词的贝叶斯网络,用来得到词的分类。贝叶斯网络的训练包括确定拓扑结构和转移概率,比较复杂,后者可以参考最大熵训练的方法。贝叶斯网络导出的模型是非常复杂的。 第二十五章条件随机场和句法分析 :句法分析是分析出一个句子的句子结构, 对于不规则的句子,

22、对其进行深入的分析是很复杂的, 而浅层的句法分析在很多时候已经可以满足要求了。条件随机场就是进行浅层句法分析的有效的数学模型。 条件随机场与贝叶斯网络很像,不用之处在于,条件随机场是无向图,而贝叶斯网络是有向图。条件随机场的训练很复杂,简化之后可以参考最大熵训练的方法。 对于条件随机场的详细参数及原理还不理解。 第二十六章维特比和他的维特比算法 :维特比算法是一个动态规划算法, 凡是使用隐马尔科夫模型描述的问题都可以用它来解码。维特比算法采用逐步渐进的方法, 计算到每步的最短距离, 到下步的最短距离只用接着本步的计算即可, 相比穷举法,大大缩短了计算的时间, 并且基本可以实现实时的输出, 这看

23、似简单,但在当时确是很了不起的。 维特比并不满足停留在算法本身,他将算法推广出去,并应用到了实际中,创立了高通公司,成为了世界上第二富有的数学家。 高通公司在第二代移动通信中并不占很强的市场地位,而其利用 CDMA 技术霸占了 3G 的市场,可见远见的洞察力是多么的重要。 第二十七章再谈文本分类问题期望最大化算法 :该章讲的其实就是 K 均值聚类问题, 设置原始聚类中心, 然后不断迭代,直至收敛,将每个点分到一个类中。其实隐马尔科夫模型的训练和最大熵的训练都是期望最大化算法(EM) 。首先,根据现有的模型,计算各个观测数据输入到模型中的计算结果, 这个过程称为期望值计算过程,或 E 过程;接下

24、来,重新计算模型参数, 以最大化期望值,这个过程称为最大化的过程,或 M 过程。优化的目标函数如果是个凸函数,则一定有全局最优解,若不是凸函数,则可能找到的是局部最优解。在以后的一些问题求解过程中,应该考虑其是否是 EM 问题,也可以考虑参考这种思想,不断迭代以优化目标的过程。 第二十八章逻辑回归和搜索广告 :雅虎和百度的竞价排名广告并不比谷歌的根据广告的预估点击率来客观的推送广告收入多。 点击预估率有很多影响因素, 一种有效的方法是逻辑回归模型, 逻辑回归模型是一种将影响概率的不同因素结合在一起的指数模型。 其训练方法和最大熵模型相似。 同样不是很理解其具体内涵。 第二十九章 各个击破和 G

25、oogle 云计算的基础 : 分而治之,各个击破是一个很好的方法, Google 开发的 MapReduce 算法就应用了该方法。 将一个大任务分成几个小任务, 这个过程叫 Map,将小任务的结果合并成最终结果,这个过程叫 Reduce,该过程如何调度、 协调就是工程上比较复杂的事情了。 可见大量用到的、真正有用的方法往往简单而又朴实。 附录计算复杂度 :计算机中复杂度是以 O()来表示的,如果一个算法的计算量不超过 N 的多项式函数,则称算法为多项式函数复杂度的(P 问题) ,是可以计算的。若比 N 的多项式函数还高,则是非多项式问题,实际上是不可计算的。非多项式问题中一种非确定的多项式问题

26、 (简称 NP) , 是科学家研究的焦点,因为现实中好多问题都是 NP 问题。另外还有 NP-Complete 问题(NP 问题可以在多项式时间内规约到该问题)和 NP-Hard 问题,对于这两种问题,需要简化找到近似解。 整体上, 数学之美这本书让我了解了很多文本处理,数据挖掘相关的知识,学到了很多。其中,简单美以及一些科学家的大师风范让我印象深刻!书中提到的一些思想(即道)让我受益匪浅! 数学之美读书笔记 3 我是在读了吴军博士的浪潮之巅之后,发现推荐了数学之美这本书。我到豆瓣读书上看了看评价,就果断在当当上下单买了一本研读。 本来我以为这是一本充满各种数学专业术语的书, 读后让我非常震撼

27、的是吴军博士居然能用非常通俗的语言将自然语言处理等高深理论解释的相当简单。在李开复博士之后,吴军博士又成为了目前备受瞩目的具有深厚技术背景的作家。对于我来说,读这本书有扫盲的功效,让我知道了很多以前不知道的东西。 我的想法是在研究生阶段, 不只局限于导师的研究方向,通过更加广泛的涉猎知识,去寻找一个自己喜欢的研究领域。如果找到了这样一个领域,那么我就读博士。如果没有的话,那么我想还是工作算了。 1、学科之间的联系是如此的重要 全书主要是围绕着吴军博士所研究的自然语言处理方向来讲述一些应用在这个研究领域的数学知识,用了很大篇幅讲解了将通信的原理应用到自然语言处理上所取得的巨大成功。以前学习计算机

28、网络的时候, 学过一个香农定理。 对香农的认识就从香农定理开始, 因为考研会考相关的计算题。 看了这本书才知道,香农的信息论对今天的影响真的是不可估量。通过这样一个过程,我也对以前的本科学校的学科建设产生了一些忧虑。对于培养计算机人才来说,无论是培养应用型人才,还是培养研究型人才,都应该与电子、通信有一定的交叉,这样对学生思考问题的启发与视野的开阔有着重要的作用。计算机本身就是从电子、通信、数学等学科中抽出来的新兴的学科,在发展了多年之后,我们发现它仍然需要继承一些传统。 回想自己的本科四年, 上的更多的课时 语言类、技术类的课程,这些课程的确对提升学生的就业有很大帮助。但是我想说的是,一个忽

29、视数学基础、学科交叉的学校, 他无法成为一所国内的一流大学。 作为一个母校培养的学生,我深知改革的阻力与困难,但是我希望母校的计算机学院能越办越好。我们现在已经培养出很多高薪优秀的技术人才,我希望将来也能培养出更多的研究型人才。 2、看起来很牛的东西却用着难以置信的简单数学原理 在整本书中让我最为印象深刻的是解释 Google 搜索的原理,居然就是简单的布尔代数运算。这个的确让我大跌眼镜,我一直认为搜索时一个非常复杂而庞大的问题, 其数学原理也是相当高深的,但是吴军博士的解释让我大开眼界。与此同时也知道了Google 为什么牛, 牛在哪了。 搜索的原理虽然非常简单, 但是搜索是一个需要对海量数

30、据进行操作的工作。Google 在海量数据的处理方面的确是相当先进的, MapReduce、BigTable 等等一些技术的发明与应用使得 Google 在搜索上无出其右。目前分布式存储、分布式计算、数据仓库与存储等研究领域近些年来的大热也说明 Google 在引领研究方向上的超凡本领。 3、感谢概率老师的教诲 在大二的时候,有一个在我们学生中声望很高的概率老师,他在课程即将结束的时候跟我们说我们将的是前几章, 这些事概率论与数理统计的基础。 对于你们计算机的学生来时, 后面的章节才是最有用的, 以后一定要好好的研究, 弄上一两个在你的毕业设计上就会让你毕业设计提升一个档次, 有可能验收你毕业

31、设计的老师也不懂。 我当时对他的话没有特别在意, 我只关心期末考试要考哪些题目,因为我那个学期的概率课基本上都在睡觉,只有他讲笑话的时候不睡。 我看 数学之美 后发现马尔科夫链、贝叶斯网络之后,对以前的概率老师充满无限的敬意。我发现我们再本科阶段学习的高等数学 、 线性代数 、 概率论与数理统计在计算机学科应用较多的要数概率论与数理统计,还有一门我学的不好的离散数学在计算机中也是有着举足轻重的地位。我在看米歇尔的机器学习时也发现很多熟悉的概率论与数理统计的知识, 这让我不得不开始考虑重新弥补自己的数学短板。我的想法是在研一这一年把概率论与数理统计、线性代数、离散数学尽我最大的努力补一补, 希望

32、他们对我今后的学习有所帮助。 4、说说作者吴军博士 吴军博士写的书对于学习计算机的学生来说, 读起来有种说不出的亲切感。 可能这跟他是技术出身的原因有关, 流畅的文笔、质朴的文风也让人读起来很舒服。看高晓松在优酷上的晓说就知道,在硅谷有着众多的华裔工程师,他们很多都来自清华、北大等国内的名牌大学, 这些人在美国实现着自己的梦想。 吴军博士也曾是这其中的一员, 我非常希望那些像吴军博士一样的牛人们能够写书或者来国内的大学做一些演讲、 论坛等等,开阔一下我们的视野,传授一下做学问的经验。与此同时,我也在想为什么我们国家那么多优秀的 IT 人才都去了美国。 这个问题在我去苹果公司在东软信息学院组织的

33、培训过程中得到了答案,那个南京邮电的老师讲了讲*为什么不像美国那么有创造力。我们*人并不缺乏创造力,很多时候是我们所处的外部环境恰恰阻碍了创新。 我想那么多优秀的清华北大学子纷纷到大洋彼岸的美国, 正是被美国开放的学术环境、 创新氛围所吸引,每个人都有自己的梦想, 他们去美国也是为了能实现自己的梦想。以前都觉得他们是不爱国,现在长大了,对于这个问题看得更清楚了一点。 我想说我们的祖国在经历了改革开放 30 多年的飞速发展之后,目前正处于一个关键和脆弱的时期。我们靠着人口红利取得了巨大的成就, 我们能不能凭借人才红利取得更大的成就还是未知。希望有更多的人才能像李开复博士、吴军博士那样,为我们这个

34、民族青年的成长和国家发展做出贡献。 数学之美读书笔记 4 本书介绍了 Google 产品中涉及的自然语言处理、统计语言模型、 中文分词、 信息度量、 拼音输入法、 搜索引擎、 网页排名、密码学等内容背后的数学原理。让我们看到了布尔代数、离散数学、统计学、矩阵计算、马尔科夫链等似曾相识的内容在实际生活中的应用。相比于其他数学题材书籍,吴军老师把抽象、深奥的数学方法解释得通俗易懂,书中同时引用了诸多的历史典故和人物介绍, 给人以很多启发, 也让人由衷感叹数学的简洁和强大。 虽是数据专业毕业,但是才疏学浅,无力对数学的美进行阐述。仅就书中两个比较喜欢的地方发表一点不成熟的见解,与诸位共勉。 其一,在

35、讲 Google 的搜素引擎反作弊时谈到做事情的两种境界“道”和“术”,术就是具体的做事方法,而道则是隐藏在问题背后的动机和本质。在术这个层面解决问题要付出更多的努力,有点类似于我们常说的“头疼医头,脚疼医脚”,暂时不疼了,过几天复发了,再去医治,如此往复,无法从根本上解决;而只有找到了致病原因,才能做到药到病除,根本治愈。本人之前参与过行内月终自动核对的研发,月终核对初期数据的不一致性只能靠数百业务人员人工核对数据差异,然后修改数据,每月 1 日都要加班加点,工作量很大,这是从术上解决问题。后来找到了产生差异的原因是会计核算时的利息调整造成的,把这些数据接过来进行相应冲减后差异就消失了,业务

36、人员也不用来加班了,这才是从道上解决问题。 其二, 是在做中文网页排名时提到的从业界成功的秘诀之一:“先帮助用户解决 80%的问题,再慢慢解决剩下的 20%的问题。许多时候做事失败,不是因为人不够优秀,而是做事的方法不对。一开始追求大而全的解决方案, 之后长时间不能完成, 最后不了了之”。 我们在做项目时也是一样, 业务有时要的功能非常急, 可能有些功能也实现不了(比如系统响应时间长、查询明细不能支持省行等)。 这时我们就要将焦点关注在那些可以实现的80%的功能上,哪怕刚刚上线的系统界面丑点,操作复杂点,反应速度慢点, 但是至少业务有可用的系统, 剩下时间再去优化那剩下的20%。这样可以帮助我

37、行抢占先机,在与同行业的竞争中取得主动。如果等待我们把所有的细节都搞清楚再动手开发,力求完美,那么很可能系统能够上线的时候业务已经不需要了。 数学之美,也就是简单之美。希望大家能够喜欢数学,喜欢数学之美。 数学之美读书笔记 5 很多人都觉得,数学是一个太高深、太理论的学科,不接近生活,对我们大多数人来说*时也根本用不到,所以没必要去理解数学。但事情真的是这样吗? 其实不然,数学一直渗透在我们生活的各个方面,尤其是在今天这个信息时代,很多简单朴素的数学思想,能发挥一般人很难想象的巨大作用。比如,计算机处理自然语言,用到的最重要工具是统计学的思想;计算机对新闻内容的分类,依靠的是数学里的余弦定理;

38、而电子电路的基本逻辑,则来源于仅有 0 和 1 两个数字的布尔代数。 在数学之美里,吴军用自己在工作中使用数学的亲身经历,为我们展现了数学的重要性,以及他对数学之美的理解。吴军是“得到”App 专栏吴军的谷歌方法论的主理人。曾先后供职于谷歌和腾讯, 是著名的自然语言处理专家和搜索专家。 同时,他还是位畅销书作家,除了这本数学之美以外,还写过文明之光 智能时代 浪潮之巅等多本畅销书。 数学之美读书笔记 6 我在想,为什么我们要学习数学?也许这个问题成年人有一万个答案,可是当我们第一次走进教室,学习数学的时候,大概率还是个孩子,你怎么跟一个孩子解释为什么要学习数学呢?我把这个问题抛给了一个朋友,

39、他说: “为了提高思维逻辑能力, 这是我初中老师在第一节数学课上告诉我们的”。或者一位 5 岁的小朋友又会问:“什么是逻辑能力呢?” 也许从出生第一天,我们就一直在被动的接收一些东西,父母的劝导, 老师的.传授, 可 5 岁的孩子还是会把玩具散落一地,6 岁的孩子仍然会因为父母不给买玩具而嗷嗷大哭,无论你怎么劝导一个人,怎么劝诫一个人,他可能仍然会犯你认为会出现的错误。我记得有位教育专家这么说:“你告诉宝宝他把玩具弄坏了,就等于丢了 10 个棒棒糖”,从此以后这个宝宝可能会更加珍惜玩具。 这个方法很简单,但是貌似最有效。数学是什么?数学不就是把复杂的东西简单化么? 现在我们再回答前面的问题:为

40、什么我要学习数学?我们可以这么跟 5 岁的小朋友说:“妈妈给你 10 元钱,让你买酱油,酱油 7 元、棒棒糖 1 元一个,剩下的钱你可以买几个棒棒糖?”或许想吃棒棒糖的就会苦思冥想一番,或许未来妈妈真的给他 10 元钱去买酱油,结果回来就变成了一瓶酱油和 3 个棒棒糖。或者再过一段时间,这位小朋友会选择 6 元的酱油,因为可以获得 4 个棒棒糖了。他这么计算着:7+3 和 6+4 都可以等于 10,那么如果要必须买酱油的情况下, 1+9 也可以等于 10。 我们都知道也有1 元的袋装酱油,于是 9 个棒棒糖到手了。任何知识的魅力都在于自我的发现,只有你对它产生了无限的兴趣,你就会不断的发现它的

41、美, 数学之美也可以变成物理之美 。 有些人会说,上面的例子是利益驱动型,不是兴趣驱动型,对于一个孩子来说,你能指望他向*那样:“我需要的不是物质世界,我需要的是精神世界?”5 岁宝宝最喜欢做得事情就是在吃和玩上面, 请问, 成年人不也是如此么?这就是天性。 只不过成年人的自控能力足够大罢了。 我们回到书本上,这本书是否合适自己?如果没有专业的数学知识,很难读懂。但是它又有着无限的魅力,让你不自觉的读下去, 为什么?因为“数学之美”, 虽然大多数人看不懂里面的公式,但是能够明白数学能解决的问题: 概率统计学能够解决自然语言处理、布尔代数能解决搜索引擎的问题、有限状态机和动态规划能解决地图问题、

42、向量+特征向量+余弦定理能解决自动新闻分类问题、最大熵模型解决金融问题, 看着看着我就莫名的产生了一种想要学习算法的冲动,这不就是本书的意义所在么 ? 数学之美读书笔记 7 吴军 2012 年的作品,源于其在谷歌黑板报的系列文章,讲述数学方法在信息技术中的应用, 说明了为什么科学研究中方法论如此的重要,以及数学如何简单优雅地解决问题,直达本质。对比他的其他作品比如浪潮之巅 、 硅谷之谜 ,本书比较偏技术,属于目前大热的数据科学(Data Science)范畴,在云计算、大数据和人工智能等成为常态和趋势的今天,适合所有对 IT 技术及相关管理人员阅读。对我而言,最大的收获包括: 规则 vs.算法

43、:自然语言处理,在早期几十年基于文法规则都无法达到可应用的效果, 终于在转变为基于统计方法且积累了足够数据后,形成了突破,达到了今日可大规模商用的效果。再次说明了数据及算法在今日的重要性。 一些常见应用涉及的优化算法: 搜索相关(分词、 网络爬虫、索引、结果排名、广告及反作弊) 、文本处理(新闻分类、广告相关性、输入法) 、地图路线规划、信息指纹、密码学等。这些算法不止适用于这些应用场景,还可以在其他许多地方借鉴,比如用户评论分析也需要用分词和语义分析, 许多价值优化算法都需要用到期望值最大化和逻辑回归等。 优雅的理论模型:在初始阶段,出于时间和成本考虑,在技术实现上可能会使用一些拼凑的方法,

44、甚至山寨,但是这种方法并不可持续,很难进行系统化的优化,开发维护成本都很高,最终会遇到灾难性问题。做事情需要有境界,最求简单而优雅的理论和工程实现,这在长期是非常有好处的。 吴军使用浅显易懂的语言, 把解决问题的思路和复杂的数学模型讲得很清楚, 虽然理解延伸阅读里的具体数学公式还是有些挑战。其实重要的是思想和方法,具体的实现可以在用到时再进一步的了解。如何用简单的语言把复杂的技术讲清楚,也是我工作的需要,要不断学习磨练。书里提到了启发吴军这方面能力的两本书,即从 0 到无穷大和时间简史 ,会有要去看下。 数学之美读书笔记 8 数学之美是一本领域相关的数学概念书,生动形象地讲解了关于数据挖掘、文

45、本检索等方面的基础知识,可以作为数据挖掘、 文本检索的入门普及书。 另外, 就像作者吴军老师提到的,关键是要从中学到道_解决问题的方法,而不仅仅是术。书中也启发式的引导读者形成自己解决问题的道。 下面记录一下自己读这本书的一些感想: 第一章文字和语言 vs 数字和信息 :文字和语言中天然蕴藏着一些数学思想,数学可能不仅仅的是一门非常理科的知识,也是一种艺术。另外,遇到一个复杂的问题时,可能生活中的一些常识,一些简单的思想会给你带来解决问题的灵感。 第二章 自然语言处理_从规则到统计 : 试图模拟人脑处理语言的模式,基于语法规则,词性等进行语法分析、语义分析的自然语言处理有着很大的复杂度,而基于

46、统计的语言模型很好的解决了自然语言处理的诸多难题。人们认识这个过程,找到统计的方法经历了 20 多年,非常庆幸我们的前辈已经帮我们找到了正确的方法,不用我们再去苦苦摸索。另外,这也说明在发现真理的过程中是充满坎坷的,感谢那些曾经奉献了青春的科学家。自己以后遇到问题也不能轻易放弃, 真正的成长是在解决问题的过程中。事情不可能一帆风顺的,这是自然界的普遍真理吧! 第三章统计语言模型 :自然语言的处理找到了一种合适的方法_基于统计的模型,概率论的知识开始发挥作用。二元模型、三元模型、多元模型,模型元数越多,计算量越大,简单实用就是最好的。对于某些不出现或出现次数很少的词,会有零概率问题,这是就要找到

47、一数学方法给它一个很小的概率。以前学概率论的时候觉的没什么用,现在开始发现这些知识可能就是你以后解决问题的利器。最后引用作者本章的最后一句话:数学的魅力就在于将复杂的问题简单化。 第四章 谈谈中文分词 : 中文分词是将一句话分成一些词,这是以后进一步处理的基础。 从开始的查字典到后来基于统计语言模型的分词, 如今的中文分词算是一个已经解决的问题。 然而,针对不同的系统、不同的要求,分词的粒度和方法也不尽相同,还是针对具体的问题, 提出针对该问题最好的方法。 没有什么是绝对的,掌握其中的道才是核心。 第五章隐马尔科夫模型 :隐马尔科夫模型和概率论里面的马尔科夫链相似, 就是该时刻的状态仅与前面某

48、几个时刻的状态有关。基于大量数据训练出相应的隐马尔科夫模型, 就可以解决好多机器学习的问题,训练中会涉及到一些经典的算法(维特比算法等)。 关于这个模型, 没有实际实现过, 所以感觉好陌生,只是知道了些概率论讲过的原理而已。 第六章信息的度量和作用 :信息论给出了信息的度量,它是基于概率的,概率越小,其不确定性越大,信息量就越大。引入信息量就可以消除系统的不确定性, 同理自然语言处理的大量问题就是找相关的信息。 信息熵的物理含义是对一个信息系统不确定性的度量, 这一点与热力学中的熵概念相同, 看似不同的学科之间也会有着很强的相似性。 事务之间是存在联系的, 要学会借鉴其他知识。 第七章贾里尼克

49、和现代语言处理 :贾里尼克是为世界级的大师,不仅在于他的学术成就,更在于他的风范。贾里尼克教授少年坎坷,也并非开始就投身到自然语言方面的研究,关键是他的思想和他的道。贾里克尼教授治学严谨、用心对待自己的学生,对于学生的教导,教授告诉你最多的是“什么方法不好”,这很像听到的一句话“我不赞同你,但我支持你”。贾里克尼教授一生专注学习,最后在办公桌前过世了。读了这章我总结出的一句话是“思想决定一个人的高度”。 在这章中对于少年时的教育,以下几点值得借鉴: 1、少年时期其实没有必要花那么多时间读书,他们的社会经验、生活能力以及在那时树立起的志向将帮助他们一生。 2、中学时花大量时间学会的内容,在大学用

50、非常短的时间就可以读完,因为在大学阶段,人的理解力要强很多。 3、学习(和教育)是一个人一辈子的过程。 4、书本的内容可以早学,也可以晚学,但是错过了成长阶段却是无法补回来的。 第八章 简单之美_布尔代数和搜索引擎的索引 : 布尔是 19世纪英国的一位中学教师,但他的公开身份是啤酒商,提出好的思想的人不一定是大师。 简单的建立索引可以根据一个词是否在一个网页中出现而设置为 0 和 1,为了适应索引访问的速度、附加的信息、 更新要快速, 改进了索引的建立, 但原理上依然简单,等价于布尔运算。牛顿的一句话“ (人们) 发觉真理在形式上从来是简单的, 而不是复杂和含混的”。 做好搜索, 最基本的要求

51、是每天分析 10-20 个不好的搜索结果, 积累一段时间才有感觉。 有时候,学习、处理问题,可以从不好的方面入手,效果可能更好。 第九章图论和网络爬虫 :图的遍历分为“广度优先搜索(Breadth-FirstSearch,简称 BFS)”和“深度优先搜索(Depth-FirstSearch,简称 DFS) 。互联网上有几百亿的网页,需要大量的服务器用来下载网页,需要协调这些服务器的任务,这就是网络设计和程序设计的艺术了。另外对于简单的网页,没必要下载。还需要存储一张哈希表来记录哪些网页已经存储过 (如果记录每个网页的 url, 数量太多, 这里可以用后面提到的信息指纹, 只需要一个很多位的数字

52、即可) ,避免重复下载。另外,在图论出现的很长一段时间里, 实际需求的图只有几千个节点, 那时图的遍历很简单,人们都没有怎么专门研究这个问题, 随着互联网的出现,图的遍历一下子有了用武之地,很多数学方法就是这样,看上去没有什么用途, 等到具体的应用出来了一下子开始派上大用场了,这可能就是世界上很多人毕生研究数学的原因吧。一个系统看似整体简单,但里面的每个东西都可能是一个复杂的东西,需要很好的设计。 第十章PageRank_Google 的民主表决式网页排名技术 :搜索返回了成千上万条结果, 如何为搜索结果排名?这取决与两组信息: 关于网页的质量信息以及这个查询和每个网页的相关性信息。PageR

53、ank 算法来衡量一个网页的质量,该算法的思想是如果一个网页被很多其他网页所链接, 说明它收到普遍的承认和信赖,那么它的排名就高。谷歌的创始人佩奇和布林提出了该算法并用迭代的方法解决了这个问题。 PageRank 在 Google 所有的算法中依然是至关重要的。该算法并不难,可是当时只有佩奇和布林想到了,为什么呢? 第十一章如何确定网页和查询的相关性 :构建一个搜索引擎的四个方面:如何自动下载网页、如何建立索引、如何衡量网页的质量以及确定一个网页和某个查询的相关性。搜索关键词权重的科学度量 TFIDF,TF 衡量一个词在一个网页中的权重,即词频。IDF 衡量一个词本身的权重,对主题的预测能力。

54、一个查询和该网页的相关性公式由词频的简单求和变成了加权求和,即 TF1*IDF1+TF2*IDF2+.+TFN*IDFN 。看似复杂的搜索引擎,里面的原理竟是这么简单! 第十二章 地图和本地搜索的最基本技术有限状态机和动态规划 :地址的解析依靠有限状态机,当用户输入的地址不太标准或有错别字时, 希望进行模糊匹配, 提出了一种基于概率的有限状态机。 通用的有限状态机的程序不是很好写, 要求很高,建议直接采用开源的代码。 图论中的动态规划问题可以用来解决两点间的最短路径问题,可以将一个“寻找全程最短路线”的问题,分解成一个个寻找局部最短路线的小问题。 有限状态机和动态规划问题需要看相关的算法讲解,

55、才能深入理解,目前对其并未完全理解。 第十三章GoogleAK-47 的设计者阿米特辛格博士 :辛格坚持选择简单方案的一个原因是容易解释每一个步骤和方法背后的道理, 这样不仅便于出了问题时查错, 而且容易找到今后改进的目标。 辛格要求对于搜索质量的改进方法都要能说清楚理由,说不清楚理由的改进即使看上去有效也不会采用,因为这样将来可能是个隐患。辛格非常鼓励年轻人要不怕失败,大胆尝试。遵循简单的哲学。 第十四章余弦定理和新闻的分类 :将新闻根据词的 TF-IDF 值组成新闻的特征向量,然后根据向量之间的余弦距离衡量两个特征之间的相似度,将新闻自动聚类。另外根据词的不同位置,权重应该不同,比如标题的

56、词权重明显应该大点。大数据量的余弦计算也要考虑很多简化算法。 第十五章矩阵运算和文本处理中的两个分类问题 :将大量的文本表示成文本和词汇的矩阵,然后对该矩阵进行奇异值SVD分解, 可以得到隐含在其中的一些信息。 计算余弦相似度的一次迭代时间和奇异值分解的时间复杂度在一个数量级,但计算余弦相似度需要多次迭代。 另外, 奇异值分解的一个问题是存储量大,而余弦定理的聚类则不需要。奇异值分解得到的结果略显粗糙,实际工作中一般先进行奇异值分解得到粗分类结果,在利用余弦计算得到比较精确地结果。我觉得这章讲的 SVD 有些地方不是很清楚,已向吴军老师请教了,等待回信。 第十六章信息指纹及其应用 :信息指纹可

57、以作为信息的唯一标识。有很多信息指纹的产生方法, 互联网加密要使用基于加密的伪随机数产生器,常用的算法有 MD5 或者 SHA-1 等标准。 信息指纹可以用来判定集合相同或基本相同。 YouTobe 就用信息指纹来反盗版。128 位的指纹,1.8*1019 次才可能重复一次,所以重复的可能性几乎为 0。判定集合是否相同,从简单的逐个比对到利用信息指纹,复杂度降低了很多很多。启发我们有时候要用变通的思想来解决问题。 第十七章由电视剧暗算所想到的谈谈密码学的数学原理 :RSA 加密算法,有两个完全不同的钥匙,一个用于加密,一个用于解密。该算法里面蕴含着简单但不好理解的数学思想。信息论在密码设计中的

58、应用:当密码之间分布均匀并且统计独立时,提供的信息最少。均匀分布使得敌人无从统计,而统计独立能保证敌人即使知道了加密算法,也不能破译另一段密码。 第十八章 闪光的不一定是金子谈谈搜索引擎反作弊问题 :把搜索反作弊看成是通信模型,作弊当做是加入的噪声,解决噪声的方法:从信息源出发,增强排序算法的抗干扰能力;过滤掉噪声,还原信息。只要噪声不是完全随机并且前后有相关性,就可以检测到并消除。作弊者的方法不可能是随机的,且不可能一天换一种方法,及作弊是时间相关的。因此在搜集一段时间的作弊信息后,就可以将作弊者抓出来,还原原有的排名。一般作弊都是针对市场份额较大的搜索引擎做的,因此,一个小的搜索引擎作弊少

59、,并不一定是它的反作弊技术好,而是到它那里作弊的人少。 第十九章谈谈数学模型的重要性 :早期的行星运行模型用大圆套小圆的方法, 精确地计算出了所有行星运行的轨迹。 但其实模型就是简单的椭圆而已。 一个正确的数学模型应该在形式上是简单的; 一个正确的模型可能开始还不如一个精雕细琢过的错误模型来的准确,但是,如果我们认定大方向是对的,就应该坚持下去;大量准备的数据对研发很重要;正确的模型可能受到噪声干扰,而显得不准确,这是不应该用一种凑合的修正方法来弥补它,要找到噪声的根源,这也许能通往重大的发现。 第二十章不要把鸡蛋放在一个篮子里谈谈最大熵模型 :对一个随机事件预测时,当各种情况概率相等时,信息

60、熵达到最大,不确定性最大,预测的风险最小。最大熵模型的训练非常复杂,需要时查看资料做进一步的理解。 第二十一章拼音输入法的数学原理 :输入法经历了以自然音节编码, 到偏旁笔画拆字输入, 再回归自然音节输入的过程。任何事物的发展, 螺旋式的回归不是简单的重复, 而是一种升华。输入法的速度取决于编码的场地*寻找这个键的时间。传统的双拼,记住编码太难,寻找每个键的时间太长,并且增加了编码上的歧义。根据香农第一定理可以计算理论上每个汉字的*均最短码长。全拼不仅编码*均长度较少,而且根据上下文的语言模型可以很好的解决歧义问题。 利用统计语言模型可是实现拼音转汉字的有效算法, 而且可以转换为动态规划求最短

61、路径问题。 如今各家输入法的效率基本在一个量级, 进一步提升的关键就在于建立更好的语言模型。可以根据每个用户建立个性化的语言模型。输入的过程本身就是人和计算机的通信, 好的输入法会自觉或者不自觉的的遵循通信的数学模型。 要做出最有效的输入法, 应该自觉使用信息论做指导。 第二十二章自然语言处理的教父马库斯和他的优秀弟子们 :将自然语言处理从基于规则到基于统计,贡献最大的两个人,一个是前面介绍的贾里尼克教授,他是一个开创性任务;另一个是将这个方法发扬光大的米奇马库斯。马库斯的贡献在于建立了造福全世界研究者的宾夕法尼亚大学LDC 语料库以及他的众多优秀弟子。 马库斯的影响力很大程度上是靠他的弟子传

62、播出去的。 马库斯教授有很多值得钦佩的地方: 给予他的博士研究生自己感兴趣的课题的自由,高屋建瓴,给学生关键的指导;宽松的管理方式,培养各有特点的年轻学者;是一个有着远见卓识的管理者。他的学生为人做事风格迥异,但都年轻有为,例如追求完美的迈克尔柯林斯和寻求简单美的艾克尔*。大师之所以能成为大师,肯定有着一些优秀的品质和追求。 第二十三章布隆过滤器 :判断一个元素是否在一个集合当中时, 用到了布隆过滤器, 存储量小而且计算快速。 其原理是:建立一个很长的二进制, 将每个元素通过随机数产生器产生一些信息指纹,再将这些信息指纹映射到一些自然数上, 最后在建立的那个很长的二进制上把这些自然数的位置都置

63、为1。布隆过滤器的不足之处是它可能把不在集合中的元素错判成集合中的元素,但在某些条件下这个概率是很小的, 补救措施是可以建立一个小的白名单, 存储那些可能误判的元素。 布隆过滤器背后的数学原理在于完全随机的数字其冲突的可能性很小, 可以用很少的空间存储大量的信息,并且由于只进行简单的算术运算,因此速度非常快。 编程珠玑中第一章的那个例子就是布隆过滤器的思想。开阔思维,寻找更好更简单的方法。 第二十四章马尔科夫链的扩展贝叶斯网络 :贝叶斯网络是马尔科夫链的扩展, 由简单的线性链式关系扩展为网络的关系, 但贝叶斯网络仍然假设每一个状态只与它直接相连的状态相关。 确定贝叶斯网络的拓扑结构和各个状态之

64、间相关的概率也需要训练。在词分类中,可以建立文章、主题和关键词的贝叶斯网络,用来得到词的分类。贝叶斯网络的训练包括确定拓扑结构和转移概率,比较复杂,后者可以参考最大熵训练的方法。贝叶斯网络导出的模型是非常复杂的。 第二十五章条件随机场和句法分析 :句法分析是分析出一个句子的句子结构, 对于不规则的句子, 对其进行深入的分析是很复杂的, 而浅层的句法分析在很多时候已经可以满足要求了。条件随机场就是进行浅层句法分析的有效的数学模型。 条件随机场与贝叶斯网络很像,不用之处在于,条件随机场是无向图,而贝叶斯网络是有向图。条件随机场的训练很复杂,简化之后可以参考最大熵训练的方法。对于条件随机场的详细参数

65、及原理还不理解。 第二十六章维特比和他的维特比算法 :维特比算法是一个动态规划算法, 凡是使用隐马尔科夫模型描述的问题都可以用它来解码。维特比算法采用逐步渐进的方法, 计算到每步的最短距离, 到下步的最短距离只用接着本步的计算即可, 相比穷举法,大大缩短了计算的时间,并且基本可以实现实时的输出,这看似简单, 但在当时确是很了不起的.。 维特比并不满足停留在算法本身,他将算法推广出去,并应用到了实际中,创立了高通公司,成为了世界上第二富有的数学家。 高通公司在第二代移动通信中并不占很强的市场地位,而其利用 CDMA 技术霸占了 3G 的市场,可见远见的洞察力是多么的重要。 第二十七章再谈文本分类

66、问题期望最大化算法 :该章讲的其实就是 K 均值聚类问题, 设置原始聚类中心, 然后不断迭代,直至收敛,将每个点分到一个类中。其实隐马尔科夫模型的训练和最大熵的训练都是期望最大化算法(EM) 。首先,根据现有的模型,计算各个观测数据输入到模型中的计算结果, 这个过程称为期望值计算过程,或 E 过程;接下来,重新计算模型参数, 以最大化期望值,这个过程称为最大化的过程,或 M 过程。优化的目标函数如果是个凸函数,则一定有全局最优解,若不是凸函数,则可能找到的是局部最优解。在以后的一些问题求解过程中,应该考虑其是否是 EM 问题,也可以考虑参考这种思想,不断迭代以优化目标的过程。 第二十八章逻辑回

67、归和搜索广告 :雅虎和百度的竞价排名广告并不比谷歌的根据广告的预估点击率来客观的推送广告收入多。 点击预估率有很多影响因素, 一种有效的方法是逻辑回归模型, 逻辑回归模型是一种将影响概率的不同因素结合在一起的指数模型。其训练方法和最大熵模型相似。同样不是很理解其具体内涵。 第二十九章 各个击破和 Google 云计算的基础 : 分而治之,各个击破是一个很好的方法, Google 开发的 MapReduce 算法就应用了该方法。 将一个大任务分成几个小任务, 这个过程叫 Map,将小任务的结果合并成最终结果,这个过程叫 Reduce,该过程如何调度、 协调就是工程上比较复杂的事情了。 可见大量用

68、到的、真正有用的方法往往简单而又朴实。 附录计算复杂度 :计算机中复杂度是以 O()来表示的,如果一个算法的计算量不超过 N 的多项式函数,则称算法为多项式函数复杂度的(P 问题) ,是可以计算的。若比 N 的多项式函数还高,则是非多项式问题,实际上是不可计算的。非多项式问题中一种非确定的多项式问题 (简称 NP) , 是科学家研究的焦点,因为现实中好多问题都是 NP 问题。另外还有 NP-Complete 问题(NP 问题可以在多项式时间内规约到该问题)和 NP-Hard 问题,对于这两种问题,需要简化找到近似解。 整体上, 数学之美这本书让我了解了很多文本处理,数据挖掘相关的知识,学到了很

69、多。其中,简单美以及一些科学家的大师风范让我印象深刻!书中提到的一些思想(即道)让我受益匪浅! 数学之美读书笔记 9 最近看了这本数学之美 ,不得不感叹一句,可惜早已身不在起点。 我读书的时候, 数学成绩一直都很好, 虽然离开学校已经 10多年,自觉当初的知识还是记得很多,67 年前再考线性代数和概率论,还是得到了很高的分数。不过我也和大部分人一样,觉得数学没有太多用处,特别是高中和大学里面学的,那些三角函数, 向量, 大数定律, 解析几何, 除了在考试的题目里面用一下,*时又有什么地方可以用呢? 看了数学之美 , 惊叹于数学的浩瀚和简单, 说它浩瀚, 是因为它的分支涵盖了科学的方方面面,是所

70、有科学的理论基础,说它简单,无论多复杂的问题, 最后总结的数学公式都简单到只有区区几个符号和字母。 这本书介绍数学理论在互联网上的运用,*时我们在使用互联网搜索或者翻译功能的时候, 时常会感叹电脑对自己的了解和它的聪明, 其实背后的原理就是一个个精美的算法和大量数据的训练。那些或者熟悉或者陌生的数学知识(联合概率分布,维特比算法, 期望最大化, 贝叶斯网络, 隐形马尔可夫链, 余弦定律,etc) ,一步步构建了我们现在所赖以生存的网上世界。 之所以觉得自己早已身不在起点, 是因为上面这些数学知识,早已经不在我的知识框架之内,就算曾经学过,也不过是囫囵吞枣一样的强记硬背,没有领会过其中的真正意义

71、。而今天想重头在来学一次,其实已经不可能了。且不说要花费多少的精力和时间, 还需要的是领悟力。 而这一些, 已经不是我可以简单付出的。 不像物理、化学需要复杂的实验来验证,很多数学的证明,几乎只要有一颗聪明的头脑和无数的草稿纸, 可是光是这颗聪明的头脑,就可以阻拦掉很多人。有人说多读书就会聪明,我不否认,书本的确会提供很多知识,可是不同的人读同一本书也会有不同的收货,这就限制于每个人的知识框架和认知水*。就如一个数学功底好过我的人, 看这本书,就会更容易理解里面的公式和推导出这些公式的其他运用点,而我,只能站在数学的门口,感叹一句,它真的好美吧。 当然,我暂时无法在实际生活中运用这些数学公式,

72、 可是书中提到的一些方法论,还是很有帮助的 1)一个产业的颠覆或者创新,大部分来自于外部的力量,比如用统计学原理做自然语言处理。 2)基础知识和基础数据是很重要性,只有足够多和足够广的数据,才可以提供有效的分析,和验证分析方法的好坏。 3) 先帮用户解决 80%的问题, 在慢慢解决剩下的 20%的问题; 4)不要等一个东西完美了,才发布; 5)简单是美,坚持选择简单的做法,这样会容易解释每一个步骤和方法背后的道理,也便于查错。 6)正确的模型也可能受噪音干扰,而显得不准确;这时不应该用一种凑合的修正方法加以弥补,而是要找到噪音的根源,从根本上修正它。 7)一个人想要在自己的领域做到世界一流,他

73、的周围必须有非常多的一流人物。 数学之美读书笔记 10 很多人都觉得,数学是一个太高深、太理论的学科,不接近生活,对我们大多数人来说*时也根本用不到,所以没必要去理解数学。但事情真的是这样吗? 其实不然,数学一直渗透在我们生活的各个方面,尤其是在今天这个信息时代,很多简单朴素的数学思想,能发挥一般人很难想象的巨大作用。比如,计算机处理自然语言,用到的最重要工具是统计学的思想;计算机对新闻内容的分类,依靠的是数学里的余弦定理;而电子电路的基本逻辑,则来源于仅有0 和 1 两个数字的布尔代数。 在数学之美里,吴军用自己在工作中使用数学的亲身经历,为我们展现了数学的重要性,以及他对数学之美的理解。吴军是“得到”App 专栏吴军的谷歌方法论的主理人。曾先后供职于谷歌和腾讯, 是著名的自然语言处理专家和搜索专家。 同时,他还是位畅销书作家,除了这本数学之美以外,还写过文明之光 智能时代 浪潮之巅等多本畅销书。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号