2024人工智能算法指南合集

上传人:周哈****孩子 文档编号:595601540 上传时间:2024-11-27 格式:DOCX 页数:217 大小:7.79MB
返回 下载 相关 举报
2024人工智能算法指南合集_第1页
第1页 / 共217页
2024人工智能算法指南合集_第2页
第2页 / 共217页
2024人工智能算法指南合集_第3页
第3页 / 共217页
2024人工智能算法指南合集_第4页
第4页 / 共217页
亲,该文档总共217页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《2024人工智能算法指南合集》由会员分享,可在线阅读,更多相关《2024人工智能算法指南合集(217页珍藏版)》请在金锄头文库上搜索。

1、AI入学指南决策树与集成算法聚类算法支持向量机推荐系统 贝叶斯算法xgboostLDA与PCA算法EM算法时间序列分析文本分析深度学习分割任务人工智能算法指南合集2024AI时代人工智能入学指南为嘛Python这么火?从哪里开始,学什么?有什么用? 算法该如何学?数学怎么办?如何实际动手去做?用什么工具?AI时代为嘛Python这么火?难度:有任何语言基础学Python你会觉得简单到家了实用性:能用一行代码,何必用十行呢?(我们的定位通常都是工程师,而非科学家,能干活更重要)Python工具库:这些简直太多了,基本上你能想到的现在都有了(我们常用的:Numpy,Pandas,Matplotli

2、b,Scikit-Learn,tensorflow)大家都在用,各大公司开源工具库都有Python接口,并且都是主流,我们实际干活很大程度上都是使用这些库帮助我们完成任务AI时代Python和这些库怎么配置?常规套路:1.安装 2.环境变量 3.用什么库去看配置文档自己安(这个是程序员的常规套路了,但是刚转行的同学会弄个大半天)大礼包: ,傻瓜式安装,解决上述问题(还给我们赠送了notebook写代码环境,库安装工具等)为什么建议使用Notebook?主要原因在于它不光能写代码,还可以做笔记尤其是代码需要一步步执行的时候,可以得到每一步结果并保留下来,在可视化展示方面就更方便了!AI时代如何学

3、Python呢?有其他语言基础:简单过一遍语法,直接上手应该没什么问题第一门语言:初级内容便学边写,高级内容暂时不需要(我觉得语言只是一门工具,不需要先都学彻底了才能干活,边做事边学习应该会更加深理解,忌光看书不练习)Python这么多库,这么多函数,我需要都记下来吗?(其实这些依旧是工具,记它干嘛?我觉得重点在于知道每个库能做什么,大概用哪个函数,等实际用的时候还是需要查一查API的,这么多参数都记下来不太切合实际,动手查的能力也很重要)AI时代人工智能我该怎么学呢?人工智能是一个很大的圈子,但是基础必然是机器学习什么是机器学习呢?说白了就是你告诉机器你想做什么?并且给它一堆数据让它去模仿着

4、做!(比如,咱们上高中,老师会告诉我们一个目标就是考高分,然后给我们一堆练习册和答案,我们的目的就是让我们做的题的解和答案一致)机器学习需要什么?算法,数据,程序,评估,应用机器学习能做什么?机器学习在数据挖掘,图像识别,语音和自然语言处理中有着广泛应用机器学习流程?一个机器学习的常规套路1. 数据收集与预处理2. 特征选择与模型构建3. 评估与预测机器学习我该怎么学?机器学习本质包含了数学原理推导与实际应用技巧机器学习中有很多经典算法,既然要学习,那就需要清楚一个算法是怎么来的(推导)以及该如何应用数学重要吗?非常重要的,大学的数学基础即可,如果你都忘了,大致的印象还是有的吧,我觉得与其从头

5、过一遍数学,不如边学边查,一个合适的做法就是哪里不会点哪里,我每天也在查很多知识点机器学习我该怎么学?一定要学数学,学推导吗?我知道会用不就可以了吗?有句老话,不光要知其然还要知其所以然,这对我们的应用具有很大的帮助在校的同学们:推导肯定是重中之重了,因为对于我们来说学习的目的就是转换成自身的资本让我们更有竞争力,面试与笔试的时候,这些推导全来了程序员兄弟:如果要转行,让你看数学你肯定要疯的,重点应在于如何应用(库的使用,完整项目如何构建,从头到尾的流程)现在说的很火的深度学习是什么?深度学习是机器学习中神经网络算法的延伸,只不过应用的比较广深度学习在计算机视觉和自然语言处理中更厉害一些那我学

6、机器学习还是深度学习呀?一切的基础都是机器学习,做任何事情没有坚实的基础只会越来越迷茫,机器学习觉得值得你从头开始算法推导如何开始?找本书?找博客?找视频? 都可以的,选择你喜欢的就好!如果有一个地方死活看不懂怎么办?很常见的情况,我也经常卡在一个地方 好久,这时候有个圈子来交流当然更好(推荐找几个哥们一起,自己坚持下去好累),不过我们也可以先继续前进,等回过头来再想想,没准就想通啦!习惯很重要,当你看别人的资料觉得掌握的差不多了,其实你明天估计就忘的也差不多了,自己动手从头开始做笔记(不是照抄人家的,是写自己的)或者博客都是很好的选择,只要你自己能写出来了才算真正的掌握!机器学习怎么动手去做

7、?只有实际应用啦,才觉得没白学,那么去哪里找案例呢?最好的资源:Github,kaggle,各大资源分享点案例的积累作用很大, 其实我们干活是什么样的呢?主要就是在模仿, 我们并不是科学家,能做事才能有用的,既然人家是这么做的,并且做的不错,那我们去模仿做出来的就是我们自己的!很少从头开始去写一个项目,通常都是按照之前的某种套路照搬过来,实际上大部分公司都这么做,建议大家先学会模仿,再去创作吧!咱们的课程!Python库的讲解,常用函数的应用(只是工具)算法原理推导:从零开始,对一个机器学习/深度学习算法进行推导, 得出其最终的解法,评估参数对结果的影响。案例实战:基于真实数据集,结合Pyth

8、on工具库,从数据预处理开始一步步建模完成整个案例。讲师:唐宇迪更多资源我的机器学习原创公众号微博:迪哥有点愁决策树树模型决策树:从根节点开始一步步走到叶子节点(决策)所有的数据最终都会落到叶子节点,既可以做分类也可以做回归树的组成根节点:第一个选择点非叶子节点与分支:中间过程叶子节点:最终的决策结果决策树的训练与测试训练阶段:从给定的训练集构造出来一棵树(从跟节点开始选择特征,如何进行特征切分)测试阶段:根据构造出来的树模型从上到下去走一遍就好了一旦构造好了决策树,那么分类或者预测任务就很简单了,只需要走一遍就可以了,那么难点就在于如何构造出来一颗树,这就没那么容易了,需要考虑的问题还有很多

9、的!如何切分特征(选择节点)问题:根节点的选择该用哪个特征呢?接下来呢?如何切分呢?想象一下:我们的目标应该是根节点就像一个老大似的能更好的切分数据(分类的效果更好),根节点下面的节点自然就是二当家了。目标:通过一种衡量标准,来计算通过不同特征进行分支选择后的分类情况,找出来最好的那个当成根节点,以此类推。衡量标准-熵熵:熵是表示随机变量不确定性的度量(解释:说白了就是物体内部的混乱程度,比如杂货市场里面什么都有那肯定混乱呀,专卖店里面只卖一个牌子的那就稳定多啦)公式:H(X)=- pi * logpi, i=1,2, . , n一个栗子:A集合1,1,1,1,1,1,1,1,2,2B集合1,

10、2,3,4,5,6,7,8,9,1显然A集合的熵值要低,因为A里面只有两种类别,相对稳定一些 而B中类别太多了,熵值就会大很多。(在分类任务中我们希望通过节点分支后数据类别的熵值大还是小呢?)衡量标准-熵熵:不确定性越大,得到的熵值也就越大当p=0或p=1时,H(p)=0,随机变量完全没有不确定性当p=0.5时,H(p)=1,此时随机变量的不确定性最大如何决策一个节点的选择呢?信息增益:表示特征X使得类Y的不确定性减少的程度。(分类后的专一性,希望分类后的结果是同类在一起)决策树构造实例数据:14天打球情况特征:4种环境变化目标:构造决策树决策树决策树构造实例划分方式:4种问题:谁当根节点呢?

11、依据:信息增益决策树决策树构造实例在历史数据中(14天)有9天打球,5天不打球,所以此时的熵应为:4个特征逐一分析,先从outlook特征开始:Outlook = sunny时,熵值为0.971 Outlook = overcast时,熵值为0 Outlook = rainy时,熵值为0.971决策树构造实例根据数据统计,outlook取值分别为sunny,overcast,rainy的概率分别为:5/14, 4/14, 5/14熵值计算:5/14 * 0.971 + 4/14 * 0 + 5/14 * 0.971 = 0.693(gain(temperature)=0.029 gain(hu

12、midity)=0.152 gain(windy)=0.048) 信息增益:系统的熵值从原始的0.940下降到了0.693,增益为0.247同样的方式可以计算出其他特征的信息增益,那么我们选择最大的那个就可以啦,相当于是遍历了一遍特征,找出来了大当家,然后再其余的中继续通过信息增益找二当家!决策树算法ID3:信息增益(有什么问题呢?)C4.5:信息增益率(解决ID3问题,考虑自身熵)CART:使用GINI系数来当做衡量标准GINI系数:(和熵的衡量标准类似,计算方式不相同)连续值怎么办?决策树剪枝策略为什么要剪枝:决策树过拟合风险很大,理论上可以完全分得开数据(想象一下,如果树足够庞大,每个叶

13、子节点不就一个数据了嘛)剪枝策略:预剪枝,后剪枝预剪枝:边建立决策树边进行剪枝的操作(更实用) 后剪枝:当建立完决策树后来进行剪枝操作决策树决策树剪枝策略预剪枝:限制深度,叶子节点个数叶子节点样本数,信息增益量等后剪枝:通过一定的衡量标准(叶子节点越多,损失越大)集成算法Ensemble learning目的:让机器学习效果更好,单个不行,群殴走起Bagging:训练多个分类器取平均Boosting:从弱学习器开始加强,通过加权来进行训练 (加入一棵树,要比原来强)Stacking:聚合多个分类或回归模型(可以分阶段来做)Bagging模型全称: bootstrap aggregation(说白了就是并行训练一堆分类器)最典型的代表就是随机森林啦随机:数据采样随机,特征选择随机森林:很多个决策树并行放在一起随机森林构造树模型:由于二重随机性,使得每个树基本上都不会一样,最终的结果也会不一样Bagging模型树模型:之所以要进行随机,是要保证泛化能力,如果树都一样,那就没意义了!随机森林优势它能够处理很高维度(feature很多)的数据,并且不用做特征选择在训练完后,它能够给出哪些feature比较重要容易做成并行化方法,速度比较快可以进行可视化展示,便于分析Bagging模型KNN模型

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号