《R语言与机器学习关联分析》由会员分享,可在线阅读,更多相关《R语言与机器学习关联分析(10页珍藏版)》请在金锄头文库上搜索。
1、用R语言进行关联分析关联是两个或多个变量取值之间存在的一类重要的可被发现的某种规律性。关联分析目 的是寻找给定数据记录集中数据项之间隐藏的关联关系,描述数据之间的密切度。1. 项集这是一个集合的概念,在一篮子商品中的一件消费品即为一项(tem),则若干项的集合为 项集,如啤酒,尿布构成一个二元项集。2. 关联规则一般记为的形式,X为先决条件,Y为相应的关联结果,用于表示数据内隐含的关联性。如:, 表示购买了尿布的消费者往往也会购买啤酒。关联性强度如何,由三个概念一一支持度、置信度、提升度来控制和评价。例:有10000个消费者购买了商品,其中购买尿布1000个,购买啤酒2000个,购买面包 50
2、0个,同时购买尿布和面包800个,同时购买尿布和面包100个。3. 支持度(Support)支持度是指在所有项集中X, Y出现的可能性,即项集中同时含有X和Y的概率:该指标作为建立强关联规则的第一个门槛,衡量了所考察关联规则在量”上的多少。 通过设定最小阈值(minsup),剔除出镜率”较低的无意义规则,保留出现较为频繁的项集 所隐含的规则。设定最小阈值为5%,由于尿布,啤酒的支持度为800/10000=8%,满足基本输了 要求,成为频繁项集,保留规则;而尿布,面包的支持度为100/10000=1%,被剔除。4. 置信度(Confidence)置信度表示在先决条件X发生的条件下,关联结果Y发生
3、的概率:这是生成强关联规则的第二个门槛,衡量了所考察的关联规则在质”上的可靠性。相 似的,我们需要对置信度设定最小阈值(mincon)来实现进一步筛选。具体的,当设定置信度的最小阈值为70%时,置信度为800/1000=80%,而的置信度 为 800/2000=40%,被剔除。5. 提升度(lift)提升度表示在含有X的条件下同时含有Y的可能性与没有X这个条件下项集中含有Y的可 能性之比:该指标与置信度同样衡量规则的可靠性,可以看作是置信度的一种互补指标。R中Apriori算法算法步骤:1. 选出满足支持度最小阈值的所有项集,即频繁项集;2. 从频繁项集中找出满足最小置信度的所有规则。 lib
4、rary(arules) #加载 arules 包 click_detail =read.transactions(click_detail.txt”,format=basket”,sep=”,”,cols=c(1) #读 取txt文档(文档编码为ANSI) rules rulesset of419 rules inspect(rules1:10) #查看前十条规则解释1) library(arules):加载程序包arules,当然如果你前面没有下载过这个包,就要先install.packages(arules)2) click_detail=read.transactions(click_
5、detail.txt,format=basket,sep=,cols=c(1)读入数据read.transactions(file, format =c(basket, single), sep = NULL,cols = NULL, rm.duplicates =FALSE, encoding = unknown)file:文件名,对应 click_detail 中的“click_detail.txt”format:文件格式,可以有两种,分别为“basket”,“single”,click_detail.txt 中用的是 basket。 basket: basket就是篮子,一个顾客买的东西
6、都放到同一个篮子,所有顾客的transactions 就是一个个篮子的组合结果。如下形式,每条交易都是独立的。文件形式:item1,item2item1item2,item3读入后:items1 item1,item22 item13 item2,item3single: single的意思,顾名思义,就是单独的交易,简单说,交易记录为:顾客1买了产 品1,顾客1买了产品2,顾客2买了产品3.(产品1,产品2,产品3中可以是单个产 品,也可以是多个产品),如下形式:trans1 item1trans2 item1trans2 item2读入后:items transactionID1 item
7、1 trans12 item1,item2 trans2sep:文件中数据是怎么被分隔的,默认为空格,click_detail里面用逗号分隔cols:对basket, col=1,表示第一列是数据的transaction ids(交易号),如果col=NULL,则表 示数据里面没有交易号这一列;对single,col=c(1,2)表示第一列是transaction ids,第二列 是 item idsrm.duplicates:是否移除重复项,默认为FALSEencoding:写到这里研究了 encoding是什么意思,发现前面txt可以不是”ANSI”类型,如果 TXT 是“UTF-8”,写
8、 encoding=”UTF-8”,就 OK 了.3) rules (l-a)。频繁项集产生所需要的计算开销远大于规则产生所需的计算开销频繁项集的产生几个概念:1, 一个包含K个项的数据集,可能产生2W个候选集频繁项集产生12,先验原理:如果一个项集是频繁的,则它的所有子集也是频繁的(理解了频繁项集的意 义,这句话很容易理解的);相反,如果一个项集是非频繁的,则它所有子集也一定是非频 繁的。3基于支持度(SUPPORT)度量的一个关键性质:一个项集的支持度不会超过它的子集的 支持度(很好理解,支持度是共同发生的概率,假设项集A,B,C,A,B是它的一个自己, A,B,C同时发生的概率肯定不会超
9、过A,B同时发生的概率)。上面这条规则就是Apriori中使用到的,如下图,当寻找频繁项集时,从上往下扫描, 当遇到一个项集是非频繁项集(该项集支持度小于Minsup),那么它下面的项集肯定就是 非频繁项集,这一部分就剪枝掉了。一个例子(百度到的一个PPT上的):Minimum Support = 3TID1Milk2Bi earl,Beer? Eggs3Milk. Diaper, Beer Coke4Breid, Mikh Din per, Bee5Bi enl, Milk, Diapei okePairs (2-itemsets)1 tenseCount(Bread,Mi Ik)3B re
10、adier并偈lai|(Bread,Diaper31M|k,Beer)2(Mi Ik, Diaper Beer,D iaper33(No need to generate candidates involving Coke or Eggs)It总 m setCount(B re a d . M ilk ,D ip e r3If every subset is oonsidered, 归 + 6C2 + % = 41 With support-based pruning 6 + 6 + 1 = 13当我在理解频繁项集的意义时,在R上简单的复现了这个例子,这里采用了eclat算法,跟apriori
11、应该差不多:代码:item - list(c(bread,milk),c(bread,diaper,beer,eggs),c(milk,diaper,beer,coke),c(bread,milk,diaper,beer),c(bread,milk,diaper,coke)names(item) - paste(tr”,c(1:5),sep =)itemtrans inspect(rules)items support1beer,diaper 0.62diaper,milk 0.63bread,diaper 0.64bread,milk 0.65beer0.66milk0.87bread 0.88diaper 0.8以上就是该例子的所有频繁项集,然后我发现少了 bread,milk,diaper 这个项集,回到例子 一看,这个项集实际上只出现了两次,所以是没有这个项集的。规则的产生每个频繁k项集能产生最多2k-2个关联规则将项集Y