字符串的有关算法讲述课件

上传人:des****85 文档编号:314774291 上传时间:2022-06-20 格式:PPT 页数:98 大小:898KB
返回 下载 相关 举报
字符串的有关算法讲述课件_第1页
第1页 / 共98页
字符串的有关算法讲述课件_第2页
第2页 / 共98页
字符串的有关算法讲述课件_第3页
第3页 / 共98页
字符串的有关算法讲述课件_第4页
第4页 / 共98页
字符串的有关算法讲述课件_第5页
第5页 / 共98页
点击查看更多>>
资源描述

《字符串的有关算法讲述课件》由会员分享,可在线阅读,更多相关《字符串的有关算法讲述课件(98页珍藏版)》请在金锄头文库上搜索。

1、字符串的相关算法还是在前面的话因为本人太弱所以这几天讲的ppt经常会发现错误,建议在ppt大略的基础上去找相关论文学习。可能重点还是在原理的简单解释有的地方听不懂的话也没关系,因为每个人没有实现过代码之前实际上都是这样的,可能会对某些地方不理解不影响你对整个算法的印象。以后如果能够专门思考的话也许就会快捷许多。字符串算法有一些的原理看起来比较麻烦,但是代码量往往特别短,所以建议要去完全理解某个算法的原理,这样子以后就算把模板忘了,也许也能够通过原理写出相应的代码。一开始可以学习一下练习模板。字符串算法的模板往往很短,很容易上手。大前天提到了分治提到了这样一个方程f(n)=f(n/2)+f(n/

2、2)+O(1)这个咱当时是说f(n)=O(nlogn)那是咱SBToo Nave考虑线段树的节点,就是这个分布的可是线段树的节点个数是O(n)的这个的解显然应该是f(n)=O(n)在此表示歉意咱所知道的字符串算法Pascal的Pos函数Hash哈希Kmp和扩展KmpTrie树AC自动机后缀树,后缀数组(SA),后缀自动机(SAM)Manacher算法乱搞最近新出来的:回文自动机(PAM)(太弱不会)。Hash哈希Hash应该都知道常用的Hash函数?首先直接把每一个字符的ASCII值加起来作为Hash值不取模的情况很容易冲突常用的Hash,自己设一个X进制(X=你的字符集的大小-1,比如大写字

3、母有26个字母,字符集大小为26)然后咱们就有 Hash=Si*X(i-1)假设字符串长度为s,这个就可以在O(s)的时间内算出来。显然如果存的下最后的Hash值的话,每一个字符串的Hash值必定不相同。Q:为什么?实际上这种计算方法,每个字符串都是X进制下的一个数,而Hash值就是这个X进制的数转十进制的值,由于X进制的数互不相同,显然Hash值,即十进制的数也互不相同。Q:那如果字符串长度过大,以致会爆怎么办?取个模呗Q:那如果两个字符串不同Hash值取某个模最后相同怎么办?取多个模呗如果多个模的情况下都相同那么就是同一个字符串。Q:如果取多个模都相同呢?首先,这个模是你自己定的,所以一般

4、数据是没办法全部卡的。接着,由中国剩余定理,只要取到的每个模足够大,那么最后也可以保证一定范围内的Hash值是一定的。Q:中国剩余定理是什么?以后讲数学的时候会讲吧顺便可以百度_(:)_除了这种Hash以外,字符串Hash也有很多其他的版本,比如ELFhash(黑书上的)据说这个的效果比上面的还好,咱没试过_(:)_Function ELFhash(var s:string):integer;Var g,h,i:longint;Begin h:=0; for i:=1 to length(s) do begin h:=h shl 4+Ord(Si); g:=h and $f0000000 ($

5、是十六进制) if g0 then h:=h xor (g shr 24); h:=h and (not g); end; ELFhash:=h mod M;End;Bzoj1014 JSOI2008 火星人火星人最近研究了一种操作:求一个字串两个后缀的公共前缀。比方说,有这样一个字符串:madamimadam,我们将这个字符串的各个字符予以标号:序号: 1 2 3 4 5 6 7 8 9 10 11 字符 m a d a m i m a d a m 现在,火星人定义了一个函数LCQ(x, y),表示:该字符串中第x个字符开始的字串,与该字符串中第y个字符开始的字串,两个字串的公共前缀的长度。

6、比方说,LCQ(1, 7) = 5, LCQ(2, 10) = 1, LCQ(4, 7) = 0 在研究LCQ函数的过程中,火星人发现了这样的一个关联:如果把该字符串的所有后缀排好序,就可以很快地求出LCQ函数的值;同样,如果求出了LCQ函数的值,也可以很快地将该字符串的后缀排好序。 尽管火星人聪明地找到了求取LCQ函数的快速算法,但不甘心认输的地球人又给火星人出了个难题:在求取LCQ函数的同时,还可以改变字符串本身。具体地说,可以更改字符串中某一个字符的值,也可以在字符串中的某一个位置插入一个字符。地球人想考验一下,在如此复杂的问题中,火星人是否还能够做到很快地求取LCQ函数的值。字符串长度

7、始终=105,操作数=104 题目是什么意思?一般先化成裸题。LCP是最长公共前缀,现给出一个字符串S,支持以下操作:1 询问 LCP(x,y),也就是原字符串从x开始的字符串和从y开始的字符串最长的公共前缀2 修改,修改原S的一个字符3 添加,在S的第X个字符后面添加一个字符。这个有什么做法?也是可以把问题分开来考虑,比如,怎么快速求LCP?Hash?考虑使用Hash来做实际上这里的LCP(x,y)的x,y所代表的字符串都是S的后缀考虑每一个后缀Suffixi,就是从S的第i个字符开始的后缀,它的Hash值就是Hashi=Si+Si+1*26+Si+2*262.然后Suffixi的某个前缀S

8、i.j的Hash值怎么算?Hash=Hashi-Hashj*26(j-i+1)预处理出所有后缀的Hashi以及26k的话也就是说咱们能够O(1)地求出每一个后缀的某个前缀的Hash值。之前又提到过一点:对于两个相同的字符串,他们的Hash值相同,取模之后也相同。对于两个不同的字符串,他们的Hash值不相同,但取模之后可能相同,模的数越大,同时取不同的模,最后相同的可能性越小。以这两点作为依据,咱们可以这样子做。对于询问后缀X与Y的询问,二分答案,即LCP的长度L,然后O(1)求出这个长度为L的前缀的Hash值,取不同的模,如果不同的模之后都相同,则可认为这两个长度为L的字符串相同,二分答案区间

9、上移,否则则认为不同,二分答案区间下移。这样做的复杂度是O(logS)一次,S为字符串的长度。但是对于修改操作,咱们该怎么做?咱们可以发现,修改了字符Si,那么受到影响的就是它前面的所有字符的Hash值,对于前面来说这个改动比较大而添加字符对于所有的Hash值,都要重算这怎么做啊,这没法做啊实际上还是可以做的咱们以原字符串的顺序建立平衡树,每个节点i维护一个信息,就是它为根的子树所构成的字符串的Hash值和它为根的子树的大小size。那么递推式?Hashfa=Hashlson+sfa*26(Sizelson)+Hashrson*26(Sizelson+1)然后这样子就可以做了每一次把一个后缀全

10、部弄到一棵子树里面,然后它的Hash值就是根节点的那个Hash值。这个得用Splay来做对于修改,直接在子树上修改,然后再往根节点一路走,修改沿途的节点的Hash值。对于添加,直接Splay添加节点,然后往根节点走,每个节点的size+1,Hash值也更新。Splay一次的复杂度是O(logS),所以一次的复杂度是O(logS*logS),假设询问q次,总复杂度就是O(qlogS*logS)P党Splay比较吃力,咱blog有(别人的)AC代码,实在A不了可以去看一看。Hash的实现:2行即可(不算上预处理)上面所提到的Hash能够在O(1)的时间判断两个串是否相同(如果预处理相应的Hash值

11、)。然后Hash不仅仅只可用于字符串,还可以用于某些状态的压缩以及O(1)的查找。比如上一次某道求某个数全部排列模m=0的数的个数的数位dp的,咱们暴力枚举一半的排列a,然后将另一半的排列模m的值转Hash,然后对于排列a,可以计算出为了模m=0另一半所需要的模值,然后O(1)可处理询问。还比如广搜,为了判断某个状态之前是否搜过,也可以设计一个函数做成Hash值。这些都是常见的运用。接着提到的是字符串匹配问题给你一个字符串S,一个字符串P,求P在S中出现了几次。S长度为n,P长度为m。保证m=n咱们所知道的算法1.暴力算法,pos()+delete()以上是检验这题是否是水题的标准2.Rabi

12、n-Karp算法。这是什么鬼?实际上就是刚才讲的Hash咱们对字符串P,可以用刚才X进制的Hash函数,然后对于串P咱们有个Hash函数u,对于S的每个长度为m的子串,计算出一个Hash函数,总共有n-m+1个Hash函数,将它们和P的Hash函数u比较即可。然后计算S的n-m+1个Hash函数可以递推。递推式?(假设字符集大小为x)复杂度?O(n-m+1)。(还可以推广到二维平面的字符串匹配!)这么好的算法,为什么咱们竟然不知道?因为这里的Hash是取模的,取模之后有可能相同,而咱们这里要求的算法是100%正确,也就是说精确匹配,如果P和某个的Hash值不同显然无视,可是如果相同的话还得从头

13、比较。(因为从取模的Hash值不能100%确定某个串一定等于另一个)这样的话最坏n-m+1个都要比较,比较一次O(m),复杂度O(m(n-m+1)。这个算法最坏复杂度和暴力差不多但是期望情况很好。3.有限状态自动机匹配(这个后面ppt会提到,预计下次讲了)这个的复杂度,设字符集大小为,那么复杂度建立字符串P的自动机O(m),匹配O(n)。好处是自动机建立好之后,可以同时求多个串S中是否出现P。4.Knuth-Morris-Pratt算法也就是所说的KMP算法。1)KMP算法的原理?2)KMP算法复杂度的证明?3)能随手敲一个KMP吗?KMP算法其实不难理解。设这里有个S串一部分为ababaab

14、,P串为ababaca,匹配到第六个字符的时候失效,这个时候咱们就想尽量利用已经匹配到的信息。考虑暴力做法是怎么样的。暴力的做法就是右移一位,然后再从头比较,但是咱们通过之前的匹配知道这里是不可能有匹配的。因为已经匹配的部分ababaa的babaa的这个后缀和ababaa这个的公共前缀为0.所以这里还去匹配是不理智的。咱们发现这里的信息所涉及的串好像只跟P有关而这个暴力的过程,实际上就是拿P的第i个后缀和它的前缀继续匹配。而如果这个后缀能够匹配P的某个前缀,那么它就能继续在失配的那个地方匹配下去。实际上就是求P已经匹配的串p1.i的最大后缀,使得它是p1.i的公共前缀!而这个东西是只和P字符串

15、有关比如ababaa字符串,它的p1.5的最大后缀是3.5也就是aba,它和ababaa的前缀p1.3匹配。这个时候咱们直接将P移动到S的ababaa的第二个a处即可。这个时候已经有3个字符被匹配了。所以咱们只要求P的每个前缀的最长的相同后缀就可以了。设这个后缀的长度是nextnexti的含义就是p1.i这个字符串的能够匹配前缀的最大后缀的长度。几个小练习来理解.abbabba的next4=?next6=?next4=1,next6=3.这个next函数理解了之后,考虑nextnext的含义?nexti是p1.i这个字符串能够匹配前缀的最大后缀的长度,也就是说p1.i里面p1.nexti=pi

16、-nexti+1.i而且这个是最长的。那么nextnexti就是p1.nexti这个字符串的能够匹配前缀的最大后缀的长度,又由于p1.nexti=pi-nexti+1.i,所以这个可以理解为:能够匹配p1.nexti前缀的pi-nexti+1.i的最大后缀的长度实际上这个又等价于匹配p1.i前缀的p1.i的第二大后缀。也就是说nextnexti表示的就是能够匹配p1.i的前缀的第二大后缀的长度。那么nextnextnexti?表示的就是能够匹配p1.i的前缀的第三大后缀的长度。以此类推现在考虑求nexti,假设已经知道next1,next2,next3,nexti-1。因为nexti-1表示的是p1.i-1的匹配前缀的最长后缀。那么如果pnexti-1+1=pi的话,那么显然p1.i的匹配的最长前缀就是p1.nexti-1+1了。这个时候nexti=nexti-1+1;如果pnexti-1+1pi。咱们也没关系。nexti表示的是p1.i-1匹配前缀的最长后缀,咱们可以继续去找第二长,第三长后缀继续去匹配。怎么做?之前提到了,假设第K长的后缀的长度是u,那么第K+1长的后缀的长度就是n

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号