[工学]正则表达式

上传人:桔**** 文档编号:592088387 上传时间:2024-09-19 格式:PPT 页数:32 大小:241.50KB
返回 下载 相关 举报
[工学]正则表达式_第1页
第1页 / 共32页
[工学]正则表达式_第2页
第2页 / 共32页
[工学]正则表达式_第3页
第3页 / 共32页
[工学]正则表达式_第4页
第4页 / 共32页
[工学]正则表达式_第5页
第5页 / 共32页
点击查看更多>>
资源描述

《[工学]正则表达式》由会员分享,可在线阅读,更多相关《[工学]正则表达式(32页珍藏版)》请在金锄头文库上搜索。

1、正那么表达式正那么表达式 正那么表达式正那么表达式n正那么表达式的概念正那么表达式的概念n正那么表达式的作用正那么表达式的作用n正那么表达式的组成正那么表达式的组成正那么表达式的概念n正那么表达式到底是什么?n正那么表达式,就是用某种模式去从左向右地去匹配一类字符串的一个公式,换句话说,正那么表达式就是记录文本规那么的代码。n 正那么表达式的作用n 正那么表达式用于字符串处理、表单验证等场合,正那么表达式用于字符串处理、表单验证等场合,实用高效。实用高效。Windows/Dos下用于文件查找的通配符,下用于文件查找的通配符,是是*和和?。如果你想查找某个目录下的所有的。如果你想查找某个目录下的

2、所有的Word文档文档的话,你会搜索的话,你会搜索*.doc。在这里,。在这里,*会被解释成任意的会被解释成任意的字符串。字符串。n 和通配符类似,正那么表达式也是用来进行文本匹和通配符类似,正那么表达式也是用来进行文本匹配的工具,只不过比起通配符,它能更精确地描述你配的工具,只不过比起通配符,它能更精确地描述你的需求的需求当然,代价就是更复杂。当然,代价就是更复杂。n 某个字符串匹配某个正那么表达式,通常是指这个某个字符串匹配某个正那么表达式,通常是指这个字符串里有一局部或几局部分别能满足表达式给字符串里有一局部或几局部分别能满足表达式给出的条件。出的条件。正那么表达式的组成n正那么表达式由

3、一些普通字符和一些元字符组成。正那么表达式由一些普通字符和一些元字符组成。n普通字符包括大小写的字母和数字,而元字符那么具普通字符包括大小写的字母和数字,而元字符那么具有特殊的含义。在最简单的情况下,一个正那么表达有特殊的含义。在最简单的情况下,一个正那么表达式看上去就是一个普通的字符串。例如,正那么表达式看上去就是一个普通的字符串。例如,正那么表达式式“Hello“Hello中没有包含任何元字符,它可以匹配中没有包含任何元字符,它可以匹配“Hello“Hello和和123Hello123Hello等字符串,但是不能匹配等字符串,但是不能匹配“hello“hello。 元字符n元字符是正那么表

4、达式规定的特殊代码。正那么表达式中有很多元字符,例如:d 匹配一位数字,b代表是字符串的开头和结尾。下面列出一些元字符:常用的一些元字符正那么表达式根本书写符号字符转义n当查找元字符本身时,比方查找.,或者*, 无法指定它们,因为它们会被解释成别的意思。这时你就得使用来取消这些字符的特殊意义。因此,你应该使用.和*。当然,要查找本身,你也得用.n例如:A匹配A,C:Windows匹配C:Windows。限定符n正那么表达式中所有的限定符是指定数量的代码 。正那么表达式限定符符号正那么表达式限定符符号限定符n下面是一些使用重复的例子:nWindowsd+匹配Windows后面跟1个或更多数字nw

5、+匹配一行的第一个单词(或整个字符串的第一个单词,具体匹配哪个意思得看选项设置)字符类n问题:n要想查找数字,字母或数字,空白是很简单的,因为已经有了对应这些字符集合的元字符,但是如果你想匹配没有预定义元字符的字符集合(比方元音字母a,e,i,o,u),应该怎么办?字符类n很简单,你只需要在方括号里列出它们就行了,像aeiou就匹配任何一个英文元音字母,.?!匹配标点符号(.或?或!)。n可以指定一个字符范围,像0-9代表的含意与d就是完全一致的:一位数字;同理a-z0-9A-Z_也完全等同于w如果只考虑英文的话。字符类n下面是一个更复杂的表达式:n(?0d2) -?d8n这个表达式可以匹配几

6、种格式的 号码,像,或,或等。我们对它进行一些分析吧:首先是一个转义字符(,它能出现0次或1次(?),然后是一个0,后面跟着2个数字(d2),然后是)或-或空格中的一个,它出现1次或不出现(?),最后是8个数字(d8)。n这个表达式是个不好的表达式,因为它会匹配几种不正确的格式。 分枝条件n刚刚那个表达式也能匹配010)12345678或(022-87654321这样的“不正确的格式。要解决这个问题,我们需要用到分枝条件。n正那么表达式里的分枝条件指的是有几种规那么,如果满足其中任意一种规那么都应该当成匹配,具体方法是用|把不同的规那么分隔开。n例如:0d2-d8|0d3-d7这个表达式能匹配

7、两种以连字号分隔的 号码:一种是三位区号,8位本地号(如010-12345678),一种是4位区号,7位本地号(0376-2233445)。分枝条件n(0d2)- ?d8|0d2- ?d8这个表达式匹配3位区号的 号码,其中区号可以用小括号括起来,也可以不用,区号与本地号间可以用连字号或空格间隔,也可以没有间隔。你可以试试用分枝条件把这个表达式扩展成也支持4位区号的。nd5-d4|d5这个表达式用于匹配美国的邮政编码。美国 的规那么是5位数字,或者用连字号间隔的9位数字。分枝条件n之所以要给出这个例子是因为它能说明一个问题:使用分枝条件时,要注意各个条件的顺序。如果你把它改成d5|d5-d4的

8、话,那么就只会匹配5位的 (以及9位 的前5位)。原因是匹配分枝条件时,将会从左到右地测试每个条件,如果满足了某个分枝的话,就不会去再管其它的条件了。分组n我们已经提到了怎么重复单个字符直接在字符后面加上限定符就行了;但如果想要重复多个字符又该怎么办?你可以用小括号来指定子表达式(也叫做分组),然后你就可以指定这个子表达式的重复次数了,你也可以对子表达式进行其它一些操作(后面会有介绍)。n(d1,3.)3d1,3是一个简单的IP地址匹配表达式。要理解这个表达式,请按以下顺序分析它:d1,3匹配1到3位的数字,(d1,3.)3匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次,最后再

9、加上一个一到三位的数字(d1,3)。分组n不幸的是,它也将匹配这种不可能存在的IP地址。如果能使用算术比较的话,或许能简单地解决这个问题,但是正那么表达式中并不提供关于数学的任何功能,所以只能使用冗长的分组,选择,字符类来描述一个正确的IP地址:(20-4d|250-5|01?dd?).)3(20-4d|250-5|01?dd?)。n理解这个表达式的关键是理解20-4d|250-5|01?dd?反义反义n有时需要查找不属于某个能简单定义的字符类的字符。比方想查找除了数字以外,其它任意字符都行的情况,这时需要用到反义:反义n例子:nS+匹配不包含空白符的字符串。n+匹配用尖括号括起来的以a开头的

10、字符串。后向引用n使用小括号指定一个子表达式后,匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理。默认情况下,每个分组会自动拥有一个组号,规那么是:从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推。n后向引用用于重复搜索前面某个分组匹配的文本。例如,1代表分组1匹配的文本。 后向引用nb(w+)bs+1b可以用来匹配重复的单词,像go go, 或者kitty kitty。这个表达式首先是一个单词,也就是单词开始处和结束处之间的多于一个的字母或数字(b(w+)b),这个单词会被捕获到编号为1的分组中,然后是1个或几个空白符(s

11、+),最后是分组1中捕获的内容也就是前面匹配的那个单词(1)。后向引用n也可以自己指定子表达式的组名。要指定一个子表达式的组名,语法为:(?w+)(或者把尖括号换成也行:(?Wordw+),这样就把w+的组名指定为Word了。要反向引用这个分组捕获的内容,你可以使用k,所以上一个例子也可以写成这样:b(?w+)bs+kb。零宽断言n接下来的四个用于查找在某些内容(但并不包括这些内容)之前或之后的东西,也就是说它们像b,$那样用于指定一个位置,这个位置应该满足一定的条件(即断言),因此它们也被称为零宽断言。 n断言用来声明一个应该为真的事实。正那么表达式中只有当断言为真时才会继续进行匹配。 零宽

12、断言n(?=exp)也叫零宽度正预测先行断言,它断言自身出现的位置的后面能匹配表达式exp。比方bw+(?=ingb),匹配以ing结尾的单词的前面局部(除了ing以外的局部),如查找Im singing while youre dancing.时,它会匹配sing和danc。n(?=exp)也叫零宽度正回忆后发断言,它断言自身出现的位置的前面能匹配表达式exp。比方(?=bre)w+b会匹配以re开头的单词的后半局部(除了re以外的局部),例如在查找reading a book时,它匹配ading。零宽断言n假设你想要给一个很长的数字中每三位间加一个逗号(当然是从右边加起了),你可以这样查找需要在前面和里面添加逗号的局部:(?=d)d3)+b,用它对1234567890进行查找时结果是234567890。n下面这个例子同时使用了这两种断言:(?=s)d+(?=s)匹配以空白符间隔的数字(再次强调,不包括这些空白符)。测试正那么表达式测试正那么表达式nWindows下的正那么表达式工具,这里推荐的是:RegexBuddy。在编写正那么式时,它提供可视化的支持、提示、调试方面的便利;在使用正那么表达式时,它将正那么式转换为多种语言的字串,还提供了代码输出功能。 RegexBuddy RegexBuddy的界面的界面RegexBuddyRegexBuddy的测试界面的测试界面

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 模板/表格 > 财务表格

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号