三十分钟学会正则表达式

资源描述

《三十分钟学会正则表达式》由会员分享，可在线阅读，更多相关《三十分钟学会正则表达式（16页珍藏版）》请在金锄头文库上搜索。

1、如何使用本教程最重要的是请给我30 分钟，如果你没有使用正则表达式的经验，请不要试图在 30 秒内入门除非你是超人 :) 别被下面那些复杂的表达式吓倒，只要跟着我一步一步来，你会发现正则表达式其实并没有你想像中的那么困难。当然，如果你看完了这篇教程之后，发现自己明白了很多，却又几乎什么都记不得，那也是很正常的我认为，没接触过正则表达式的人在看完这篇教程后，能把提到过的语法记住 80% 以上的可能性为零。这里只是让你明白基本的原理，以后你还需要多练习，多使用，才能熟练掌握正则表达式。除了作为入门教程之外，本文还试图成为可以在日常工作中使用的正则表达式语法参考手册。就作者本人的经历来说，这个目标还

2、是完成得不错的你看，我自己也没能把所有的东西记下来，不是吗？清除格式文本格式约定：专业术语元字符 / 语法格式正则表达式正则表达式中的一部分 (用于分析 ) 对其进行匹配的源字符串对正则表达式或其中一部分的说明隐藏边注本文右边有一些注释，主要是用来提供一些相关信息，或者给没有程序员背景的读者解释一些基本概念，通常可以忽略。正则表达式到底是什么东西？字符是计算机软件处理文字时最基本的单位，可能是字母，数字，标点符号，空格，换行符，汉字等等。字符串是 0个或更多个字符的序列。文本也就是文字，字符串。说某个字符串匹配某个正则表达式，通常是指这个字符串里有一部分（或几部分分别）能满足表达式给

3、出的条件。在编写处理字符串的程序或网页时，经常会有查找符合某些复杂规则的字符串的需要。正则表达式就是用于描述这些规则的工具。换句话说，正则表达式就是记录文本规则的代码。很可能你使用过 Windows/Dos下用于文件查找的通配符 (wildcard)，也就是 *和?。如果你想查找某个目录下的所有的Word文档的话，你会搜索*.doc 。在这里， *会被解释成任意的字符串。和通配符类似，正则表达式也是用来进行文本匹配的工具，只不过比起通配符，它能更精确地描述你的需求当然，代价就是更复杂比如你可以编写一个正则表达式，用来查找所有以 0 开头，后面跟着 2-3 个数字，然后是一个连字号“- ”

4、，最后是 7 或 8 位数字的字符串 ( 像 010-12345678 或 0376-7654321) 。入门学习正则表达式的最好方法是从例子开始，理解例子之后再自己对例子进行修改，实验。下面给出了不少简单的例子，并对它们作了详细的说明。假设你在一篇英文小说里查找hi ，你可以使用正则表达式hi 。这几乎是最简单的正则表达式了，它可以精确匹配这样的字符串：由两个字符组成，前一个字符是h, 后一个是 i 。通常，处理正则表达式的工具会提供一个忽略大小写的选项，如果选中了这个选项，它可以匹配hi , HI, Hi, hI 这四种情况中的任意一种。不幸的是，很多单词里包含hi 这两个连续的字符，比如

5、him, history , high 等等。用 hi 来查找的话，这里边的hi 也会被找出来。如果要精确地查找hi 这个单词的话，我们应该使用bhib 。b 是正则表达式规定的一个特殊代码（好吧，某些人叫它元字符，metacharacter ），代表着单词的开头或结尾，也就是单词的分界处。虽然通常英文的单词是由空格，标点符号或者换行来分隔的，但是b 并不匹配这些单词分隔字符中的任何一个，它只匹配一个位置。如果需要更精确的说法， b 匹配这样的位置：它的前一个字符和后一个字符不全是 (一个是 , 一个不是或不存在 )w。假如你要找的是 hi 后面不远处跟着一个Lucy，你应该用bhib.*b

6、Lucyb。这里，. 是另一个元字符，匹配除了换行符以外的任意字符。*同样是元字符，不过它代表的不是字符，也不是位置，而是数量它指定*前边的内容可以连续重复使用任意次以使整个表达式得到匹配。因此，.* 连在一起就意味着任意数量的不包含换行的字符。现在bhib.*bLucyb的意思就很明显了：先是一个单词hi, 然后是任意个任意字符 ( 但不能是换行) ，最后是 Lucy 这个单词。换行符就是 n,ASCII编码为 10(十六进制 0x0A)的字符。如果同时使用其它元字符，我们就能构造出功能更强大的正则表达式。比如下面这个例子：0dd-dddddddd匹配这样的字符串：以0 开头，然后是两个数字

7、，然后是一个连字号“ - ”，最后是 8 个数字 ( 也就是中国的电话号码。当然，这个例子只能匹配区号为3 位的情形 )。这里的d 是个新的元字符，匹配一位数字(0，或 1，或 2，或,) 。- 不是元字符，只匹配它本身连字符( 或者减号，或者中横线，或者随你怎么称呼它 )。为了避免那么多烦人的重复，我们也可以这样写这个表达式：0d2-d8。这里d 后面的 2 ( 8 )的意思是前面 d 必须连续重复匹配 2 次(8 次) 。测试正则表达式其它可用的测试工具 : RegexBuddy Javascript正则表达式在线测试工具如果你不觉得正则表达式很难读写的话，要么你是一个天才，要么，你不是

8、地球人。正则表达式的语法很令人头疼，即使对经常使用它的人来说也是如此。由于难于读写，容易出错，所以找一种工具对正则表达式进行测试是很有必要的。不同的环境下正则表达式的一些细节是不相同的，本教程介绍的是微软 .Net Framework 2.0 下正则表达式的行为，所以，我向你介绍一个.Net下的工具 Regex Tester 。首先你确保已经安装了.Net Framework 2.0 ，然后下载 Regex Tester 。这是个绿色软件，下载完后打开压缩包, 直接运行RegexTester.exe 就可以了。下面是 Regex Tester 运行时的截图：元字符现在你已经知道几个很有用的元字

9、符了，如b , . , *，还有d . 正则表达式里还有更多的元字符，比如s 匹配任意的空白符，包括空格，制表符(Tab) ，换行符，中文全角空格等。 w 匹配字母或数字或下划线或汉字等。对中文/ 汉字的特殊处理是由 .Net 提供的正则表达式引擎支持的，其它环境下的具体情况请查看相关文档。下面来看看更多的例子：baw*b匹配以字母 a 开头的单词先是某个单词开始处( b )，然后是字母 a, 然后是任意数量的字母或数字( w* )，最后是单词结束处 (b )。好吧，现在我们说说正则表达式里的单词是什么意思吧：就是不少于一个的连续的 w。不错，这与学习英文时要背的成千上万个同名的东西的确关系不

10、大 :) d+匹配 1个或更多连续的数字。这里的 +是和*类似的元字符，不同的是*匹配重复任意次 ( 可能是 0 次) ，而+则匹配重复 1 次或更多次。bw6b匹配刚好 6 个字符的单词。表 1. 常用的元字符代码说明.匹配除换行符以外的任意字符w匹配字母或数字或下划线或汉字s匹配任意的空白符d匹配数字b匹配单词的开始或结束匹配字符串的开始$匹配字符串的结束正则表达式引擎通常会提供一个“测试指定的字符串是否匹配一个正则表达式”的方法，如JavaScript里的 RegExp.test()方法或 .NET里的Regex.IsMatch() 方法。这里的匹配是指是字符串里有没有符合表达式规则的部

11、分。如果不使用和$的话，对于 d5,12而言，使用这样的方法就只能保证字符串里包含5 到 12连续位数字，而不是整个字符串就是5 到 12位数字。元字符（和数字 6 在同一个键位上的符号）和$都匹配一个位置，这和b 有点类似。匹配你要用来查找的字符串的开头，$匹配结尾。这两个代码在验证输入的内容时非常有用，比如一个网站如果要求你填写的QQ号必须为 5位到 12 位数字时，可以使用： d5,12$。这里的5,12 和前面介绍过的 2 是类似的，只不过 2 匹配只能不多不少重复 2次，5,12 则是重复的次数不能少于5 次，不能多于 12次，否则都不匹配。因为使用了和$，所以输入的整个字符串

12、都要用来和d5,12来匹配，也就是说整个输入必须是5 到 12 个数字，因此如果输入的QQ 号能匹配这个正则表达式的话，那就符合要求了。和忽略大小写的选项类似，有些正则表达式处理工具还有一个处理多行的选项。如果选中了这个选项，和$的意义就变成了匹配行的开始处和结束处。字符转义如果你想查找元字符本身的话，比如你查找., 或者*, 就出现了问题：你没办法指定它们，因为它们会被解释成别的意思。这时你就得使用来取消这些字符的特殊意义。因此，你应该使用. 和* 。当然，要查找本身，你也得用. 例如：匹配，C:Windows 匹配C:Windows。重复你已经看过了前面的 *, +, 2 , 5,12

13、这几个匹配重复的方式了。下面是正则表达式中所有的限定符( 指定数量的代码，例如 *,5,12等) ：表 2. 常用的限定符代码/ 语法说明*重复零次或更多次+重复一次或更多次?重复零次或一次n重复 n次n,重复 n次或更多次n,m重复 n到 m次下面是一些使用重复的例子：Windowsd+匹配 Windows后面跟 1 个或更多数字w+匹配一行的第一个单词 ( 或整个字符串的第一个单词，具体匹配哪个意思得看选项设置 ) 字符类要想查找数字，字母或数字，空白是很简单的，因为已经有了对应这些字符集合的元字符，但是如果你想匹配没有预定义元字符的字符集合( 比如元音字母 a,e,i,o,u),

14、应该怎么办？很简单，你只需要在方括号里列出它们就行了，像aeiou 就匹配任何一个英文元音字母， .?!匹配标点符号 (. 或?或!) 。我们也可以轻松地指定一个字符范围，像0-9 代表的含意与 d 就是完全一致的：一位数字；同理a-z0-9A-Z_也完全等同于 w（如果只考虑英文的话）。下面是一个更复杂的表达式：(?0d2) -?d8。“( ”和“) ”也是元字符，后面的分组节里会提到，所以在这里需要使用转义。这个表达式可以匹配几种格式的电话号码，像(010)88886666，或022-22334455，或 02912345678等。我们对它进行一些分析吧：首先是一个转义字符 ( , 它

15、能出现 0 次或 1 次( ?), 然后是一个 0，后面跟着 2 个数字( d2 ) ，然后是 )或-或空格中的一个，它出现1 次或不出现 (?) ，最后是8 个数字 ( d8 )。分枝条件不幸的是，刚才那个表达式也能匹配010)12345678或(022-87654321这样的“不正确”的格式。要解决这个问题，我们需要用到分枝条件。正则表达式里的分枝条件指的是有几种规则，如果满足其中任意一种规则都应该当成匹配，具体方法是用| 把不同的规则分隔开。听不明白？没关系，看例子：0d2-d8|0d3-d7这个表达式能匹配两种以连字号分隔的电话号码：一种是三位区号，8 位本地号 ( 如 010-12345678) ，一种是 4 位区号， 7 位本地号 (0376-2233445) 。(0d2)- ?d8|0d2- ?d8这个表达式匹配 3 位区号的电话号码，其中区号可以用小括号括起来，也可以不用，区号与本地号间可以用连字号或空格间隔，也可以没有间隔。你可以试试用分枝条件把这个表达式扩展成也支持4 位区号的。d5-d4|d5这个表达式用于匹配美国的邮政编码。美国邮编的规则是 5 位数字，或者用连字号间隔的9 位数字。之所以要给出这个例子是因为它能说明一个问题：使用分枝条件时，要注意各个条件的顺序。如果你把它改成 d5|d5-d4的话，

展开阅读全文

三十分钟学会正则表达式

最新文档