正则表达式通用学习资料

资源描述

《正则表达式通用学习资料》由会员分享，可在线阅读，更多相关《正则表达式通用学习资料（12页珍藏版）》请在金锄头文库上搜索。

1、正则表达式通用学习正则表达式通用学习之之熊熊版熊熊版本文是Jan Goyvaerts写的教程的译文，版权归原作者所有。对一些地方进行了标注，是很好的正则表达式学习文档，通过本文档可以达到对正则表达式有一整体了解，便于以后更深入的学习。首先体验一下大家比较熟知和一些常用的词法： . 匹配任意单个字符，包括空格 * 匹配零个或多个模式的出现 + 匹配一个或多个模式的出现？匹配零个或一个模式的出现匹配字符的开始 $ 匹配字符的结束 _ 匹配逗号，左大括号，右大括号，左小括号，右小括号例： c* 匹配行中任意多个c的出现，包括不出现c c+ 匹配行中一个或多个字符c的出现 c

2、a？b 匹配cb或者cab Aa 匹配单个字符A或a， 1-35-7 匹配指为1,2,3,4,5,6,7的单个字符 bB 匹配以b或B开头的行 2-5$ 匹配以2,3,4,5结尾的行。在方括号中的脱字符号（）用于反转字符的意义 1-3 匹配字符0和4-9 不要有疑惑了，下面我们将逐一的介绍正则表达式的内容，lets go .1.什么是正则表达式基本说来，正则表达式是一种用来描述一定数量文本的模式。Regex代表Regular Express。本文将用来表示一段具体的正则表达式。一段文本就是最基本的模式，简单的匹配相同的文本。 2.不同的正则表达式引擎正则表达式引擎是一种可以处理正则表达

3、式的软件。通常，引擎是更大的应用程序的一部分。在软件世界，不同的正则表达式并不互相兼容。本教程会集中讨论Perl 5 类型的引擎，因为这种引擎是应用最广泛的引擎。同时我们也会提到一些和其他引擎的区别。许多近代的引擎都很类似，但不完全一样。例如.NET正则库，JDK正则包。3.文字符号最基本的正则表达式由单个文字符号组成。如，它将匹配字符串中第一次出现的字符 “a”。如对字符串“Jack is a boy”。“J”后的“a”将被匹配。而第二个“a”将不会被匹配。正则表达式也可以匹配第二个“a”，这必须是你告诉正则表达式引擎从第一次匹配的地方开始搜索。在文本编辑器中，你可以使用“查找

4、下一个”。在编程语言中，会有一个函数可以使你从前一次匹配的位置开始继续向后搜索。类似的，会匹配“About cats and dogs”中的“cat”。这等于是告诉正则表达式引擎，找到一个，紧跟一个，再跟一个。要注意，正则表达式引擎缺省是大小写敏感的。除非你告诉引擎忽略大小写，否则不会匹配“Cat”。特殊字符对于文字字符，有11个字符被保留作特殊用途。他们是： $ . | ? * + ( ) 这些特殊字符也被称作元字符。如果你想在正则表达式中将这些字符用作文本字符，你需要用反斜杠“”对其进行换码 (escape)。例如你想匹配“1+1=2”，正确的表达式为. 需要注意的是，也是

5、有效的正则表达式。但它不会匹配“1+1=2”，而会匹配 “123+111=234”中的“111=2”。因为“+”在这里表示特殊含义（重复1次到多次）。在编程语言中，要注意，一些特殊的字符会先被编译器处理，然后再传递给正则引擎。因此正则表达式在C+中要写成“1+1=2”。为了匹配“C:temp”，你要用正则表达式。而在C+中，正则表达式则变成了“C:temp”。不可显示字符可以使用特殊字符序列来代表某些不可显示字符：代表Tab(0x09) 代表回车符(0x0D) 代表换行符(0x0A) 要注意的是Windows中文本文件使用“rn”来结束一行而Unix使用“n”。4.正则表达式引擎的内部

6、工作机制知道正则表达式引擎是如何工作的有助于你很快理解为何某个正则表达式不像你期望的那样工作。有两种类型的引擎：文本导向(text-directed)的引擎和正则导向(regex-directed)的引擎。 Jeffrey把他们称作DFA和NFA引擎。本文谈到的是正则导向的引擎。这是因为一些非常有用的特性，如“惰性”量词(lazy quantifiers)和反向引用(backreferences)，只能在正则导向的引擎中实现。所以毫不意外这种引擎是目前最流行的引擎。你可以轻易分辨出所使用的引擎是文本导向还是正则导向。如果反向引用或“惰性”量词被实现，则可以肯定你使用的引擎是正则导

7、向的。你可以作如下测试：将正则表达式应用到字符串“regex not”。如果匹配的结果是regex，则引擎是正则导向的。如果结果是regex not，则是文本导向的。因为正则导向的引擎是“猴急”的，它会很急切的进行表功，报告它找到的第一个匹配。正则导向的引擎总是返回最左边的匹配这是需要你理解的很重要的一点：即使以后有可能发现一个“更好”的匹配，正则导向的引擎也总是返回最左边的匹配。当把应用到“He captured a catfish for his cat”，引擎先比较和“H”，结果失败了。于是引擎再比较和“e”，也失败了。直到第四个字符，匹配了“c”。匹配了第五个字符。到第

8、六个字符没能匹配“p”，也失败了。引擎再继续从第五个字符重新检查匹配性。直到第十五个字符开始，匹配上了“catfish”中的“cat”，正则表达式引擎急切的返回第一个匹配的结果，而不会再继续查找是否有其他更好的匹配。5.字符集字符集是由一对方括号“”括起来的字符集合。使用字符集，你可以告诉正则表达式引擎仅仅匹配多个字符中的一个。如果你想匹配一个“a”或一个“e”，使用。你可以使用匹配gray或grey。这在你不确定你要搜索的字符是采用美国英语还是英国英语时特别有用。相反，将不会匹配graay或graey。字符集中的字符顺序并没有什么关系，结果都是相同的。你可以使用连字符“-”定

9、义一个字符范围作为字符集。匹配0到9之间的单个数字。你可以使用不止一个范围。匹配单个的十六进制数字(xuml注释：匹配0到 9之间的单个数字，a到f之间的单个小写字母，A到F之间的单个大写字母)，并且大小写不敏感。你也可以结合范围定义与单个字符定义。匹配一个十六进制数字或字母X。再次强调一下，字符和范围定义的先后顺序对结果没有影响。字符集的一些应用查找一个可能有拼写错误的单词，比如或。查找程序语言的标识符，。(*表示重复0或多次) 查找C风格的十六进制数。(+表示重复一次或多次)取反字符集在左方括号“”后面紧跟一个尖括号“”，将会对字符集取反。结果是字符集将匹配任何不在方括号中

10、的字符。不像“.”，取反字符集是可以匹配回车换行符的。需要记住的很重要的一点是，取反字符集必须要匹配一个字符。并不意味着：匹配一个q，后面没有u跟着。它意味着：匹配一个q，后面跟着一个不是u的字符。所以它不会匹配 “Iraq”中的q，而会匹配“Iraq is a country”中的q和一个空格符。事实上，空格符是匹配中的一部分，因为它是一个“不是u的字符”。如果你只想匹配一个q，条件是q后面有一个不是u的字符，我们可以用后面将讲到的向前查看来解决。字符集中的元字符需要注意的是，在字符集中只有4个字符具有特殊含义。它们是：“ -”。“”代表字符集定义的结束；“”代表转义；“”代

11、表取反；“-”代表范围定义。其他常见的元字符在字符集定义内部都是正常字符，不需要转义。例如，要搜索星号*或加号+，你可以用。当然，如果你对那些通常的元字符进行转义，你的正则表达式一样会工作得很好，但是这会降低可读性。在字符集定义中为了将反斜杠“”作为一个文字字符而非特殊含义的字符，你需要用另一个反斜杠对它进行转义。将会匹配一个反斜杠和一个X。“-”都可以用反斜杠进行转义，或者将他们放在一个不可能使用到他们特殊含义的位置。我们推荐后者，因为这样可以增加可读性。比如对于字符“”，将它放在除了左括号“”后面的位置，使用的都是文字字符含义而非取反含义。如会匹配一个x或。会匹配一个“”或

12、“x”。或都会匹配一个“-”或“x”。字符集的简写(xuml注释：重点是理解非简写情况下的含义，理解之后这部分就非常简单) 因为一些字符集非常常用，所以有一些简写方式。代表; 代表单词字符。这个是随正则表达式实现的不同而有些差异。绝大多数的正则表达式实现的单词字符集都包含了。代表“白字符”。这个也是和不同的实现有关的。在绝大多数的实现中，都包含了空格符和Tab符，以及回车换行符。字符集的缩写形式可以用在方括号之内或之外。匹配一个白字符后面紧跟一个数字。匹配单个白字符或数字。将匹配一个十六进制数字。取反字符集的简写 = = = 字符集的重复如果你用“?*+”操作符来重复一个字符集

13、，你将会重复整个字符集。而不仅是它匹配的那个字符。正则表达式会匹配837以及222。如果你仅仅想重复被匹配的那个字符，可以用向后引用达到目的。我们以后将讲到向后引用。6.使用?*或+ 进行重复 ?：告诉引擎匹配前导字符0次或一次。事实上是表示前导字符是可选的。 +：告诉引擎匹配前导字符1次或多次 *：告诉引擎匹配前导字符0次或多次匹配没有属性的HTML标签，“”是文字符号。第一个字符集匹配一个字母，第二个字符集匹配一个字母或数字。我们似乎也可以用。但是它会匹配。但是这个正则表达式在你知道你要搜索的字符串不包含类似的无效标签时还是足够有效的。限制性重复许多现代的正则表达式实现，都允

14、许你定义对一个字符重复多少次。词法是：min,max。min 和max都是非负整数。如果逗号有而max被忽略了，则max没有限制。如果逗号和max都被忽略了，则重复min次。因此0,和*一样，1，和+ 的作用一样。你可以用匹配10009999之间的数字(“b”表示单词边界)。匹配一个在10099999之间的数字。注意贪婪性假设你想用一个正则表达式匹配一个HTML标签。你知道输入将会是一个有效的HTML文件，因此正则表达式不需要排除那些无效的标签。所以如果是在两个尖括号之间的内容，就应该是一个HTML标签。许多正则表达式的新手会首先想到用正则表达式，他们会很惊讶的发现，对于测试

15、字符串，“This is a first test”，你可能期望会返回，然后继续进行匹配的时候，返回。但事实是不会。正则表达式将会匹配“first”。很显然这不是我们想要的结果。原因在于“+”是贪婪的。也就是说，“+”会导致正则表达式引擎试图尽可能的重复前导字符。只有当这种重复会引起整个正则表达式匹配失败的情况下，引擎会进行回溯。也就是说，它会放弃最后一次的“重复”，然后处理正则表达式余下的部分。和“+”类似，“?*”的重复也是贪婪的。深入正则表达式引擎内部(重点理解) 让我们来看看正则引擎如何匹配前面的例子。第一个记号是“”。到目前为止，“first test”。引擎会试图将

16、“”与换行符进行匹配，结果失败了。于是引擎进行回溯。结果是现在“first tes”。于是引擎将“”与“t”进行匹配。显然还是会失败。这个过程继续，直到“first”与“”匹配。于是引擎找到了一个匹配 “first”。记住，正则导向的引擎是“急切的”，所以它会急着报告它找到的第一个匹配。而不是继续回溯，即使可能会有更好的匹配，例如“”。所以我们可以看到，由于“+”的贪婪性，使得正则表达式引擎返回了一个最左边的最长的匹配。用懒惰性取代贪婪性-?(重点理解) 一个用于修正以上问题的可能方案是用“+”的惰性代替贪婪性。你可以在“+”后面紧跟一个问号“?”来达到这一点。“*”，“”和“?”表示的重复也可以用这个方案。因此在上面的例子中我

展开阅读全文

正则表达式通用学习资料

最新文档