JAVA正则表达式语法－金锄头文库

资源描述

《JAVA正则表达式语法》由会员分享，可在线阅读，更多相关《JAVA正则表达式语法（23页珍藏版）》请在金锄头文库上搜索。

1、Java 正则表达式表达式意义：1.字符字符x 字符 x。例如 a 表示字符 a 反斜线字符。在书写时要写为。（注意：因为 java 在第一次解析时,把解析成正则表达式，在第二次解析时再解析为，所以凡是不是 1.1 列举到的转义字符，包括 1.1 的,而又带有的都要写两次）0n 带有八进制值 0 的字符 n (0 ?_|pGraph 可见字符：pAlnumpPunctpPrint 可打印字符：pGraphx20pBlank 空格或制表符： tpCntrl 控制字符：x00-x1Fx7FpXDigit 十六进制数字：0-9a-fA-FpSpace 空白字符： tnx0Bfr5.java.lang

2、.Character 类类（简单的 java 字符类型）pjavaLowerCase 等效于 java.lang.Character.isLowerCase()pjavaUpperCase 等效于 java.lang.Character.isUpperCase()pjavaWhitespace 等效于 java.lang.Character.isWhitespace()pjavaMirrored 等效于 java.lang.Character.isMirrored()6.Unicode 块和类别的类块和类别的类pInGreek Greek 块（简单块）中的字符pLu 大写字母（简单类别）pSc

3、货币符号PInGreek 所有字符，Greek 块中的除外（否定）pL$ 行的结尾，请在正则表达式的结束处使用。例如：(bca).*(abc$)表示以 bca 开头以 abc 结尾的行。b 单词边界。例如b(abc)表示单词的开始或结束包含有 abc,（abcjj、jjabc 都可以匹配）B 非单词边界。例如B(abc)表示单词的中间包含有 abc,(jjabcjj 匹配而 jjabc、abcjj 不匹配)A 输入的开头G 上一个匹配的结尾(个人感觉这个参数没什么用)。例如Gdog 表示在上一个匹配结尾处查找 dog 如果没有的话则从开头查找,注意如果开头不是 dog 则不能匹配。Z 输入的

4、结尾，仅用于最后的结束符（如果有的话）行结束符是一个或两个字符的序列，标记输入字符序列的行结尾。以下代码被识别为行结束符：新行（换行）符 (n)、后面紧跟新行符的回车符 (“rn“)、单独的回车符 (r)、下一行字符 (u0085)、行分隔符 (u2028) 或段落分隔符 (u2029)。z 输入的结尾当编译模式时，可以设置一个或多个标志，例如Pattern pattern = Ppile(patternString,Pattern.CASE_INSENSITIVE + Pattern.UNICODE_CASE);下面六个标志都是支持的：CASE_INSENSITIVE：匹配字符

5、时与大小写无关，该标志默认只考虑 US ASCII 字符。UNICODE_CASE：当与 CASE_INSENSITIVE 结合时，使用 Unicode 字母匹配MULTILINE：和$匹配一行的开始和结尾，而不是整个输入UNIX_LINES：当在多行模式下匹配和$时，只将n看作行终止符DOTALL: 当使用此标志时，.符号匹配包括行终止符在内的所有字符CANON_EQ: 考虑 Unicode 字符的规范等价8.Greedy 数量词数量词X? X，一次或一次也没有X* X，零次或多次X+ X，一次或多次Xn X，恰好 n 次Xn, X，至少 n 次Xn,m X，至少 n 次，但是不超过 m

6、次9.Reluctant 数量词数量词X? X，一次或一次也没有X*? X，零次或多次X+? X，一次或多次Xn? X，恰好 n 次Xn,? X，至少 n 次Xn,m? X，至少 n 次，但是不超过 m 次10.Possessive 数量词数量词X?+ X，一次或一次也没有X*+ X，零次或多次X+ X，一次或多次Xn+ X，恰好 n 次Xn,+ X，至少 n 次Xn,m+ X，至少 n 次，但是不超过 m 次Greedy，Reluctant，Possessive 的区别在于:(注意仅限于进行.等模糊处理时)greedy 量词被看作“贪婪的”，因为它第一次就读入整个被模糊匹配的字符串。如果第

7、一个匹配尝试（整个输入字符串）失败，匹配器就会在被匹配字符串中的最后一位后退一个字符并且再次尝试，重复这个过程，直到找到匹配或者没有更多剩下的字符可以后退为止。根据表达式中使用的量词，它最后试图匹配的内容是 1 个或者 0 个字符。但是，reluctant 量词采取相反的方式：它们从被匹配字符串的开头开始，然后逐步地一次读取一个字符搜索匹配。它们最后试图匹配的内容是整个输入字符串。最后，possessive 量词总是读完整个输入字符串，尝试一次（而且只有一次）匹配。和 greedy 量词不同，possessive 从不后退。11.Logical 运算符运算符XY X 后跟 YX|Y X 或

8、Y(X) X，作为捕获组。例如(abc)表示把 abc 作为一个整体进行捕获12.Back 引用引用n 任何匹配的 nth 捕获组捕获组可以通过从左到右计算其开括号来编号。例如，在表达式 (A)(B(C)中，存在四个这样的组： 1 (A)(B(C)2 A3 (B(C)4 (C)在表达式中可以通过n 来对相应的组进行引用，例如(ab)341 就表示 ab34ab，(ab)34(cd)12 就表示 ab34cdabcd。13.引用引用 Nothing，但是引用以下字符Q Nothing，但是引用所有字符，直到 E。QE 之间的字符串会原封不动的使用(1.1 中转义字符的除外)。例如, abQ|E可

9、以匹配 ab|E Nothing，但是结束从 Q 开始的引用14.特殊构造（非捕获）特殊构造（非捕获）(?:X) X，作为非捕获组(?idmsux-idmsux) Nothing，但是将匹配标志由 on 转为 off。比如：表达式 (?i)abc(?-i)def 这时，(?i) 打开不区分大小写开关，abc 匹配idmsux 说明如下：i CASE_INSENSITIVE :US-ASCII 字符集不区分大小写。(?i)d UNIX_LINES : 打开 UNIX 换行符m MULTILINE :多行模式(?m)UNIX 下换行为nWINDOWS 下换行为rn(?s)u UNICODE_CAS

10、E : Unicode 不区分大小写。(?u)x COMMENTS :可以在 pattern 里面使用注解，忽略 pattern 里面的 whitespace，以及“#“一直到结尾（#后面为注解）。(?x)例如(?x)abc#asfsdadsa 可以匹配字符串 abc(?idmsux-idmsux:X) X，作为带有给定标志 on - off 的非捕获组。与上面的类似，上面的表达式，可以改写成为：(?i:abc)def，或者 (?i)abc(?-i:def)(?=X) X，通过零宽度的正 lookahead。零宽度正先行断言，仅当子表达式 X 在此位置的右侧匹配时才继续匹配。例如，w+(?=

11、d) 表示字母后面跟数字，但不捕获数字（不回溯）(?!X) X，通过零宽度的负 lookahead。零宽度负先行断言。仅当子表达式 X 不在此位置的右侧匹配时才继续匹配。例如，w+(?!d) 表示字母后面不跟数字，且不捕获数字。(?X) X，作为独立的非捕获组（不回溯）(?=X)与(?X)的区别在于(?X)是不回溯的。例如被匹配的字符串为 abcm当表达式为 a(?:b|bc)m 是可以匹配的，而当表达式是 a(?b|bc)时是不能匹配的，因为当后者匹配到 b 时，由于已经匹配，就跳出了非捕获组，而不再次对组内的字符进行匹配。可以加快速度。注意：有评论说最后一句说的有问题“这里有问题！abc

12、m 也可被 a(?b|bc)匹配！”引言引言正则表达式（regular expression）就是用一个“字符串”来描述一个特征，然后去验证另一个“字符串”是否符合这个特征。比如表达式“ab+” 描述的特征是“一个 a 和任意个 b ”，那么 ab, abb, abbbbbbbbbb 都符合这个特征。正则表达式可以用来：（1）验证字符串是否符合指定特征，比如验证是否是合法的邮件地址。（2）用来查找字符串，从一个长的文本中查找符合指定特征的字符串，比查找固定字符串更加灵活方便。（3）用来替换，比普通的替换更强大。正则表达式学习起来其实是很简单的，不多的几个较为抽象的概念也很容易理解。之所以很

13、多人感觉正则表达式比较复杂，一方面是因为大多数的文档没有做到由浅入深地讲解，概念上没有注意先后顺序，给读者的理解带来困难；另一方面，各种引擎自带的文档一般都要介绍它特有的功能，然而这部分特有的功能并不是我们首先要理解的。文章中的每一个举例，都可以点击进入到测试页面进行测试。闲话少说，开始。1. 正则表达式规则正则表达式规则1.1 普通字符普通字符字母、数字、汉字、下划线、以及后边章节中没有特殊定义的标点符号，都是“普通字符“。表达式中的普通字符，在匹配一个字符串的时候，匹配与之相同的一个字符。举例 1：表达式 “c“，在匹配字符串 “abcde“ 时，匹配结果是：成功；匹配到的内容是：“c

14、“；匹配到的位置是：开始于 2，结束于 3。（注：下标从 0 开始还是从 1 开始，因当前编程语言的不同而可能不同）举例 2：表达式 “bcd“，在匹配字符串 “abcde“ 时，匹配结果是：成功；匹配到的内容是：“bcd“；匹配到的位置是：开始于 1，结束于 4。1.2 简单的转义字符简单的转义字符一些不便书写的字符，采用在前面加 “ 的方法。这些字符其实我们都已经熟知了。表达式可匹配r, n代表回车和换行符t制表符代表 “ 本身还有其他一些在后边章节中有特殊用处的标点符号，在前面加 “ 后，就代表该符号本身。比如：, $ 都有特殊意义，如果要想匹配字符串中 “ 和 “$“ 字符，则表达式就

15、需要写成 “ 和 “$“。表达式可匹配匹配符号本身$匹配 $ 符号本身.匹配小数点（.）本身这些转义字符的匹配方法与 “普通字符“ 是类似的。也是匹配与之相同的一个字符。举例 1：表达式 “$d“，在匹配字符串 “abc$de“ 时，匹配结果是：成功；匹配到的内容是：“$d“；匹配到的位置是：开始于 3，结束于 5。1.3 能够与能够与多种字符多种字符匹配的表达式匹配的表达式正则表达式中的一些表示方法，可以匹配多种字符其中的任意一个字符。比如，表达式 “d“ 可以匹配任意一个数字。虽然可以匹配其中任意字符，但是只能是一个，不是多个。这就好比玩扑克牌时候，大小王可以代替任意一张牌，但是只能代替一张牌。表达式可匹配d任意一个数字，09 中的任意一个w任意一个字

展开阅读全文