JAVA正则表达式语法

上传人:ji****72 文档编号:37529265 上传时间:2018-04-17 格式:DOC 页数:23 大小:482KB
返回 下载 相关 举报
JAVA正则表达式语法_第1页
第1页 / 共23页
JAVA正则表达式语法_第2页
第2页 / 共23页
JAVA正则表达式语法_第3页
第3页 / 共23页
JAVA正则表达式语法_第4页
第4页 / 共23页
JAVA正则表达式语法_第5页
第5页 / 共23页
点击查看更多>>
资源描述

《JAVA正则表达式语法》由会员分享,可在线阅读,更多相关《JAVA正则表达式语法(23页珍藏版)》请在金锄头文库上搜索。

1、Java 正则表达式表达式意义:1.字符字符x 字符 x。例如 a 表示字符 a 反斜线字符。在书写时要写为。(注意:因为 java 在第一次解析时,把解析成正则表达式,在第二次解析时再解析为,所以凡是不是 1.1 列举到的转义字符,包括 1.1 的,而又带有的都要写两次)0n 带有八进制值 0 的字符 n (0 ?_|pGraph 可见字符:pAlnumpPunctpPrint 可打印字符:pGraphx20pBlank 空格或制表符: tpCntrl 控制字符:x00-x1Fx7FpXDigit 十六进制数字:0-9a-fA-FpSpace 空白字符: tnx0Bfr5.java.lang

2、.Character 类类(简单的 java 字符类型)pjavaLowerCase 等效于 java.lang.Character.isLowerCase()pjavaUpperCase 等效于 java.lang.Character.isUpperCase()pjavaWhitespace 等效于 java.lang.Character.isWhitespace()pjavaMirrored 等效于 java.lang.Character.isMirrored()6.Unicode 块和类别的类块和类别的类pInGreek Greek 块(简单块)中的字符pLu 大写字母(简单类别)pSc

3、 货币符号PInGreek 所有字符,Greek 块中的除外(否定)pL$ 行的结尾,请在正则表达式的结束处使用。例如:(bca).*(abc$)表示以 bca 开头以 abc 结尾的行。b 单词边界。例如b(abc)表示单词的开始或结束包含有 abc,(abcjj、jjabc 都可以匹配)B 非单词边界。例如B(abc)表示单词的中间包含有 abc,(jjabcjj 匹配而 jjabc、abcjj 不匹配)A 输入的开头G 上一个匹配的结尾(个人感觉这个参数没什么用)。例如Gdog 表示在上一个匹配结尾处查找 dog 如果没有的话则从开头查找,注意如果开头不是 dog 则不能匹配。Z 输入的

4、结尾,仅用于最后的结束符(如果有的话)行结束符 是一个或两个字符的序列,标记输入字符序列的行结尾。以下代码被识别为行结束符: 新行(换行)符 (n)、 后面紧跟新行符的回车符 (“rn“)、 单独的回车符 (r)、 下一行字符 (u0085)、 行分隔符 (u2028) 或 段落分隔符 (u2029)。z 输入的结尾当编译模式时,可以设置一个或多个标志,例如Pattern pattern = Ppile(patternString,Pattern.CASE_INSENSITIVE + Pattern.UNICODE_CASE);下面六个标志都是支持的:CASE_INSENSITIVE:匹配字符

5、时与大小写无关,该标志默认只考虑 US ASCII 字符。UNICODE_CASE:当与 CASE_INSENSITIVE 结合时,使用 Unicode 字母匹配MULTILINE:和$匹配一行的开始和结尾,而不是整个输入UNIX_LINES: 当在多行模式下匹配和$时,只将n看作行终止符DOTALL: 当使用此标志时,.符号匹配包括行终止符在内的所有字符CANON_EQ: 考虑 Unicode 字符的规范等价8.Greedy 数量词数量词X? X,一次或一次也没有X* X,零次或多次X+ X,一次或多次Xn X,恰好 n 次Xn, X,至少 n 次Xn,m X,至少 n 次,但是不超过 m

6、次9.Reluctant 数量词数量词X? X,一次或一次也没有X*? X,零次或多次X+? X,一次或多次Xn? X,恰好 n 次Xn,? X,至少 n 次Xn,m? X,至少 n 次,但是不超过 m 次10.Possessive 数量词数量词X?+ X,一次或一次也没有X*+ X,零次或多次X+ X,一次或多次Xn+ X,恰好 n 次Xn,+ X,至少 n 次Xn,m+ X,至少 n 次,但是不超过 m 次Greedy,Reluctant,Possessive 的区别在于:(注意仅限于进行.等模糊处理时)greedy 量 词被看作“贪婪的”,因为它第一次就读入整个被模糊匹配的字符串。如果第

7、一个匹配尝试(整个输入字符串)失败,匹配器就会在被匹配字符串中的最后一位后退 一个字符并且再次尝试,重复这个过程,直到找到匹配或者没有更多剩下的字符可以后退为止。根据表达式中使用的量词,它最后试图匹配的内容是 1 个或者 0 个字符。但是,reluctant 量词采取相反的方式:它们从被匹配字符串的开头开始,然后逐步地一次读取一个字符搜索匹配。它们最后试图匹配的内容是整个输入字符串。最后,possessive 量词总是读完整个输入字符串,尝试一次(而且只有一次)匹配。和 greedy 量词不同,possessive 从不后退。11.Logical 运算符运算符XY X 后跟 YX|Y X 或

8、Y(X) X,作为捕获组。例如(abc)表示把 abc 作为一个整体进行捕获12.Back 引用引用n 任何匹配的 nth 捕获组捕获组可以通过从左到右计算其开括号来编号。例如,在表达式 (A)(B(C)中,存在四个这样的组: 1 (A)(B(C)2 A3 (B(C)4 (C)在表达式中可以通过n 来对相应的组进行引用,例如(ab)341 就表示 ab34ab,(ab)34(cd)12 就表示 ab34cdabcd。13.引用引用 Nothing,但是引用以下字符Q Nothing,但是引用所有字符,直到 E。QE 之间的字符串会原封不动的使用(1.1 中转义字符的除外)。例如, abQ|E可

9、以匹配 ab|E Nothing,但是结束从 Q 开始的引用14.特殊构造(非捕获)特殊构造(非捕获)(?:X) X,作为非捕获组(?idmsux-idmsux) Nothing,但是将匹配标志由 on 转为 off。比如:表达式 (?i)abc(?-i)def 这时,(?i) 打开不区分大小写开关,abc 匹配idmsux 说明如下:i CASE_INSENSITIVE :US-ASCII 字符集不区分大小写。(?i)d UNIX_LINES : 打开 UNIX 换行符m MULTILINE :多行模式(?m)UNIX 下换行为nWINDOWS 下换行为rn(?s)u UNICODE_CAS

10、E : Unicode 不区分大小写。(?u)x COMMENTS :可以在 pattern 里面使用注解,忽略 pattern 里面的 whitespace,以及“#“一直到结尾(#后面为注解)。(?x)例如(?x)abc#asfsdadsa 可以匹配字符串 abc(?idmsux-idmsux:X) X,作为带有给定标志 on - off 的非捕获组。与上面的类似,上面的表达式,可以改写成为:(?i:abc)def,或者 (?i)abc(?-i:def)(?=X) X,通过零宽度的正 lookahead。零宽度正先行断言,仅当子表达式 X 在 此位置的右侧匹配时才继续匹配。例如,w+(?=

11、d) 表示字母后面跟数字,但不捕获数字(不回溯)(?!X) X,通过零宽度的负 lookahead。零宽度负先行断言。仅当子表达式 X 不在 此位置的右侧匹配时才继续匹配。例如,w+(?!d) 表示字母后面不跟数字,且不捕获数字。(?X) X,作为独立的非捕获组(不回溯)(?=X)与(?X)的区别在于(?X)是不回溯的。例如被匹配的字符串为 abcm当表达式为 a(?:b|bc)m 是可以匹配的,而当表达式是 a(?b|bc)时是不能匹配的,因为当后者匹配到 b 时,由于已经匹配,就跳出了非捕获组,而不再次对组内的字符进行匹配。可以加快速度。注意:有评论说最后一句说的有问题“这里有问题!abc

12、m 也可被 a(?b|bc)匹配!”引言引言正则表达式(regular expression)就是用一个“字符串”来描述一个特征,然后去验证另一个“字符串”是否符合这个特征。比如 表达式“ab+” 描述的特征是“一个 a 和 任意个 b ”,那么 ab, abb, abbbbbbbbbb 都符合这个特征。正则表达式可以用来:(1)验证字符串是否符合指定特征,比如验证是否是合法的邮件地址。(2)用来查找字符串,从一个长的文本中查找符合指定特征的字符串,比查找固定字符串更加灵活方便。(3)用来替换,比普通的替换更强大。正则表达式学习起来其实是很简单的,不多的几个较为抽象的概念也很容易理解。之所以很

13、多人感觉正则表达式比较复杂,一方面是因为大多数的文档没有做到由浅 入深地讲解,概念上没有注意先后顺序,给读者的理解带来困难;另一方面,各种引擎自带的文档一般都要介绍它特有的功能,然而这部分特有的功能并不是我们首 先要理解的。文章中的每一个举例,都可以点击进入到测试页面进行测试。闲话少说,开始。1. 正则表达式规则正则表达式规则1.1 普通字符普通字符字母、数字、汉字、下划线、以及后边章节中没有特殊定义的标点符号,都是“普通字符“。表达式中的普通字符,在匹配一个字符串的时候,匹配与之相同的一个字符。举例 1:表达式 “c“,在匹配字符串 “abcde“ 时,匹配结果是:成功;匹配到的内容是:“c

14、“;匹配到的位置是:开始于 2,结束于 3。(注:下标从 0 开始还是从 1 开始,因当前编程语言的不同而可能不同)举例 2:表达式 “bcd“,在匹配字符串 “abcde“ 时,匹配结果是:成功;匹配到的内容是:“bcd“;匹配到的位置是:开始于 1,结束于 4。1.2 简单的转义字符简单的转义字符一些不便书写的字符,采用在前面加 “ 的方法。这些字符其实我们都已经熟知了。表达式可匹配r, n代表回车和换行符t制表符代表 “ 本身还有其他一些在后边章节中有特殊用处的标点符号,在前面加 “ 后,就代表该符号本身。比如:, $ 都有特殊意义,如果要想匹配字符串中 “ 和 “$“ 字符,则表达式就

15、需要写成 “ 和 “$“。表达式可匹配匹配 符号本身$匹配 $ 符号本身.匹配小数点(.)本身这些转义字符的匹配方法与 “普通字符“ 是类似的。也是匹配与之相同的一个字符。举例 1:表达式 “$d“,在匹配字符串 “abc$de“ 时,匹配结果是:成功;匹配到的内容是:“$d“;匹配到的位置是:开始于 3,结束于 5。1.3 能够与能够与 多种字符多种字符 匹配的表达式匹配的表达式正则表达式中的一些表示方法,可以匹配 多种字符 其中的任意一个字符。比如,表达式 “d“ 可以匹配任意一个数字。虽然可以匹配其中任意字符,但是只能是一个,不是多个。这就好比玩扑克牌时候,大小王可以代替任意一张牌,但是只能代替一张牌。表达式可匹配d任意一个数字,09 中的任意一个w任意一个字

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号