正则表达式%2b_htmlparser使用详解-2010-03-21

资源描述

《正则表达式%2b_htmlparser使用详解-2010-03-21》由会员分享，可在线阅读，更多相关《正则表达式%2b_htmlparser使用详解-2010-03-21（80页珍藏版）》请在金锄头文库上搜索。

1、Java正则表达式入门 + HTMLParser使用详解,一、 Java正则表达式入门众所周知，在程序开发中，难免会遇到需要匹配、查找、替换、判断字符串的情况发生，而这些情况有时又比较复杂，如果用纯编码方式解决，往往会浪费程序员的时间及精力。因此，学习及使用正则表达式，便成了解决这一矛盾的主要手段。大家都知道，正则表达式是一种可以用于模式匹配和替换的规范，一个正则表达式就是由普通的字符（例如字符a到z）以及特殊字符（元字符）组成的文字模式，它用以描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。自从jdk1.4推出java.

2、util.regex包，就为我们提供了很好的JAVA正则表达式应用平台。,说明,转义符,a,f,响铃符 = x07,换页符 = x0C，换页符,n,响铃符 = x07，换行 (u000A),r,回车符 = x0D，回车 (u000D),t,制表符 = x09，间隔 (u0009),v,垂直制表符 = x0B,e,ESC 符 = x1B， Escape,x20,使用两位十六进制表示形式，可与该编号的字符匹配,u002B,使用四位十六进制表示形式，可与该编号的字符匹配,x20A060,使用任意位十六进制表示形式，可与该编号的字符匹配,说明,字符,$,匹配输入字符串的开始位置。要匹配 “ 字符本身，

3、请使用 “,匹配输入字符串的结尾位置。要匹配 “$” 字符本身，请使用 “$”,( ),标记一个子表达式的开始和结束位置。要匹配小括号，请使用 “(“ 和 “)“, ,用来自定义能够匹配多种字符的表达式。要匹配中括号，请使用 “ 和 “, ,修饰匹配次数的符号。要匹配大括号，请使用 “ 和 “,.,匹配除了换行符（n）以外的任意一个字符。要匹配小数点本身，请使用 “.“,?,修饰匹配次数为 0 次或 1 次。要匹配 “?“ 字符本身，请使用 “?“,+,修饰匹配次数为至少 1 次。要匹配 “+“ 字符本身，请使用 “+“,*,修饰匹配次数为 0 次或任意次。要匹配 “*“ 字符本身，请使用

4、“*“,|,左右两边表达式之间 “或“ 关系。匹配 “|“ 本身，请使用 “|“,说明,字符集合,.,w,小数点可以匹配除了换行符（n）以外的任意一个字符,可以匹配任何一个字母或者数字或者下划线，单独字符 a-zA-Z_0-9,W,W大写，可以匹配任何一个字母或者数字或者下划线以外的字符，非单独字符 a-zA-Z_0-9,s,可以匹配空格、制表符、换页符等空白字符的其中任意一个，空白符号 tnx0Bfr,S,S大写，可以匹配任何一个空白字符以外的字符，非空白符号tnx0Bfr,d,可以匹配任何一个 09 数字字符，数字等价于0-9,D,D大写，可以匹配任何一个非数字字符，非数字等价于0-9

5、,字符集合可以匹配 “多个字符” 其中任意一个字符的正则表达式。虽然是 “多个字符”，但每次只能匹配其中一个。DEELX 正则表达式中标准的字符集合有：,说明,限定符,n,m, n,表达式固定重复n次，比如：“w2“ 相当于 “ww“,表达式尽可能重复n次，至少重复m次：“ba1,3“可以匹配 “ba“或“baa“或“baaa“,m, ,表达式尽可能的多匹配，至少重复m次：“wd2,”可以匹配“a12“,“x456“.,?,表达式尽可能匹配1次，也可以不匹配，相当于 0, 1,+,表达式尽可能的多匹配，至少匹配1次，相当于 1, ,*,表达式尽可能的多匹配，最少可以不匹配，相当于 0, ,匹

6、配次数限定符使被修饰的表达式可多次重复匹配的修饰符。可使被修饰的表达式重复固定次数，也可以限定一定的重复匹配的次数范围。在限定符之后的表达式能够匹配成功的情况下，不定次数的限定符总是尽可能的多匹配。如果之后的表达式匹配失败，限定符可适当“让出”能够匹配的字符，以使整个表达式匹配成功。这种模式就叫“贪婪模式”。,说明,限定符,m, n?,m, ?,表达式尽量只匹配m次，最多重复n次。,表达式尽量只匹配m次，最多可以匹配任意次。,?,表达式尽量不匹配，最多匹配1次，相当于 0, 1?,+?,表达式尽量只匹配1次，最多可匹配任意次，相当于 1, ?,*?,表达式尽量不匹配，最多可匹配任意次，相当于

7、 0, ?,“勉强模式”限定符：在限定符之后添加问号(?)，则使限定符成为“勉强模式”。勉强模式的限定符，总是尽可能少的匹配。如果之后的表达式匹配失败，勉强模式也可以尽可能少的再匹配一些，以使整个表达式匹配成功。,说明,限定符,m, n+,m, +,表达式尽可能重复n次，至少重复m次。,表达式尽可能的多匹配，至少重复m次。,?+,表达式尽可能匹配1次，也可以不匹配，相当于 0, 1+,+,表达式尽可能的多匹配，至少匹配1次，相当于 1, +,*+,表达式尽可能的多匹配，最少可以不匹配，相当于 0, +,“占有模式”限定符：在限定符之后添加加号(+)，则使限定符成为“占有模式”。占有模式的限

8、定符，总是尽可能多的匹配。与“贪婪模式”不同的是，即使之后的表达式匹配失败，“占有模式”也不会“让出”自己能够匹配的字符。,转义字符 Q.E 使用 Q 开始，E 结束，可使中间的标点符号失去特殊意义，将中间的字符作为普通字符。例如： Q(a+b)*3E 可匹配文本 “(a+b)*3”。,因为正则表达式是一个很庞杂的体系，所以我仅例举些入门的概念，更多的请参阅相关书籍及自行摸索。,b 一个单词的边界 B 一个非单词的边界 G 前一个匹配的结束为限制开头 java 条件限制为以Java为开头字符 $为限制结尾 java$ 条件限制为以java为结尾字符 . 条件限制除n以外任意一个单独字符 j

9、ava 条件限制为java后除换行外任意两个字符加入特定限制条件 a-z 条件限制在小写a to z范围中一个字符 A-Z 条件限制在大写A to Z范围中一个字符 a-zA-Z 条件限制在小写a to z或大写A to Z范围中一个字符,0-9 条件限制在小写0 to 9范围中一个字符 0-9a-z 条件限制在小写0 to 9或a to z范围中一个字符 0-9a-z 条件限制在小写0 to 9或a to z范围中一个字符(交集) 中加入后加再次限制条件 a-z 条件限制在非小写a to z范围中一个字符 A-Z 条件限制在非大写A to Z范围中一个字符 a-zA-Z 条件限制在非小写a

10、 to z或大写A to Z范围中一个字符 0-9 条件限制在非小写0 to 9范围中一个字符 0-9a-z 条件限制在非小写0 to 9或a to z范围中一个字符 0-9a-z 条件限制在非小写0 to 9或a to z范围中一个字符(交集)在限制条件为特定字符出现0次以上时，可以使用* J* 0个以上J .* 0个以上任意字符,J.*D J与D之间0个以上任意字符在限制条件为特定字符出现1次以上时，可以使用+ J+ 1个以上J .+ 1个以上任意字符 J.+D J与D之间1个以上任意字符在限制条件为特定字符出现有0或1次以上时，可以使用? JA? J或者JA出现限制为连续出现指定

11、次数字符a J2 JJ J3 JJJ 文字a个以上，并且a, J3, JJJ,JJJJ,JJJJJ,?(3次以上J并存),文字个以上，b个以下a,b J3,5 JJJ或JJJJ或JJJJJ 两者取一| J|A J或A Java|Hello Java或Hello ()中规定一个组合类型比如，我查询index中间的数据，可写作+href=“?(*)“?*(.+?) 在使用Ppile函数时，可以加入控制正则表达式的匹配行为的参数： Pattern Ppile(String regex, int flag),flag的取值范围如下： Pattern.CANON_EQ 当且仅当两个字符的“正规分解(c

12、anonical decomposition)“都完全相同的情况下，才认定匹配。比如用了这个标志之后，表达式“au030A“会匹配“?“。默认情况下，不考虑“规范相等性(canonical equivalence)“。 Pattern.CASE_INSENSITIVE(?i) 默认情况下，大小写不明感的匹配只适用于US-ASCII字符集。这个标志能让表达式忽略大小写进行匹配。要想对Unicode字符进行大小不明感的匹配，只要将UNICODE_CASE与这个标志合起来就行了。 Pattern.COMMENTS(?x) 在这种模式下，匹配时会忽略(正则表达式里的)空格字符,(译者注：不是指表达

13、式里的“s“，而是指表达式里的空格，tab，回车之类)。注释从#开始，一直到这行结束。可以通过嵌入式的标志来启用Unix行模式。 Pattern.DOTALL(?s) 在这种模式下，表达式.可以匹配任意字符，包括表示一行的结束符。默认情况下，表达式.不匹配行的结束符。 Pattern.MULTILINE (?m) 在这种模式下，和$分别匹配一行的开始和结束。此外，仍然匹配字符串的开始，$也匹配字符串的结束。默认情况下，这两个表达式仅仅匹配字符串的开始和结束。 Pattern.UNICODE_CASE (?u) 在这个模式下，如果你还启用了CASE_INSENSITIVE,2018年10月7日星

14、期日12时22分34秒,标志，那么它会对Unicode字符进行大小写不明感的匹配。默认情况下，大小写不敏感的匹配只适用于US-ASCII字符集。 Pattern.UNIX_LINES(?d) 在这个模式下，只有n才被认作一行的中止，并且与.，以及$进行匹配。抛开空泛的概念，下面写出几个简单的Java正则用例：比如，在字符串包含验证时 /查找以Java开头,任意结尾的字符串 Pattern pattern = Ppile(“Java.*“); Matcher matcher = pattern.matcher(“Java不是人“); boolean b= matcher.matches();

15、 /当条件满足时，将返回true，否则返回false System.out.println(b);,以多条件分割字符串时 Pattern pattern = Ppile(“, |+“); String strs = pattern.split(“Java Hello World Java,Hello,World|Sun“); for (int i=0;istrs.length;i+) System.out.println(strsi); 文字替换（首次出现字符） Pattern pattern = Ppile(“正则表达式“); Matcher matcher = pattern.matcher(“正则表达式 Hello World,正则表达式 Hello World“); /替换第一个符合正则的数据 System.out.println(matcher.replaceFirst(“Java“);,

展开阅读全文

正则表达式%2b_htmlparser使用详解-2010-03-21

最新文档