正则表达式%2b_htmlparser使用详解-2010-03-21

上传人:wt****50 文档编号:55816384 上传时间:2018-10-07 格式:PPT 页数:80 大小:676.50KB
返回 下载 相关 举报
正则表达式%2b_htmlparser使用详解-2010-03-21_第1页
第1页 / 共80页
正则表达式%2b_htmlparser使用详解-2010-03-21_第2页
第2页 / 共80页
正则表达式%2b_htmlparser使用详解-2010-03-21_第3页
第3页 / 共80页
正则表达式%2b_htmlparser使用详解-2010-03-21_第4页
第4页 / 共80页
正则表达式%2b_htmlparser使用详解-2010-03-21_第5页
第5页 / 共80页
点击查看更多>>
资源描述

《正则表达式%2b_htmlparser使用详解-2010-03-21》由会员分享,可在线阅读,更多相关《正则表达式%2b_htmlparser使用详解-2010-03-21(80页珍藏版)》请在金锄头文库上搜索。

1、Java正则表达式入门 + HTMLParser使用详解,一、 Java正则表达式入门 众所周知,在程序开发中,难免会遇到需要匹配、查找、替换、判断字符串的情况发生,而这些情况有时又比较复杂,如果用纯编码方式解决,往往会浪费程序员的时间及精力。 因此,学习及使用正则表达式,便成了解决这一矛盾的主要手段。 大家都知道,正则表达式是一种可以用于模式匹配和替换的规范,一个正则表达式就是由普通的字符(例如字符a到z)以及特殊字符(元字符)组成的文字模式,它 用以描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。 自从jdk1.4推出java.

2、util.regex包,就为我们提供了很好的JAVA正则表达式应用平台。,说明,转义符,a,f,响铃符 = x07,换页符 = x0C,换页符,n,响铃符 = x07,换行 (u000A),r,回车符 = x0D,回车 (u000D),t,制表符 = x09,间隔 (u0009),v,垂直制表符 = x0B,e,ESC 符 = x1B, Escape,x20,使用两位十六进制表示形式,可与该编号的字符匹配,u002B,使用四位十六进制表示形式,可与该编号的字符匹配,x20A060,使用任意位十六进制表示形式,可与该编号的字符匹配,说明,字符,$,匹配输入字符串的开始位置。要匹配 “ 字符本身,

3、请使用 “,匹配输入字符串的结尾位置。要匹配 “$” 字符本身,请使用 “$”,( ),标记一个子表达式的开始和结束位置。要匹配小括号,请使用 “(“ 和 “)“, ,用来自定义能够匹配 多种字符 的表达式。要匹配中括号,请使用 “ 和 “, ,修饰匹配次数的符号。要匹配大括号,请使用 “ 和 “,.,匹配除了换行符(n)以外的任意一个字符。要匹配小数点本身,请使用 “.“,?,修饰匹配次数为 0 次或 1 次。要匹配 “?“ 字符本身,请使用 “?“,+,修饰匹配次数为至少 1 次。要匹配 “+“ 字符本身,请使用 “+“,*,修饰匹配次数为 0 次或任意次。要匹配 “*“ 字符本身,请使用

4、“*“,|,左右两边表达式之间 “或“ 关系。匹配 “|“ 本身,请使用 “|“,说明,字符集合,.,w,小数点可以匹配除了换行符(n)以外的任意一个字符,可以匹配任何一个字母或者数字或者下划线,单独字符 a-zA-Z_0-9,W,W大写,可以匹配任何一个字母或者数字或者下划线以外的字符,非单独字符 a-zA-Z_0-9,s,可以匹配空格、制表符、换页符等空白字符的其中任意一个,空白符号 tnx0Bfr,S,S大写,可以匹配任何一个空白字符以外的字符,非空白符号tnx0Bfr,d,可以匹配任何一个 09 数字字符,数字 等价于0-9,D,D大写,可以匹配任何一个非数字字符,非数字 等价于0-9

5、,字符集合 可以匹配 “多个字符” 其中任意一个字符的正则表达式。虽然是 “多个字符”,但每次只能匹配其中一个。DEELX 正则表达式中标准的字符集合有:,说明,限定符,n,m, n,表达式固定重复n次,比如:“w2“ 相当于 “ww“,表达式尽可能重复n次,至少重复m次:“ba1,3“可以匹配 “ba“或“baa“或“baaa“,m, ,表达式尽可能的多匹配,至少重复m次:“wd2,”可以匹配“a12“,“x456“.,?,表达式尽可能匹配1次,也可以不匹配,相当于 0, 1,+,表达式尽可能的多匹配,至少匹配1次,相当于 1, ,*,表达式尽可能的多匹配,最少可以不匹配,相当于 0, ,匹

6、配次数限定符 使被修饰的表达式可多次重复匹配的修饰符。可使被修饰的表达式重复固定次数,也可以限定一定的重复匹配的次数范围。在限定符之后的表达式能够匹配成功的情况下,不定次数的限定符总是尽可能的多匹配。如果之后的表达式匹配失败,限定符可适当“让出”能够匹配的字符,以使整个表达式匹配成功。这种模式就叫“贪婪模式”。,说明,限定符,m, n?,m, ?,表达式尽量只匹配m次,最多重复n次。,表达式尽量只匹配m次,最多可以匹配任意次。,?,表达式尽量不匹配,最多匹配1次,相当于 0, 1?,+?,表达式尽量只匹配1次,最多可匹配任意次,相当于 1, ?,*?,表达式尽量不匹配,最多可匹配任意次,相当于

7、 0, ?,“勉强模式”限定符: 在限定符之后添加问号(?),则使限定符成为“勉强模式”。勉强模式的限定符,总是尽可能少的匹配。如果之后的表达式匹配失败,勉强模式也可以尽可能少的再匹配一些,以使整个表达式匹配成功。,说明,限定符,m, n+,m, +,表达式尽可能重复n次,至少重复m次。,表达式尽可能的多匹配,至少重复m次。,?+,表达式尽可能匹配1次,也可以不匹配,相当于 0, 1+,+,表达式尽可能的多匹配,至少匹配1次,相当于 1, +,*+,表达式尽可能的多匹配,最少可以不匹配,相当于 0, +,“占有模式”限定符: 在限定符之后添加加号(+),则使限定符成为“占有模式”。占有模式的限

8、定符,总是尽可能多的匹配。与“贪婪模式”不同的是,即使之后的表达式匹配失败,“占有模式”也不会“让出”自己能够匹配的字符。,转义字符 Q.E 使用 Q 开始,E 结束,可使中间的标点符号失去特殊意义,将中间的字符作为普通字符。 例如: Q(a+b)*3E 可匹配文本 “(a+b)*3”。,因为正则表达式是一个很庞杂的体系,所以我仅例举些入门的概念,更多的请参阅相关书籍及自行摸索。,b 一个单词的边界 B 一个非单词的边界 G 前一个匹配的结束 为限制开头 java 条件限制为以Java为开头字符 $为限制结尾 java$ 条件限制为以java为结尾字符 . 条件限制除n以外任意一个单独字符 j

9、ava 条件限制为java后除换行外任意两个字符 加入特定限制条件 a-z 条件限制在小写a to z范围中一个字符 A-Z 条件限制在大写A to Z范围中一个字符 a-zA-Z 条件限制在小写a to z或大写A to Z范围中一个字符,0-9 条件限制在小写0 to 9范围中一个字符 0-9a-z 条件限制在小写0 to 9或a to z范围中一个字符 0-9a-z 条件限制在小写0 to 9或a to z范围中一个字符(交集) 中加入后加再次限制条件 a-z 条件限制在非小写a to z范围中一个字符 A-Z 条件限制在非大写A to Z范围中一个字符 a-zA-Z 条件限制在非小写a

10、 to z或大写A to Z范围中一个字符 0-9 条件限制在非小写0 to 9范围中一个字符 0-9a-z 条件限制在非小写0 to 9或a to z范围中一个字符 0-9a-z 条件限制在非小写0 to 9或a to z范围中一个字符(交集)在 限制条件为特定字符出现0次以上时,可以使用* J* 0个以上J .* 0个以上任意字符,J.*D J与D之间0个以上任意字符 在限制条件为特定字符出现1次以上时,可以使用+ J+ 1个以上J .+ 1个以上任意字符 J.+D J与D之间1个以上任意字符 在限制条件为特定字符出现有0或1次以上时,可以使用? JA? J或者JA出现 限制为连续出现指定

11、次数字符a J2 JJ J3 JJJ 文字a个以上,并且a, J3, JJJ,JJJJ,JJJJJ,?(3次以上J并存),文字个以上,b个以下a,b J3,5 JJJ或JJJJ或JJJJJ 两者取一| J|A J或A Java|Hello Java或Hello ()中规定一个组合类型 比如,我查询index中间的数据,可写作+href=“?(*)“?*(.+?) 在使用Ppile函数时,可以加入控制正则表达式的匹配行为的参数: Pattern Ppile(String regex, int flag),flag的取值范围如下: Pattern.CANON_EQ 当且仅当两个字符的“正规分解(c

12、anonical decomposition)“都完全相同的情况下,才认定匹配。比如用了这个标志之后,表达式“au030A“会匹配“?“。默认情况下,不考虑“规 范相等性(canonical equivalence)“。 Pattern.CASE_INSENSITIVE(?i) 默认情况下,大小写不明感的匹配只适用于US-ASCII字符集。这个标志能让表达式忽略大小写进行匹配。要想对Unicode字符进行大小不明感的匹 配,只要将UNICODE_CASE与这个标志合起来就行了。 Pattern.COMMENTS(?x) 在这种模式下,匹配时会忽略(正则表达式里的)空格字符,(译者注:不是指表达

13、式里的“s“,而是指表达式里的空格,tab,回车之类)。注释从#开始,一直到这行结束。可以通过嵌入式的标志来启用Unix行模式。 Pattern.DOTALL(?s) 在这种模式下,表达式.可以匹配任意字符,包括表示一行的结束符。默认情况下,表达式.不匹配行的结束符。 Pattern.MULTILINE (?m) 在这种模式下,和$分别匹配一行的开始和结束。此外,仍然匹配字符串的开始,$也匹配字符串的结束。默认情况下,这两个表达式仅仅匹配字符串的开始和结束。 Pattern.UNICODE_CASE (?u) 在这个模式下,如果你还启用了CASE_INSENSITIVE,2018年10月7日星

14、期日12时22分34秒,标志,那么它会对Unicode字符进行大小写不明感的匹配。默认情况下,大小写不敏感的匹配只适用于US-ASCII字符集。 Pattern.UNIX_LINES(?d) 在这个模式下,只有n才被认作一行的中止,并且与.,以及$进行匹配。 抛开空泛的概念,下面写出几个简单的Java正则用例: 比如,在字符串包含验证时 /查找以Java开头,任意结尾的字符串 Pattern pattern = Ppile(“Java.*“); Matcher matcher = pattern.matcher(“Java不是人“); boolean b= matcher.matches();

15、 /当条件满足时,将返回true,否则返回false System.out.println(b);,以多条件分割字符串时 Pattern pattern = Ppile(“, |+“); String strs = pattern.split(“Java Hello World Java,Hello,World|Sun“); for (int i=0;istrs.length;i+) System.out.println(strsi); 文字替换(首次出现字符) Pattern pattern = Ppile(“正则表达式“); Matcher matcher = pattern.matcher(“正则表达式 Hello World,正则表达式 Hello World“); /替换第一个符合正则的数据 System.out.println(matcher.replaceFirst(“Java“);,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号