正则表达式的相关总结
1.简介
正则表达式是一种文本模式,包括普通字符(如字母和数字)和特殊字符(元字符),它使用单个字符来描述、匹配一系列的符合某个句法规则的字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。
2.普通字符
可打印字符 + 不可打印字符
不可打印字符:
- \f 换页符
- \n 换行符
- \r 回车符
- \t 制表符
- \v 处置制表符
3.元字符
(1) 匹配字符
. 匹配任意字符,除了换行符
\d 匹配任意数字,相当于[0-9]
\s 匹配任意空白字符
\w 匹配数字字母下划线
[] 集合 [abc] [0-9] [a-z] [A-Z] [A-z] [0-9a-zA-Z]
\xxx 查找以八进制数xxx规定的字符
\xdd 查找以十六进制数dd规定的字符
\uxxx 查找以十六进制xxx规定的Unicode字符
(2) 匹配位置
^ 匹配字符串开始的位置
$ 匹配字符串结束的位置
\b 匹配一个单词的边界
(3) 限定字符(量词)
* 匹配前面的字符、子表达式0次或多次
+ 匹配前面的字符、子表达式1次或多次
? 匹配前面的字符、子表达式0次或1次
{n} 匹配确定的n次
{n,} 最少匹配n次
{n,m} 最少匹配n次,最多匹配m次
(4) 特殊字符
| 或,表示分支
() 表示分组
(5) 反义字符
\W 匹配非数字字母下划线
\D 匹配非数字的字符
\S 匹配任意非空字符
[^X] 不在[]中的字符
\B 一个非单词的边界
4.贪婪与懒惰
贪婪:正则表达式默认为贪婪匹配,即尽可能的往后匹配,匹配更多的字符
懒惰:匹配数量限定词后面加?,尽可能匹配少的字符
5. 与?相关的匹配
6. 正则表达式优先级
运算符 | 描述 |
---|---|
\ | 转义字符 |
() (?=) [] | 圆括号,分组,自定义集合 |
* + ? {n} {n,} {n,m} | 限定字符(量词) |
^ $ 标准字符 字符 | 定位字符,字符 |
| | 或 |