正则表达式的相关总结

1.简介

正则表达式是一种文本模式,包括普通字符(如字母和数字)和特殊字符(元字符),它使用单个字符来描述、匹配一系列的符合某个句法规则的字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。

2.普通字符

可打印字符 + 不可打印字符
不可打印字符:

  • \f 换页符
  • \n 换行符
  • \r 回车符
  • \t 制表符
  • \v 处置制表符

3.元字符

(1) 匹配字符
. 匹配任意字符,除了换行符
\d 匹配任意数字,相当于[0-9]
\s 匹配任意空白字符
\w 匹配数字字母下划线
[] 集合 [abc] [0-9] [a-z] [A-Z] [A-z] [0-9a-zA-Z]
\xxx 查找以八进制数xxx规定的字符
\xdd 查找以十六进制数dd规定的字符
\uxxx 查找以十六进制xxx规定的Unicode字符

(2) 匹配位置
^ 匹配字符串开始的位置
$ 匹配字符串结束的位置
\b 匹配一个单词的边界

(3) 限定字符(量词)
* 匹配前面的字符、子表达式0次或多次
+ 匹配前面的字符、子表达式1次或多次
? 匹配前面的字符、子表达式0次或1次
{n} 匹配确定的n次
{n,} 最少匹配n次
{n,m} 最少匹配n次,最多匹配m次

(4) 特殊字符
| 或,表示分支
() 表示分组

(5) 反义字符
\W 匹配非数字字母下划线
\D 匹配非数字的字符
\S 匹配任意非空字符
[^X] 不在[]中的字符
\B 一个非单词的边界

4.贪婪与懒惰

贪婪:正则表达式默认为贪婪匹配,即尽可能的往后匹配,匹配更多的字符
懒惰:匹配数量限定词后面加?,尽可能匹配少的字符

5. 与?相关的匹配

万能的百度爸爸

6. 正则表达式优先级

运算符 描述
\ 转义字符
() (?=) [] 圆括号,分组,自定义集合
* + ? {n} {n,} {n,m} 限定字符(量词)
^ $ 标准字符 字符 定位字符,字符
|

7.知识导图

正则表达式的相关总结