正则的几个基本概念--西部E网weste.net

正则的几个基本概念

作者：秋水无恨发布时间：2003-11-4 13:47:03 | 【字体：大中小】

经常看到说正则的文章，但说的只是方法，却很少有说以下几个基本概念：

1.贪婪：+,*,?,{m,n}等默认是贪婪匹配，即尽可能多匹配，也叫最大匹配
如果后面加上?，就转化为非贪婪匹配，需要高版本支持

2.获取：默认用(x|y)是获取匹配，很多时候只是测试，不一定要求得到所匹配的数据，尤其在嵌套匹配或大数据中就要用非获取匹配(?:x|y)，这样提高了效率，优化了程序。

3.消耗：默认是消耗匹配，一般在预查中是非消耗匹配。
举个例子，2003-2-8要变为2003-02-08
如果用/-(\d)-/第二次匹配将从8开始，从而只替换第一个2，错误
如果用/-(\d)(?=-)/则第二次匹配从第二个-开始，即不消耗字符-

4.预查：js中分为正向预查和负向预查
如上面的(?=pattern)是正向预查，在任何匹配 pattern 的字符串开始处匹配查找字符串。还有(?!pattern)是负向预查，在任何不匹配 pattern 的字符串开始处匹配查找字符串。负向预查有时会用在对[^]的扩充，[^]只是一些字符，而?!可以使整个字符串。

5.回调：一般用在替换上，即根据不用的匹配内容返回不用的替换值，从而简化了程序，需要高版本支持

6.引用：\num 对所获取的第num个匹配的引用。
例如，'(.)\1\1' 匹配AAA型。'(.)(.)\2\1' 匹配ABBA型。

当然还有很多，这些都只是基本的需要掌握的

遇到正则问题，一般可用以下两种方法解决：

1.分类，即根据所有的可能列出各种情况，如2003以内的数
0 0
1-999 [1-9]\d{0,2}
1000-1999 1\d{3}
2000-2003 200[0-3]

所以最后的匹配就是 (0|[1-9]\d{0,2}|1\d{3}|200[0-3])

2.分组，即将整句分为不同的最小单元，如'、%、_成双出现
能成组的，即允许存在的，有
''
%% 如果是大于2的偶数个可细分为多个更小的2字符单元
__
[^'%_] 非以上字符

所以最后的匹配就是 ^(''|%%|__|[^'%_])*$

文章来源：蓝色理想