Regex在线入门教程与实践 – wiki大全

正则表达式在线入门教程与实践

正则表达式（Regular Expression，简称 Regex 或 Regexp）是一种强大的文本处理工具，它使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。无论是在编程、数据清洗、日志分析还是文本编辑中，正则表达式都能极大地提高工作效率。本文旨在提供一份全面的在线入门教程，并结合实际案例，帮助读者快速掌握正则表达式的精髓。

一、正则表达式基础概念

1. 什么是正则表达式？

正则表达式是用于定义搜索模式的字符序列。你可以用它来：
* 搜索： 在文本中查找特定的字符串模式。
* 替换： 将匹配到的模式替换为其他字符串。
* 提取： 从文本中提取符合特定模式的信息。
* 验证： 检查字符串是否符合预设的格式（如邮箱、电话号码等）。

2. 正则表达式引擎

不同的编程语言和工具可能使用略有不同的正则表达式引擎（例如 Perl 兼容正则表达式 PCRE、JavaScript 的内置引擎、Python 的 re 模块等）。尽管核心语法大同小异，但在某些高级特性或细节上可能存在差异。本文主要介绍通用语法。

二、核心元字符与语法

正则表达式的强大之处在于其丰富的元字符（特殊字符），它们代表了字符集、数量、位置等多种匹配规则。

1. 字符匹配

普通字符： 大多数字符（如字母、数字）直接匹配自身。
. (点号)： 匹配除换行符 \n 以外的任意单个字符。
- 示例：a.c 可以匹配 abc、adc、aoc 等。
\d： 匹配任意一个数字 (0-9)。等价于 [0-9]。
\D： 匹配任意一个非数字字符。
\w： 匹配任意一个字母、数字或下划线。等价于 [a-zA-Z0-9_]。
\W： 匹配任意一个非字母、数字或下划线字符。
\s： 匹配任意一个空白字符（包括空格、制表符 \t、换页符 \f、换行符 \n、回车符 \r）。
\S： 匹配任意一个非空白字符。

2. 字符集

[abc]： 匹配方括号中任意一个字符。
- 示例：[aeiou] 匹配任意一个元音字母。
[a-z]： 匹配指定范围内的任意一个字符。
- 示例：[A-Za-z] 匹配任意一个英文字母。
[^abc]： 匹配除方括号中字符以外的任意一个字符。
- 示例：[^0-9] 匹配任意一个非数字字符。

3. 重复匹配（量词）

* (星号)： 匹配前面的元素零次或多次。
- 示例：a*b 可以匹配 b、ab、aaab 等。
+ (加号)： 匹配前面的元素一次或多次。
- 示例：a+b 可以匹配 ab、aaab 等，但不匹配 b。
? (问号)： 匹配前面的元素零次或一次。
- 示例：colou?r 可以匹配 color 或 colour。
{n}： 匹配前面的元素恰好 n 次。
- 示例：\d{3} 匹配恰好三个数字。
{n,}： 匹配前面的元素至少 n 次。
- 示例：\d{3,} 匹配至少三个数字。
{n,m}： 匹配前面的元素至少 n 次，但不超过 m 次。
- 示例：\d{3,5} 匹配三到五个数字。

4. 位置匹配（锚点）

^ (脱字符)： 匹配字符串的开头。
- 示例：^Hello 匹配以 Hello 开头的字符串。
$ (美元符)： 匹配字符串的结尾。
- 示例：world$ 匹配以 world 结尾的字符串。
\b： 匹配单词的边界。
- 示例：\bcat\b 匹配独立的单词 cat，而不是 cats 或 catapult 中的 cat。
\B： 匹配非单词边界。

5. 分组与捕获

( ) (小括号)： 将多个字符组合成一个整体，并捕获匹配的内容。捕获的内容可以用于后续的引用或替换。
- 示例：(\d{3})-(\d{4}) 匹配并捕获电话号码的两个部分。
| (或)： 匹配 | 符号前或后的任意一个表达式。
- 示例：cat|dog 匹配 cat 或 dog。
(?: )： 非捕获分组，只分组不捕获，用于指定量词作用范围或“或”关系。

6. 转义字符

\ (反斜杠)： 当元字符（如 .、*、+、?、(、)、[、]、{、}、^、$、|、\）需要匹配其字面值时，需要使用反斜杠进行转义。
- 示例：\. 匹配字面值点号。

三、实践应用示例

以下是一些常见的正则表达式应用场景：

1. 验证邮箱地址

一个简单的邮箱地址验证：
regex ^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$
* ^：字符串开头。
* [a-zA-Z0-9._%+-]+：用户名部分，包含字母、数字、点、下划线、百分号、加号、减号，至少出现一次。
* @：字面值 @。
* [a-zA-Z0-9.-]+：域名部分，包含字母、数字、点、减号，至少出现一次。
* \.：字面值点号。
* [a-zA-Z]{2,}：顶级域名部分，至少两个字母。
* $：字符串结尾。

2. 提取URL中的域名

假设URL为 https://www.example.com/path/to/page
regex (?:https?:\/\/)?(?:www\.)?([a-zA-Z0-9.-]+\.[a-zA-Z]{2,})
* (?:https?:\/\/)?：非捕获分组，匹配 http:// 或 https://，? 表示出现零次或一次。
* (?:www\.)?：非捕获分组，匹配 www.，? 表示出现零次或一次。
* ([a-zA-Z0-9.-]+\.[a-zA-Z]{2,})：捕获分组，匹配域名部分。

3. 查找手机号码（中国大陆）

regex 1[3-9]\d{9}
* 1：以数字 1 开头。
* [3-9]：第二位是 3 到 9 之间的数字。
* \d{9}：后面跟着九个数字。

4. 替换文本中的日期格式

将 YYYY-MM-DD 格式替换为 MM/DD/YYYY。
原始文本：Today's date is 2023-10-26.
替换模式：
* 查找：(\d{4})-(\d{2})-(\d{2})
* 替换：$2/$3/$1
* $1、$2、$3 分别代表第一个、第二个、第三个捕获分组的内容。
替换结果：Today's date is 10/26/2023.

四、在线工具推荐

在学习和实践正则表达式时，使用在线测试工具能提供即时反馈，帮助你理解和调试表达式。

Regex101.com： 功能强大，提供详细的解释、匹配高亮、替换模式测试和各种语言的生成代码。
RegExr.com： 界面简洁，实时匹配，并提供常用的正则表达式片段。
FreeFormatter.com/regex-tester.html： 简单的在线测试器。

五、学习小贴士

从小处着手： 不要试图一次性写出复杂的正则表达式，先匹配最简单的部分，然后逐步增加复杂度。
善用在线工具： 实时测试和调试是学习正则表达式最有效的方法。
理解贪婪与非贪婪： 量词（*、+、?、{n,m}）默认是贪婪的，即尽可能多地匹配。在量词后添加 ? 可以使其变为非贪婪模式，尽可能少地匹配（例如 .*?）。
多看多练： 查阅他人的正则表达式，尝试理解其逻辑，并多加练习。
查阅文档： 遇到不理解的元字符或语法时，及时查阅相关文档。

六、总结

正则表达式是一项核心技能，掌握它将极大地提升你的文本处理能力。通过理解其基本概念、核心元字符和实践应用，并结合在线工具辅助学习，你将能够驾驭这一强大的工具，解决各种复杂的文本匹配和操作问题。祝你在正则表达式的学习之路上取得成功！