|
这些天需要大量处理一些html文本,需要用到正则表达式,于是根据manual尝试了一下,特此记录。
Php有两种类型的正则表达式,一种是与perl兼容的表达式,一种是扩展POSIX的。一般我们使用的是Perl兼容的正则表达式。
使用简单的表达式弄清楚以下几个步骤就是了:
1. 弄清楚PHP中的正则表达式是以“/”开始,并以“/“结束,比如: /abc/ --表示在任意位置包含abc的字符串。
2. 理解PHP中正则表达式的特殊字符。包括:“/”、“\”、“^“、“$”……。这些字符都代表特殊的含义,如果要在表达式中使用这些字符的原本意义,则需要使用“\“来进行转义。
比如: /price: \$32.00/ 是用来匹配 "Orange's price: $32.00, and apple's price: $64.00"。
"\"除了将特殊字符转义为一般字符之外,还能将一些指定的字符转义成特殊的意义。例如 \d 表示数字,\s表示任意空白字符。
以上所有特殊的字符都可以参考Php Manual:http://www.docviewer.net/docs/php/php_manual/regexp.reference.html。
这些特殊字符我们一般只需要了解个大概就够了,也就是那些常用的。其他的等到要用的时候再查文档就行了。
3. 了解了这些之后我们就可以开始使用正则表达式了。PHP中表达式的函数主要有:
- preg_grep— Return array entries that match the pattern
- preg_last_error— Returns the error code of the last PCRE regex execution
- preg_match_all— Perform a global regular expression match
- preg_match— Perform a regular expression match
- preg_quote— Quote regular expression characters
- preg_replace_callback— Perform a regular expression search and replace using a callback
- preg_replace— Perform a regular expression search and replace
- preg_split— Split string by a regular expression
点击上面的链接我们可以查看详细的使用方法。
下面我们以常用的preg_replace为例来简要说明一下使用方法。
比如,我们要将某个网页的<body>后增加一个<div id="head"></div>,我们可以使用如下的语句:
$text = '<html><head>...</head><body>...</body></html>';
preg_replace('/\<body>/', '<body><div id="head"></div>', $text);
其中参数值一:'/\<body>/'就是一个正则表达式,表示$text中包含<body>,因为"<"是一个特殊字符,所以需要“/“来进行转义。
参数值二:'<body><div id="head"></div>'就是一个普通的字符串,这个是不需要使用任何转义的。
参数值三:要来进行替换的原文本。
其中参数一和参数二不仅仅可以是字符串,还可以是字符串数组,比如要将一个html文本中的<head>和<body>分别替换成不同的内容,就可以如下使用:
$text = '<html><head>...</head><body>...</body></html>';
$patterns = array('/\<head>/', '/\<body>/');
$replacements = array('<head><link type="text/css" src="style.css"', '<body><div id="head"></div>');
ksort($patterns);
ksort($replacements);
preg_replace($patterns, $replacements, $text);
这样就在<head>和<body>之后分别增加了相应的内容了。在上述的例子中,主义要使用ksort对$patterns和$replacements进行排序,否则两者对应的关系是逆序的,具体的可参考:http://www.docviewer.net/docs/php/php_manual/function.preg-replace.html。
总结:所有的正则表达式语言都是差不多的,一般来说我们只要掌握大体的使用原则,然后参考对应语言的文档,就能够边学边用了。 |
|
|