wendu 发表于 2013-3-29 08:43:51

Apache日志文件的正则表达式解析

使用正则表达式分隔Apache日志文件通用日志格式的Apache日志文件示例:127.0.0.1 - frank "GET /apache_pb.gif HTTP/1.0" 200 2326组合日志格式的Apache日志文件示例:127.0.0.1 - frank "GET /apache_pb.gif HTTP/1.0" 200 2326 "http://www.example.com/start.html" "Mozilla/4.08 (Win98; I ;Nav)"组合格式的日志文件比通用格式的日志文件多了两条请求头中包含的信息,其他部分完全一样,以组合格式的日志文件为例,日志中的每项代表的含义如下
[*]客户端的IP地址。
[*]由客户端identd进程判断的RFC1413身份(identity),输出中的符号"-"表示此处的信息无效。
[*]HTTP认证系统得到的访问该网页的客户标识(userid),如果网页没有设置密码保护,则此项将是"-"。
[*]服务器完成请求处理时的时间。
[*]客户的动作\请求的资源\使用的协议。
[*]服务器返回给客户端的状态码。
[*]返回给客户端的不包括响应头的字节数.如果没有信息返回,则此项应该是"-"。
[*]"Referer"请求头。
[*]"User-Agent"请求头。
用来提取信息的正则表达式组成:
[*]^ :匹配每一行的开头。
[*](+)\s :匹配IP地址。
[*]([\w.-]+)\s :匹配identity,由数字字母下划线或点分隔符组成。
[*]([\w.-]+)\s :匹配userid,由数字字母下划线或点分隔符组成。
[*](\[[^\[\]]+\])\s :匹配时间。
[*]"((?:[^"]|\")+)"\s :匹配请求信息,双引号中可能出现转义的双引号\"。
[*](\d{3})\s :匹配状态码。
[*](\d+|-)\s :匹配响应字节数或-。
[*]"((?:[^"]|\")+)"\s :匹配"Referer"请求头,双引号中可能出现转义的双引号\"。
[*]"((?:[^"]|\")+)" :匹配"User-Agent"请求头,双引号中可能出现转义的双引号\"。
[*]$ :匹配行尾。
最终的表达式如下:^(+)\s([\w.-]+)\s([\w.-]+)\s(\[[^\[\]]+\])\s"((?:[^"]|\")+)"\s(\d{3})\s(\d+|-)\s"((?:[^"]|\")+)"\s"((?:[^"]|\")+)"$C#示例:

1 staticvoid Main(string[] args)
2 {
3 string pattern ="^(+)\\s([\\w.-]+)\\s([\\w.-]+)\\s(\\[[^\\[\\]]+\\])\\s\"((?:[^\"]|\\\")+)\"\\s(\\d{3})\\s(\\d+|-)\\s\"((?:[^\"]|\\\")+)\"\\s\"((?:[^\"]|\\\")+)\"$";
4 string input ="127.0.0.1 - frank \"GET /apache_pb.gif HTTP/1.0\" 200 2326 \"http://www.example.com/start.html\" \"Mozilla/4.08 (Win98; I ;Nav)\"";
5 System.Text.RegularExpressions.GroupCollection groups =System.Text.RegularExpressions.Regex.Match(input, pattern).Groups;
6 for (int i =0; i < groups.Count; i++)
7 {
8 Console.WriteLine(groups.Value);
9 }
10 }

0 发表于 2013-3-29 08:56:28

生我之前谁是我,生我之后我是谁?

刘伟 发表于 2013-5-16 13:30:07

睡眠是一门艺术——谁也无法阻挡我追求艺术的脚步!

bobbai 发表于 2013-5-17 20:10:03

过来看看的

leonheart 发表于 2013-5-19 10:00:48

流氓不可怕,就怕流氓有文化。

q4561231 发表于 2013-5-20 16:42:27

死亡教会人一切,如同考试之后公布的结果——虽然恍然大悟,但为时晚矣~!

814247614 发表于 2013-5-22 00:33:01

有事秘书干,没事干秘书!
页: [1]
查看完整版本: Apache日志文件的正则表达式解析