Python正则匹配递归获得给出目录下的特定类型的文件小技巧

果果、 · 发表于 2015-11-30 09:35:29

　　需求是酱的：
　　输入一个目录，这个目录包含检测目录的必备信息但不准确需要获得后加工一下，如给出目录：C:\Program Files\Common Files\DESIGNER，需要检测的目录是：C:\Program Files\Common Files\System，即从给出的目录中获取前面的信息，后面的补上的目录（System）是指定的。从E:\res\tmp目录中检测xml文件，返回xml文件的目录
　　
　　代码如下： 1 import os 2 import re

3  pathlist = []
4  patternxml = r'.+\.xml$'
5
6  def collectxmlfile(path)
7 　　　　if re.search(r'\\Program Files\\Common Files',path)
8 　　　　　　path = path.split('Common Files')[0]
9 　　　　　　l =  [path ,'\Common Files\System']
10                path = ''.join(l)
11          pathlistfinal = pathlist
12          for file in os.listdir(path):
13                file = os.path.join(path,file)
14                if (os.path.isdir(file) == False):
15                         if (re.match(patternxml,file)):
16                                  pathlistfinal.append(file)
17                         else:pass
18                   else:
19                            collectxmlfile(file)
20             return pathlistfinal
21  collectxmlfile(r'C:\Program Files\Common Files\DESIGNER')

　　这里面，为什么第二次递归到collectxmlfile()的时候不会search匹配上呢？
　　因为在第9行，Common前面多加了一个'\'，这样第二次迭代的时候path中Common前面会有两个'\\'，search中的r'\\Program Files\\Common Files'只能匹配Common前面的一个反斜杠；但path目录中多反斜杠，对于windows目录的识别是不影响的，os.listdir(path)仍然会正确的识别目录，不会因为多了一个反斜杠找不到目录，如'C:\Program Files\\Common Files\DESIGNER'。
　　不过这种巧妙的方式易读性差一些，我查了好几天才弄明白，比较正常的做法是把目录识别放到迭代函数外面，处理后再传参进迭代的函数。

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] Python正则匹配递归获得给出目录下的特定类型的文件小技巧

浏览过的版块

扫码加入运维网微信交流群