设为首页 收藏本站
查看: 611|回复: 0

[经验分享] python转换文件编码应用

[复制链接]

尚未签到

发表于 2017-4-25 12:18:05 | 显示全部楼层 |阅读模式
  初次写python应用,比较简单的转换文件编码,用来将文件转换到指定编码,主要利用了 open 文件操作,os 目录遍历,chardet
编码探测,解决 movist(多字幕播放器)
只能正确读取utf-8字幕文件问题,一次将目录下所有字幕都转换城utf-8编码.

  ps:发现使用多线程后,时间反而会上升一倍,看来对于小任务线程还是开销比较大的


  /Users/yiminghe/code/python/tools/encode.py :



# -*- coding: utf-8 -*-
import sys,os,shutil,traceback,time
from chardet.universaldetector import UniversalDetector
#deal with chinese   
encodes={
"gb2312":"gb18030",
"gbk":"gb18030"
}
class HeEncodingEx(Exception):
def __init__(self,msg):
Exception.__init__(self,msg);
def gb(encoding):
if encoding is None:
raise HeEncodingEx,"unknown encoding"
encoding=encoding.strip().lower()   
return  encodes[encoding] if encoding in encodes else encoding
def transferToEncoding(filename,toCode):
'''
save the content of filename to filename with toCode text encoding
@param filename{string}: text file
@param toCode{string}: text encoding code ,gbk,utf-8...etc
@return{boolean}: operation success true/false
'''
if(os.path.isdir(filename)):
print "error:not file"
return False
try:
detector = UniversalDetector()
#print filename
#read content
f=open(filename,"r")
ls=f.readlines();
f.close();
#detect encoding
for l in ls:
detector.feed(l)
if detector.done: break
detector.close()
#print detector.result
#print dir(detector.result)
encode=gb(detector.result['encoding'])
#print "original encoding:",encode
if(encode.lower() != toCode.lower()):
#backup orginal file
if not os.path.exists(filename+".bak"):
shutil.copy(filename, filename+".bak")
#save to another encoding
f=open(filename,"w")
for l in ls:
f.write(unicode(l,encode).encode(toCode))
f.close()
#print "result encoding:"+toCode
else:
pass
#print "same encoding"   
except BaseException,e:
#print "error:",e
traceback.print_exc()
#restore
if(os.path.exists(filename+".bak")):
shutil.copy(filename+".bak", filename)
return False
finally:
print
print
return True
#main
if __name__=="__main__":
start=time.time()
if len(sys.argv)<2:
print "erro argv! filename toCoding"
sys.exit(1)
#default transfer to utf-8   
toCode=sys.argv[2] if len(sys.argv) > 2 else "utf-8"
filename=sys.argv[1]
if(os.path.isfile(filename)):
transferToEncoding(filename,toCode)
else:
import threading
#同时10个线程处理文件
THREAD_NUM=10
lock=threading._allocate_lock()

def fetchAndProcess(files,func):
'''
每次取一个元素运行
@param files{Array}:数据存放数组
@param func{Function}:处理函数
'''
while len(files):
lock.acquire()
if len(files)==0:
break
try:
file_=files.pop()
except IndexError,e:
print e
break
print threading.current_thread().ident," got : ",file_         
lock.release()
func(file_,toCode)
#folder? then walk
all_files=[]
for base,folders,files in os.walk(filename):
if not base.endswith(os.sep) :
base+=os.sep
for file_ in files:
if file_.lower().endswith("srt"):
all_files.append(base+file_)
if 0:
transferToEncoding(base+file_,toCode)
if 1:
num=THREAD_NUM
threads=[];
#print all_files;
while num:
num-=1
threads.append(threading.Thread(target=fetchAndProcess,args=(all_files,transferToEncoding)))
for thread_ in threads:
thread_.start()
for thread_ in threads:
thread_.join()
#10,20,30个线程 40。6秒
#单线程 28.1秒        
print "consume time :",time.time()-start   

   /Users/yiminghe/code/python/tools/

he_encode.sh:



#!/bin/bash -
#"$@" ,not $* ,$@,"$*"
python /Users/yiminghe/code/python/tools/encode.py "$@"
   创建软链接



chmod 777 /Users/yiminghe/code/python/tools/he_encode.sh
ln -s /Users/yiminghe/code/python/tools/he_encode.sh /usr/bin 
  运行:


  定位在某个目录下运即可:转换目录下的所有字幕文件为utf-8格式


he_encode .
 

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-369122-1-1.html 上篇帖子: python wsgi,SocketServer ,BaseHTTPServer 下篇帖子: Phthon十五、Python内容补充
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表