设为首页 收藏本站
查看: 1915|回复: 0

[经验分享] Python初体验

[复制链接]

尚未签到

发表于 2015-12-1 09:25:42 | 显示全部楼层 |阅读模式
  今天开始所有的工作脚本全都从perl转变到python,开发速度明显降低了不少,相信以后随着熟练度提升会好起来。贴一下今天一个工作代码,由于之前去一家小公司测序时,序列长度竟然都没有达到要求,为了之后的索赔事宜,写了个脚本统计所有序列的结果,主要包括总的reads数,bases数,和达到测序策略要求长度的reads数(双端),bases数,高质量(Q30)bases数,高质量reads数(双端)等等......多个文件的统计工作一般会写一个单独处理一个文件的脚本,然后再写一个脚本用来生成多个文件的处理的shell脚本,然后想办法并行处理这个shell就可以,效率会快很多。由于测序数据往往比较大,IO操作时,逐行读取是上策。
  统计单个文件测序数据情况脚本:


DSC0000.gif DSC0001.gif


1 from __future__ import division
2 from Bio import SeqIO as fq
3 import os
4 import sys
5 import re
6 read1_gzfile = sys.argv[1]
7 read2_gzfile = sys.argv[2]
8 gz_handle1 = os.popen( 'gunzip -cd %s' % read1_gzfile )
9 gz_handle2 = os.popen( 'gunzip -cd %s' % read2_gzfile )
10 basename1 = os.path.basename(read1_gzfile)
11 basename1 = re.match('(\S+)_R1_001\.fastq\.gz',basename1).group(1)
12 basename2 = os.path.basename(read2_gzfile)
13 basename2 = re.match('(\S+)_R2_001\.fastq\.gz',basename2).group(1)
14 if basename1 != basename2:
15     raise 'Two Read are not mapped!'
16 cwd = os.getcwd()
17 out_handle = open('%s/%s.stat'%(cwd,basename1),'w')
18 out_handle.write('AllReadsNum\tRead1_PE300_ReadsNum\tRead2_PE300_ReadsNum\tUseful_ReadsNum(Read1>=300 and Read2>=300)\tAll_Bases\tRead1_Q30_Bases(PE300)\tRead2_Q30_Bases(PE300)\tQ30_PE_Reads(Q30>50%)\tUseful_Bases(All)\tUseful_Ratio\n')
19
20 AllReadsNum = 0
21 AllBases = 0
22 Read1_PE300_ReadsNum = 0
23 Read2_PE300_ReadsNum = 0
24 Useful_ReadsNum = 0
25 Read1_Q30_Bases = 0
26 Read2_Q30_Bases = 0
27 Q30_PE_Reads = 0
28 Useful_Bases = 0
29
30 def PE300(seq):
31     if len(seq) >= 300:
32         return True
33     else:
34         return False
35
36 def Q30(qual_list):
37     num = 0
38     for qual in qual_list:
39         if qual >= 30:
40             num += 1
41     return num
42
43 reads2 = fq.parse(gz_handle2,'fastq')
44 for read1 in fq.parse(gz_handle1,'fastq'):
45     read2 = reads2.next()
46     seq1 = read1.seq
47     qual1 = read1.letter_annotations['phred_quality']
48     seq2 = read2.seq
49     qual2 = read2.letter_annotations['phred_quality']
50     AllReadsNum += 1
51     AllBases += len(seq1)
52     AllBases += len(seq2)
53     R1_300 = PE300(seq1)
54     R2_300 = PE300(seq2)
55     if R1_300 and R2_300:
56         Useful_ReadsNum +=1
57         R1_Q30 = Q30(qual1)
58         R2_Q30 = Q30(qual2)
59         Read1_Q30_Bases += R1_Q30
60         Read2_Q30_Bases += R2_Q30
61         if ( R1_Q30 / len(seq1) >= 0.5 ) and ( R2_Q30 / len(seq2) >= 0.5 ):
62             Q30_PE_Reads += 1
63             Useful_Bases += R1_Q30
64             Useful_Bases += R2_Q30
65     elif R1_300:
66         Read1_PE300_ReadsNum += 1
67     elif R2_300:
68         Read2_PE300_ReadsNum += 1
69
70 Useful_Ratio = Useful_Bases / AllBases
71 out_handle.write('%i\t%i\t%i\t%i\t%i\t%i\t%i\t%i\t%i\t%f\n'%(AllReadsNum,Read1_PE300_ReadsNum,Read2_PE300_ReadsNum,Useful_ReadsNum,AllBases,Read1_Q30_Bases,Read2_Q30_Bases,Q30_PE_Reads,Useful_Bases,Useful_Ratio))
summary.py  生成脚本:





1 import os
2 out = open('summary.sh','w')
3 cwd = os.getcwd()
4 with open('templist') as gzfiles:
5     for gzfile1 in gzfiles:
6         gzfile2 = gzfiles.next()
7         out.write('python %s/summary.py %s %s\n'%(cwd,gzfile1.strip(),gzfile2.strip()))
run_summary.py  使用qsub_sge方法,并行投递生成的summary.sh就完成了

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-145711-1-1.html 上篇帖子: Pygame 下篇帖子: Python 列表(list)、字典(dict)、字符串(string)常用基本操作小结
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表