设为首页 收藏本站
查看: 1608|回复: 0

[经验分享] perl实现蛋白质翻译以及蛋白质个数统计

[复制链接]

尚未签到

发表于 2017-5-19 11:35:31 | 显示全部楼层 |阅读模式
  这个程序,用perl语言实现了RNA序列翻译蛋白质序列的过程。
  考虑了AG GU alternative splicing influence and start coden, stop coden
  统计了RNA序列可生产蛋白质长度
  引用请注明出处
  


#!/usr/bin/perl -w
# Program name: statProtein_splicing.pl
# Author      : sunchen
# Contact     : bbsunchen@gmail.com
# Date        : 10/22/2011
# Last Update : 10/27/2011
# Reference   : Please cite our following papers when you are using this script.
# Description :
#===============================================================================================================
use warnings;
use strict;
use Getopt::Long;
#my %opts;
#GetOptions(\%opts,"dir:s");
#my $usage= <<"USAGE";
#Program: $0
#INPUT:
#-dir        full path of file
#OUTPUT:
#USAGE
#die $usage unless ($opts{dir} && -e $opts{dir});
#open DIR, $opts{dir};
#create a hash table contain the coden and Aa
my %Aa=
(
"UUU"=>"F",
"UUC"=>"F",
"UUA"=>"L",
"UUG"=>"L",
"CUU"=>"L",
"CUC"=>"L",
"CUA"=>"L",
"CUG"=>"L",
"AUU"=>"I",
"AUC"=>"I",
"AUA"=>"I",
"AUG"=>"START",
"GUU"=>"V",
"GUC"=>"V",
"GUA"=>"V",
"GUG"=>"V",
"UCU"=>"S",
"UCC"=>"S",
"UCA"=>"S",
"UCG"=>"S",
"CCU"=>"P",
"CCC"=>"P",
"CCA"=>"P",
"CCG"=>"P",
"ACU"=>"T",
"ACC"=>"T",
"ACA"=>"T",
"ACG"=>"T",
"GCU"=>"A",
"GCC"=>"A",
"GCA"=>"A",
"GCG"=>"A",
"UAU"=>"Y",
"UAC"=>"Y",
"UAA"=>"END",
"UAG"=>"END",
"CAU"=>"H",
"CAC"=>"H",
"CAA"=>"Q",
"CAG"=>"Q",
"AAU"=>"N",
"AAC"=>"N",
"AAA"=>"K",
"AAG"=>"K",
"GAU"=>"D",
"GAC"=>"D",
"GAA"=>"E",
"GAG"=>"E",
"UGU"=>"C",
"UGC"=>"C",
"UGA"=>"END",
"UGG"=>"W",
"CGU"=>"R",
"CGC"=>"R",
"CGA"=>"R",
"CGG"=>"R",
"AGU"=>"S",
"AGC"=>"S",
"AGA"=>"R",
"AGG"=>"R",
"GGU"=>"G",
"GGC"=>"G",
"GGA"=>"G",
"GGG"=>"G",
);

open DIR, "<E:/lab/4_AUG";
open OUT, ">E:/lab/out.txt";

my $protein = 0;
my $coden = 0;
my @array;
my $array_len = 0;
my $if_exist = 0;#$if_exist
my $seq = "";
my $start_point = 0;
my $end_point = 0;
my $order = 0;
my @coden_size;
sub detect_protein
{
if($if_exist == 1)
{
goto END_OF_SUB;
}
$coden = 0;
my($string) = @_;
@array=split "", $string;
$array_len = @array;
my $position = -1;
$position = index($string,"AUG");
my $if_start = 0;
my $to_print = "";
if($position == -1)
{
goto END_OF_SUB;
}else
{
$to_print = $to_print."M";
$if_start = 1;
$coden++;
}
my $pro = "";
for(my $i = $position+3; $i < $array_len-2; $i=$i+3)
{
$pro = $array[$i].$array[$i+1].$array[$i+2];
#print OUT $pro."\n";
#print OUT $Aa{$pro}."\n";
if($Aa{$pro} eq "START")
{
$coden++;
$to_print = $to_print."M";
}elsif($Aa{$pro} eq "END")
{
$if_start = 2;
$to_print = $to_print."\n";
$coden++;
last;
}else
{
$coden++;
$to_print = $to_print.$Aa{$pro};
}
}
if($if_start == 1)
{
$to_print = $to_print."\n";
}
if($if_start==2 && $if_exist == 0)
{
$protein++;
$if_exist = 1;
#print OUT $order."\n";
if($coden == 72)
{
print $to_print."\n";
}
#print OUT $to_print;
$coden_size[$coden]++;
#print OUT $string."\n";
}
END_OF_SUB:
}
while(<DIR>)
{
$order ++;
$seq = $_;
$if_exist = 0;
my $splicing_site_ag = 0;
$splicing_site_ag = index($seq,"AG");
my @ag_site=();
push(@ag_site,$splicing_site_ag);
while($splicing_site_ag != -1)
{
#print "$splicing_site_ag\n";
$splicing_site_ag = index($seq,"AG",$splicing_site_ag+2);
push(@ag_site,$splicing_site_ag);
}
my $splicing_site_gu = 0;
$splicing_site_gu = rindex($seq,"GU");
my @gu_site=();
push(@gu_site,$splicing_site_gu);
while($splicing_site_gu != -1)
{
#print "$splicing_site_gu\n";
$splicing_site_gu = rindex($seq,"GU",$splicing_site_gu-1);
if($splicing_site_gu != -1 && defined($splicing_site_gu))
{
push(@gu_site,$splicing_site_gu);
}else
{
last;
}
}
for(my $j = 0; $j < @ag_site;$j++)
{
if($ag_site[$j] > 270)
{
last;
}
if($if_exist == 1)
{
last;
}
for(my $k = @gu_site-1; $k >= 0;$k--)
{
#print JK "J:$ag_site[$j]##########K:$gu_site[$k]\n";
#print OUT "$ag_site[$j] < $gu_site[$k]\n";
if($ag_site[$j] < $gu_site[$k])
{
if(($gu_site[$k] - $ag_site[$j] - 2) >= 30)
{
my $substr = substr($seq, $ag_site[$j]+2, $gu_site[$k] - $ag_site[$j] - 2);
#print OUT2 "$substr\n";
my @sub_array = split "",$substr;
my $final_length = @sub_array;
detect_protein($substr);
last;
}
}
}
}
}
for(my $i = 0; $i < @coden_size; $i++)
{
print "$i\n";
}
print "###########################################\n";
for(my $i = 0; $i < @coden_size; $i++)
{
if(defined($coden_size[$i]))
{
print "$coden_size[$i]\n";
}else
{
print "0\n";
}
}
close DIR;
close OUT;

 

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-379070-1-1.html 上篇帖子: perl 字符串数组,如何输出带引号的数组元素 下篇帖子: Example of front end web development base perl
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表