1. ホーム
  2. python

[解決済み] Biopython(Python)を使ってFASTAファイルから配列を抽出する。

2022-02-19 11:10:21

質問

FASTAファイルから配列の一部を抽出したいのですが、python(biopython.NET)を使用します。 http://biopython.org/DIST/docs/tutorial/Tutorial.html )

各配列から最初の10塩基を取得し、FASTAフォーマットから配列情報を保持したまま1つのファイルに入れる必要があります。最悪の場合、配列情報を保持する方法がなければ、塩基だけを使用することもできます。そこで、以下に例を示します。

>gi|2765658|emb|Z78533.1|CIZ78533 C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA
CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGGAATAAACGATCGAGTG
AATCCGGAGGACCGGTGTACTCAGCTCACCGGGGGCATTGCTCCCGTGGTGACCCTGATTTGTTGTTGGG

>gi|2765658|emb|Z78533.1|CIZ78533 C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA
CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGGAATAAACGATCGAGTG
AATCCGGAGGACCGGTGTACTCAGCTCACCGGGGGCATTGCTCCCGTGGTGACCCTGATTTGTTGTTGGG

>gi|2765658|emb|Z78533.1|CIZ78533 C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA
CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGGAATAAACGATCGAGTG
AATCCGGAGGACCGGTGTACTCAGCTCACCGGGGGCATTGCTCCCGTGGTGACCCTGATTTGTTGTTGGG

最初の10個のベースを取得する何らかの方法が必要です(そして、最後の10個のベースはまたそれを行う予定でした)。そのチュートリアルサイトはかなり丁寧ですが、私は初めてで、これには踏み込んでいないので、それが可能かどうかさえわかりません。何かありましたらよろしくお願いします。

どのように解決するのですか?

Biopythonはこのような作業に最適です。その Seq -オブジェクトは、配列とそれに関する情報を保存します。ファスタファイルフォーマットの読み込みは簡単です。配列は単純なリストのようにアクセスでき、したがって、特定の位置にも直接アクセスできます。

from Bio import SeqIO

with open("outfile.txt","w") as f:
        for seq_record in SeqIO.parse("infile.fasta", "fasta"):
                f.write(str(seq_record.id) + "\n")
                f.write(str(seq_record.seq[:10]) + "\n")  #first 10 base positions
                f.write(str(seq_record.seq[-10:]) + "\n") #last 10 base positions