Aritalab:Lecture/Programming/NGS
From Metabolomics.JP
< Aritalab:Lecture | Programming(Difference between revisions)
m |
m (→ゲノム解析に必要なツールとデータ) |
||
Line 1: | Line 1: | ||
== ゲノム解析に必要なツールとデータ== | == ゲノム解析に必要なツールとデータ== | ||
− | conda | + | conda を使って以下のように準備しておきます。Lactobacillus hokkaidonensis [PMID 25879859] のペアエンド配列で、MiSeqによるリードです。 |
+ | もともと 300万リードずつあります。 | ||
<pre> | <pre> | ||
(base) $ conda install -y -c bioconda fastqc fastp megahit seqkit | (base) $ conda install -y -c bioconda fastqc fastp megahit seqkit | ||
Line 11: | Line 12: | ||
(base) $ bunzip2 *.bz2 | (base) $ bunzip2 *.bz2 | ||
... | ... | ||
− | > | + | </pre> |
+ | |||
+ | アセンブル用にここから 50万リードだけ抽出します。リード長が250、ゲノムサイズが 2.5 Mbase 程度のため、100万リード抽出すると | ||
+ | : 1,000,000 * 250 / (2.5 * 1,000,000) = 100 平均カバレッジ | ||
+ | となります。100倍あるとリードの厚みが薄い部分でも 10 本ぐらいカバーするので安心です。 | ||
+ | <pre> | ||
(base) $ seqkit stats *.fastq | (base) $ seqkit stats *.fastq | ||
file format type num_seqs sum_len min_len avg_len max_len | file format type num_seqs sum_len min_len avg_len max_len | ||
DRR024501_1.fastq FASTQ DNA 2,971,310 745,798,810 251 251 251 | DRR024501_1.fastq FASTQ DNA 2,971,310 745,798,810 251 251 251 | ||
DRR024501_2.fastq FASTQ DNA 2,971,310 745,798,810 251 251 251 | DRR024501_2.fastq FASTQ DNA 2,971,310 745,798,810 251 251 251 | ||
+ | (base) $ seqkit sample -n 500000 DRX022186/DRR024501_1.fastq > DRX022186/DRR024501_1.1M.fastq | ||
+ | (base) $ seqkit sample -n 500000 DRX022186/DRR024501_2.fastq > DRX022186/DRR024501_2.1M.fastq | ||
</pre> | </pre> | ||
Latest revision as of 14:37, 1 June 2022
[edit] ゲノム解析に必要なツールとデータ
conda を使って以下のように準備しておきます。Lactobacillus hokkaidonensis [PMID 25879859] のペアエンド配列で、MiSeqによるリードです。 もともと 300万リードずつあります。
(base) $ conda install -y -c bioconda fastqc fastp megahit seqkit ... (base) $ curl -O ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/DRA002/DRA002643/DRX02218 6/DRR024501_1.fastq.bz2 (base) $ curl -O ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/DRA002/DRA002643/DRX02218 6/DRR024501_2.fastq.bz2 ... (base) $ bunzip2 *.bz2 ...
アセンブル用にここから 50万リードだけ抽出します。リード長が250、ゲノムサイズが 2.5 Mbase 程度のため、100万リード抽出すると
- 1,000,000 * 250 / (2.5 * 1,000,000) = 100 平均カバレッジ
となります。100倍あるとリードの厚みが薄い部分でも 10 本ぐらいカバーするので安心です。
(base) $ seqkit stats *.fastq file format type num_seqs sum_len min_len avg_len max_len DRR024501_1.fastq FASTQ DNA 2,971,310 745,798,810 251 251 251 DRR024501_2.fastq FASTQ DNA 2,971,310 745,798,810 251 251 251 (base) $ seqkit sample -n 500000 DRX022186/DRR024501_1.fastq > DRX022186/DRR024501_1.1M.fastq (base) $ seqkit sample -n 500000 DRX022186/DRR024501_2.fastq > DRX022186/DRR024501_2.1M.fastq
[edit] NGS解析の基礎
- 配列のクオリティチェックとアダプター配列等の除去
(base) $ fastqc ファイル名 (base) $ fastp -i 入力ファイル -o 出力ファイル -I 入力ファイル -O 出力ファイル
- 配列のアセンブリ
オプションの -G N は、不明塩基(N)をギャップとみなす指定。-a は詳細な結果表示。
(base) $ megahit -1 forward側リード -2 reverse側リード -o out_megahit (base) $ seqkit stats -a -G N 出力ファイル/final.contigs.fa
- 短いコンティグの除去
seqkitを使って 1000 以下のコンティグを除去します。sort オプションは -l で長さによる降順です。
(base) $ seqkit seq --min-len 1000 out_megahit/final.contigs.fa | seqkit sort -l > contigs.1000.fa (base) $ seqkit stats -a -G Nn contigs.1000.fa file format type num_seqs sum_len min_len avg_len max_len Q1 Q2 Q3 sum_gap N50 Q20(%) Q30(%) contigs.1000.fa FASTA DNA 47 2,346,749 1,080 49,930.8 206,021 8,824.5 36,083 83,358.5 0 96,158 0 0
コンティグの長さは平均で 49,930 あり N50 値が 96,158 となります。これはコンティグを長いものから順番に並べたとき、全長の50%にくるコンティグの長さが 96K であることを意味します。