Aritalab:Lecture/Programming/NGS
From Metabolomics.JP
< Aritalab:Lecture | Programming(Difference between revisions)
(Created page with "==NGS解析の基礎== ; 配列のクオリティチェックとアダプター配列等の除去 <pre> (base) $ fastqc ファイル名 (base) $ fastp -i 入力ファイル -...") |
m |
||
Line 1: | Line 1: | ||
+ | == ゲノム解析に必要なツールとデータ== | ||
+ | conda を使って以下のように準備しておきます。 | ||
+ | <pre> | ||
+ | (base) $ conda install -y -c bioconda fastqc fastp megahit seqkit | ||
+ | ... | ||
+ | (base) $ curl -O ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/DRA002/DRA002643/DRX02218 | ||
+ | 6/DRR024501_1.fastq.bz2 | ||
+ | (base) $ curl -O ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/DRA002/DRA002643/DRX02218 | ||
+ | 6/DRR024501_2.fastq.bz2 | ||
+ | ... | ||
+ | (base) $ bunzip2 *.bz2 | ||
+ | ... | ||
+ | >seqkit stats *.fastq | ||
+ | (base) $ seqkit stats *.fastq | ||
+ | file format type num_seqs sum_len min_len avg_len max_len | ||
+ | DRR024501_1.fastq FASTQ DNA 2,971,310 745,798,810 251 251 251 | ||
+ | DRR024501_2.fastq FASTQ DNA 2,971,310 745,798,810 251 251 251 | ||
+ | </pre> | ||
+ | |||
==NGS解析の基礎== | ==NGS解析の基礎== | ||
Revision as of 13:49, 1 June 2022
ゲノム解析に必要なツールとデータ
conda を使って以下のように準備しておきます。
(base) $ conda install -y -c bioconda fastqc fastp megahit seqkit ... (base) $ curl -O ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/DRA002/DRA002643/DRX02218 6/DRR024501_1.fastq.bz2 (base) $ curl -O ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/DRA002/DRA002643/DRX02218 6/DRR024501_2.fastq.bz2 ... (base) $ bunzip2 *.bz2 ... >seqkit stats *.fastq (base) $ seqkit stats *.fastq file format type num_seqs sum_len min_len avg_len max_len DRR024501_1.fastq FASTQ DNA 2,971,310 745,798,810 251 251 251 DRR024501_2.fastq FASTQ DNA 2,971,310 745,798,810 251 251 251
NGS解析の基礎
- 配列のクオリティチェックとアダプター配列等の除去
(base) $ fastqc ファイル名 (base) $ fastp -i 入力ファイル -o 出力ファイル -I 入力ファイル -O 出力ファイル
- 配列のアセンブリ
オプションの -G N は、不明塩基(N)をギャップとみなす指定。-a は詳細な結果表示。
(base) $ megahit -1 forward側リード -2 reverse側リード -o out_megahit (base) $ seqkit stats -a -G N 出力ファイル/final.contigs.fa
- 短いコンティグの除去
seqkitを使って 1000 以下のコンティグを除去します。sort オプションは -l で長さによる降順です。
(base) $ seqkit seq --min-len 1000 out_megahit/final.contigs.fa | seqkit sort -l > contigs.1000.fa (base) $ seqkit stats -a -G Nn contigs.1000.fa file format type num_seqs sum_len min_len avg_len max_len Q1 Q2 Q3 sum_gap N50 Q20(%) Q30(%) contigs.1000.fa FASTA DNA 47 2,346,749 1,080 49,930.8 206,021 8,824.5 36,083 83,358.5 0 96,158 0 0
コンティグの長さは平均で 49,930 あり N50 値が 96,158 となります。これはコンティグを長いものから順番に並べたとき、全長の50%にくるコンティグの長さが 96K であることを意味します。