Aritalab:Lecture/Programming/NGS
From Metabolomics.JP
NGS解析の基礎
- 配列のクオリティチェックとアダプター配列等の除去
(base) $ fastqc ファイル名 (base) $ fastp -i 入力ファイル -o 出力ファイル -I 入力ファイル -O 出力ファイル
- 配列のアセンブリ
オプションの -G N は、不明塩基(N)をギャップとみなす指定。-a は詳細な結果表示。
(base) $ megahit -1 forward側リード -2 reverse側リード -o out_megahit (base) $ seqkit stats -a -G N 出力ファイル/final.contigs.fa
- 短いコンティグの除去
seqkitを使って 1000 以下のコンティグを除去します。sort オプションは -l で長さによる降順です。
(base) $ seqkit seq --min-len 1000 out_megahit/final.contigs.fa | seqkit sort -l > contigs.1000.fa (base) $ seqkit stats -a -G Nn contigs.1000.fa file format type num_seqs sum_len min_len avg_len max_len Q1 Q2 Q3 sum_gap N50 Q20(%) Q30(%) contigs.1000.fa FASTA DNA 47 2,346,749 1,080 49,930.8 206,021 8,824.5 36,083 83,358.5 0 96,158 0 0
コンティグの長さは平均で 49,930 あり N50 値が 96,158 となります。これはコンティグを長いものから順番に並べたとき、全長の50%にくるコンティグの長さが 96K であることを意味します。