< Aritalab:Lecture | Programming(Difference between revisions)
|
|
Line 63: |
Line 63: |
| </td></tr> | | </td></tr> |
| </table> | | </table> |
− | == ゲノム解析に必要なツールとデータ==
| |
− | conda を使って以下のように準備しておきます。
| |
− | <pre>
| |
− | (base) $ conda install -y -c bioconda fastqc fastp megahit seqkit
| |
− | ...
| |
− | (base) $ curl -O ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/DRA002/DRA002643/DRX02218
| |
− | 6/DRR024501_1.fastq.bz2
| |
− | (base) $ curl -O ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/DRA002/DRA002643/DRX02218
| |
− | 6/DRR024501_2.fastq.bz2
| |
− | ...
| |
− | (base) $ bunzip2 *.bz2
| |
− | ...
| |
− | >seqkit stats *.fastq
| |
− | (base) $ seqkit stats *.fastq
| |
− | file format type num_seqs sum_len min_len avg_len max_len
| |
− | DRR024501_1.fastq FASTQ DNA 2,971,310 745,798,810 251 251 251
| |
− | DRR024501_2.fastq FASTQ DNA 2,971,310 745,798,810 251 251 251
| |
− | </pre>
| |
Latest revision as of 13:49, 1 June 2022
[edit] Windows・MacでUnix環境を使う
Mac は Unix ライクなコンソールを備えていますが、Windowsは Ubuntu (LinuxOSの一種)をインストールする必要があります。
まず以下のサイトのとおりに、Windows 上に WSL をインストールします。これで Ubuntu のコンソールを使えるようになります。
- [1]
次に miniconda というパッケージマネジャーをインストールします。Minicondaは様々なソフトウェアを Linux 上に導入する conda パッケージの最小版になります。
- [2]
Windows用の .exe ファイルをインストールすると windows powershell 用に環境が整ってしまいます。WSLで導入した Ubuntu から実行するには以下のようにします。
> curl -O https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
...
> bash Miniconda3-latest-Linux-x86_64.sh
...
これで miniconda が入ります。
[edit] Unixコマンドの基本
コマンドのオプションや詳細は、"man コマンド名"や"コマンド名 --help"と打って調べましょう。
- ファイルシステム
- ls
- 指定されたディレクトリのファイル名を表示
- cd
- ディレクトリ間を移動
- pwd
- 現在のディレクトリを表示
- cp
- ファイルをコピー
- mv
- ファイル(名)を移動
- rm
- ファイルやディレクトリを削除
- mkdir
- ディレクトリを作成
- rmdir
- ディレクトリを削除 (rmでも削除できる)
- touch
- 空のファイルを作成
|
- テキストファイル操作
- cat
- 指定されたファイルを連結して標準出力に出す
- echo
- 指定された文字列を標準出力に出す
- less
- 指定されたファイルを表示
- wc
- ファイルの文字数、ワード数、行数
- grep
- 指定ファイルから、キーワードを含む行を検索
- sort
- ファイルをアルファベット順や数の大きさ順に行単位でソート
- タブ区切りのテキストをソートしたい時は$TAB指定
- TAB = 'echo -e "\t"'
sort -t"$TAB" file
- diff
- 引数を二つ指定し、ファイル同士の違いを表示
- cut
- 各行の指定箇所を切り出す
- head
- ファイルの先頭10行を出力
- tail
- ファイルの末尾10行を出力
|
- ファイル圧縮
- gzip
- ファイルを.gz拡張子のついた形に圧縮
- 解凍するには gunzip または gzip -d
- tar
- アーカイブファイルを作成
- 作成は tar cvf [tarfile] [file1] [file2] ...
- 展開は tar xvf [tarfile]
- その他
- *
- 空文字を含む任意の文字列
- ?
- 任意の一文字
- |
- パイプ。左側のコマンドの標準出力を、右側のコマンドの標準入力につなぐ
- >
- リダイレクト。左側のコマンドの標準出力をファイルに書き出す
|