品質管理 on The Cat Way

bed file の重複領域をマージして行数を減らす

Mon, 01 Jan 0001 00:00:00 +0000

library("GenomicRanges")

x <- read.table(hoge.bed)
y <- GRanges(seqname = Rle(x[,1]), ranges = IRanges(start = x[,2], end = x[,3]))
y.reduced <- reduce(y)

write.table(file = "hoge.bed", as.data.frame(y.reduced)[,1:3], quote = F, sep = "\t", row.names=F, col.names=F)

bed file を染色体ごとのファイルへ分割する

Mon, 01 Jan 0001 00:00:00 +0000

$ cat hoge.bed
chr1 100 199
chr1 200 299
:
chr2 100 199
chr2 200 299
:

のようなファイルを染色体ごとに分割する。

awk '{print $0 >> $1".bed"}' hoge.bed

これは awk というツールを使っています。パターン {アクション} は特定のパターンにマッチしたら、括弧内のアクションを実行するための記法です。パターンが記載されていない場合は、すべての行を対象に処理をおこないます。 print $0 を表示しています。$0 は1行を意味します。$1は入力を空白文字で区切ったときの行番号です。

chr1.bed, chr2.bed,… がディレクトリに保存されます。

DNA配列のGC%を計算する

Mon, 01 Jan 0001 00:00:00 +0000

multi fasta 形式で保存されたDNAの GC content を計算するには、EMBOSSのgeeceeを利用すると簡単である。一般的なコンピュータでなら、マウスの全転写産物のGC contentの計算が、8秒程度で終了する。例では、ensmust.67.fa に保存されているmRNA配列のGC%を計算し、ensmust.67.gc.txt に保存する。

$ geecee -sequence ensmust.67.fa -outfile ensmust.67.gc.txt

出力の中身は以下のようになっている。

$ cat ensmust.67.gc.txt
#Sequence GC content
ENSMUST00000000096 0.53
ENSMUST00000000137 0.40
ENSMUST00000000109 0.43
ENSMUST00000000127 0.53

長さとGC content の両方が欲しい場合は infoseq を利用したほうがよい。

$ infoseq -heading N -usa N -database N -type N -description N -accession N -sequence ensmust.67.fa | perl -lpe "s/ +$//; s/ +/\t/g" > ensmust.67.infoseq.txt

FASTA/FASTQ/SAM/BAMの詳しいステータスを得る

Mon, 01 Jan 0001 00:00:00 +0000

samstat はFASTA/FASTQ/SAM/BAMから、nucleotide composition, length distribution, base quality distribution, mapping statistics, mismatch, insertion and deletion error profiles, di-nucleotide and 10-mer over-representation を計算するツールである。

インストール:

$ wget http://downloads.sourceforge.net/project/samstat/samstat.tgz
$ tar zxvf samstat.tgz
$ cd samstat/src
$ make
$ sudo cp ./samstat /opt/local/bin/
$ rehash

実行方法:

$ samstat test.bam

結果は test.bam.html というファイルにhtml5形式で出力される。このファイルを閲覧するには通常のWebブラウザを使う。表示されるグラフは JavaScript だけで生成されているので、画像ファイルが出力されるわけではない。

FASTQ format について

Mon, 01 Jan 0001 00:00:00 +0000

FASTQ はシーケンス配列とそのクオリティを記載するためのファイルフォーマットである。ファイル形式はテキストファイルなので、Unix/Linux の less コマンドやテキストエディタで見ることができる。イルミナ社のシーケンサーやNCBI Short Read Archive などのデータベースでもこのフォーマットが採用されており、多くの解析ソフトがこの形式を前提としている。 FASTQファイルはひとつのシーケンスリードの情報が4行単位で表現され、その単位が一枚のファイルに連らなっているファイルである。@で始まる最初の行は、シーケンスリードの情報が含まれたヘッダー行であり、FASTA形式の “>“ に値すると考えるとわかりやすい。次の行がリーケンスリードの塩基配列そのもので、ATGCNからなる。3行目も1行目と同じリードの情報を記載する行で+から始まる。大抵の場合は、単に “+”か、最初の行と同じ文字列になっている。4行目がシーケンスクオリティのスコアが符号化されたものである。

イルミナ社の FASTQ file は1行目の意味について述べる。イルミナ社のFASTQ file はシーケンサーが出力するバイナリファイルである BCL file から Casava というソフトウェアで生成する。Casava はイルミナ社が提供するシーケンサーに付属するソフトウェアである。Casava のバージョンによって、一部フォーマットが異なるのでそれについても解説する。

まず、Casava 1.8 より前の FASTQ file について解説する。@で始まるヘッダー行は”:”でセパレートされている。まず最初のフィールド HWI-ST554_0072 はシーケンサーの機械につけられたIDを示す。次の 8 はフローセルのレーン番号を示し、HiSeq, GAIIx シリーズでは1-8まである。フローセルのひとつのレーンは、tile に分けられているが、1はそのタイル番号を表している。1131, 1901 はそれぞれ tile 内にあるクラスターの x, y 座標を表わす。# の次の番号はマルチプレックス番号を示し、0の場合はマルチプレックスされていないことを示す。/の後の数字が 1 なら single-end, 2の場合は paired-end, あるいは、mate-pair read であることを示す。

@HWI-ST554_0072:8:1:1131:1901#0/1
TCCCAAGGAAGGCGTGCGTGTGTTTGAGTACTTTCAAAACACACTTCCTAC
+HWI-ST554_0072:8:1:1131:1901#0/1
fcfefffffaefff^edeceZccccddd`dffeefffffffef_deffdff

図. HiSeqから出力されたFASTQ file の例 (Casava 1.8より前)

Casava 1.8 以降の FASTQ file について解説する。@で始まるヘッダー行の形式が変更されている。まず、HWI-1KL121 がシーケンサにユニークに振られた機器IDである。これは以前のバージョンと変更はない。次の 46 は run ID でシーケンスを実行するたびに割り振られる。D0MVAACXX は flowcell に割り振られた ID である。以降については以前のバージョンと同じ意味である。1.8以降のヘッダーはスペースを挟んで、さらに情報が追加されている。最初の数字が 1 なら single-end, 2 なら paired-end である。次の文字は悪いリードを省くためのフィルターの結果を示しており、Y だと悪いリード、Nだとそれ以外という意味である。その次の数字は、XXX???を示す。最後の塩基はインデックスのシーケンスを表わしている。

FastQCによるシーケンス実験の品質チェック

Mon, 01 Jan 0001 00:00:00 +0000

FastQC はシーケンス実験の品質をチェックするために便利がプロットを生成するプログラムである。サイクル(リードの塩基)あたりのシーケンスクオリティや、クオリティスコアの分布、同一シーケンスリードの重複率などを計算しプロットしてくれる。シーケンスクオリティはシーケンス実験の成否を、同一リードの重複率は、ライブラリ作成時の PCR バイアスなどを評価するために重要な指標である。重複率が高い場合は、PCRサイクルを減らすことで、ダイナミックレンジの向上を図ることができる。

インストール:

$ curl -O http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/fastqc_v0.10.0.zip
$ unzip fastqc_v0.10.0.zip
$ sudo cp fastqc_v0.10.0 /opt
$ sudo ln -s /opt/fastqc_v0.10.0 /opt/fastqc
$ emacs -nw ~/.zshenv
$ export PATH=$PATH:/opt/fastqc

FastQCをコマンドラインから利用する
#

実験が多くなるとGUIから実行するのが面倒になる。FastQCはコマンドラインからの実行にも対応している。以下のコマンドは test.fastq に対して、fastqc を実行し、結果を test ディレクトリに保存するというコマンドである。-t オプションは CPU を利用する数を指定する。この場合は 8 CPUs を使って計算する。

$ fastqc -t 8 test.fastq -o test

FastQC は fastq file だけでなく、gzip (*.gz)で圧縮されたファイルに対しても実行可能である。結果はウェブブラウザで閲覧できる html ファイル、テキストファイル、html ファイルが圧縮された zip ファイルの3種類出力される。

featureCount で bam と gtf からリードカウントを得る

Mon, 01 Jan 0001 00:00:00 +0000

featureCountは、bamからの高速なリードカウントツール。 Rやコマンドラインから実行できる。コマンドライン版は Subreadに含まれている。R版は、Rsubreadに実装されている。

featureについて
#

featureCount は feature ごとにリードをカウントするツールである。feture とは、リファレンス配列上のある区間のこと。その feature をまとめたセットをmeta-featureと呼んでいる。 RNA-seq の場合は、feature は exon であるし、meta-feature は gene や transcript になる。

コマンドライン版 Subread
#

インストール
#

wget http://downloads.sourceforge.net/project/subread/subread-1.5.0-p2/subread-1.5.0-p2-source.tar.gz
cd subread-1.5.0-p2-source/src
make -f Makefile.Linux # 正常に終了すると ../bin に実行ファイルができる
cd ../../
cp -a subread-1.5.0-p2-source $HOME/opt/local
export PATH=$HOME/opt/local/subread-1.5.0-p2-source/bin:$PATH

featureCount でリードカウントを得る
#

まず遺伝子アノテーションファイルを得る。

samtools で sam/bam ファイルを操作する

Mon, 01 Jan 0001 00:00:00 +0000

samファイルはシーケンスリードがゲノムのどの位置にあるかを記述するファイル形式であり、様々なシーケンス解析のツールで利用されている。samファイルはテキスト形式のデータであり、ファイルサイズが大きくなったり、ソフトウェアから効率的に個々のデータにアクセスすることが難しい。そこでbam形式というバイナリ形式のファイルを作成することで、ファイルサイズの縮小、アクセスの高速化、リードのゲノム座標でのソートによるアクセスの効率化が期待できる。bai形式は bam のインデックスファイルで、このファイルをプログラムが参照することで、効率的に bam file にアクセスできる。

samtools 1.x 系のインストール
#

HTSlibが必要なので先にインストールする。

wget https://github.com/samtools/htslib/releases/download/1.3/htslib-1.3.tar.bz2
tar jxvf htslib-1.3.tar.bz2
cd htslib-1.3
./configure --prefix=$HOME/opt/local
make 
make install
export LD_LIBRARY_PATH=$HOME/opt/local/lib:$$LD_LIBRARY_PATH # 必要なら

次に samtools をインストールする。

wget https://github.com/samtools/samtools/releases/download/1.3/samtools-1.3.tar.bz2
tar jxvf samtools-1.3.tar.bz2
cd samtools-1.3
./configure --prefix=$HOME/opt/local
make 
make install
export PATH=$HOME/opt/local/bin:$$PATH # 必要なら

sam を bam に変換し index を作成する
#

シーケンスリードのゲノムマッピングツールであるbowtie2や HISAT2, Tophat もsamファイルを出力する。これをbam形式変換するには、samtoolsを利用することで簡単にできる。

アダプター配列除去 FASTX_Toolkit fastx_clipper

Mon, 01 Jan 0001 00:00:00 +0000

short-read な FASTQ/A をいろいろいぢるツール群である FASTX_Toolkit に含まれるコマンドのひとつである fastx_clipper。(→トリムしたい場所が決まっている場合は fastx_trimmer を使う)。後に紹介する Galaxy に組み込み済みである。ちなみにそれぞれのコマンドの動作は Galaxy 内の解説にある図を見るのが良い。

インストール: まず、http://hannonlab.cshl.edu/fastx_toolkit/download.html からpre-compiled binary 版を落して、/usr/local/bin などに入れる PATH を通す。本体とは別に実行に必要とされるプログラムは、libgtextutils-0.6, PerlIO::gzip, GD::Graph::bars, gnuplot version 4.2 or newer であるので、事前に入れておく。-l でリードの最小サイズ、-M で一致する最小の長さを指定する。illumina CASAVA 1.8 以降の FASTQ や Sanger FASTQ には -Q 33 を指定する。それ以前で illumina 1.3 以降の FASTQ の場合は、-Q 64 を指定すること。トリムした配列だけ出力するには -C を、trim されなかった配列を出力するには、-c を指定する。なにも指定しなければ、両方が表示される。

使いかた:

$ fastx_clipper -l 18 -M 12 -Q 33 -v -i input.fastq -a ACACTCTTTCCCTACACGACGCTGTTCCATCT -o output.fastq > input.fastq.log

アダプター除去 TagDust
#

概要理研OSCで開発されたシーケンスアダプター配列除去ソフト。入出力形式は fastq/a が使える。アダプター配列を multi fasta 形式で入力できるのが地味に便利である。なぜなら複数のアダプタ/プライマーを1回の実行で除去できるためである。これに対応しているものがなかなかない。アダプター/プライマー配列の検索には Muth–Manber algorithm (Approximate multiple string search) を利用している。FDRを調節することで除去の強さを指定できる。ライセンスはGPL3

シーケンスリードのカバレッジ(被覆率)を計算する

Mon, 01 Jan 0001 00:00:00 +0000

bedtools で計算する方法 (bam を bed形式に変換する)
#

bamからカバレッジを計算し、bedファイルを作成する。bedはテキストファイルなので、bamのサイズ(リード数)によっては、かなり巨大なファイルができる。遺伝子単位や限られたゲノム領域のみについて計算し、自作のプログラムや表計算ソフトで、処理したいときになどに利用できる。全ゲノムレベルのカバレッジを計算したい場合は、bigwigへの変換をお勧めする。

インストール

$ curl -O //github.com/arq5x/bedtools2/releases/download/v2.25.0/bedtools-2.25.0.tar.gz
$ tar zxvf bedtools-2.25.0.tar.gz
$ cd bedtools2/
$ make
$ cd ..
$ cp -a bedtools2 $HOME/opt/local

設定

$ emacs -nw ~/.zshenv
export PATH=$HOME/opt/local/bedtools/bin:$PATH
$ source ~/.zshenv

ここでは、bed ファイル (Pou5f1.bed) に記述された座標にマップされたリードのカバレッジを bam ファイルから(hoge.bam) 計算する。

$ coverageBed -d -abam hoge.bam -b Pou5f1.bed > Pou5f1.TruRNA-Seq01.coverage.bed

RSeQCで計算する方法 (bam を wig に変換する)
#

wig file はカバレッジのデータを保存するためによく使われるファイル形式である。ここでは、bam から wig を計算する方法を述べる。RNA-seqデータのQuality checkのツール集RSeQCに含まれる、bam2wig.pyを利用する。

シーケンスクオリティが低いのリードを除く

Mon, 01 Jan 0001 00:00:00 +0000

シーケンスクオリティが低いリードを事前に除いておくことによって、リファレンスゲノムマッピングやアセンブルの精度や計算コストを軽減することができる。またそれらの解析の精度を純粋に評価するためにも、シーケンスクオリティの問題を分けるのが重要なことである。

ここでは、FASTAX toolbox の fastq_quality_filtter を利用して、fastq file からクオリティが低いリードを除く。

$ fastq_quality_filter -Q 33 -q 30 -p 75 -i input.fastq -o output.fastq

このコマンドでは、quality value が 30 以下の quality value がリード全長の 75% を下回ったときにそのリードを除く。-Q 33 は CASAVA 1.8 で作られた fastq file を扱うためのオプションである。

Quality score については以下を参照せよ。

FASTQ format - Wikipedia

ゲノムのリピート領域にマッピングされたリードを除く

Mon, 01 Jan 0001 00:00:00 +0000

ゲノムには大量のリピート配列が含まれておりヒト、マウスのゲノムはその約半分がリピートに関連した領域である。シーケンスされたリードをこのような領域にはマッピングすることは、その位置を一意に決めることができないので、困難である。一般的には、複数箇所にマップされるリードを、重複領域にランダムに配置する方法(リード数に応じて確率的に配置する方法が良いとされている)と、データからリピート領域を除いて解析を進める方法の2通りがある。転写因子の ChIP-seq ではリピート領域にかなり高いピークが形成され、正規化などのノイズになるため、リピート領域を最初から解析に含めない方法が取られることがある。この場合は、マッピング後、peak calling の前にこのような処理を行うことになる。

方法は、RNA-seq データから rRNA を除く方法と同じである。

なぜアダプタやプライマー配列を除く必要があるのか

Mon, 01 Jan 0001 00:00:00 +0000

シーケンスの際に、読みたいインサートを突き抜けてアダプタ/プライマ配列が現われることがある。特にイルミナ社のシーケンスはエラー少ないものの、そのなかでもよくあるエラーがこのアダプタ/プライマ配列の混入である。インサート長が短い場合や、インサートがみあたらず、アダプターダイマーのような配列に由来すると考えられる。

このような配列は mapping の前に除いておいたほうが良いとされている。しかし mapping すると、その配列はゲノムに正しくマップされないため、マッピングスコアなどにより、実質的にはその後の解析に含まれないようにするすることも可能である。マッピングの計算コストがそれほどかからなくなってきた現在、先にこのような配列をフィルタする必要があるのだろうか。

答えとしては、それでも除いたほうが良い、である。なぜなら、マッピングされなかった配列がどのような理由でマッピングできなかったのかを知ることは、ライブラリの質を評価することに繋がるためである。最初にこれらの配列をフィルタすることで、それがどのぐらい含まれているのかを知り、それを実験者にフィードバックすることが重要である。仮にアダプタ配列ばかりが読まれると、リードがアダプタDNA断片に奪われてしまうため、期待されるリード読まれる機会が減る。これによりシグナルノイズ比が悪くなる。これは後の解析の成否にかかわることである。このような場合は、読むべきDNA断片とアダプタ量の比率を実験的に調整したり、アダプタダイマーを除くサイズセレクションの精度を上げたり、などの実験的に工夫が必要になる。このような理由に、自分のシーケンス実験のヘルスチェックのために、フィルタリングを行い、その統計情報を持つべきなのである。

ランダムにリードを取り出す

Mon, 01 Jan 0001 00:00:00 +0000

リード数に応じてシーケンスの深さ (depth) が決まる。この depth は RNA-seq, ChIP-seq などのタグシーケンシングではその精度に関わる。具体的には、depth が深いほど、検出できる遺伝子の数やRNAの発現量やタンパク質-DNA結合量ダイナミックレンジが向上する。自分のサンプルや生物がどのぐらいのリード数が必要であるかを知ることは、正確でかつ、無駄なコストをかけずに実験するには重要なことである。そこで、リードをランダムに除いた系列、例えば、0.1, 1, 10, 100M リードなどを用意して解析することで、検出遺伝子やダイナミックレンジの評価を行うことが重要である。ランダムに配列を除くことを、ダウンサンプリング、あるいは、ランダムサンプリングと呼び、取り出されたリード群を、ダウンサンプル、サブサンプルなどと呼ぶ。

BAM file から一定の確率でランダムにリードを取り出す
#

ここでは、Picard (http://picard.sourceforge.net/) の DownsampleSam.jar を使って、bam file からランダムに配列を除く方法を述べる。すでにマッピング済みの配列からファイルを除くにはことを想定する。

$ java -jar /opt/picard-tools/DownsampleSam.jar INPUT=input.bam OUTPUT=output.bam PROBABILITY=0.2

ここでは、全体のリードのうち 20% をランダムに取り出している。注意したいのは、tophat2, bowtie2 などで、ひとつのリードを複数の箇所にマッピングされた(いわゆる multi hits)ような bam file を利用する場合は、割合ではなくリードの絶対数を指定しなければならない。それについては次の項を参照すること。

BAM file から一定の数のリードをランダムに取り出す
#

DwonsampleSam.jar はリードを取り出す確率を指定することはできるが、取り出したい数を直接指定することはできない。そこで、bamtools を使って数を直接指定してリードを取り出す。

異なるバージョンのゲノム座標を変換する: liftover

Mon, 01 Jan 0001 00:00:00 +0000

古い論文のデータと比較しなければならない場合などの、ゲノムのバージョンが古い座標系を使っている場合がある。そこで liftover を使い、より新しいバージョンのゲノムの座標系に変換する。

インストールここでは、マウスゲノムの mm8 から mm9 へ座標変換する。Linux が前提ですが、ほかでもかわりないです。変換されるファイルの形式は bed が基本だが、オプションでほかのファイルにも対応できる。bed ファイルでも browse 行や track 行があるとエラーになるので除いておく。

$ curl -O http://hgdownload.cse.ucsc.edu/goldenpath/mm8/liftOver/mm8ToMm9.over.chain.gz
gzip -d mm8ToMm9.over.chain.gz

ほかのゲノム間を比較したい場合は、golden path のダウンロードサイトの下に liftOver というディレクトリがあって、そこに変換テーブル (*.chain) があります。

変換プログラムをダウンロードしてインストールします。

$ curl -O http://hgwdev.cse.ucsc.edu/~kent/exe/linux/liftOver.gz
$ chmod +x ./liftOver 
$ sudo cp ./liftOver /usr/local/bin/

使い方では変換してみましょう。mm8.bed が変換したい mm8 なゲノム座標のファイルで、mm9 な座標に変換後 mm9.bed に保存されます。unmapped.txt は座標変換が失敗したエントリが保存されます。 start と end が同じ座標のエントリは変換が失敗するのであらかじめ、どちらかの座標に +1 しておくこと。

$ liftOver mm8.bed mm8ToMm9.over.chain mm9.bed unmapped.txt

異なる生物間のゲノム座標を変換する: liftover

Mon, 01 Jan 0001 00:00:00 +0000

liftOver はもともとゲノムバージョン間の座標を変換するプログラムであったが、オプションを駆使することで種間の座標を変換することも可能である。

ポイントとなるオプションは複数箇所にヒットを許す -multiple、最小チェインサイズを指定する -minSizeT, -minSizeQ の2つである。また -minMatch のデフォルトが 0.95 であるが、種間比較で利用するときは 0.01 など低い値を指定する。例えば、ヒトゲノムのENCODE領域 (0.5-1.8MB)では、-minSizeT=4000 とし、哺乳類では -minSizeQ=20000、鳥類や魚類ゲノムでは -minSizeQ=1000 にすると良いとされている。

品質管理 on The Cat Way

bed file の重複領域をマージして行数を減らす

bed file を染色体ごとのファイルへ分割する

DNA配列のGC%を計算する

FASTA/FASTQ/SAM/BAMの詳しいステータスを得る

FASTQ format について

FastQCによるシーケンス実験の品質チェック

FastQCをコマンドラインから利用する #

featureCount で bam と gtf からリードカウントを得る

featureについて #

コマンドライン版 Subread #

インストール #

featureCount でリードカウントを得る #

samtools で sam/bam ファイルを操作する

samtools 1.x 系のインストール #

sam を bam に変換し index を作成する #

アダプター配列除去 FASTX_Toolkit fastx_clipper

アダプター除去 TagDust #

シーケンスリードのカバレッジ(被覆率)を計算する

bedtools で計算する方法 (bam を bed形式に変換する) #

RSeQCで計算する方法 (bam を wig に変換する) #

シーケンスクオリティが低いのリードを除く

ゲノムのリピート領域にマッピングされたリードを除く

なぜアダプタやプライマー配列を除く必要があるのか

ランダムにリードを取り出す

BAM file から一定の確率でランダムにリードを取り出す #

BAM file から一定の数のリードをランダムに取り出す #

異なるバージョンのゲノム座標を変換する: liftover

異なる生物間のゲノム座標を変換する: liftover

FastQCをコマンドラインから利用する
#

featureについて
#

コマンドライン版 Subread
#

インストール
#

featureCount でリードカウントを得る
#

samtools 1.x 系のインストール
#

sam を bam に変換し index を作成する
#

アダプター除去 TagDust
#

bedtools で計算する方法 (bam を bed形式に変換する)
#

RSeQCで計算する方法 (bam を wig に変換する)
#

BAM file から一定の確率でランダムにリードを取り出す
#

BAM file から一定の数のリードをランダムに取り出す
#