RNA-Seq on The Cat Way

Bowtie2でRNA-seqデータをトランスクリプトームへマッピングする

Mon, 01 Jan 0001 00:00:00 +0000

RNA-Seq のデータをトランスクリプトームへマッピングする方法について述べる。RNA-Seqデータはスプライシング後のRNAをシーケンスするのが一般的である。そのためスプライシングされるイントロンとエクソンの境界にあるシーケンスリードは、ゲノムにはマッピングされない。そのためTopHatなどスプライスドアラインメントに対応したアルゴリズムを利用する必要がある。もうひとつの方法は、トランスクリプトームに対して、シーケンスリードをそのままマッピングすれば、この問題は考慮の必要がない。このデータは、トランスクリプトごとにマッピングされたリードを操作できるようになるので、トランスクリプトごとに、カウントやカバレッジを計算する際などには便利である。ただし、トランスクリプトームデータベースに含まれないトランスクリプトを考慮できない点に注意すること。

まずトランスクリプトームのデータベース (bowtie2 index) を作成する。このステップは一度やればよい。ここではマウスゲノム mm10 の座標系の RefSeq を利用する。

$ curl -O http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/mrna.fa.gz
$ gzip -d mrna.fa.gz
$ bowtie2-build mrna.fa mrna

次にbowtie2でシーケンスリードをトランスクリプトームにマッピングする。

$ bowtie2 -p 8 -x mrna -U hoge.fastq -S hoge.bowtie2.sam

参考までにファイルサイズの目安を書いておく。RNA-Seq (4 multiplex/lane, HiSeq 2000, v3)から得られた約11GBの sam ファイルを bam に変換すると、約2.6GBになる。これをソートすると、2.1GB程度のファイルになる。インデックスファイルは、15M程度である。

結果が sam で出力されるため、その後の解析や可視化のために、bam へ変換する必要がある。

中間ファイルを残さずにマッピングして sort された bam と bam index を作成する
#

$ bowtie -p 16 --chunkmbs 512 --verbose -m 1 \
 -1 hoge_1.fastq -2 -2 hoge_2.fastq mrna -S 2> bowtie.log \
 | samtools view -bSu - | samtools sort -m 10G - hoge.sort; \
 samtools index hoge.sort.bam

eXpress で RNA-seq データから発現量を計算する

Mon, 01 Jan 0001 00:00:00 +0000

トランスクリプートムを bowtie1 index にする。bowtie を利用して、その index file に fastq をマッピングし、eXpress で FPKM を計算する。

bowtie1 を入れる
#

$ wget "http://downloads.sourceforge.net/project/bowtie-bio/bowtie/1.1.1/bowtie-1.1.1-linux-x86_64.zip
$ unzip bowtie-1.1.1-linux-x86_64.zip
$ sudo mv bowtie-1.1.1-linux-x86_64 /usr/local

トランスクリプトームをダウンロード
#

$ wget http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/refMrna.fa.gz
$ gzip -d refMrna.fa.gz

インデックスを作成する
#

$ /usr/local/bowtie-1.1.1-linux-x86_64 --offrate 1 refMrna.fa refMrna

refMrna.ebwt のようなファイルがいくつかできる。

reference transcriptome

Mon, 01 Jan 0001 00:00:00 +0000

Reference transcriptomeについての論文

RNA-seq データからの rRNA除去

Mon, 01 Jan 0001 00:00:00 +0000

ここではリファレンスゲノムへのマッピングした bam file から、bedtools のなかの intersectBed を利用して、 rRNA 配列を除く方法を述べる。-abam は入力ファイル形式を、-b は除くべきゲノム領域を記載した bed file を指定する。ここでは rRNA 遺伝子が存在するゲノム領域の bed fileである。-v は -b で指定した領域に含まれないものだけ出力するという意味である。 grep -v を思い浮べると良いだろう。

RNA-seq は mRNAを転写量を定量するのが目的である。しかし、RNA-seq のデータには rRNA 由来の配列が含まれる。そもそも抽出した Total RNA には 99 %程度の rRNA が含まれてしまう。これを分子生物学実験的に取り除いてはいるが、そもそもrRNAが大量にあるため、除去効率が高くても多少の rRNA が残る。rRNAが残ってしまうと、その分シーケンスリードが割かれてしまうため、mRNAの転写量や構造予測をするために必要な有効シーケンスリード数に届かない遺伝子が出てくる可能性がある。よってrRNAが含まれてしまった量を定量することはサンプルの評価に重要である。

使い方

$ intersectBed -abam input.bam -b rRNA.ucsc.mm9.bed -v > output.bam

RNA-seqのリードをHISAT2でゲノムへ高速にマッピングする

Mon, 01 Jan 0001 00:00:00 +0000

HISAT2はTophat2の実装をしていた人が新しく開発した、高速でメモリ使用量の少ないRNA-seq用のマッピングツール。まず、リファレンスゲノムのHISAT用のインデックスファイルを、ダウンロードする。

wget ftp://ftp.ccb.jhu.edu/pub/data/hisat_indexes/mm10_hisat.tar.gz
tar zxvf mm10_hisat.tar.gz

*.bt2というファイルがmm10_hisa以下に解凍される。

自分でインデックスを作るには以下の通り。例は Ensemblからニワトリのゲノムを落してインデックスを作成している。

wget ftp://ftp.ensembl.org/pub/release-83/fasta/gallus_gallus/dna/Gallus_gallus.Galgal4.dna_rm.toplevel.fa.gz
gzip -d Gallus_gallus.Galgal4.dna_rm.toplevel.fa.gz
hisat2-build Gallus_gallus.Galgal4.dna_rm.toplevel.fa Gallus_gallus.Galgal4.dna_rm.toplevel

次に HISAT2 を用意しセットアップする。

wget http://www.ccb.jhu.edu/software/hisat/downloads/hisat-0.1.6-beta-Linux_x86_64.zip
unzip zxvf hisat-0.1.6-beta-Linux_x86_64.zip

実行する。

hisat2 -p 12 -q -x gallus_gallus.Galgal4.dna_rm.toplevel -U <(gzip -dc test.fastq.gz) -S test.sam

あとは samtools で bam にすればよい。
#

2015/02/08

RNA-seqのリードをSTARでゲノムへ高速にマッピングする

Mon, 01 Jan 0001 00:00:00 +0000

STARは高速なRNA-seq用のマッピングツール。

インストール
#

まずSTARをインストールする。

git clone git@github.com:alexdobin/STAR.git
make STAR

マニュアルのPDFも作りたい場合は以下のコマンドを入力する。ただし latexmk がいる。

make manual

マニュアルのPDFは以下に落ちているので必須ではない。

STAR Manual

使い方
#

(つづく)
#

2015/01/10

RNA-Seqのトランスクリプトへのリードカバレッジを確認する

Mon, 01 Jan 0001 00:00:00 +0000

RNA-Seq のリードがどのぐらい遺伝子領域をカバーしているかを確認する。これにより、RNA-Seqのライブラリ作成で、どの程度までRNAが捉えられているか確認できる。シーケンスやライブラリ作成の原理や実験上の問題により3’や5’端にカバレッジが偏る場合がある。 Whole Transcript Amplification (WTA) をする場合、オリゴdTによる逆転写を利用していれば 3’端に偏る場合がある。実験の狙い通りのカバレッジになっているかを確認することで実験の質を判断できる。

ここでは、RSeQC の genebody_coverage.py を利用する。

インストールする
#

$ tar zxvf RSeQC-2.4.tar.gz
$ cd RSeQC-VERSION
$ python setup.py install

$ export PYTHONPATH=/home/user/lib/python2.7/site-packages:$PYTHONPATH
$ export PATH=/home/user/bin:$PATH

以下のコマンドでエラーがでなければインストールに成功している。

$ python -c 'from qcmodule import SAM'

sailfishでアライメントなしに高速に発現定量する

Mon, 01 Jan 0001 00:00:00 +0000

インストール
#

sailfish は実行可能なバイナリ形式の配布があるが、ここではソースコードからコンパイルする方法を述べる。

まずは boost をインストールする。 boost とはプログラミング言語C++のライブラリで、sailfish はこのライブラリの機能を利用しているため、事前にインストールしておく必要がある。

wget http://downloads.sourceforge.net/project/boost/boost/1.60.0/boost_1_60_0.tar.bz2
tar jxvf boost_1_60_0.tar.bz2
./bootstrap.sh --prefix=/home/itoshi/opt/local
./b2 install

次に sailfish をインストールする。

git clone git@github.com:kingsfordgroup/sailfish.git
cd sailfish
mkdir build
cd build
cmake -DBOOST_ROOT=/home/itoshi/opt -DCMAKE_INSTALL_PREFIX=/home/itoshi/opt/local ..

TopHatでRNA-seq のデータをリファレンスゲノムへマッピングする

Mon, 01 Jan 0001 00:00:00 +0000

RNA-seq で読まれるシーケンスリードはスプライシング後の配列である。そのためリファレンスゲノムにマッピングするときには、リードがスプライスされる部分(スプライスジャンクション)を跨ぐことが多々ある。そのためジャンクションを考慮したマッピングが求められる。一般に spliced mapping と呼ばれる。 TopHat は良く使われる spliced alignment に対応したマッピングソフトである。ここでは、TopHat を用いて、fastq file に保存されたリードをリファレンスゲノムにマップする方法について述べる。

$ tophat -p 8 -r 100 -o output_dir bowtie2_indexes/mm9 input_1.fastq input_2.fastq

Paired end の場合は2つの fastq file を順に指定する。また、paired-end の場合は、-r を使う。これは、シーケンスされたリード間にどのぐらいの長さDNAがあるかを base pair で指定する。これはシーケンスライブラリを作成するときに、生物学的実験によって設定されているものである。そのため実験担当者に事前に問い合わせておくべきである。具体的には、Agilent社のBioAnalyzerでDNA断片の分布と平均が得られている。またシーケンスを何bpしたのかも聞いておく(これは fastq をみればわかるが)。

-r に指定する数値を計算する方法を述べる。例えば、典型的なライブラリでは、300 bp のDNA断片からライブラリを作成するが、これを 50 bp の Paired-end でシーケンスすると、その間にあるDNAの長さは 200 bp である。よって、-r 200 と指定する。

indexs/mm9 でははリファレンスゲノム配列が検索しやすようインデックス化されたファイルを指定している。これは bowtieに含まれる bowtie-build で行う。TopHat はマッピングの計算の部分には、Bowtie を利用している。-p には CPU core の数を指定することで、その数だけ並列計算が可能になる。

TopHat のデフォルトでは、ひとつのリードが複数箇所にマップされる場合は、mapping socre の高い順に 20 箇所まで許される設定になっている。best なスコアで、一箇所 (unique) にマッピングされるようにするには、-g 1 と指定する。一般的にはマルチヒットを許したほうが発現定量の値が良くなることが知られている。

遺伝子発現量(FPKM)を計算する

Mon, 01 Jan 0001 00:00:00 +0000

大量のリード配列から、遺伝子ごとにRNAの発現量を見積る必要がある。これには大別して方法が2つある。ひとつは既知の遺伝子領域に含まれたリード数を数え挙げる方法である。もうひとつは、既知の遺伝子領域の情報を使わず、リードを組み立てて(de novo assembl)、転写されたRNAの構造を予測した後、その発現量を定量する方法である。リファレンスゲノムの精度が高く、完全長cDNAやEST (Expressed Sequence Tag)のシーケンスプロジェクトが進んでいる生物種では、前者の方法が簡単である。後者の方法を取るのは、新規の遺伝子構造(アイソフォーム)や融合遺伝子の発見が目的である場合や、リファレンスとなるゲノムやトランスクリプトームが明らかではない場合である。

マッピングデータから遺伝子発現量を定量する

$ cuffdiff -p 24 ensembl_gene.gtf
 -L sample01,sample02,sample03,control01,control02,control03
 -o results 
 sample01.bam, sample02.bam, sample03.bam 
 control01.bam, control02.bam, control03.bam

重複した実験をコンマで区切るリファレンストランスクリプトームの GTF が正しいこと -L ではサンプルごとのラベルを指定する。これをちゃんと入れないと cummeRbund で困る

現在のバージョンでは cuffdiff は使わないので注意

発現が有意に異なる遺伝子を探す

Mon, 01 Jan 0001 00:00:00 +0000

cummeRbund つかってかんばれ的なこと書く。

RNA-Seq on The Cat Way

Bowtie2でRNA-seqデータをトランスクリプトームへマッピングする

中間ファイルを残さずにマッピングして sort された bam と bam index を作成する #

eXpress で RNA-seq データから発現量を計算する

bowtie1 を入れる #

トランスクリプトームをダウンロード #

インデックスを作成する #

reference transcriptome

RNA-seq データからの rRNA除去

RNA-seqのリードをHISAT2でゲノムへ高速にマッピングする

あとは samtools で bam にすればよい。 #

RNA-seqのリードをSTARでゲノムへ高速にマッピングする

インストール #

使い方 #

(つづく) #

RNA-Seqのトランスクリプトへのリードカバレッジを確認する

インストールする #

sailfishでアライメントなしに高速に発現定量する

インストール #

TopHatでRNA-seq のデータをリファレンスゲノムへマッピングする

遺伝子発現量(FPKM)を計算する

発現が有意に異なる遺伝子を探す

中間ファイルを残さずにマッピングして sort された bam と bam index を作成する
#

bowtie1 を入れる
#

トランスクリプトームをダウンロード
#

インデックスを作成する
#

あとは samtools で bam にすればよい。
#

インストール
#

使い方
#

(つづく)
#

インストールする
#

インストール
#