ChIP-Seq on The Cat Way

2つのTF ChIP-seq の共通結合領域を探す

Mon, 01 Jan 0001 00:00:00 +0000

異なる2つの転写因子の結合領域がどのぐらい重なっているかを検討することで、転写因子の同じ場所で協調、あるいは競合して働いているかどうかを知ることができる。そこで2つの ChIP-seq 解析から得られたピークの重なりを探索する方法について述べる。

> library(“ChIPpeakAnno”)
> oct4.df <- read.table("results/macs2/Oct4_peaks.bed", header=F)
> sox2.df <- read.table("results/macs2/Sox2_peaks.bed", header=F)
> oct4.gr <- BED2RangedData(oct4.df, header=FALSE)
> sox2.gr <- BED2RangedData(sox2.df, header=FALSE)
> oct4.sox2.overlap <- findOverlappingPeaks(oct4.gr, sox2.gr)

まずファイルからbed fileを入力し、そのデータフレームを BED2RangedData で RangedData というデータ構造に変換する。findOverlappingPeaks は2つのRangedData の共通した行を探す関数である。

2つのTF ChIP-seq の共通結合領域をカウントしベン図を描く
#

> library(“ChIPpeakAnno”)
> oct4.df <- read.table("results/macs2/Oct4_peaks.bed", header=F)
> sox2.df <- read.table("results/macs2/Sox2_peaks.bed", header=F)
> oct4.gr <- BED2RangedData(oct4.df, header=FALSE)
> sox2.gr <- BED2RangedData(sox2.df, header=FALSE)
> makeVennDiagram(RangedDataList(oct4.gr, sox2.gr), NameOfPeaks=c("Oct4", "Sox2"), totalTest=3000)

BowtieでChIP-seq のデータをリファレンスゲノムにマッピングする

Mon, 01 Jan 0001 00:00:00 +0000

RNA-Seq と同じ。インデックスファイルを対象のゲノムに置き換えること。

Bowtie2でRNA-seqデータをトランスクリプトームへマッピングする

deeptools

Mon, 01 Jan 0001 00:00:00 +0000

SciPy, matplotlib をそれぞれセットアップをしておく。

インストール
#

pip install deeptools --user

~/.local/bin 以下にある。

MACS2を利用してChIP-Seqのピークを探す

Mon, 01 Jan 0001 00:00:00 +0000

MACS2、はおそらくもっとも良く使われている peak caller である MACS のベータバージョンである。

インストール: Python 2.6 以上、Cython 0.14.1以上, numpy が必要。

numpy のインストール:

$ wget "http://downloads.sourceforge.net/project/numpy/NumPy/1.6.1/numpy-1.6.1.tar.gz"
$ tar zxvf numpy-1.6.1.tar.gz 
$ cd numpy-1.6.1
$ python setup.py build --fcompiler=gnu
$ sudo python setup.py install

MACS2のインストール:

$ w3m http://github.com/downloads/taoliu/MACS/MACS-2.0.9-1.tar.gz
$ tar zxvf MACS-2.0.9.tar.gz
$ cd MACS-2.0.9/
$ sudo python setup.py install --prefix=/opt
$ export PYTHONPATH=/opt/lib/python2.6/site-packages/:$PYTHONPATH

実行例:

$ macs2 callpeak -t results/bowtie/Sox2/Sox2.bowtie.sort.rmRepeat.bam -c results/bowtie/GFP/GFP.bowtie.sort.rmRepeat.bam -f BAM -g mm -n Sox2 -B -q 0.01 --shiftsize 100

-t はターゲットとするTFの bam ファイル、-c はネガティブコントロールとなるサンプルの bam ファイル、-f は入力ファイルの形式を指定、-g はゲノムサイズを指定、-n は任意の実験名、-q は q-value の閾値を指定する。-B は extended fragment pileup, local lambda and score tracks を graphBed file に保存するオプションである。-g のゲノムサイズ指定には数値による指定と生物名を指定することができ、ヒトゲノムは、hs, マウスゲノムは mm, 線虫ゲノムが ce, ハエゲノムが、dm である。

Peakを近傍に持つ遺伝子によく観察されるGene Ontolgyを挙げる

Mon, 01 Jan 0001 00:00:00 +0000

> library(“ChIPpeakAnno”)
> library(org.Mm.eg.db)
> 
> oct4.df <- read.table("results/macs2/Oct4_peaks.bed", header=F)
> sox2.df <- read.table("results/macs2/Sox2_peaks.bed", header=F)
> oct4.gr <- BED2RangedData(oct4.df, header=FALSE)
> sox2.gr <- BED2RangedData(sox2.df, header=FALSE)
> 
> oct4.go <- getEnrichedGO(oct4.anno, orgAnn="org.Mm.eg.db", maxP=0.01, multiAdj=TRUE, minGOterm=10, multiAdjMethod="BH")
> oct4.bp.goterm <- unique(oct4.go$bp[order(oct4.go$bp[,10]),c(2,10)])
> oct4.bp.goterm[1:10,]

getEnrichedGo の引数 multiAdjMethod で指定できる多重検定補正の手法は以下の通りである。

Bonferroni: Bonferroni single-step adjusted p-values for strong control of the FWER.
Holm: Holm (1979) step-down adjusted p-values for strong control of the FWER.
Hochberg: Hochberg (1988) step-up adjusted p-values for strong control of the FWER (for raw (unadjusted) p-values satisfying the Simes inequality).
SidakSS: Sidak single-step adjusted p-values for strong control of the FWER (for positive orthant dependent test statistics).
SidakSD: Sidak step-down adjusted p-values for strong control of the FWER (for positive orthant dependent test statistics).
BH: adjusted p-values for the Benjamini & Hochberg (1995) step-up FDR controlling procedure (independent and positive regression dependent test statistics).
BY: adjusted p-values for the Benjamini & Yekutieli (2001) step-up FDR controlling procedure (general dependency structures)

Position weight matrix から Sequence Logo を描く

Mon, 01 Jan 0001 00:00:00 +0000

ピーク内もモチーフを発見した後にそのモチーフ配列とその position weight matrix (PWM)が出力される。PWMは”Sequence Logo”という可視化方法によってモチーフ配列を表示するのが一般的である。ここでは「ピーク内に頻出するDNAモチーフ配列を発見する」の PWMを利用する。

> library(“seqLogo”)
> pdf(“oct4.motif01.pdf”)
> seqLog(oct4.motif.pwms[[1]])
> dev.off()

Position weight matrix を既知モチーフデータベースに対して検索する

Mon, 01 Jan 0001 00:00:00 +0000

予測した PWM が既知のモチーフに一致するかを検索する。これによって新規モチーフなのか、既知のモチーフかを分けることができる。またPWMや sequence logo をみていても、それが既知のタンパク質結合サイトかどうかを判断することは難しいため、既知のデータベースと比較するのがよい。ここではデータベースとの比較、比較結果の出力について述べる。

> library("MotIV")
> path <- system.file(package="MotIV")
> jaspar <- readPWMfile(paste(path,"/extdata/jaspar2010.txt",sep=""))
> jaspar.scores <- readDBScores(paste(path,"/extdata/jaspar2010_PCC_SWU.scores",sep=""))
> oct4.jaspar <- motifMatch(inputPWM = oct4.motif.pwms, align = "SWU", cc = "PCC", database = jaspar, DBscores = jaspar.scores, top=5)
 Ungapped Alignment
 Scores read
 Database read
 Motif matches : 5
> summary(oct4.jaspar)
 Number of input motifs : 4 
 Input motifs names : m1 m2 m3 m4 
 Number of matches per motif: 5 
 Matches repartition : 
 SP1 EWSR1-FLI1 SPI1 SPIB INSM1 MZF1_1-4 
 3 2 2 2 1 1 
PPARG::RXRA Pax4 Pou5f1 RREB1 SOX10 SOX9 
 1 1 1 1 1 1 
 Sox2 Sox5 Tal1::Gata1 
 1 1 1 
 Arguments used : 
 -metric name : PCC 
 -alignment : SWU 
> pdf("results/oct4.motif.logo.pdf")
> plot(oct4.jaspar, ncol = 2, top = 5, rev = FALSE, main = "Logo", bysim = TRUE)
> dev.off()

summit からのモチーフまでの距離分布を描く

Mon, 01 Jan 0001 00:00:00 +0000

summit からモチーフまでの距離を計算し、そのヒストグラムを描く。もしChIPに関係のないモチーフ配列の場合、その分布は一様分布になるはずである。しかし、実際に結合に関与しているモチーフ配列ならばその分布はsubmitにその平均値を持つ正規分布になると考えあれる。ここではMACS2の summit のデータからこのモチーフ分布を描く。以下のコードでは、Peak を上流下流に延長した場合のことは考慮されていないことに注意。

## Load summit data
oct4.sm.df <- read.table("results/macs2/Oct4_summits.bed", header=F)
sox2.sm.df <- read.table("results/macs2/Sox2_summits.bed", header=F)
oct4.sm.gr <- BED2RangedData(oct4.sm.df, header=FALSE)
sox2.sm.gr <- BED2RangedData(sox2.sm.df, header=FALSE)

## calc. distance between motif event and summit
num.peaks <- length(oct4.motif.search.fwd)
oct4.motif.summit.dist <- rep(0, num.peaks)

summit.on.peak <- start(oct4.sm.gr) - start(oct4.gr)

num.peaks <- length(oct4.motif.search.fwd)
num <- 0
oct4.motif.summit.dist <- 0
for (peak in 1:num.peaks) {
 if (! identical(start(oct4.motif.search.fwd[[peak]]), integer(0))) {
 dists <- start(oct4.motif.search.fwd[[peak]]) - summit.on.peak[peak]

 if (length(dists) == 1) {
 num <- num + 1
 oct4.motif.summit.dist[num] <- dists
 } else if (length(dists) > 1) {
 for(i in 1:length(dists)) {
 num <- num + 1
 oct4.motif.summit.dist[num] <- dists[i]
 }
 }
 } 
}

pdf("results/oct4.motifdist.pdf")
plot(density(oct4.motif.summit.dist), main="Motif distribution (m1)")
dev.off()

ピーク内に頻出するDNAモチーフ配列を発見する

Mon, 01 Jan 0001 00:00:00 +0000

タンパク質がDNAに結合するときには、ある特定のDNA配列に結合することが知られている。ChIP-seq のピーク内には、ほとんどの場合、DNAとタンパク質が結合しているはずである。その領域のなかに、ほかの領域では見られないような、特徴的なDNA配列が発見できれば、それがDNA結合配列の候補となる。

> library(“rGADEM”)
> library("BSgenome.Mmusculus.UCSC.mm9")
> oct4.seqs <- read.DNAStringSet(“results/oct4.peaksWithSeqs.fa”, "fasta")
> oct4.motif <- GADEM(oct4.seqs, verbose=1, genome=Mmulculs)
> nMotifs(oct4.motif)
[1] 4
> consensus(oct4.motif)
[1] "ywTTswnATGCAAAT" "nyyyyyyyyCwsyyn" "sCwGswGrnrG" "sCCCCrCCCCm" 
> oct4.motif.pwms <- getPWM(oct4.motif)
> oct4.motif.pwms[[1]]

ピーク内のゲノム配列をFASTA形式で得る

Mon, 01 Jan 0001 00:00:00 +0000

ピーク内のDNA配列を得ることができれば、ChIP-qPCRのような確認実験用の PCR primer を設計したり、配列に頻出するDNA motifを計算機で発見することに利用できる。ここでは、ChIPpeakAnno を利用した方法を述べる。

> library(“ChIPpeakAnno”)
> library("BSgenome.Mmusculus.UCSC.mm9")
> oct4.peaksWithSeqs <- getAllPeakSequence(oct4.gr, upstream = 20, downstream = 20, genome = Mmusculus)
> write2FASTA(oct4.peaksWithSeqs, file="resutls/oct4.peaksWithSeqs.fa")

ローカルディレクトリに oct4.peaksWithSeqs.fa が保存されている。

ピーク内の配列のなかから既知のDNAモチーフ配列を発見する

Mon, 01 Jan 0001 00:00:00 +0000

発見されたモチーフ配列をDNA配列に対して検索する方法を述べる。これを行うモチベーションはいくつか考えられるが、主な理由は、発見したモチーフがどのピークに含まれているか、いくつ含まれているかを知る、ということである。これによって、発見したモチーフ配列とピーク/遺伝子との関係を理解することができる。この方法は、既知のモチーフ配列を収集したデータベースの PWM をゲノム配列に検索する方法と全く同じである。

> hit.fwd <- matchPWM(oct4.motif.pwms$m1, oct4.seqs[[4]])
> hit.rev <- matchPWM(reverseComplement(oct4.motif.pwms$m1), oct4.seqs[[4]])
## スコアを計算する
> PWMscoreStartingAt(oct4.motif.pwms$m1, subject(hit.fwd), start(hit.fwd))
> PWMscoreStartingAt(oct4.motif.pwms$m1, subject(hit.rev), start(hit.rev))

matchPWM はフォワード鎖のみ検索することに注意。配列を reverseComplement() で逆相補鎖に変換する必要がある。hit.rev はヒットがないので、PWMscoreStartingAt() の戻り値は numeric(0) になる。

複数のピーク内DNA配列に対して、まとめて検索するには以下のようにする

oct4.motif.search.fwd <- lapply( 
 oct4.seqs, 
 function(x) { 
 matchPWM(oct4.motif.pwms$m1, x) 
 } 
) 
oct4.motif.search.fwd.score <- lapply(
 oct4.motif.search.fwd,
 function(hits) {
 PWMscoreStartingAt(
 oct4.motif.pwms$m1,
 subject(hits),
 start(hits)
 )
 }
)

モチーフ間距離分布を描く

Mon, 01 Jan 0001 00:00:00 +0000

2つのDNAモチーフ間の距離の分布をプロットする。この距離が近い場合、分布が単峰性になる。ここから2つの転写因子がヘテロダイマーなどのように近くで働いているという分子メカニムズが想像できる。距離が離れている場合は二峰性の分布になる。これは、一次配列としての距離は遠くとも、ゲノムDNAが折り曲がることにより、クロマチン構造上、近くに存在する場合や、ほかのコファクターとなるタンパク質を介して、タンパク質間相互作用がある場合などがが考えられる。

まず2つの転写因子の結合サイトを計算する。

library("ChIPpeakAnno")
library("MotIV")

load("results/3rd/03motifdbSearch.rdat")
oct4.sox2.overlappingPeaks.seq <- read.DNAStringSet("results/3rd/oct4.sox2.overlappingPeaksWithSeqs.fa", "fasta")

oct4.motif.pwms <- getPWM(oct4.motif)
oct4.motif.search.fwd <- lapply(
 oct4.sox2.overlappingPeaks.seq,
 function(x) {
 matchPWM(oct4.motif.pwms$m1, x)
 }
)
oct4.motif.search.rev <- lapply(
 oct4.sox2.overlappingPeaks.seq,
 function(x) {
 matchPWM(reverseComplement(oct4.motif.pwms$m1), x)
 }
)

sox2.motif.pwms <- getPWM(sox2.motif)
sox2.motif.search.fwd <- lapply(
 oct4.sox2.overlappingPeaks.seq,
 function(x) {
 matchPWM(sox2.motif.pwms$m1, x)
 }
)
sox2.motif.search.rev <- lapply(
 oct4.sox2.overlappingPeaks.seq,
 function(x) {
 matchPWM(reverseComplement(sox2.motif.pwms$m1), x)
 }
)

save(list = ls(), file = "results/3rd/04motifsearchInOverlappingPeakseq.rdat")

この2つの転写因子の距離の関係をプロットする。

既知のモチーフ配列/PWMのデータを得る: JASPAR

Mon, 01 Jan 0001 00:00:00 +0000

既知のモチーフ配列/PWMを整理したデータベースJASPARの情報は、rGADEM に付属している。以下の例では、名前に Pou5f1 (Oct3/4) の文字列が含まれている PWM を検索し取り出している。

jaspar.path <- system.file(“extdata/jaspar2009.txt”,package=“rGADEM”) seeded.pwm <- readPWMfile(jaspar.path) oct4.jaspar.id <- grep(“Pou5f1”, names(seeded. pwd)

これを配列に対して検索するには「ピーク内の配列のなかから既知のDNAモチーフ配列を発見する」を参照せよ。

結合サイトの予測 GPS

Mon, 01 Jan 0001 00:00:00 +0000

GPS (Genome Positioning System) はChIP-seqのデータからタンパク質-DNA結合サイトを1塩基解像度で予測するプログラムである。シーケンスリードの分布を混合確率分布と考えて、分布のパラメータ予測を行うことで、結合サイトの位置を予測する。バックグラウンドには実験データのほか、ポアソン分布を仮定したローカルなバックグラウンドを利用した予測も可能である。

使い方

$ java -Xmx80G -jar gps.jar --d Read_Distribution_default.txt 
 --s 240000000
 --exptCTCF-GM12878 GM12878_chr1_ip.bed
 --exptCTCF-HUVEC HUVEC_chr1_ip.bed
 --ctrlCTCF-GM12878 GM12878_chr1_ctrl.bed
 --ctrlCTCF-HUVEC HUVEC_chr1_ctrl.bed
 --f BED --g hg18_chr1.info --out HumanCTCF 

-Xmx でメモリを指定する。mulit-condition mode では大量のメモリと計算時間を必要とする。–d には初期条件に利用する read distribution を指定する。read distribution は予測された結合サイト周辺に存在するシーケンスリードの分布に関するデータが含まれている。–s にはマッピングされるリファレンスゲノム領域のサイズを指定する。大抵はゲノムサイズ * 0.8 を指定する。—exptXXX, –ctrlXXX でそれぞれ実験データ、コントロールデータ (例えば IgGやKO, input genome のデータなど)を指定する。–f は入力ファイル形式を指定し、–out には出力ファイル名を指定する。

Guo Y, Papachristoudis G, Altshuler RC, Gerber GK, Jaakkola TS, Gifford DK, Mahony S. Discovering homotypic binding events at high spatial resolution. Bioinformatics. 2010 Dec 15;26(24):3028-34. Epub 2010 Oct 21. PubMed PMID: 20966006; PubMed Central PMCID: PMC2995123.

ChIP-Seq on The Cat Way

2つのTF ChIP-seq の共通結合領域を探す

2つのTF ChIP-seq の共通結合領域をカウントしベン図を描く #

BowtieでChIP-seq のデータをリファレンスゲノムにマッピングする

deeptools

インストール #

MACS2を利用してChIP-Seqのピークを探す

Peakを近傍に持つ遺伝子によく観察されるGene Ontolgyを挙げる

Position weight matrix から Sequence Logo を描く

Position weight matrix を既知モチーフデータベースに対して検索する

summit からのモチーフまでの距離分布を描く

ピーク内に頻出するDNAモチーフ配列を発見する

ピーク内のゲノム配列をFASTA形式で得る

ピーク内の配列のなかから既知のDNAモチーフ配列を発見する

モチーフ間距離分布を描く

既知のモチーフ配列/PWMのデータを得る: JASPAR

結合サイトの予測 GPS

2つのTF ChIP-seq の共通結合領域をカウントしベン図を描く
#

インストール
#