The Cat Way

2016年3月のAWSのコスト

Mon, 04 Apr 2016 10:50:38 +0900

3月分の invoice が届いた。

Service	$
R53	0.55
Data transfer	0.11
S3	0.03
Total	0.69

今日のレートで76.90円ぐらい。

2016年2月のAWSのコスト

Fri, 04 Mar 2016 11:00:18 +0900

2月分の invoice が届いた。

Service	$
R53	0.55
Data transfer	0.19
S3	0.03
Total	0.77

今日のレートで87.54円ぐらい。

サイトの維持コスト

Thu, 04 Feb 2016 18:28:54 +0900

このサイトで利用しているAWSから請求がきた。S3, Data transfer でそれぞれ$0.03, R53に$0.55で、合計$0.61だった。今日現在のレートで71円ぐらい。

Bioinformatics Tipsの更新

Mon, 11 Jan 2016 00:46:59 +0900

GitBookで書いている Bioinformatics Tipsを少し更新した。なぜかMarkdownがHTMLに変換されなかったが、SUMMERY.mdを更新しないと HTMLにならず、markdown のままだった。

あと前回の記事作った Rakefile では、GitBookのHTMLをOctpressのディレクトリに出力できなくなった。なので、単純に gitbook build したあとに、cp -a _book [octopress]/source にコピーすることにした。

Bioinformatics Tips

Thu, 31 Dec 2015 01:42:20 +0900

このサイトを整理しはじめたので、ついでに gitbookで書いてきたバイオインフォマティクスのTips集を、このサイトに統合した。並行して進めていた研究のほうの計算結果が期待外れだったので現実逃避。

バイオインフォマティクスTips

これまでは github においていたが、こちらに統合したほうがみやすい。ただ gitbook で出力したページから Octopress のページのほうにリンクバックできないのが不便かもしれない。

更新の方法をメモしておく。まず、いつも通りにgitbookのディレクトリに markdown 形式で tips を書く。その後、以下のコマンドを実行する。

rake build

実際は、

gitbook build ./ [octopressのsourceディレクトリ]

を実行すればよいのだが、忘れるのでRakefileにしておいた。すると、gitbook で静的ページを Octopress のディレクトリに出力する。あとは Octopress のディレクトリに移動して、

rake generate
rake deploy

とすればS3バケットが更新される。

gitbookのMacクライアントも改めて試してみるが、日本語環境ではフォントが崩れたりしていまいち。今後もSublime Text 3で編集することにしよう。

そうこうしているうちに計算がうまくいっていない理由を調べる方法が思い付いたので明日試してみよう。

restart

Mon, 28 Dec 2015 17:42:43 +0900

間違えてVM落して放置していたこのサイトをS3で復活させた。が独自ドメインの振りかたがわからん。 R53使わないと駄目なのか?

ここみながら sublime Text 3 の設定を修正。Package Control を入れ markdown 関連の設定をする。どうやら、Cmd+Shift+pで Package Controlが起動するようだ。Markmonを入れ、Package Control から Markmon launchするとウェブブラウザが起動し、リアルタイムでMarkdownがレンダリングされていく。快適すぎる。

octopressの更新の仕方を忘れているのでメモ。まず octopress, s3cmdを入れる。

ブログの更新のしかた
#

rake title['タイトル']
rake generate
rake preview # プレビューを確認したいなら
rake deploy

ページの追加の方法
#

rake new_page['dir/title']

以下を編集してメニューバーに入れる。

source/_includes/custom/navigation.html

rake generate
rake preview # プレビューを確認したいなら
rake deploy

Learning sqlite3 for bioinformatics researcher

Sat, 01 Sep 2012 13:28:00 +0900

SQLite3 はリレーショナルデータベース管理システムのひとつ。サーバクライアントモデルではなく、データベースがファイルになっています。ライセンスがパブリックドメインであることもあり、組み込みDBとしてよく使われます。iPhone の位置情報などのデータを格納しているのも SQLite3 です。ウェブアプリケーションのフレームワークである、Ruby on Rails では標準の組み込みDBとして使われています。また中規模のデータベースならMySQLなどと比較しても遜色ない速度で利用できます。

バイオ業界でも、マイクロアレイやNGSデータを格納する際によく利用されており、Bioconductor の annotation package に含まれるデータも SQLite3 のデータベースになっています。

インストール
#

Mac OS X には標準でインストールされており、設定なしでターミナルから利用できます。Linuxでもほとんどのディストリビューションでパッケージマネジメントシステムでインストール可能です。Windows は知りません。

使いかた
#

SQLite3 が正常にインストールされていれば、以下のようにして対話型のクライアントを起動することができます。

sqlite3

データベースを作成するには (ここでは expressions.sqlite という名前のデータベースを作成する)

sqlite3 expressions.sqlite

とする。

テーブルを作りスキーマを確認する。スキーマとはテーブルの定義のこと。

sqlite> create table transcripts(id varchar(10), sample varchar(10), fpkm real);
sqlite> .schema
CREATE TABLE transcripts(id varchar(10), sample varchar(10), fpkm real);
sqlite> 

データを格納する。

How to manipulate DNA sequences in R

Sat, 25 Aug 2012 22:35:00 +0900

DNA配列をRで操作する

基本的なDNA配列の操作方法や、FASTA/FASTQ file を取り込む方法を解説します。また全ゲノム配列を読み込み操作する方法についても述べます。

準備
#

source("http://bioconductor.org/biocLite.R")
biocLite("Biostrings")

基本的なDNA, アミノ酸配列の操作
#

library("Biostrings")

x <- DNAString("actttGtag")
is(x)

## [1] "DNAString" "XString" "XRaw" "XVector" "Vector" "Annotated"

## 9-letter "DNAString" instance
## seq: ACTTTGTAG

XString クラスを継承した DNAString オブジェクトを作成しています。このオブジェケクトにしておくと、いろいろな配列操作が可能になります。RNA, アミノ酸は、それぞれ、RNAString and AAString を使います。

x[1:2]

## 2-letter "DNAString" instance
## seq: AC

aa <- translate(x)
is(aa)

## [1] "AAString" "XString" "XRaw" "XVector" "Vector" "Annotated"

aa

## 3-letter "AAString" instance
## seq: TL*

aa.revcomp <- translate(reverseComplement(x))
aa.revcomp

## 3-letter "AAString" instance
## seq: LQS

x.freq <- alphabetFrequency(x, baseOnly = TRUE)
is(x.freq)

## [1] "integer" "numeric" "vector" 
## [4] "data.frameRowLabels" "EnumerationValue" "atomic" 
## [7] "vectorORfactor"

x.freq

## A C G T other 
## 2 1 2 4 0

DNA配列やコード表のデータ
#

もちろんDNAやコードのデータも用意されています。

How to get a microarray data from NCBI GEO

Fri, 24 Aug 2012 15:43:00 +0900

GEOquery を使って公共データベースから発現データを入手する

例としてこのデータを取り出します。

GSE20349

準備
#

source("http://bioconductor.org/biocLite.R")
biocLite("GEOquery")

データをダウンロードします。ネットワークからダウンロードするので時間がかかります。この例では数秒から数分ぐらいだと思います。

library("GEOquery")

## Loading required package: Biobase

## Loading required package: BiocGenerics

## Attaching package: 'BiocGenerics'

## The following object(s) are masked from 'package:stats':
## 
## xtabs

## The following object(s) are masked from 'package:base':
## 
## anyDuplicated, cbind, colnames, duplicated, eval, Filter, Find, get,
## intersect, lapply, Map, mapply, mget, order, paste, pmax, pmax.int, pmin,
## pmin.int, Position, rbind, Reduce, rep.int, rownames, sapply, setdiff,
## table, tapply, union, unique

## Welcome to Bioconductor
## 
## Vignettes contain introductory material; view with 'browseVignettes()'. To
## cite Bioconductor, see 'citation("Biobase")', and for packages
## 'citation("pkgname")'.

## Setting options('download.file.method.GEOquery'='auto')

g <- getGEO("GSE20349")

## Found 1 file(s)

## GSE20349_series_matrix.txt.gz

## File stored at:

## /var/folders/cz/cny0ysmx205dnj0y2_34k8cc0000gn/T//RtmpqdGru3/GPL8492.soft

is(g)

## [1] "list" "vector" "AssayData"

## $GSE20349_series_matrix.txt.gz
## ExpressionSet (storageMode: lockedEnvironment)
## assayData: 16331 features, 4 samples 
## element names: exprs 
## protocolData: none
## phenoData
## sampleNames: GSM509823 GSM509824 GSM509825 GSM509826
## varLabels: title geo_accession ... data_row_count (35 total)
## varMetadata: labelDescription
## featureData
## featureNames: 100009600_at 100012_at ... 99982_at (16331 total)
## fvarLabels: ID Gene_ID ... SPOT_ID (5 total)
## fvarMetadata: Column Description labelDescription
## experimentData: use 'experimentData(object)'
## Annotation: GPL8492


is(g[[1]])

## [1] "ExpressionSet" "eSet" "VersionedBiobase"
## [4] "Versioned"

g[[1]]

## ExpressionSet (storageMode: lockedEnvironment)
## assayData: 16331 features, 4 samples 
## element names: exprs 
## protocolData: none
## phenoData
## sampleNames: GSM509823 GSM509824 GSM509825 GSM509826
## varLabels: title geo_accession ... data_row_count (35 total)
## varMetadata: labelDescription
## featureData
## featureNames: 100009600_at 100012_at ... 99982_at (16331 total)
## fvarLabels: ID Gene_ID ... SPOT_ID (5 total)
## fvarMetadata: Column Description labelDescription
## experimentData: use 'experimentData(object)'
## Annotation: GPL8492

データは、ExpressionSet が要素にはいった、List のデータ構造で保存されます。ExpressionSet は、Bioconductor で発現データを持つ際に良く使われるデータ構造です。この構造にしておけば、あらゆる発現解析の関数が利用できるようになります。なぜ List になっているかと言うと、検索で複数の結果が帰ってくる場合を想定しているためです。

ChIP-seq analysis with R/Bioconductor

Mon, 13 Aug 2012 18:00:00 +0900

RとBioconductorでNGS解析: 3限 ChIP-seq データ解析

はじめに
#

この文章は統合データベース講習会：AJACSみちのく2「RとBioconductorを使ったNGS解析」3限目「ChIP-seq データ解析の基礎」の講義資料です。

この文章の著作権は二階堂愛にあります。ファイルのダウンロード、印刷、複製、大量の印刷は自由におこなってよいです。企業、アカデミアに関わらず講義や勉強会で配布してもよいです。ただし販売したり営利目的の集まりで使用してはいけません。ここで許可した行為について二階堂愛に連絡や報告する必要はありません。常に最新版を配布したいのでネット上での再配布や転載は禁止します。ネット上でのリンクはご自由にどうぞ。内容についての問い合わせはお気軽にメールしてください。

対象
#

ここでは、Rの基礎知識がある人を対象に、RとBioconductor を使った ChIP-seq データ解析について説明します。基本的な Unix コマンドが利用できることが前提です。

学習範囲
#

ChIP-seq を取り扱う。Peak解析については、Rではなく、ほかのオープンソースプログラムを利用して解析を行う。Rと Bioconductor ではその後の高次解析から論文の図の作成に至るまでを紹介します。

ChIP-seq
#

illumina HiSeq は、塩基とその精度を表す quality value のセットで出力します。これは fastq file と呼ばれており、すべての解析のスタートになります。

ChIP-seq analysis with R/Bioconductor

Mon, 13 Aug 2012 18:00:00 +0900

RとBioconductorでNGS解析: 3限 ChIP-seq データ解析

はじめに
#

この文章は統合データベース講習会：AJACSみちのく2「RとBioconductorを使ったNGS解析」3限目「ChIP-seq データ解析の基礎」の講義資料です。

対象
#

学習範囲
#

ChIP-seq
#

illumina HiSeq は、塩基とその精度を表す quality value のセットで出力します。これは fastq file と呼ばれており、すべての解析のスタートになります。

Learning R

Mon, 13 Aug 2012 18:00:00 +0900

R 入門—統計解析初歩から NGS 解析まで: 付録 RとBioconductorの基礎

はじめに
#

この文章は、「微研部員会夏の学校: R 入門—統計解析初歩から NGS 解析まで」の講義資料です。

対象
#

ここでは、本講義を理解する上で知っておきたい、Rの基本的な使いかたについて解説します。対象とするのはプログラミング初心者でRを利用したことがない人が対象です。また、なんとなくRを覚えてきた人が基礎的な知識を整理するためにも役に立つでしょう。

準備
#

本講義はハンズオンではなく講師の操作を眺めるスタイルですが、一緒に実行してみたい場合は、ご自分のパソコンを持ち込み、以下の準備をしてくることを強くお勧めします。推奨環境は Mac OS X や Linux ですが、Rで実行するプログラムはすべて Windows でも同じように動作します。

まずは R をインストールします。http://rstudio.org/ から、利用しているOSに適した RStudio Desktop をインストールします。起動や終了は普通のアプリケーションと同じです。起動したときに3つのペイン(ウィンドウ内にある小窓)が見えますが、左下の console という部分に、Rのプログラムを書き込んでいきます。

Learning R

Mon, 13 Aug 2012 18:00:00 +0900

RとBioconductorでNGS解析: 1限 Rの基礎

はじめに
#

この文章は統合データベース講習会：AJACSみちのく2「RとBioconductorを使ったNGS解析」1限目「Rの基礎」講義資料です。

対象
#

準備
#

Proxyの設定
#

もし http_proxy の設定が必要な場合は、以下のように設定します。

RNA-seq analysis with R/Bioconductor

Mon, 13 Aug 2012 18:00:00 +0900

R 入門—統計解析初歩から NGS 解析まで

はじめに
#

この文章は、「微研部員会夏の学校: R 入門—統計解析初歩から NGS 解析まで」の講義資料です。

対象
#

ここでは、Rの基礎知識がある人を対象に、RとBioconductor を使った RNA-seq データ解析について説明します。基本的な R/Bioconductor と Unix コマンドが利用できることが望ましいです。R の使い方については、付録: R/Bioconductor を参考にしてください。

学習範囲
#

RNA-seq を取り扱います。データのQCやマッピング、発現量の定量については、Rではなく、ほかのオープンソースプログラムを利用して解析を行います。Rと Bioconductor ではその後の高次解析から論文の図の作成に至るまでを紹介します。データについては Bioconductor のパッケージに添付されている RNA-seq データを使います。

RNA-seq analysis with R/Bioconductor

Mon, 13 Aug 2012 18:00:00 +0900

RとBioconductorでNGS解析: 2限 RNA-seq データ解析

はじめに
#

この文章は統合データベース講習会：AJACSみちのく2「RとBioconductorを使ったNGS解析」2限目「RNA-seq データ解析」の講義資料です。

対象
#

ここでは、Rの基礎知識がある人を対象に、RとBioconductor を使った RNA-seq データ解析について説明します。基本的な Unix コマンドが利用できることが望ましいです。

学習範囲
#

RNA-seq
#

illumina HiSeq は、塩基とその精度を表す quality value のセットで出力します。これは fastq file と呼ばれており、すべての解析のスタートになります。

2つのTF ChIP-seq の共通結合領域を探す

Mon, 01 Jan 0001 00:00:00 +0000

異なる2つの転写因子の結合領域がどのぐらい重なっているかを検討することで、転写因子の同じ場所で協調、あるいは競合して働いているかどうかを知ることができる。そこで2つの ChIP-seq 解析から得られたピークの重なりを探索する方法について述べる。

> library(“ChIPpeakAnno”)
> oct4.df <- read.table("results/macs2/Oct4_peaks.bed", header=F)
> sox2.df <- read.table("results/macs2/Sox2_peaks.bed", header=F)
> oct4.gr <- BED2RangedData(oct4.df, header=FALSE)
> sox2.gr <- BED2RangedData(sox2.df, header=FALSE)
> oct4.sox2.overlap <- findOverlappingPeaks(oct4.gr, sox2.gr)

まずファイルからbed fileを入力し、そのデータフレームを BED2RangedData で RangedData というデータ構造に変換する。findOverlappingPeaks は2つのRangedData の共通した行を探す関数である。

2つのTF ChIP-seq の共通結合領域をカウントしベン図を描く
#

> library(“ChIPpeakAnno”)
> oct4.df <- read.table("results/macs2/Oct4_peaks.bed", header=F)
> sox2.df <- read.table("results/macs2/Sox2_peaks.bed", header=F)
> oct4.gr <- BED2RangedData(oct4.df, header=FALSE)
> sox2.gr <- BED2RangedData(sox2.df, header=FALSE)
> makeVennDiagram(RangedDataList(oct4.gr, sox2.gr), NameOfPeaks=c("Oct4", "Sox2"), totalTest=3000)

bed file の重複領域をマージして行数を減らす

Mon, 01 Jan 0001 00:00:00 +0000

library("GenomicRanges")

x <- read.table(hoge.bed)
y <- GRanges(seqname = Rle(x[,1]), ranges = IRanges(start = x[,2], end = x[,3]))
y.reduced <- reduce(y)

write.table(file = "hoge.bed", as.data.frame(y.reduced)[,1:3], quote = F, sep = "\t", row.names=F, col.names=F)

bed file を染色体ごとのファイルへ分割する

Mon, 01 Jan 0001 00:00:00 +0000

$ cat hoge.bed
chr1 100 199
chr1 200 299
:
chr2 100 199
chr2 200 299
:

のようなファイルを染色体ごとに分割する。

awk '{print $0 >> $1".bed"}' hoge.bed

これは awk というツールを使っています。パターン {アクション} は特定のパターンにマッチしたら、括弧内のアクションを実行するための記法です。パターンが記載されていない場合は、すべての行を対象に処理をおこないます。 print $0 を表示しています。$0 は1行を意味します。$1は入力を空白文字で区切ったときの行番号です。

chr1.bed, chr2.bed,… がディレクトリに保存されます。

Bioconductor 日本ミラーを利用する

Mon, 01 Jan 0001 00:00:00 +0000

日本ミラーの bioconductor.jp を選択するには、以下のように、

chooseBioCmirror()

で 6 番を選ぶだけです。

options("BioC_mirror")

で切り替わっていることを確認できます。試しに、BrainStars package をインストールしてみると、ちゃんと bioconductor.jp からインストールされているのがわかります。

Bioconductorのソースコードを検索する

Mon, 01 Jan 0001 00:00:00 +0000

Bioconductor Code Search

Blog Archives

Mon, 01 Jan 0001 00:00:00 +0000

Bowtie2でRNA-seqデータをトランスクリプトームへマッピングする

Mon, 01 Jan 0001 00:00:00 +0000

RNA-Seq のデータをトランスクリプトームへマッピングする方法について述べる。RNA-Seqデータはスプライシング後のRNAをシーケンスするのが一般的である。そのためスプライシングされるイントロンとエクソンの境界にあるシーケンスリードは、ゲノムにはマッピングされない。そのためTopHatなどスプライスドアラインメントに対応したアルゴリズムを利用する必要がある。もうひとつの方法は、トランスクリプトームに対して、シーケンスリードをそのままマッピングすれば、この問題は考慮の必要がない。このデータは、トランスクリプトごとにマッピングされたリードを操作できるようになるので、トランスクリプトごとに、カウントやカバレッジを計算する際などには便利である。ただし、トランスクリプトームデータベースに含まれないトランスクリプトを考慮できない点に注意すること。

まずトランスクリプトームのデータベース (bowtie2 index) を作成する。このステップは一度やればよい。ここではマウスゲノム mm10 の座標系の RefSeq を利用する。

$ curl -O http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/mrna.fa.gz
$ gzip -d mrna.fa.gz
$ bowtie2-build mrna.fa mrna

次にbowtie2でシーケンスリードをトランスクリプトームにマッピングする。

$ bowtie2 -p 8 -x mrna -U hoge.fastq -S hoge.bowtie2.sam

参考までにファイルサイズの目安を書いておく。RNA-Seq (4 multiplex/lane, HiSeq 2000, v3)から得られた約11GBの sam ファイルを bam に変換すると、約2.6GBになる。これをソートすると、2.1GB程度のファイルになる。インデックスファイルは、15M程度である。

結果が sam で出力されるため、その後の解析や可視化のために、bam へ変換する必要がある。

中間ファイルを残さずにマッピングして sort された bam と bam index を作成する
#

$ bowtie -p 16 --chunkmbs 512 --verbose -m 1 \
 -1 hoge_1.fastq -2 -2 hoge_2.fastq mrna -S 2> bowtie.log \
 | samtools view -bSu - | samtools sort -m 10G - hoge.sort; \
 samtools index hoge.sort.bam

BowtieでChIP-seq のデータをリファレンスゲノムにマッピングする

Mon, 01 Jan 0001 00:00:00 +0000

RNA-Seq と同じ。インデックスファイルを対象のゲノムに置き換えること。

Bowtie2でRNA-seqデータをトランスクリプトームへマッピングする

deeptools

Mon, 01 Jan 0001 00:00:00 +0000

SciPy, matplotlib をそれぞれセットアップをしておく。

インストール
#

pip install deeptools --user

~/.local/bin 以下にある。

DNA配列のGC%を計算する

Mon, 01 Jan 0001 00:00:00 +0000

multi fasta 形式で保存されたDNAの GC content を計算するには、EMBOSSのgeeceeを利用すると簡単である。一般的なコンピュータでなら、マウスの全転写産物のGC contentの計算が、8秒程度で終了する。例では、ensmust.67.fa に保存されているmRNA配列のGC%を計算し、ensmust.67.gc.txt に保存する。

$ geecee -sequence ensmust.67.fa -outfile ensmust.67.gc.txt

出力の中身は以下のようになっている。

$ cat ensmust.67.gc.txt
#Sequence GC content
ENSMUST00000000096 0.53
ENSMUST00000000137 0.40
ENSMUST00000000109 0.43
ENSMUST00000000127 0.53

長さとGC content の両方が欲しい場合は infoseq を利用したほうがよい。

$ infoseq -heading N -usa N -database N -type N -description N -accession N -sequence ensmust.67.fa | perl -lpe "s/ +$//; s/ +/\t/g" > ensmust.67.infoseq.txt

DNA配列をRで操作する

Mon, 01 Jan 0001 00:00:00 +0000

基本的なDNA配列の操作方法や、FASTA/FASTQ file を取り込む方法を解説します。また全ゲノム配列を読み込み操作する方法についても述べます。

準備
#

source("http://bioconductor.org/biocLite.R")
biocLite("Biostrings")

基本的なDNA, アミノ酸配列の操作
#

library("Biostrings")

x <- DNAString("actttGtag")
is(x)
## [1] "DNAString" "XString" "XRaw" "XVector" "Vector" "Annotated"
x
## 9-letter "DNAString" instance
## seq: ACTTTGTAG

x[1:2]
## 2-letter "DNAString" instance
## seq: AC

aa <- translate(x)
is(aa)
## [1] "AAString" "XString" "XRaw" "XVector" "Vector" "Annotated"
aa
## 3-letter "AAString" instance
## seq: TL*

aa.revcomp <- translate(reverseComplement(x))
aa.revcomp
## 3-letter "AAString" instance
## seq: LQS

x.freq <- alphabetFrequency(x, baseOnly = TRUE)
is(x.freq)
## [1] "integer" "numeric" "vector"
## [4] "data.frameRowLabels" "EnumerationValue" "atomic"
## [7] "vectorORfactor"

x.freq
## A C G T other
## 2 1 2 4 0

DNA配列やコード表のデータ
#

もちろんDNAやコードのデータも用意されています。

eXpress で RNA-seq データから発現量を計算する

Mon, 01 Jan 0001 00:00:00 +0000

トランスクリプートムを bowtie1 index にする。bowtie を利用して、その index file に fastq をマッピングし、eXpress で FPKM を計算する。

bowtie1 を入れる
#

$ wget "http://downloads.sourceforge.net/project/bowtie-bio/bowtie/1.1.1/bowtie-1.1.1-linux-x86_64.zip
$ unzip bowtie-1.1.1-linux-x86_64.zip
$ sudo mv bowtie-1.1.1-linux-x86_64 /usr/local

トランスクリプトームをダウンロード
#

$ wget http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/refMrna.fa.gz
$ gzip -d refMrna.fa.gz

インデックスを作成する
#

$ /usr/local/bowtie-1.1.1-linux-x86_64 --offrate 1 refMrna.fa refMrna

refMrna.ebwt のようなファイルがいくつかできる。

FASTA/FASTQ/SAM/BAMの詳しいステータスを得る

Mon, 01 Jan 0001 00:00:00 +0000

samstat はFASTA/FASTQ/SAM/BAMから、nucleotide composition, length distribution, base quality distribution, mapping statistics, mismatch, insertion and deletion error profiles, di-nucleotide and 10-mer over-representation を計算するツールである。

インストール:

$ wget http://downloads.sourceforge.net/project/samstat/samstat.tgz
$ tar zxvf samstat.tgz
$ cd samstat/src
$ make
$ sudo cp ./samstat /opt/local/bin/
$ rehash

実行方法:

$ samstat test.bam

結果は test.bam.html というファイルにhtml5形式で出力される。このファイルを閲覧するには通常のWebブラウザを使う。表示されるグラフは JavaScript だけで生成されているので、画像ファイルが出力されるわけではない。

FASTQ format について

Mon, 01 Jan 0001 00:00:00 +0000

FASTQ はシーケンス配列とそのクオリティを記載するためのファイルフォーマットである。ファイル形式はテキストファイルなので、Unix/Linux の less コマンドやテキストエディタで見ることができる。イルミナ社のシーケンサーやNCBI Short Read Archive などのデータベースでもこのフォーマットが採用されており、多くの解析ソフトがこの形式を前提としている。 FASTQファイルはひとつのシーケンスリードの情報が4行単位で表現され、その単位が一枚のファイルに連らなっているファイルである。@で始まる最初の行は、シーケンスリードの情報が含まれたヘッダー行であり、FASTA形式の “>“ に値すると考えるとわかりやすい。次の行がリーケンスリードの塩基配列そのもので、ATGCNからなる。3行目も1行目と同じリードの情報を記載する行で+から始まる。大抵の場合は、単に “+”か、最初の行と同じ文字列になっている。4行目がシーケンスクオリティのスコアが符号化されたものである。

イルミナ社の FASTQ file は1行目の意味について述べる。イルミナ社のFASTQ file はシーケンサーが出力するバイナリファイルである BCL file から Casava というソフトウェアで生成する。Casava はイルミナ社が提供するシーケンサーに付属するソフトウェアである。Casava のバージョンによって、一部フォーマットが異なるのでそれについても解説する。

まず、Casava 1.8 より前の FASTQ file について解説する。@で始まるヘッダー行は”:”でセパレートされている。まず最初のフィールド HWI-ST554_0072 はシーケンサーの機械につけられたIDを示す。次の 8 はフローセルのレーン番号を示し、HiSeq, GAIIx シリーズでは1-8まである。フローセルのひとつのレーンは、tile に分けられているが、1はそのタイル番号を表している。1131, 1901 はそれぞれ tile 内にあるクラスターの x, y 座標を表わす。# の次の番号はマルチプレックス番号を示し、0の場合はマルチプレックスされていないことを示す。/の後の数字が 1 なら single-end, 2の場合は paired-end, あるいは、mate-pair read であることを示す。

@HWI-ST554_0072:8:1:1131:1901#0/1
TCCCAAGGAAGGCGTGCGTGTGTTTGAGTACTTTCAAAACACACTTCCTAC
+HWI-ST554_0072:8:1:1131:1901#0/1
fcfefffffaefff^edeceZccccddd`dffeefffffffef_deffdff

図. HiSeqから出力されたFASTQ file の例 (Casava 1.8より前)

Casava 1.8 以降の FASTQ file について解説する。@で始まるヘッダー行の形式が変更されている。まず、HWI-1KL121 がシーケンサにユニークに振られた機器IDである。これは以前のバージョンと変更はない。次の 46 は run ID でシーケンスを実行するたびに割り振られる。D0MVAACXX は flowcell に割り振られた ID である。以降については以前のバージョンと同じ意味である。1.8以降のヘッダーはスペースを挟んで、さらに情報が追加されている。最初の数字が 1 なら single-end, 2 なら paired-end である。次の文字は悪いリードを省くためのフィルターの結果を示しており、Y だと悪いリード、Nだとそれ以外という意味である。その次の数字は、XXX???を示す。最後の塩基はインデックスのシーケンスを表わしている。

FastQCによるシーケンス実験の品質チェック

Mon, 01 Jan 0001 00:00:00 +0000

FastQC はシーケンス実験の品質をチェックするために便利がプロットを生成するプログラムである。サイクル(リードの塩基)あたりのシーケンスクオリティや、クオリティスコアの分布、同一シーケンスリードの重複率などを計算しプロットしてくれる。シーケンスクオリティはシーケンス実験の成否を、同一リードの重複率は、ライブラリ作成時の PCR バイアスなどを評価するために重要な指標である。重複率が高い場合は、PCRサイクルを減らすことで、ダイナミックレンジの向上を図ることができる。

インストール:

$ curl -O http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/fastqc_v0.10.0.zip
$ unzip fastqc_v0.10.0.zip
$ sudo cp fastqc_v0.10.0 /opt
$ sudo ln -s /opt/fastqc_v0.10.0 /opt/fastqc
$ emacs -nw ~/.zshenv
$ export PATH=$PATH:/opt/fastqc

FastQCをコマンドラインから利用する
#

実験が多くなるとGUIから実行するのが面倒になる。FastQCはコマンドラインからの実行にも対応している。以下のコマンドは test.fastq に対して、fastqc を実行し、結果を test ディレクトリに保存するというコマンドである。-t オプションは CPU を利用する数を指定する。この場合は 8 CPUs を使って計算する。

$ fastqc -t 8 test.fastq -o test

FastQC は fastq file だけでなく、gzip (*.gz)で圧縮されたファイルに対しても実行可能である。結果はウェブブラウザで閲覧できる html ファイル、テキストファイル、html ファイルが圧縮された zip ファイルの3種類出力される。

featureCount で bam と gtf からリードカウントを得る

Mon, 01 Jan 0001 00:00:00 +0000

featureCountは、bamからの高速なリードカウントツール。 Rやコマンドラインから実行できる。コマンドライン版は Subreadに含まれている。R版は、Rsubreadに実装されている。

featureについて
#

featureCount は feature ごとにリードをカウントするツールである。feture とは、リファレンス配列上のある区間のこと。その feature をまとめたセットをmeta-featureと呼んでいる。 RNA-seq の場合は、feature は exon であるし、meta-feature は gene や transcript になる。

コマンドライン版 Subread
#

インストール
#

wget http://downloads.sourceforge.net/project/subread/subread-1.5.0-p2/subread-1.5.0-p2-source.tar.gz
cd subread-1.5.0-p2-source/src
make -f Makefile.Linux # 正常に終了すると ../bin に実行ファイルができる
cd ../../
cp -a subread-1.5.0-p2-source $HOME/opt/local
export PATH=$HOME/opt/local/subread-1.5.0-p2-source/bin:$PATH

featureCount でリードカウントを得る
#

まず遺伝子アノテーションファイルを得る。

MACS2を利用してChIP-Seqのピークを探す

Mon, 01 Jan 0001 00:00:00 +0000

MACS2、はおそらくもっとも良く使われている peak caller である MACS のベータバージョンである。

インストール: Python 2.6 以上、Cython 0.14.1以上, numpy が必要。

numpy のインストール:

$ wget "http://downloads.sourceforge.net/project/numpy/NumPy/1.6.1/numpy-1.6.1.tar.gz"
$ tar zxvf numpy-1.6.1.tar.gz 
$ cd numpy-1.6.1
$ python setup.py build --fcompiler=gnu
$ sudo python setup.py install

MACS2のインストール:

$ w3m http://github.com/downloads/taoliu/MACS/MACS-2.0.9-1.tar.gz
$ tar zxvf MACS-2.0.9.tar.gz
$ cd MACS-2.0.9/
$ sudo python setup.py install --prefix=/opt
$ export PYTHONPATH=/opt/lib/python2.6/site-packages/:$PYTHONPATH

実行例:

$ macs2 callpeak -t results/bowtie/Sox2/Sox2.bowtie.sort.rmRepeat.bam -c results/bowtie/GFP/GFP.bowtie.sort.rmRepeat.bam -f BAM -g mm -n Sox2 -B -q 0.01 --shiftsize 100

-t はターゲットとするTFの bam ファイル、-c はネガティブコントロールとなるサンプルの bam ファイル、-f は入力ファイルの形式を指定、-g はゲノムサイズを指定、-n は任意の実験名、-q は q-value の閾値を指定する。-B は extended fragment pileup, local lambda and score tracks を graphBed file に保存するオプションである。-g のゲノムサイズ指定には数値による指定と生物名を指定することができ、ヒトゲノムは、hs, マウスゲノムは mm, 線虫ゲノムが ce, ハエゲノムが、dm である。

matplotlib をセットアップ

Mon, 01 Jan 0001 00:00:00 +0000

git clone https://github.com/matplotlib/matplotlib.git
cd matplotlib
python setup.py install

Nextflow で複数の解析プログラムを次々に実行する

Mon, 01 Jan 0001 00:00:00 +0000

NGSのデータ解析は複数のプログラムやデータベースを組み合わて実行する必要がある。これをパイプライン処理やワークフロー処理と呼ぶ。通常、Make, Rake, シェルスクリプトなどを利用して、ワークフローを実装する。

ワークフロー作成・管理ツールもあり、Galaxy はウェブUIやデータ管理機能もあり、よく使われている。ここではコマンドラインベースの軽量ワークフローシステムである、Nextflow について述べる。

インストール
#

まず Java 8 をインストールする。Nextflow の動作は Java 7以上が求められる。Java のバージョン確認は以下の通り。

java -version

次にコマンドラインから以下を実行する。

cd ~/opt/local/bin
curl -fsSL get.nextflow.io | bash
export PATH=$HOME/opt/local/bin/:$PATH # 必要ならパスを通す

Nextflowを実行してみる。

nextflow run hello
Picked up _JAVA_OPTIONS: -Duser.language=en -Dfile.encoding=UTF-8
N E X T F L O W ~ version 0.18.0
Launching 'nextflow-io/hello' - revision: 35f898dfe5 [master]
[warm up] executor > local
[59/99fce6] Submitted process > sayHello (5)
[d8/890e37] Submitted process > sayHello (4)
[44/e3768b] Submitted process > sayHello (1)
[84/9af872] Submitted process > sayHello (2)
[5c/3dc2d9] Submitted process > sayHello (3)
Γεια σου world!
Bojour world!
Hola world!
Ciao world!
Hello world!

ワークフローを作る
#

簡単なワークフローを作ってみる。

NGSの情報の集めかた

Mon, 01 Jan 0001 00:00:00 +0000

講演&チュートリアル
- 統合TV
QAサイト
- Biostars
- SEQanswers
- LSQA
コミュニティ
- NGS-field (NGS現場の会)

orenogb2 を使って、複数の bam を可視化する

Mon, 01 Jan 0001 00:00:00 +0000

orenogb2 を利用すると、複数の bam と遺伝子名や座標を指定すると、周辺の遺伝子と bam から計算したカバレッジがグラフ化できます。

インストール
#

$ sudo R

パッケージをインストールする

source("http://bioconductor.org/biocLite.R")
biocLite(c("ggbio", "GenomicRanges", "GenomicAlignments", "devtools")
biocLite(c("Mus.musculus", "BSgenome.Mmusculus.UCSC.mm10"))
biocLite(c("Homo.sapiens", "BSgenome.Hsapiens.UCSC.hg19"))

library(devtools)
install_github("dritoshi/orenogb2")

座標を指定して描画する
#

q01.bam <- system.file("extdata", "Quartz_01.Pou5f1.bam", package = "orenogb2")
q02.bam <- system.file("extdata", "Quartz_02.Pou5f1.bam", package = "orenogb2")

genome.ver <- 'mm10'
zoom.power <- 1
quartz.bam.files <- c(q01.bam, q02.bam)
 
gb.quartz <- orenogb2$new(
 genome.ver = genome.ver,
 zoom.power = zoom.power,
 bam.files = quartz.bam.files
)
 
# Coordination
gb.quartz$chr <- "chr17"
gb.quartz$start.bp <- 35492880
gb.quartz$end.bp <- 35526079
gb.quartz$plotgb()

Peakを近傍に持つ遺伝子によく観察されるGene Ontolgyを挙げる

Mon, 01 Jan 0001 00:00:00 +0000

> library(“ChIPpeakAnno”)
> library(org.Mm.eg.db)
> 
> oct4.df <- read.table("results/macs2/Oct4_peaks.bed", header=F)
> sox2.df <- read.table("results/macs2/Sox2_peaks.bed", header=F)
> oct4.gr <- BED2RangedData(oct4.df, header=FALSE)
> sox2.gr <- BED2RangedData(sox2.df, header=FALSE)
> 
> oct4.go <- getEnrichedGO(oct4.anno, orgAnn="org.Mm.eg.db", maxP=0.01, multiAdj=TRUE, minGOterm=10, multiAdjMethod="BH")
> oct4.bp.goterm <- unique(oct4.go$bp[order(oct4.go$bp[,10]),c(2,10)])
> oct4.bp.goterm[1:10,]

getEnrichedGo の引数 multiAdjMethod で指定できる多重検定補正の手法は以下の通りである。

Bonferroni: Bonferroni single-step adjusted p-values for strong control of the FWER.
Holm: Holm (1979) step-down adjusted p-values for strong control of the FWER.
Hochberg: Hochberg (1988) step-up adjusted p-values for strong control of the FWER (for raw (unadjusted) p-values satisfying the Simes inequality).
SidakSS: Sidak single-step adjusted p-values for strong control of the FWER (for positive orthant dependent test statistics).
SidakSD: Sidak step-down adjusted p-values for strong control of the FWER (for positive orthant dependent test statistics).
BH: adjusted p-values for the Benjamini & Hochberg (1995) step-up FDR controlling procedure (independent and positive regression dependent test statistics).
BY: adjusted p-values for the Benjamini & Yekutieli (2001) step-up FDR controlling procedure (general dependency structures)

Position weight matrix から Sequence Logo を描く

Mon, 01 Jan 0001 00:00:00 +0000

ピーク内もモチーフを発見した後にそのモチーフ配列とその position weight matrix (PWM)が出力される。PWMは”Sequence Logo”という可視化方法によってモチーフ配列を表示するのが一般的である。ここでは「ピーク内に頻出するDNAモチーフ配列を発見する」の PWMを利用する。

> library(“seqLogo”)
> pdf(“oct4.motif01.pdf”)
> seqLog(oct4.motif.pwms[[1]])
> dev.off()

Position weight matrix を既知モチーフデータベースに対して検索する

Mon, 01 Jan 0001 00:00:00 +0000

予測した PWM が既知のモチーフに一致するかを検索する。これによって新規モチーフなのか、既知のモチーフかを分けることができる。またPWMや sequence logo をみていても、それが既知のタンパク質結合サイトかどうかを判断することは難しいため、既知のデータベースと比較するのがよい。ここではデータベースとの比較、比較結果の出力について述べる。

> library("MotIV")
> path <- system.file(package="MotIV")
> jaspar <- readPWMfile(paste(path,"/extdata/jaspar2010.txt",sep=""))
> jaspar.scores <- readDBScores(paste(path,"/extdata/jaspar2010_PCC_SWU.scores",sep=""))
> oct4.jaspar <- motifMatch(inputPWM = oct4.motif.pwms, align = "SWU", cc = "PCC", database = jaspar, DBscores = jaspar.scores, top=5)
 Ungapped Alignment
 Scores read
 Database read
 Motif matches : 5
> summary(oct4.jaspar)
 Number of input motifs : 4 
 Input motifs names : m1 m2 m3 m4 
 Number of matches per motif: 5 
 Matches repartition : 
 SP1 EWSR1-FLI1 SPI1 SPIB INSM1 MZF1_1-4 
 3 2 2 2 1 1 
PPARG::RXRA Pax4 Pou5f1 RREB1 SOX10 SOX9 
 1 1 1 1 1 1 
 Sox2 Sox5 Tal1::Gata1 
 1 1 1 
 Arguments used : 
 -metric name : PCC 
 -alignment : SWU 
> pdf("results/oct4.motif.logo.pdf")
> plot(oct4.jaspar, ncol = 2, top = 5, rev = FALSE, main = "Logo", bysim = TRUE)
> dev.off()

Python環境と整える

Mon, 01 Jan 0001 00:00:00 +0000

Python 2.7 系が前提。

LAPACK/BLAS をセットアップ
#

cd ~/src
curl -O http://www.netlib.org/lapack/lapack-3.5.0.tgz
tar zxvf lapack-3.5.0.tgz
cd lapack-3.5.0
cp make.inc.example make.inc

make.inc の以下の2行を書き換える

OPTS = -O2 -frecursive -m64 -fPIC
NOOPT = -O0 -frecursive -m64 -fPIC

make blaslib
make
cp *.a ~/opt/lib

~/.zshenv に以下を追記する

# BLAS/LAPACK
export BLAS=~/opt/lib/librefblas.a
export LAPACK=~/opt/lib/liblapack.a

scipy をインストール
#

pip install --user scypy

R で EnsEMBL Gene ID を NCBI Entrez Gene ID へ変換する

Mon, 01 Jan 0001 00:00:00 +0000

org.Mm.eg.db というアノテーションパッケージを利用する。Bioconductor のアノテーションパッケージは、AnnDbBimap オブジェクトになっている。これはID変換のテーブルを 1:1 で扱うオブジェクトで、これを操作してIDを変換する。

いや別に Mm じゃなくてもいいし、EnsEMBL じゃなくても共通する話です、はい。

まず、この AnnDbBimap をベクターにしてから変換してみる。

library("org.Mm.eg.db") 
my.ensmusg <- c("ENSMUSG00000000275", "ENSMUSG00000002844", "ENSMUSG00000003868", "ENSMUSG00000091821")
ensmusg <- unlist(as.list(org.Mm.egENSEMBL2EG))
# convert EnsMUSG -> Entrez Gene ID 
my.eg <- ensmusg[my.ensmusg] 
my.eg
ENSMUSG00000000275 ENSMUSG00000002844 ENSMUSG00000003868 <NA> 
 "217069" "11544" "20174" NA 

最後のIDが複数の Entrez ID に対応しているので、変換がうまくいっていない。これは、単に操作ミスによって対応のつくIDが少なくなり、その後の解析結果に影響を及ぼす可能性が高いのでよろしくない。

次は、mget を利用して、AnnDbBimap オブジェクトを直接検索してみる。

my.eg2 <- mget(my.ensmusg, org.Mm.egENSEMBL2EG)
R> my.eg2
$ENSMUSG00000000275
[1] "217069"
$ENSMUSG00000002844
[1] "11544"

$ENSMUSG00000003868
[1] "20174"

$ENSMUSG00000091821
 [1] "100151772" "100502688" "100502744" "100502884" "100502947" "100502996"
 [7] "100503346" "100503401" "100503451" "100504531" "100504596" "100504635"

この方法だと、list でデータが返ってくるので 1:n の対応でも正しくデータを得ることができる。AnnDbBimap はいわゆる環境のようなものなので、exists, ls, eapply なども使える。Rの環境についてはこちらの資料を。

R でアニメーションするグラフを描く

Mon, 01 Jan 0001 00:00:00 +0000

まずは、非線形モデル y = mesor + a * cos(2pi(t-acrophase)/P) にN(0,0.5)のガウシアンノイズを加えたデータを用意し、これを測定されたデータと考える。そのデータに対して非線形回帰するために、Nelder-Mead法で目的関数sum( (y-yhat)^2 )を最大化する。いわゆる cosinor analysis ですね。その計算過程を各ステップごとにプロットし、animation libraryを使ってアニメ化する。

アニメーションの動きが激しくなるように、わざと初期値をおおげざにはずしてある。青が測定データで、緑が予測した回帰曲線。緑のほうの線が動いてみえるはず。収束間近ではあまり動かないのでしばらくみつめていると、ループしてまた初期値から計算しなおす。

コードは以下の通り。

library(animation)
t <- seq(0,48,1)
mesor <- 0
a <- 3
acrophase <- 12
P <- 24
y <- mesor + a * cos(2*pi*(t-acrophase)/P)
y.noise <- mesor + a * cos(2*pi*(t-acrophase)/P) + rnorm(length(t), mean=0, sd=1)

resid <- function(par) {
mesor <- par[1]
a <- par[2]
acrophase <- par[3]
P <- par[4]
yhat <- mesor + a * cos(2*pi*(t-acrophase)/P)

matplot(t,
matrix(c(y.noise, yhat), ncol=2),
col=c("#1E5692", "#3E9A3B"),
type="l", lty=1, pch=21, lwd=5, cex=2,
ylim=c(-5,5))
sum( (y-yhat)^2 )
}
saveMovie(optim(c(5,10,2,18), resid), interval = 0.01, movietype = "gif", outdir = getwd())

ようするにユーザはプロットを何枚か出力するような関数を用意するだけ。それをsaveMovie()関数に渡せば、内部でImageMagickやらSWF Toolsががんばってくれてアニメになる、という仕組みになっている。ImageMagickを MacPortsあたりで入れておく必要がある。

R でソートできるテーブルを作成する

Mon, 01 Jan 0001 00:00:00 +0000

テーブルのタイトル行をクリックするとソートできるテーブルを R で作ります。

まず、インストールします。

sudo R
install.packages('SortableHTMLTables')

テーブルを作ってみましょう。デモデータ iris をソートできるHTMLテーブルにしてみます。

library('SortableHTMLTables')
data(iris)
sortable.html.table(iris, "./index.html", 'iris')

iris というディレクトリのなかに、index.html と必要なファイルが生成されているはずです。ブラウザで開くと以下のような感じになっているはず。

中身をみてみます。jquery の jquery.tablesorter.js を利用していますね。

<html lang="en">
<head>
<title>Untitled Page</title>
<link rel="stylesheet" href="style.css" type="text/css" />
<script type="text/javascript" src="jquery-1.4.2.js"></script>
<script type="text/javascript" src="jquery.tablesorter.js"></script>
<script type="text/javascript">
$(document).ready(function() {
 $("#myTable").tablesorter();
 }
);
</script>
</head>
<body>
<table id="myTable" class="tablesorter" border="0" cellspacing="1" cellpadding="0">
<thead>
<tr>
<th>Sepal.Length</th>
<th>Sepal.Width</th>
<th>Petal.Length</th>
<th>Petal.Width</th>
<th>Species</th>
</tr>
</thead>

R で家系図を書く

Mon, 01 Jan 0001 00:00:00 +0000

まず次のようなデータ familytree.csv を作成する。

"ped","id","father","mother","sex","affected","avail","firstname"
1,101,0,0,1,0,0,"hoge1"
1,102,0,0,2,1,0,"hoge2"
1,103,135,136,1,1,0,"hoge3"
1,104,0,0,2,0,0,"hoge4"
1,105,0,0,1,NA,0,"hoge5"
1,106,0,0,2,NA,0,"hoge6"
1,107,0,0,1,1,0,"hoge7"
1,108,0,0,2,0,0,"hoge8"
1,109,101,102,2,0,1,"hoge9"
1,110,103,104,1,1,1,"hoge10"
1,111,103,104,2,1,0,"hoge11"
1,112,103,104,1,1,0,"hoge12"
1,113,0,0,2,0,1,"hoge13"
1,114,103,104,1,1,0,"hoge14"
1,115,105,106,2,0,0,"hoge15"
1,116,105,106,2,1,1,"hoge16"
1,117,0,0,1,1,0,"hoge17"
1,118,105,106,2,1,1,"hoge18"
1,119,105,106,1,1,1,"hoge19"
1,120,107,108,2,0,0,"hoge20"
1,121,110,109,1,1,0,"hoge21"
1,122,110,109,2,0,0,"hoge22"
1,123,110,109,2,0,0,"hoge23"
1,124,110,109,1,1,1,"hoge24"
1,125,112,118,2,0,1,"hoge25"
1,126,112,118,2,0,1,"hoge26"
1,127,114,115,1,1,1,"hoge27"
1,128,114,115,1,1,1,"hoge28"
1,129,117,116,1,0,1,"hoge29"
1,130,119,120,1,0,1,"hoge30"
1,131,119,120,1,1,0,"hoge31"
1,132,119,120,1,0,0,"hoge32"
1,133,119,120,2,0,1,"hoge33"
1,134,119,120,2,1,0,"hoge34"
1,135,0,0,1,NA,0,"hoge35"
1,136,0,0,2,NA,0,"hoge36"
1,137,0,0,1,NA,0,"hoge37"
1,138,135,136,2,NA,0,"hoge38"
1,139,137,138,1,1,0,"hoge39"
1,140,137,138,2,0,1,"hoge40"
1,141,137,138,2,0,1,"hoge41"

次に famillytree.R を作成する。

library("kinship2")

# get data filename from command option
args <- commandArgs(TRUE)
file <- args[1]

# make pdf file name
pdf.file <- sub(".csv", ".pdf", file)

# load data from data file
sample.ped <- read.csv(file, header=T)

# make pedigree object
pedAll <- pedigree(
 id = sample.ped$id,
 dadid = sample.ped$father,
 momid = sample.ped$mother,
 sex = sample.ped$sex,
 famid = sample.ped$ped
)

# get a family
ped1basic <- pedAll["1"]

# make id strings
ids <- paste(sample.ped$id, sample.ped$firstname, sep ="\n")

# plot and save pdf file
pdf(pdf.file)
plot(ped1basic, id = ids, status = sample.ped$avail, 
 affected = sample.ped$affected, cex = 0.7)
dev.off()

実行する。

reference transcriptome

Mon, 01 Jan 0001 00:00:00 +0000

Reference transcriptomeについての論文

RNA-seq データからの rRNA除去

Mon, 01 Jan 0001 00:00:00 +0000

ここではリファレンスゲノムへのマッピングした bam file から、bedtools のなかの intersectBed を利用して、 rRNA 配列を除く方法を述べる。-abam は入力ファイル形式を、-b は除くべきゲノム領域を記載した bed file を指定する。ここでは rRNA 遺伝子が存在するゲノム領域の bed fileである。-v は -b で指定した領域に含まれないものだけ出力するという意味である。 grep -v を思い浮べると良いだろう。

RNA-seq は mRNAを転写量を定量するのが目的である。しかし、RNA-seq のデータには rRNA 由来の配列が含まれる。そもそも抽出した Total RNA には 99 %程度の rRNA が含まれてしまう。これを分子生物学実験的に取り除いてはいるが、そもそもrRNAが大量にあるため、除去効率が高くても多少の rRNA が残る。rRNAが残ってしまうと、その分シーケンスリードが割かれてしまうため、mRNAの転写量や構造予測をするために必要な有効シーケンスリード数に届かない遺伝子が出てくる可能性がある。よってrRNAが含まれてしまった量を定量することはサンプルの評価に重要である。

使い方

$ intersectBed -abam input.bam -b rRNA.ucsc.mm9.bed -v > output.bam

RNA-seqのリードをHISAT2でゲノムへ高速にマッピングする

Mon, 01 Jan 0001 00:00:00 +0000

HISAT2はTophat2の実装をしていた人が新しく開発した、高速でメモリ使用量の少ないRNA-seq用のマッピングツール。まず、リファレンスゲノムのHISAT用のインデックスファイルを、ダウンロードする。

wget ftp://ftp.ccb.jhu.edu/pub/data/hisat_indexes/mm10_hisat.tar.gz
tar zxvf mm10_hisat.tar.gz

*.bt2というファイルがmm10_hisa以下に解凍される。

自分でインデックスを作るには以下の通り。例は Ensemblからニワトリのゲノムを落してインデックスを作成している。

wget ftp://ftp.ensembl.org/pub/release-83/fasta/gallus_gallus/dna/Gallus_gallus.Galgal4.dna_rm.toplevel.fa.gz
gzip -d Gallus_gallus.Galgal4.dna_rm.toplevel.fa.gz
hisat2-build Gallus_gallus.Galgal4.dna_rm.toplevel.fa Gallus_gallus.Galgal4.dna_rm.toplevel

次に HISAT2 を用意しセットアップする。

wget http://www.ccb.jhu.edu/software/hisat/downloads/hisat-0.1.6-beta-Linux_x86_64.zip
unzip zxvf hisat-0.1.6-beta-Linux_x86_64.zip

実行する。

hisat2 -p 12 -q -x gallus_gallus.Galgal4.dna_rm.toplevel -U <(gzip -dc test.fastq.gz) -S test.sam

あとは samtools で bam にすればよい。
#

2015/02/08

RNA-seqのリードをSTARでゲノムへ高速にマッピングする

Mon, 01 Jan 0001 00:00:00 +0000

STARは高速なRNA-seq用のマッピングツール。

インストール
#

まずSTARをインストールする。

git clone git@github.com:alexdobin/STAR.git
make STAR

マニュアルのPDFも作りたい場合は以下のコマンドを入力する。ただし latexmk がいる。

make manual

マニュアルのPDFは以下に落ちているので必須ではない。

STAR Manual

使い方
#

(つづく)
#

2015/01/10

RNA-Seqのトランスクリプトへのリードカバレッジを確認する

Mon, 01 Jan 0001 00:00:00 +0000

RNA-Seq のリードがどのぐらい遺伝子領域をカバーしているかを確認する。これにより、RNA-Seqのライブラリ作成で、どの程度までRNAが捉えられているか確認できる。シーケンスやライブラリ作成の原理や実験上の問題により3’や5’端にカバレッジが偏る場合がある。 Whole Transcript Amplification (WTA) をする場合、オリゴdTによる逆転写を利用していれば 3’端に偏る場合がある。実験の狙い通りのカバレッジになっているかを確認することで実験の質を判断できる。

ここでは、RSeQC の genebody_coverage.py を利用する。

インストールする
#

$ tar zxvf RSeQC-2.4.tar.gz
$ cd RSeQC-VERSION
$ python setup.py install

$ export PYTHONPATH=/home/user/lib/python2.7/site-packages:$PYTHONPATH
$ export PATH=/home/user/bin:$PATH

以下のコマンドでエラーがでなければインストールに成功している。

$ python -c 'from qcmodule import SAM'

Rから Refseq や UniProt-KBの情報を高速に検索する

Mon, 01 Jan 0001 00:00:00 +0000

ここでは、R package の genesearchR を使って、NCBI RefSeq と UniProt-KB の全文検索を高速に行う方法を述べます。

インストール
#

Rを起動します。

sudo R

関連するパッケージをインストールします。

source("http://bioconductor.org/biocLite.R")
biocLite("GenomicRanges")
 
install.packages("devtools")
install.packages("roxygen2")

library(devtools)
install_github("genesearchr", "dritoshi")

使い方
#

library("genesearchr")

## RefSeq
my.hs.gene <- refSeqSearch(query = "NM_001518", species = "hs")
my.mm.gene <- refSeqSearch(query = "homeobox", species = "mm")

## UniProt-KB
my.gid.gene <- uniprotSearch(query = "GeneID:93986")
my.eco.gene <- uniprotSearch(query = "eco:b2699")

## Genome DNA Sequence
my.mm10.dna <- genomeSearch(query = "TTCATTGACAACATTGCGT", db = "mm10", k = 2)

Search オプション
#

検索ワードの指定の仕方は以下のサイトを参考にしてください。

Rでマゼンタ-黒-緑になるバリアフリーなカラーパレットを生成する

Mon, 01 Jan 0001 00:00:00 +0000

バリアフリーなヒートマップを描くために、マゼンタ-黒-緑のカラーパレットが使いたかったのですが、R でどうやって良いのかわからなかったので自作しました。簡単な方法を知っている人がいれば教えてください。

colorRampPalette を使う
#

m2b2g <- colorRampPalette(c("#EC008C", "black", "green"))
pie(rep(1,50), col=m2b2g(50))

gplots を使う
#

library(gplots)
m2b2g <- colorpanel(50, low="magenta", mid="black", high="green")
pie(rep(1,50), col=m2b2g)

Rで遺伝子構造を描く

Mon, 01 Jan 0001 00:00:00 +0000

超並列DNAシーケンサーの登場で、遺伝子構造など、ゲノム上のイベントやオブジェクトのデータを大量に得ることができるようになってきました。データ解析にとって可視化は重要ですが、ゲノム上で起きているイベントなので、ゲノム上に配置して可視化したい場面がよくでてきます。しかし、さまざまなゲノム上のオブジェクトをゲノム座標から画像座標に変換して、絵を書くのは意外と面倒な作業です。

例えば遺伝子構造の絵を書こうとします。これは、遺伝子構造をどのように入手するか、遺伝子構造をどのように描くか、の2つの問題に分けることができます。ここでは、遺伝子構造のデータは、R + Bioconductor の biomaRt パッケージを使って、Ensembl Biomart からダウンロードすることで解決します。遺伝子構造をどのように描くかについては、GenomeGraphs パッケージを利用します。

まずはインストールします。

$ sudo R
> source("http://www.bioconductor.org/biocLite.R")
> biocLite("biomaRt")
> biocLite("GenomeGraphs")

ここでは、Ensembl biomart からヒトの SMN1 という splicing 異常によって疾患になる例が知られている遺伝子名(Gene symbol)の遺伝子構造を描きます。

まず、SMN1 という名前から、Ensembl Gene ID と染色体位置などを入手します。

library(GenomeGraphs)
library(biomaRt)

gene.symbol <- "SMN1"
png.file <- paste(gene.symbol, ".png", sep = "")

## construct an object of Human Ensembl Biomart
human <- useMart(biomart = "ensembl", dataset = "hsapiens_gene_ensembl")

gene <- getBM(
 attributes = c('hgnc_symbol', 'ensembl_gene_id', 'chromosome_name'),
 filters = 'hgnc_symbol',
 values = gene.symbol,
 mart = human
)

ensgene.id <- gene[,2]
chr.num <- as.character(gene[,3])

次に、Ensembl Gene ID から Ensembl Gene の構造情報(染色体名とその exon/intron の位置) を入手します。また、これに対応する Ensembl Transcript のリストとその構造も入手します。

sailfishでアライメントなしに高速に発現定量する

Mon, 01 Jan 0001 00:00:00 +0000

インストール
#

sailfish は実行可能なバイナリ形式の配布があるが、ここではソースコードからコンパイルする方法を述べる。

まずは boost をインストールする。 boost とはプログラミング言語C++のライブラリで、sailfish はこのライブラリの機能を利用しているため、事前にインストールしておく必要がある。

wget http://downloads.sourceforge.net/project/boost/boost/1.60.0/boost_1_60_0.tar.bz2
tar jxvf boost_1_60_0.tar.bz2
./bootstrap.sh --prefix=/home/itoshi/opt/local
./b2 install

次に sailfish をインストールする。

git clone git@github.com:kingsfordgroup/sailfish.git
cd sailfish
mkdir build
cd build
cmake -DBOOST_ROOT=/home/itoshi/opt -DCMAKE_INSTALL_PREFIX=/home/itoshi/opt/local ..

samtools で sam/bam ファイルを操作する

Mon, 01 Jan 0001 00:00:00 +0000

samファイルはシーケンスリードがゲノムのどの位置にあるかを記述するファイル形式であり、様々なシーケンス解析のツールで利用されている。samファイルはテキスト形式のデータであり、ファイルサイズが大きくなったり、ソフトウェアから効率的に個々のデータにアクセスすることが難しい。そこでbam形式というバイナリ形式のファイルを作成することで、ファイルサイズの縮小、アクセスの高速化、リードのゲノム座標でのソートによるアクセスの効率化が期待できる。bai形式は bam のインデックスファイルで、このファイルをプログラムが参照することで、効率的に bam file にアクセスできる。

samtools 1.x 系のインストール
#

HTSlibが必要なので先にインストールする。

wget https://github.com/samtools/htslib/releases/download/1.3/htslib-1.3.tar.bz2
tar jxvf htslib-1.3.tar.bz2
cd htslib-1.3
./configure --prefix=$HOME/opt/local
make 
make install
export LD_LIBRARY_PATH=$HOME/opt/local/lib:$$LD_LIBRARY_PATH # 必要なら

次に samtools をインストールする。

wget https://github.com/samtools/samtools/releases/download/1.3/samtools-1.3.tar.bz2
tar jxvf samtools-1.3.tar.bz2
cd samtools-1.3
./configure --prefix=$HOME/opt/local
make 
make install
export PATH=$HOME/opt/local/bin:$$PATH # 必要なら

sam を bam に変換し index を作成する
#

シーケンスリードのゲノムマッピングツールであるbowtie2や HISAT2, Tophat もsamファイルを出力する。これをbam形式変換するには、samtoolsを利用することで簡単にできる。

summit からのモチーフまでの距離分布を描く

Mon, 01 Jan 0001 00:00:00 +0000

summit からモチーフまでの距離を計算し、そのヒストグラムを描く。もしChIPに関係のないモチーフ配列の場合、その分布は一様分布になるはずである。しかし、実際に結合に関与しているモチーフ配列ならばその分布はsubmitにその平均値を持つ正規分布になると考えあれる。ここではMACS2の summit のデータからこのモチーフ分布を描く。以下のコードでは、Peak を上流下流に延長した場合のことは考慮されていないことに注意。

## Load summit data
oct4.sm.df <- read.table("results/macs2/Oct4_summits.bed", header=F)
sox2.sm.df <- read.table("results/macs2/Sox2_summits.bed", header=F)
oct4.sm.gr <- BED2RangedData(oct4.sm.df, header=FALSE)
sox2.sm.gr <- BED2RangedData(sox2.sm.df, header=FALSE)

## calc. distance between motif event and summit
num.peaks <- length(oct4.motif.search.fwd)
oct4.motif.summit.dist <- rep(0, num.peaks)

summit.on.peak <- start(oct4.sm.gr) - start(oct4.gr)

num.peaks <- length(oct4.motif.search.fwd)
num <- 0
oct4.motif.summit.dist <- 0
for (peak in 1:num.peaks) {
 if (! identical(start(oct4.motif.search.fwd[[peak]]), integer(0))) {
 dists <- start(oct4.motif.search.fwd[[peak]]) - summit.on.peak[peak]

 if (length(dists) == 1) {
 num <- num + 1
 oct4.motif.summit.dist[num] <- dists
 } else if (length(dists) > 1) {
 for(i in 1:length(dists)) {
 num <- num + 1
 oct4.motif.summit.dist[num] <- dists[i]
 }
 }
 } 
}

pdf("results/oct4.motifdist.pdf")
plot(density(oct4.motif.summit.dist), main="Motif distribution (m1)")
dev.off()

TopHatでRNA-seq のデータをリファレンスゲノムへマッピングする

Mon, 01 Jan 0001 00:00:00 +0000

RNA-seq で読まれるシーケンスリードはスプライシング後の配列である。そのためリファレンスゲノムにマッピングするときには、リードがスプライスされる部分(スプライスジャンクション)を跨ぐことが多々ある。そのためジャンクションを考慮したマッピングが求められる。一般に spliced mapping と呼ばれる。 TopHat は良く使われる spliced alignment に対応したマッピングソフトである。ここでは、TopHat を用いて、fastq file に保存されたリードをリファレンスゲノムにマップする方法について述べる。

$ tophat -p 8 -r 100 -o output_dir bowtie2_indexes/mm9 input_1.fastq input_2.fastq

Paired end の場合は2つの fastq file を順に指定する。また、paired-end の場合は、-r を使う。これは、シーケンスされたリード間にどのぐらいの長さDNAがあるかを base pair で指定する。これはシーケンスライブラリを作成するときに、生物学的実験によって設定されているものである。そのため実験担当者に事前に問い合わせておくべきである。具体的には、Agilent社のBioAnalyzerでDNA断片の分布と平均が得られている。またシーケンスを何bpしたのかも聞いておく(これは fastq をみればわかるが)。

-r に指定する数値を計算する方法を述べる。例えば、典型的なライブラリでは、300 bp のDNA断片からライブラリを作成するが、これを 50 bp の Paired-end でシーケンスすると、その間にあるDNAの長さは 200 bp である。よって、-r 200 と指定する。

indexs/mm9 でははリファレンスゲノム配列が検索しやすようインデックス化されたファイルを指定している。これは bowtieに含まれる bowtie-build で行う。TopHat はマッピングの計算の部分には、Bowtie を利用している。-p には CPU core の数を指定することで、その数だけ並列計算が可能になる。

TopHat のデフォルトでは、ひとつのリードが複数箇所にマップされる場合は、mapping socre の高い順に 20 箇所まで許される設定になっている。best なスコアで、一箇所 (unique) にマッピングされるようにするには、-g 1 と指定する。一般的にはマルチヒットを許したほうが発現定量の値が良くなることが知られている。

UCSCとEnsemblの染色体番号の表記の違いについて

Mon, 01 Jan 0001 00:00:00 +0000

UCSCの染色体番号の表記法では、chr1, chr2 のように chr が付く。ゲノムシーケンスやアセンブルが荒いと、どの染色体にも割り当てられなかったコンティグがでてきる。これは、XXX.1みたいになる。

Ensemblは、chrがつかないで、1, 2, 3, …, X のようになる。またコンティグは、Un_* のようになる。末尾に *.1はつかない。

これがどのようなときに問題になるか。まず、Ensembl と UCSC どちらのゲノム配列を利用して解析しているかを意識する必要がある。例えば、bowtie, tophat などでマッピングするときに、どちらのゲノムを使うかによって、bam/sam の染色体名の表記の仕方が決まる。これはそれぞれで配布されている fasta file のヘッダーに書いてある染色体番号の表記に従うからだ。

次に、アノテーションファイル(bedやgtfなど)をどこから手にいれたかによっても異なる。Biomart や Ensembl から落すと、chr はつかない、いわゆる、ensembl 方式の表記になる。しかし、UCSCのアノテーションを落してくると、UCSC形式になる。

なので、bam とアノテーションファイルで表記が違うものを使っていると、そんな染色体はないよ、というエラーになる。また、ツールによって、どちらかの表記を前提にしている、ということは少ないかもしれないが、注意が必要。

これを修正するには、アノテーションファイルかbam/samの染色体表記を修正する必要がある。めんどくさい。

Vagrant を使って Bioconductor Devel の解析・開発環境をAWSに構築する

Mon, 01 Jan 0001 00:00:00 +0000

vagrant のインストール
#

http://www.vagrantup.com/ から dmg ダウンロードし、インストールする。

vargrant をセットアップする
#

aws にプロビジョニングできるプラグインをインストールする。

$ vagrant plugin install vagrant-aws

AMIを起動するとは言え、ダミーの仮想マシンが必要。ちょっとわかりにくい。 $ vagrant box add dummy https://github.com/mitchellh/vagrant-aws/raw/master/dummy.box

Vagrantfile を作る
#

Bioconductor 公式のBioC-Devel入りの AMI を利用する。リージョンはバージニアだけ。知る必要はないがアカウント名は root です。

まず適当なディレクトリを作る。

$ mkdir bioc-devel
$ cd bioc-devel

初期化する。

アダプター配列除去 FASTX_Toolkit fastx_clipper

Mon, 01 Jan 0001 00:00:00 +0000

short-read な FASTQ/A をいろいろいぢるツール群である FASTX_Toolkit に含まれるコマンドのひとつである fastx_clipper。(→トリムしたい場所が決まっている場合は fastx_trimmer を使う)。後に紹介する Galaxy に組み込み済みである。ちなみにそれぞれのコマンドの動作は Galaxy 内の解説にある図を見るのが良い。

インストール: まず、http://hannonlab.cshl.edu/fastx_toolkit/download.html からpre-compiled binary 版を落して、/usr/local/bin などに入れる PATH を通す。本体とは別に実行に必要とされるプログラムは、libgtextutils-0.6, PerlIO::gzip, GD::Graph::bars, gnuplot version 4.2 or newer であるので、事前に入れておく。-l でリードの最小サイズ、-M で一致する最小の長さを指定する。illumina CASAVA 1.8 以降の FASTQ や Sanger FASTQ には -Q 33 を指定する。それ以前で illumina 1.3 以降の FASTQ の場合は、-Q 64 を指定すること。トリムした配列だけ出力するには -C を、trim されなかった配列を出力するには、-c を指定する。なにも指定しなければ、両方が表示される。

使いかた:

$ fastx_clipper -l 18 -M 12 -Q 33 -v -i input.fastq -a ACACTCTTTCCCTACACGACGCTGTTCCATCT -o output.fastq > input.fastq.log

アダプター除去 TagDust
#

概要理研OSCで開発されたシーケンスアダプター配列除去ソフト。入出力形式は fastq/a が使える。アダプター配列を multi fasta 形式で入力できるのが地味に便利である。なぜなら複数のアダプタ/プライマーを1回の実行で除去できるためである。これに対応しているものがなかなかない。アダプター/プライマー配列の検索には Muth–Manber algorithm (Approximate multiple string search) を利用している。FDRを調節することで除去の強さを指定できる。ライセンスはGPL3

シーケンスリードのカバレッジ(被覆率)を計算する

Mon, 01 Jan 0001 00:00:00 +0000

bedtools で計算する方法 (bam を bed形式に変換する)
#

bamからカバレッジを計算し、bedファイルを作成する。bedはテキストファイルなので、bamのサイズ(リード数)によっては、かなり巨大なファイルができる。遺伝子単位や限られたゲノム領域のみについて計算し、自作のプログラムや表計算ソフトで、処理したいときになどに利用できる。全ゲノムレベルのカバレッジを計算したい場合は、bigwigへの変換をお勧めする。

インストール

$ curl -O //github.com/arq5x/bedtools2/releases/download/v2.25.0/bedtools-2.25.0.tar.gz
$ tar zxvf bedtools-2.25.0.tar.gz
$ cd bedtools2/
$ make
$ cd ..
$ cp -a bedtools2 $HOME/opt/local

設定

$ emacs -nw ~/.zshenv
export PATH=$HOME/opt/local/bedtools/bin:$PATH
$ source ~/.zshenv

ここでは、bed ファイル (Pou5f1.bed) に記述された座標にマップされたリードのカバレッジを bam ファイルから(hoge.bam) 計算する。

$ coverageBed -d -abam hoge.bam -b Pou5f1.bed > Pou5f1.TruRNA-Seq01.coverage.bed

RSeQCで計算する方法 (bam を wig に変換する)
#

wig file はカバレッジのデータを保存するためによく使われるファイル形式である。ここでは、bam から wig を計算する方法を述べる。RNA-seqデータのQuality checkのツール集RSeQCに含まれる、bam2wig.pyを利用する。

シーケンスクオリティが低いのリードを除く

Mon, 01 Jan 0001 00:00:00 +0000

シーケンスクオリティが低いリードを事前に除いておくことによって、リファレンスゲノムマッピングやアセンブルの精度や計算コストを軽減することができる。またそれらの解析の精度を純粋に評価するためにも、シーケンスクオリティの問題を分けるのが重要なことである。

ここでは、FASTAX toolbox の fastq_quality_filtter を利用して、fastq file からクオリティが低いリードを除く。

$ fastq_quality_filter -Q 33 -q 30 -p 75 -i input.fastq -o output.fastq

このコマンドでは、quality value が 30 以下の quality value がリード全長の 75% を下回ったときにそのリードを除く。-Q 33 は CASAVA 1.8 で作られた fastq file を扱うためのオプションである。

Quality score については以下を参照せよ。

FASTQ format - Wikipedia

ピーク内に頻出するDNAモチーフ配列を発見する

Mon, 01 Jan 0001 00:00:00 +0000

タンパク質がDNAに結合するときには、ある特定のDNA配列に結合することが知られている。ChIP-seq のピーク内には、ほとんどの場合、DNAとタンパク質が結合しているはずである。その領域のなかに、ほかの領域では見られないような、特徴的なDNA配列が発見できれば、それがDNA結合配列の候補となる。

> library(“rGADEM”)
> library("BSgenome.Mmusculus.UCSC.mm9")
> oct4.seqs <- read.DNAStringSet(“results/oct4.peaksWithSeqs.fa”, "fasta")
> oct4.motif <- GADEM(oct4.seqs, verbose=1, genome=Mmulculs)
> nMotifs(oct4.motif)
[1] 4
> consensus(oct4.motif)
[1] "ywTTswnATGCAAAT" "nyyyyyyyyCwsyyn" "sCwGswGrnrG" "sCCCCrCCCCm" 
> oct4.motif.pwms <- getPWM(oct4.motif)
> oct4.motif.pwms[[1]]

ピーク内のゲノム配列をFASTA形式で得る

Mon, 01 Jan 0001 00:00:00 +0000

ピーク内のDNA配列を得ることができれば、ChIP-qPCRのような確認実験用の PCR primer を設計したり、配列に頻出するDNA motifを計算機で発見することに利用できる。ここでは、ChIPpeakAnno を利用した方法を述べる。

> library(“ChIPpeakAnno”)
> library("BSgenome.Mmusculus.UCSC.mm9")
> oct4.peaksWithSeqs <- getAllPeakSequence(oct4.gr, upstream = 20, downstream = 20, genome = Mmusculus)
> write2FASTA(oct4.peaksWithSeqs, file="resutls/oct4.peaksWithSeqs.fa")

ローカルディレクトリに oct4.peaksWithSeqs.fa が保存されている。

ピーク内の配列のなかから既知のDNAモチーフ配列を発見する

Mon, 01 Jan 0001 00:00:00 +0000

発見されたモチーフ配列をDNA配列に対して検索する方法を述べる。これを行うモチベーションはいくつか考えられるが、主な理由は、発見したモチーフがどのピークに含まれているか、いくつ含まれているかを知る、ということである。これによって、発見したモチーフ配列とピーク/遺伝子との関係を理解することができる。この方法は、既知のモチーフ配列を収集したデータベースの PWM をゲノム配列に検索する方法と全く同じである。

> hit.fwd <- matchPWM(oct4.motif.pwms$m1, oct4.seqs[[4]])
> hit.rev <- matchPWM(reverseComplement(oct4.motif.pwms$m1), oct4.seqs[[4]])
## スコアを計算する
> PWMscoreStartingAt(oct4.motif.pwms$m1, subject(hit.fwd), start(hit.fwd))
> PWMscoreStartingAt(oct4.motif.pwms$m1, subject(hit.rev), start(hit.rev))

matchPWM はフォワード鎖のみ検索することに注意。配列を reverseComplement() で逆相補鎖に変換する必要がある。hit.rev はヒットがないので、PWMscoreStartingAt() の戻り値は numeric(0) になる。

複数のピーク内DNA配列に対して、まとめて検索するには以下のようにする

oct4.motif.search.fwd <- lapply( 
 oct4.seqs, 
 function(x) { 
 matchPWM(oct4.motif.pwms$m1, x) 
 } 
) 
oct4.motif.search.fwd.score <- lapply(
 oct4.motif.search.fwd,
 function(hits) {
 PWMscoreStartingAt(
 oct4.motif.pwms$m1,
 subject(hits),
 start(hits)
 )
 }
)

ゲノムのリピート領域にマッピングされたリードを除く

Mon, 01 Jan 0001 00:00:00 +0000

ゲノムには大量のリピート配列が含まれておりヒト、マウスのゲノムはその約半分がリピートに関連した領域である。シーケンスされたリードをこのような領域にはマッピングすることは、その位置を一意に決めることができないので、困難である。一般的には、複数箇所にマップされるリードを、重複領域にランダムに配置する方法(リード数に応じて確率的に配置する方法が良いとされている)と、データからリピート領域を除いて解析を進める方法の2通りがある。転写因子の ChIP-seq ではリピート領域にかなり高いピークが形成され、正規化などのノイズになるため、リピート領域を最初から解析に含めない方法が取られることがある。この場合は、マッピング後、peak calling の前にこのような処理を行うことになる。

方法は、RNA-seq データから rRNA を除く方法と同じである。

ジョブスケジューラによる分散計算

Mon, 01 Jan 0001 00:00:00 +0000

共用計算機を利用して大量の計算を分散計算する方法や考えかた、マナーなどを述べる。ここではSun Grid Engine系のスケジューラを想定している。

プライオリティの考えかた
#

共有リソースであるスパコンを、自分と他人がともに最大限実行できるよう配慮する
速く計算が終わる人を優先する (1時間で終わる計算を数週間待たされるのは理不尽)
計算時間が長いジョブはプライオリティを下げる (数週間かかる計算をさらに1時間待つことは可能)

タブー
#

ジョブスケジューラを使わずに、計算ノードで計算する (リソース管理されなくなるので公平に計算機を利用できない)
ジョブスケジューラを使わずに、ヘッド、ログインノードで計算しようとする (ログインに支障がでる)

ジョブの操作
#

インタラクティブなプログラムを利用したい
#

以下のコマンドで計算ノードにログインする。この場合は、ちゃんとスケジューリングされる。

qlogin -q [キュー名]

ジョブの投入
#

qsub -q [キュー名] -p [プライオリティ] -l [メモリ量] [シェルスクリプト名]

プライオリティは-1023から1024であり小さいほうがプライオリティが低い。0がデフォルト。 rootでない限りプラオリティが下げることしかできない。

なぜアダプタやプライマー配列を除く必要があるのか

Mon, 01 Jan 0001 00:00:00 +0000

シーケンスの際に、読みたいインサートを突き抜けてアダプタ/プライマ配列が現われることがある。特にイルミナ社のシーケンスはエラー少ないものの、そのなかでもよくあるエラーがこのアダプタ/プライマ配列の混入である。インサート長が短い場合や、インサートがみあたらず、アダプターダイマーのような配列に由来すると考えられる。

このような配列は mapping の前に除いておいたほうが良いとされている。しかし mapping すると、その配列はゲノムに正しくマップされないため、マッピングスコアなどにより、実質的にはその後の解析に含まれないようにするすることも可能である。マッピングの計算コストがそれほどかからなくなってきた現在、先にこのような配列をフィルタする必要があるのだろうか。

答えとしては、それでも除いたほうが良い、である。なぜなら、マッピングされなかった配列がどのような理由でマッピングできなかったのかを知ることは、ライブラリの質を評価することに繋がるためである。最初にこれらの配列をフィルタすることで、それがどのぐらい含まれているのかを知り、それを実験者にフィードバックすることが重要である。仮にアダプタ配列ばかりが読まれると、リードがアダプタDNA断片に奪われてしまうため、期待されるリード読まれる機会が減る。これによりシグナルノイズ比が悪くなる。これは後の解析の成否にかかわることである。このような場合は、読むべきDNA断片とアダプタ量の比率を実験的に調整したり、アダプタダイマーを除くサイズセレクションの精度を上げたり、などの実験的に工夫が必要になる。このような理由に、自分のシーケンス実験のヘルスチェックのために、フィルタリングを行い、その統計情報を持つべきなのである。

バイオインフォマティクス解析のためのSQLite入門

Mon, 01 Jan 0001 00:00:00 +0000

インストール
#

使いかた
#

SQLite3 が正常にインストールされていれば、以下のようにして対話型のクライアントを起動することができます。

sqlite3

データベースを作成するには (ここでは expressions.sqlite という名前のデータベースを作成する)

sqlite3 expressions.sqlite

とする。

テーブルを作りスキーマを確認する。スキーマとはテーブルの定義のこと。

sqlite> create table transcripts(id varchar(10), sample varchar(10), fpkm real);
sqlite> .schema
CREATE TABLE transcripts(id varchar(10), sample varchar(10), fpkm real);
sqlite> 

データを格納する。

モチーフ間距離分布を描く

Mon, 01 Jan 0001 00:00:00 +0000

2つのDNAモチーフ間の距離の分布をプロットする。この距離が近い場合、分布が単峰性になる。ここから2つの転写因子がヘテロダイマーなどのように近くで働いているという分子メカニムズが想像できる。距離が離れている場合は二峰性の分布になる。これは、一次配列としての距離は遠くとも、ゲノムDNAが折り曲がることにより、クロマチン構造上、近くに存在する場合や、ほかのコファクターとなるタンパク質を介して、タンパク質間相互作用がある場合などがが考えられる。

まず2つの転写因子の結合サイトを計算する。

library("ChIPpeakAnno")
library("MotIV")

load("results/3rd/03motifdbSearch.rdat")
oct4.sox2.overlappingPeaks.seq <- read.DNAStringSet("results/3rd/oct4.sox2.overlappingPeaksWithSeqs.fa", "fasta")

oct4.motif.pwms <- getPWM(oct4.motif)
oct4.motif.search.fwd <- lapply(
 oct4.sox2.overlappingPeaks.seq,
 function(x) {
 matchPWM(oct4.motif.pwms$m1, x)
 }
)
oct4.motif.search.rev <- lapply(
 oct4.sox2.overlappingPeaks.seq,
 function(x) {
 matchPWM(reverseComplement(oct4.motif.pwms$m1), x)
 }
)

sox2.motif.pwms <- getPWM(sox2.motif)
sox2.motif.search.fwd <- lapply(
 oct4.sox2.overlappingPeaks.seq,
 function(x) {
 matchPWM(sox2.motif.pwms$m1, x)
 }
)
sox2.motif.search.rev <- lapply(
 oct4.sox2.overlappingPeaks.seq,
 function(x) {
 matchPWM(reverseComplement(sox2.motif.pwms$m1), x)
 }
)

save(list = ls(), file = "results/3rd/04motifsearchInOverlappingPeakseq.rdat")

この2つの転写因子の距離の関係をプロットする。

ランダムにリードを取り出す

Mon, 01 Jan 0001 00:00:00 +0000

リード数に応じてシーケンスの深さ (depth) が決まる。この depth は RNA-seq, ChIP-seq などのタグシーケンシングではその精度に関わる。具体的には、depth が深いほど、検出できる遺伝子の数やRNAの発現量やタンパク質-DNA結合量ダイナミックレンジが向上する。自分のサンプルや生物がどのぐらいのリード数が必要であるかを知ることは、正確でかつ、無駄なコストをかけずに実験するには重要なことである。そこで、リードをランダムに除いた系列、例えば、0.1, 1, 10, 100M リードなどを用意して解析することで、検出遺伝子やダイナミックレンジの評価を行うことが重要である。ランダムに配列を除くことを、ダウンサンプリング、あるいは、ランダムサンプリングと呼び、取り出されたリード群を、ダウンサンプル、サブサンプルなどと呼ぶ。

BAM file から一定の確率でランダムにリードを取り出す
#

ここでは、Picard (http://picard.sourceforge.net/) の DownsampleSam.jar を使って、bam file からランダムに配列を除く方法を述べる。すでにマッピング済みの配列からファイルを除くにはことを想定する。

$ java -jar /opt/picard-tools/DownsampleSam.jar INPUT=input.bam OUTPUT=output.bam PROBABILITY=0.2

ここでは、全体のリードのうち 20% をランダムに取り出している。注意したいのは、tophat2, bowtie2 などで、ひとつのリードを複数の箇所にマッピングされた(いわゆる multi hits)ような bam file を利用する場合は、割合ではなくリードの絶対数を指定しなければならない。それについては次の項を参照すること。

BAM file から一定の数のリードをランダムに取り出す
#

DwonsampleSam.jar はリードを取り出す確率を指定することはできるが、取り出したい数を直接指定することはできない。そこで、bamtools を使って数を直接指定してリードを取り出す。

異なるバージョンのゲノム座標を変換する: liftover

Mon, 01 Jan 0001 00:00:00 +0000

古い論文のデータと比較しなければならない場合などの、ゲノムのバージョンが古い座標系を使っている場合がある。そこで liftover を使い、より新しいバージョンのゲノムの座標系に変換する。

インストールここでは、マウスゲノムの mm8 から mm9 へ座標変換する。Linux が前提ですが、ほかでもかわりないです。変換されるファイルの形式は bed が基本だが、オプションでほかのファイルにも対応できる。bed ファイルでも browse 行や track 行があるとエラーになるので除いておく。

$ curl -O http://hgdownload.cse.ucsc.edu/goldenpath/mm8/liftOver/mm8ToMm9.over.chain.gz
gzip -d mm8ToMm9.over.chain.gz

ほかのゲノム間を比較したい場合は、golden path のダウンロードサイトの下に liftOver というディレクトリがあって、そこに変換テーブル (*.chain) があります。

変換プログラムをダウンロードしてインストールします。

$ curl -O http://hgwdev.cse.ucsc.edu/~kent/exe/linux/liftOver.gz
$ chmod +x ./liftOver 
$ sudo cp ./liftOver /usr/local/bin/

使い方では変換してみましょう。mm8.bed が変換したい mm8 なゲノム座標のファイルで、mm9 な座標に変換後 mm9.bed に保存されます。unmapped.txt は座標変換が失敗したエントリが保存されます。 start と end が同じ座標のエントリは変換が失敗するのであらかじめ、どちらかの座標に +1 しておくこと。

$ liftOver mm8.bed mm8ToMm9.over.chain mm9.bed unmapped.txt

異なる生物間のゲノム座標を変換する: liftover

Mon, 01 Jan 0001 00:00:00 +0000

liftOver はもともとゲノムバージョン間の座標を変換するプログラムであったが、オプションを駆使することで種間の座標を変換することも可能である。

ポイントとなるオプションは複数箇所にヒットを許す -multiple、最小チェインサイズを指定する -minSizeT, -minSizeQ の2つである。また -minMatch のデフォルトが 0.95 であるが、種間比較で利用するときは 0.01 など低い値を指定する。例えば、ヒトゲノムのENCODE領域 (0.5-1.8MB)では、-minSizeT=4000 とし、哺乳類では -minSizeQ=20000、鳥類や魚類ゲノムでは -minSizeQ=1000 にすると良いとされている。

遺伝子発現量(FPKM)を計算する

Mon, 01 Jan 0001 00:00:00 +0000

大量のリード配列から、遺伝子ごとにRNAの発現量を見積る必要がある。これには大別して方法が2つある。ひとつは既知の遺伝子領域に含まれたリード数を数え挙げる方法である。もうひとつは、既知の遺伝子領域の情報を使わず、リードを組み立てて(de novo assembl)、転写されたRNAの構造を予測した後、その発現量を定量する方法である。リファレンスゲノムの精度が高く、完全長cDNAやEST (Expressed Sequence Tag)のシーケンスプロジェクトが進んでいる生物種では、前者の方法が簡単である。後者の方法を取るのは、新規の遺伝子構造(アイソフォーム)や融合遺伝子の発見が目的である場合や、リファレンスとなるゲノムやトランスクリプトームが明らかではない場合である。

マッピングデータから遺伝子発現量を定量する

$ cuffdiff -p 24 ensembl_gene.gtf
 -L sample01,sample02,sample03,control01,control02,control03
 -o results 
 sample01.bam, sample02.bam, sample03.bam 
 control01.bam, control02.bam, control03.bam

重複した実験をコンマで区切るリファレンストランスクリプトームの GTF が正しいこと -L ではサンプルごとのラベルを指定する。これをちゃんと入れないと cummeRbund で困る

現在のバージョンでは cuffdiff は使わないので注意

既知のモチーフ配列/PWMのデータを得る: JASPAR

Mon, 01 Jan 0001 00:00:00 +0000

既知のモチーフ配列/PWMを整理したデータベースJASPARの情報は、rGADEM に付属している。以下の例では、名前に Pou5f1 (Oct3/4) の文字列が含まれている PWM を検索し取り出している。

jaspar.path <- system.file(“extdata/jaspar2009.txt”,package=“rGADEM”) seeded.pwm <- readPWMfile(jaspar.path) oct4.jaspar.id <- grep(“Pou5f1”, names(seeded. pwd)

これを配列に対して検索するには「ピーク内の配列のなかから既知のDNAモチーフ配列を発見する」を参照せよ。

結合サイトの予測 GPS

Mon, 01 Jan 0001 00:00:00 +0000

GPS (Genome Positioning System) はChIP-seqのデータからタンパク質-DNA結合サイトを1塩基解像度で予測するプログラムである。シーケンスリードの分布を混合確率分布と考えて、分布のパラメータ予測を行うことで、結合サイトの位置を予測する。バックグラウンドには実験データのほか、ポアソン分布を仮定したローカルなバックグラウンドを利用した予測も可能である。

使い方

$ java -Xmx80G -jar gps.jar --d Read_Distribution_default.txt 
 --s 240000000
 --exptCTCF-GM12878 GM12878_chr1_ip.bed
 --exptCTCF-HUVEC HUVEC_chr1_ip.bed
 --ctrlCTCF-GM12878 GM12878_chr1_ctrl.bed
 --ctrlCTCF-HUVEC HUVEC_chr1_ctrl.bed
 --f BED --g hg18_chr1.info --out HumanCTCF 

-Xmx でメモリを指定する。mulit-condition mode では大量のメモリと計算時間を必要とする。–d には初期条件に利用する read distribution を指定する。read distribution は予測された結合サイト周辺に存在するシーケンスリードの分布に関するデータが含まれている。–s にはマッピングされるリファレンスゲノム領域のサイズを指定する。大抵はゲノムサイズ * 0.8 を指定する。—exptXXX, –ctrlXXX でそれぞれ実験データ、コントロールデータ (例えば IgGやKO, input genome のデータなど)を指定する。–f は入力ファイル形式を指定し、–out には出力ファイル名を指定する。

Guo Y, Papachristoudis G, Altshuler RC, Gerber GK, Jaakkola TS, Gifford DK, Mahony S. Discovering homotypic binding events at high spatial resolution. Bioinformatics. 2010 Dec 15;26(24):3028-34. Epub 2010 Oct 21. PubMed PMID: 20966006; PubMed Central PMCID: PMC2995123.

執筆環境について

Mon, 01 Jan 0001 00:00:00 +0000

環境は次のとおり

MacOS X
homebrew
npm
gitbook

環境のセットアップ
#

cd [DIR]
brew install npm
npm install gitbook -g

Calibreをダウンロードしてインストールする。

sudo ln -s /Applications/calibre.app/Contents/console.app/Contents/MacOS/ebook-convert /usr/bin/ebook-convert

執筆
#

最初だけ。

mkdir [dir]
gitbook init

gitbook を起動する。

gitbook serve [dir]

http://localhost:4000/ へアクセス。エディタを起動する。

subl [dir]

dir 以下に md を作っていく。ファイルを保存するとブラウザ側でコンテンツが自動的にリロードされる。

コンテンツを編集したら、___SUMMARY.md を編集___して、新規追加したコンテンツを追加する。これをやらないと、buildしたときにHTMLへ変換されないので注意!

大量の計算を高速化するには

Mon, 01 Jan 0001 00:00:00 +0000

シーケンスデータの計算で、最もボトルネックになるのはハードディスクやSSDなどの記憶装置にアクセスする部分、disk I/Oの部分である。最近のコンピュータはたくさんのCPUコアを持つため、たくさんの計算を同時にこなすことができる。しかしたくさんの計算を同時にすると、巨大なファイルの入力や出力に時間がかかる。一定の量は、メモリに蓄えられるが、メモリが足りなくなると、OSは Swap 領域というストレージ装置を利用しはじめる。メモリへのアクセスに対して、ストレージ装置へのアクセスは遅いので、計算スピードも下がる。計算を投入したら、top コマンドを利用して、Swap の空き容量を確認しながら、無理のない量の計算をすることが重要である。

図. Swap の値をチェックする

Swap を使わないようにするには、物理的にメモリを大きいものにする方法が根本的な解決ではある。また、なるべくディスクに書き込む回数を減らすのも重要である。そのためには、大量のデータをファイルに出力するときはなるべく圧縮しながら出力する、という方法がある。CPUが比較的空いているのであれば、圧縮にCPUをメモリを使いながら、ストレージ装置に書き込まれる量を減らすことで、速度を稼ぐという考えである。例えば、、、する場合は、シェルのパイプ機能を使えば、ファイルを圧縮してから、ストレージに書き込むことができるため、ストレージ装置へのアクセスを減らすことが可能である。

発現が有意に異なる遺伝子を探す

Mon, 01 Jan 0001 00:00:00 +0000

cummeRbund つかってかんばれ的なこと書く。

The Cat Way

2016年3月のAWSのコスト

2016年2月のAWSのコスト

サイトの維持コスト

Bioinformatics Tipsの更新

Bioinformatics Tips

restart

ブログの更新のしかた #

ページの追加の方法 #

Learning sqlite3 for bioinformatics researcher

インストール #

使いかた #

How to manipulate DNA sequences in R

準備 #

基本的なDNA, アミノ酸配列の操作 #

DNA配列やコード表のデータ #

How to get a microarray data from NCBI GEO

準備 #

ChIP-seq analysis with R/Bioconductor

はじめに #

対象 #

学習範囲 #

ChIP-seq #

ChIP-seq analysis with R/Bioconductor

はじめに #

対象 #

学習範囲 #

ChIP-seq #

Learning R

はじめに #

対象 #

準備 #

Learning R

はじめに #

対象 #

準備 #

Proxyの設定 #

RNA-seq analysis with R/Bioconductor

はじめに #

対象 #

学習範囲 #

RNA-seq analysis with R/Bioconductor

はじめに #

対象 #

学習範囲 #

RNA-seq #

2つのTF ChIP-seq の共通結合領域を探す

2つのTF ChIP-seq の共通結合領域をカウントしベン図を描く #

bed file の重複領域をマージして行数を減らす

bed file を染色体ごとのファイルへ分割する

Bioconductor 日本ミラーを利用する

Bioconductorのソースコードを検索する

Blog Archives

Bowtie2でRNA-seqデータをトランスクリプトームへマッピングする

中間ファイルを残さずにマッピングして sort された bam と bam index を作成する #

BowtieでChIP-seq のデータをリファレンスゲノムにマッピングする

deeptools

インストール #

DNA配列のGC%を計算する

DNA配列をRで操作する

準備 #

基本的なDNA, アミノ酸配列の操作 #

DNA配列やコード表のデータ #

eXpress で RNA-seq データから発現量を計算する

bowtie1 を入れる #

トランスクリプトームをダウンロード #

インデックスを作成する #

FASTA/FASTQ/SAM/BAMの詳しいステータスを得る

FASTQ format について

FastQCによるシーケンス実験の品質チェック

FastQCをコマンドラインから利用する #

featureCount で bam と gtf からリードカウントを得る

featureについて #

コマンドライン版 Subread #

インストール #

featureCount でリードカウントを得る #

MACS2を利用してChIP-Seqのピークを探す

matplotlib をセットアップ

Nextflow で複数の解析プログラムを次々に実行する

インストール #

ブログの更新のしかた
#

ページの追加の方法
#

インストール
#

使いかた
#

準備
#

基本的なDNA, アミノ酸配列の操作
#

DNA配列やコード表のデータ
#

準備
#

はじめに
#

対象
#

学習範囲
#

ChIP-seq
#

はじめに
#

対象
#

学習範囲
#

ChIP-seq
#

はじめに
#

対象
#

準備
#

はじめに
#

対象
#

準備
#

Proxyの設定
#

はじめに
#

対象
#

学習範囲
#

はじめに
#

対象
#

学習範囲
#

RNA-seq
#

2つのTF ChIP-seq の共通結合領域をカウントしベン図を描く
#

中間ファイルを残さずにマッピングして sort された bam と bam index を作成する
#

インストール
#

準備
#

基本的なDNA, アミノ酸配列の操作
#

DNA配列やコード表のデータ
#

bowtie1 を入れる
#

トランスクリプトームをダウンロード
#

インデックスを作成する
#

FastQCをコマンドラインから利用する
#

featureについて
#

コマンドライン版 Subread
#

インストール
#

featureCount でリードカウントを得る
#

インストール
#

ワークフローを作る
#

インストール
#

座標を指定して描画する
#

LAPACK/BLAS をセットアップ
#

scipy をインストール
#

あとは samtools で bam にすればよい。
#

インストール
#

使い方
#

(つづく)
#

インストールする
#

インストール
#

使い方
#

Search オプション
#

colorRampPalette を使う
#

gplots を使う
#

インストール
#

samtools 1.x 系のインストール
#

sam を bam に変換し index を作成する
#

vagrant のインストール
#

vargrant をセットアップする
#

Vagrantfile を作る
#

アダプター除去 TagDust
#

bedtools で計算する方法 (bam を bed形式に変換する)
#

RSeQCで計算する方法 (bam を wig に変換する)
#

プライオリティの考えかた
#

タブー
#

ジョブの操作
#

インタラクティブなプログラムを利用したい
#

ジョブの投入
#

インストール
#

使いかた
#

BAM file から一定の確率でランダムにリードを取り出す
#

BAM file から一定の数のリードをランダムに取り出す
#