<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>品質管理 on The Cat Way</title><link>https://catway-jp.pages.dev/bioinformatics/qc/index.html</link><description>Recent content in 品質管理 on The Cat Way</description><generator>Hugo -- gohugo.io</generator><language>ja</language><copyright>© 2026 dritoshi</copyright><atom:link href="https://catway-jp.pages.dev/bioinformatics/qc/atom.xml" rel="self" type="application/rss+xml"/><item><title>bed file の重複領域をマージして行数を減らす</title><link>https://catway-jp.pages.dev/bioinformatics/qc/reducebed.html</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://catway-jp.pages.dev/bioinformatics/qc/reducebed.html</guid><description>&lt;div class="highlight-wrapper"&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#93a1a1;background-color:#002b36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-R" data-lang="R"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#268bd2"&gt;library&lt;/span&gt;(&lt;span style="color:#2aa198"&gt;&amp;#34;GenomicRanges&amp;#34;&lt;/span&gt;)
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;x &lt;span style="color:#719e07"&gt;&amp;lt;-&lt;/span&gt; &lt;span style="color:#268bd2"&gt;read.table&lt;/span&gt;(hoge.bed)
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;y &lt;span style="color:#719e07"&gt;&amp;lt;-&lt;/span&gt; &lt;span style="color:#268bd2"&gt;GRanges&lt;/span&gt;(seqname &lt;span style="color:#719e07"&gt;=&lt;/span&gt; &lt;span style="color:#268bd2"&gt;Rle&lt;/span&gt;(x[,&lt;span style="color:#2aa198"&gt;1&lt;/span&gt;]), ranges &lt;span style="color:#719e07"&gt;=&lt;/span&gt; &lt;span style="color:#268bd2"&gt;IRanges&lt;/span&gt;(start &lt;span style="color:#719e07"&gt;=&lt;/span&gt; x[,&lt;span style="color:#2aa198"&gt;2&lt;/span&gt;], end &lt;span style="color:#719e07"&gt;=&lt;/span&gt; x[,&lt;span style="color:#2aa198"&gt;3&lt;/span&gt;]))
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;y.reduced &lt;span style="color:#719e07"&gt;&amp;lt;-&lt;/span&gt; &lt;span style="color:#268bd2"&gt;reduce&lt;/span&gt;(y)
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#268bd2"&gt;write.table&lt;/span&gt;(file &lt;span style="color:#719e07"&gt;=&lt;/span&gt; &lt;span style="color:#2aa198"&gt;&amp;#34;hoge.bed&amp;#34;&lt;/span&gt;, &lt;span style="color:#268bd2"&gt;as.data.frame&lt;/span&gt;(y.reduced)[,&lt;span style="color:#2aa198"&gt;1&lt;/span&gt;&lt;span style="color:#719e07"&gt;:&lt;/span&gt;&lt;span style="color:#2aa198"&gt;3&lt;/span&gt;], quote &lt;span style="color:#719e07"&gt;=&lt;/span&gt; &lt;span style="color:#268bd2"&gt;F&lt;/span&gt;, sep &lt;span style="color:#719e07"&gt;=&lt;/span&gt; &lt;span style="color:#2aa198"&gt;&amp;#34;\t&amp;#34;&lt;/span&gt;, row.names&lt;span style="color:#719e07"&gt;=&lt;/span&gt;&lt;span style="color:#268bd2"&gt;F&lt;/span&gt;, col.names&lt;span style="color:#719e07"&gt;=&lt;/span&gt;&lt;span style="color:#268bd2"&gt;F&lt;/span&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;/div&gt;</description></item><item><title>bed file を染色体ごとのファイルへ分割する</title><link>https://catway-jp.pages.dev/bioinformatics/qc/splitbedbychrom.html</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://catway-jp.pages.dev/bioinformatics/qc/splitbedbychrom.html</guid><description>&lt;div class="highlight-wrapper"&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#93a1a1;background-color:#002b36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-text" data-lang="text"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ cat hoge.bed
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;chr1 100 199
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;chr1 200 299
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;:
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;chr2 100 199
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;chr2 200 299
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;:&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;/div&gt;
&lt;p&gt;のようなファイルを染色体ごとに分割する。&lt;/p&gt;
&lt;div class="highlight-wrapper"&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#93a1a1;background-color:#002b36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-text" data-lang="text"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;awk &amp;#39;{print $0 &amp;gt;&amp;gt; $1&amp;#34;.bed&amp;#34;}&amp;#39; hoge.bed&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;/div&gt;
&lt;p&gt;これは awk というツールを使っています。
パターン {アクション} は特定のパターンにマッチしたら、括弧内のアクションを実行するための記法です。
パターンが記載されていない場合は、すべての行を対象に処理をおこないます。
print $0 を表示しています。$0 は1行を意味します。$1は入力を空白文字で区切ったときの行番号です。&lt;/p&gt;
&lt;p&gt;chr1.bed, chr2.bed,&amp;hellip; がディレクトリに保存されます。&lt;/p&gt;</description></item><item><title>DNA配列のGC%を計算する</title><link>https://catway-jp.pages.dev/bioinformatics/qc/gc.html</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://catway-jp.pages.dev/bioinformatics/qc/gc.html</guid><description>&lt;p&gt;multi fasta 形式で保存されたDNAの GC content を計算するには、EMBOSSのgeeceeを利用すると簡単である。一般的なコンピュータでなら、マウスの全転写産物のGC contentの計算が、8秒程度で終了する。例では、ensmust.67.fa に保存されているmRNA配列のGC%を計算し、ensmust.67.gc.txt に保存する。&lt;/p&gt;
&lt;div class="highlight-wrapper"&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#93a1a1;background-color:#002b36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-text" data-lang="text"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ geecee -sequence ensmust.67.fa -outfile ensmust.67.gc.txt&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;/div&gt;
&lt;p&gt;出力の中身は以下のようになっている。&lt;/p&gt;
&lt;div class="highlight-wrapper"&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#93a1a1;background-color:#002b36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-text" data-lang="text"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ cat ensmust.67.gc.txt
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;#Sequence GC content
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;ENSMUST00000000096 0.53
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;ENSMUST00000000137 0.40
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;ENSMUST00000000109 0.43
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;ENSMUST00000000127 0.53&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;/div&gt;
&lt;p&gt;長さとGC content の両方が欲しい場合は infoseq を利用したほうがよい。&lt;/p&gt;
&lt;div class="highlight-wrapper"&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#93a1a1;background-color:#002b36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-text" data-lang="text"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ infoseq -heading N -usa N -database N -type N -description N -accession N -sequence ensmust.67.fa | perl -lpe &amp;#34;s/ +$//; s/ +/\t/g&amp;#34; &amp;gt; ensmust.67.infoseq.txt&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;/div&gt;</description></item><item><title>FASTA/FASTQ/SAM/BAMの詳しいステータスを得る</title><link>https://catway-jp.pages.dev/bioinformatics/qc/samstat.html</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://catway-jp.pages.dev/bioinformatics/qc/samstat.html</guid><description>&lt;p&gt;&lt;a href="http://samstat.sourceforge.net/" target="_blank" rel="noreferrer"&gt;samstat&lt;/a&gt; はFASTA/FASTQ/SAM/BAMから、nucleotide composition, length distribution, base quality distribution, mapping statistics, mismatch, insertion and deletion error profiles, di-nucleotide and 10-mer over-representation を計算するツールである。&lt;/p&gt;
&lt;p&gt;インストール:&lt;/p&gt;
&lt;div class="highlight-wrapper"&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#93a1a1;background-color:#002b36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-text" data-lang="text"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ wget http://downloads.sourceforge.net/project/samstat/samstat.tgz
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ tar zxvf samstat.tgz
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ cd samstat/src
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ make
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ sudo cp ./samstat /opt/local/bin/
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ rehash&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;/div&gt;
&lt;p&gt;実行方法:&lt;/p&gt;
&lt;div class="highlight-wrapper"&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#93a1a1;background-color:#002b36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-text" data-lang="text"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ samstat test.bam&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;/div&gt;
&lt;p&gt;結果は test.bam.html というファイルにhtml5形式で出力される。このファイルを閲覧するには通常のWebブラウザを使う。表示されるグラフは JavaScript だけで生成されているので、画像ファイルが出力されるわけではない。&lt;/p&gt;</description></item><item><title>FASTQ format について</title><link>https://catway-jp.pages.dev/bioinformatics/qc/fastq.html</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://catway-jp.pages.dev/bioinformatics/qc/fastq.html</guid><description>&lt;p&gt;FASTQ はシーケンス配列とそのクオリティを記載するためのファイルフォーマットである。ファイル形式はテキストファイルなので、Unix/Linux の less コマンドやテキストエディタで見ることができる。イルミナ社のシーケンサーやNCBI Short Read Archive などのデータベースでもこのフォーマットが採用されており、多くの解析ソフトがこの形式を前提としている。
FASTQファイルはひとつのシーケンスリードの情報が4行単位で表現され、その単位が一枚のファイルに連らなっているファイルである。@で始まる最初の行は、シーケンスリードの情報が含まれたヘッダー行であり、FASTA形式の “&amp;gt;“ に値すると考えるとわかりやすい。次の行がリーケンスリードの塩基配列そのもので、ATGCNからなる。3行目も1行目と同じリードの情報を記載する行で+から始まる。大抵の場合は、単に “+”か、最初の行と同じ文字列になっている。4行目がシーケンスクオリティのスコアが符号化されたものである。&lt;/p&gt;
&lt;p&gt;イルミナ社の FASTQ file は1行目の意味について述べる。イルミナ社のFASTQ file はシーケンサーが出力するバイナリファイルである BCL file から Casava というソフトウェアで生成する。Casava はイルミナ社が提供するシーケンサーに付属するソフトウェアである。Casava のバージョンによって、一部フォーマットが異なるのでそれについても解説する。&lt;/p&gt;
&lt;p&gt;まず、Casava 1.8 より前の FASTQ file について解説する。@で始まるヘッダー行は”:”でセパレートされている。まず最初のフィールド HWI-ST554_0072 はシーケンサーの機械につけられたIDを示す。次の 8 はフローセルのレーン番号を示し、HiSeq, GAIIx シリーズでは1-8まである。フローセルのひとつのレーンは、tile に分けられているが、1はそのタイル番号を表している。1131, 1901 はそれぞれ tile 内にあるクラスターの x, y 座標を表わす。# の次の番号はマルチプレックス番号を示し、0の場合はマルチプレックスされていないことを示す。/の後の数字が 1 なら single-end, 2の場合は paired-end, あるいは、mate-pair read であることを示す。&lt;/p&gt;
&lt;div class="highlight-wrapper"&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#93a1a1;background-color:#002b36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-text" data-lang="text"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;@HWI-ST554_0072:8:1:1131:1901#0/1
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;TCCCAAGGAAGGCGTGCGTGTGTTTGAGTACTTTCAAAACACACTTCCTAC
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;+HWI-ST554_0072:8:1:1131:1901#0/1
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;fcfefffffaefff^edeceZccccddd`dffeefffffffef_deffdff&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;/div&gt;
&lt;p&gt;図. HiSeqから出力されたFASTQ file の例 (Casava 1.8より前)&lt;/p&gt;
&lt;p&gt;Casava 1.8 以降の FASTQ file について解説する。@で始まるヘッダー行の形式が変更されている。まず、HWI-1KL121 がシーケンサにユニークに振られた機器IDである。これは以前のバージョンと変更はない。次の 46 は run ID でシーケンスを実行するたびに割り振られる。D0MVAACXX は flowcell に割り振られた ID である。以降については以前のバージョンと同じ意味である。1.8以降のヘッダーはスペースを挟んで、さらに情報が追加されている。最初の数字が 1 なら single-end, 2 なら paired-end である。次の文字は悪いリードを省くためのフィルターの結果を示しており、Y だと悪いリード、Nだとそれ以外という意味である。その次の数字は、XXX???を示す。最後の塩基はインデックスのシーケンスを表わしている。&lt;/p&gt;</description></item><item><title>FastQCによるシーケンス実験の品質チェック</title><link>https://catway-jp.pages.dev/bioinformatics/qc/fastqc.html</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://catway-jp.pages.dev/bioinformatics/qc/fastqc.html</guid><description>&lt;p&gt;FastQC はシーケンス実験の品質をチェックするために便利がプロットを生成するプログラムである。サイクル(リードの塩基)あたりのシーケンスクオリティや、クオリティスコアの分布、同一シーケンスリードの重複率などを計算しプロットしてくれる。シーケンスクオリティはシーケンス実験の成否を、同一リードの重複率は、ライブラリ作成時の PCR バイアスなどを評価するために重要な指標である。重複率が高い場合は、PCRサイクルを減らすことで、ダイナミックレンジの向上を図ることができる。&lt;/p&gt;
&lt;p&gt;インストール:&lt;/p&gt;
&lt;div class="highlight-wrapper"&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#93a1a1;background-color:#002b36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-text" data-lang="text"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ curl -O http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/fastqc_v0.10.0.zip
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ unzip fastqc_v0.10.0.zip
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ sudo cp fastqc_v0.10.0 /opt
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ sudo ln -s /opt/fastqc_v0.10.0 /opt/fastqc
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ emacs -nw ~/.zshenv
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ export PATH=$PATH:/opt/fastqc&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;/div&gt;

&lt;h2 class="relative group"&gt;FastQCをコマンドラインから利用する
 &lt;div id="fastqcをコマンドラインから利用する" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#fastqc%e3%82%92%e3%82%b3%e3%83%9e%e3%83%b3%e3%83%89%e3%83%a9%e3%82%a4%e3%83%b3%e3%81%8b%e3%82%89%e5%88%a9%e7%94%a8%e3%81%99%e3%82%8b" aria-label="アンカー"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h2&gt;
&lt;p&gt;実験が多くなるとGUIから実行するのが面倒になる。FastQCはコマンドラインからの実行にも対応している。以下のコマンドは test.fastq に対して、fastqc を実行し、結果を test ディレクトリに保存するというコマンドである。-t オプションは CPU を利用する数を指定する。この場合は 8 CPUs を使って計算する。&lt;/p&gt;
&lt;div class="highlight-wrapper"&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#93a1a1;background-color:#002b36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-text" data-lang="text"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ fastqc -t 8 test.fastq -o test&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;/div&gt;
&lt;p&gt;FastQC は fastq file だけでなく、gzip (*.gz)で圧縮されたファイルに対しても実行可能である。結果はウェブブラウザで閲覧できる html ファイル、テキストファイル、html ファイルが圧縮された zip ファイルの3種類出力される。&lt;/p&gt;</description></item><item><title>featureCount で bam と gtf からリードカウントを得る</title><link>https://catway-jp.pages.dev/bioinformatics/qc/featureCount.html</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://catway-jp.pages.dev/bioinformatics/qc/featureCount.html</guid><description>&lt;p&gt;&lt;a href="http://bioinf.wehi.edu.au/featureCounts/" target="_blank" rel="noreferrer"&gt;featureCount&lt;/a&gt;は、bamからの高速なリードカウントツール。
Rやコマンドラインから実行できる。コマンドライン版は &lt;a href="http://subread.sourceforge.net/" target="_blank" rel="noreferrer"&gt;Subread&lt;/a&gt;に含まれている。R版は、&lt;a href="http://bioconductor.org/packages/release/bioc/html/Rsubread.html" target="_blank" rel="noreferrer"&gt;Rsubread&lt;/a&gt;に
実装されている。&lt;/p&gt;

&lt;h3 class="relative group"&gt;featureについて
 &lt;div id="featureについて" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#feature%e3%81%ab%e3%81%a4%e3%81%84%e3%81%a6" aria-label="アンカー"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h3&gt;
&lt;p&gt;featureCount は feature ごとにリードをカウントするツールである。feture とは、リファレンス配列上のある区間のこと。その feature をまとめたセットをmeta-featureと呼んでいる。
RNA-seq の場合は、feature は exon であるし、meta-feature は gene や transcript になる。&lt;/p&gt;

&lt;h3 class="relative group"&gt;コマンドライン版 Subread
 &lt;div id="コマンドライン版-subread" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#%e3%82%b3%e3%83%9e%e3%83%b3%e3%83%89%e3%83%a9%e3%82%a4%e3%83%b3%e7%89%88-subread" aria-label="アンカー"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h3&gt;

&lt;h4 class="relative group"&gt;インストール
 &lt;div id="インストール" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#%e3%82%a4%e3%83%b3%e3%82%b9%e3%83%88%e3%83%bc%e3%83%ab" aria-label="アンカー"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h4&gt;
&lt;div class="highlight-wrapper"&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#93a1a1;background-color:#002b36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-text" data-lang="text"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;wget http://downloads.sourceforge.net/project/subread/subread-1.5.0-p2/subread-1.5.0-p2-source.tar.gz
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;cd subread-1.5.0-p2-source/src
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;make -f Makefile.Linux # 正常に終了すると ../bin に実行ファイルができる
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;cd ../../
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;cp -a subread-1.5.0-p2-source $HOME/opt/local
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;export PATH=$HOME/opt/local/subread-1.5.0-p2-source/bin:$PATH&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;/div&gt;

&lt;h4 class="relative group"&gt;featureCount でリードカウントを得る
 &lt;div id="featurecount-でリードカウントを得る" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#featurecount-%e3%81%a7%e3%83%aa%e3%83%bc%e3%83%89%e3%82%ab%e3%82%a6%e3%83%b3%e3%83%88%e3%82%92%e5%be%97%e3%82%8b" aria-label="アンカー"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h4&gt;
&lt;p&gt;まず遺伝子アノテーションファイルを得る。&lt;/p&gt;</description></item><item><title>samtools で sam/bam ファイルを操作する</title><link>https://catway-jp.pages.dev/bioinformatics/qc/samtools.html</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://catway-jp.pages.dev/bioinformatics/qc/samtools.html</guid><description>&lt;p&gt;samファイルはシーケンスリードがゲノムのどの位置にあるかを記述するファイル形式であり、様々なシーケンス解析のツールで利用されている。samファイルはテキスト形式のデータであり、ファイルサイズが大きくなったり、ソフトウェアから効率的に個々のデータにアクセスすることが難しい。そこでbam形式というバイナリ形式のファイルを作成することで、ファイルサイズの縮小、アクセスの高速化、リードのゲノム座標でのソートによるアクセスの効率化が期待できる。bai形式は bam のインデックスファイルで、このファイルをプログラムが参照することで、効率的に bam file にアクセスできる。&lt;/p&gt;

&lt;h3 class="relative group"&gt;samtools 1.x 系のインストール
 &lt;div id="samtools-1x-系のインストール" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#samtools-1x-%e7%b3%bb%e3%81%ae%e3%82%a4%e3%83%b3%e3%82%b9%e3%83%88%e3%83%bc%e3%83%ab" aria-label="アンカー"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h3&gt;
&lt;p&gt;HTSlibが必要なので先にインストールする。&lt;/p&gt;
&lt;div class="highlight-wrapper"&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#93a1a1;background-color:#002b36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-text" data-lang="text"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;wget https://github.com/samtools/htslib/releases/download/1.3/htslib-1.3.tar.bz2
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;tar jxvf htslib-1.3.tar.bz2
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;cd htslib-1.3
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;./configure --prefix=$HOME/opt/local
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;make 
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;make install
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;export LD_LIBRARY_PATH=$HOME/opt/local/lib:$$LD_LIBRARY_PATH # 必要なら&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;/div&gt;
&lt;p&gt;次に samtools をインストールする。&lt;/p&gt;
&lt;div class="highlight-wrapper"&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#93a1a1;background-color:#002b36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-text" data-lang="text"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;wget https://github.com/samtools/samtools/releases/download/1.3/samtools-1.3.tar.bz2
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;tar jxvf samtools-1.3.tar.bz2
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;cd samtools-1.3
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;./configure --prefix=$HOME/opt/local
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;make 
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;make install
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;export PATH=$HOME/opt/local/bin:$$PATH # 必要なら&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;/div&gt;

&lt;h3 class="relative group"&gt;sam を bam に変換し index を作成する
 &lt;div id="sam-を-bam-に変換し-index-を作成する" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#sam-%e3%82%92-bam-%e3%81%ab%e5%a4%89%e6%8f%9b%e3%81%97-index-%e3%82%92%e4%bd%9c%e6%88%90%e3%81%99%e3%82%8b" aria-label="アンカー"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h3&gt;
&lt;p&gt;シーケンスリードのゲノムマッピングツールであるbowtie2や HISAT2, Tophat もsamファイルを出力する。これをbam形式変換するには、samtoolsを利用することで簡単にできる。&lt;/p&gt;</description></item><item><title>アダプター配列除去 FASTX_Toolkit fastx_clipper</title><link>https://catway-jp.pages.dev/bioinformatics/qc/removeseq.html</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://catway-jp.pages.dev/bioinformatics/qc/removeseq.html</guid><description>&lt;p&gt;short-read な FASTQ/A をいろいろいぢるツール群である FASTX_Toolkit に含まれるコマンドのひとつである fastx_clipper。(→トリムしたい場所が決まっている場合は fastx_trimmer を使う)。後に紹介する Galaxy に組み込み済みである。ちなみにそれぞれのコマンドの動作は Galaxy 内の解説にある図を見るのが良い。&lt;/p&gt;
&lt;p&gt;インストール:
まず、http://hannonlab.cshl.edu/fastx_toolkit/download.html からpre-compiled binary 版を落して、/usr/local/bin などに入れる PATH を通す。本体とは別に実行に必要とされるプログラムは、libgtextutils-0.6, PerlIO::gzip, GD::Graph::bars, gnuplot version 4.2 or newer であるので、事前に入れておく。-l でリードの最小サイズ、-M で一致する最小の長さを指定する。illumina CASAVA 1.8 以降の FASTQ や Sanger FASTQ には -Q 33 を指定する。それ以前で illumina 1.3 以降の FASTQ の場合は、-Q 64 を指定すること。トリムした配列だけ出力するには -C を、trim されなかった配列を出力するには、-c を指定する。なにも指定しなければ、両方が表示される。&lt;/p&gt;
&lt;p&gt;使いかた:&lt;/p&gt;
&lt;div class="highlight-wrapper"&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#93a1a1;background-color:#002b36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-text" data-lang="text"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ fastx_clipper -l 18 -M 12 -Q 33 -v -i input.fastq -a ACACTCTTTCCCTACACGACGCTGTTCCATCT -o output.fastq &amp;gt; input.fastq.log&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;/div&gt;

&lt;h2 class="relative group"&gt;アダプター除去 TagDust
 &lt;div id="アダプター除去-tagdust" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#%e3%82%a2%e3%83%80%e3%83%97%e3%82%bf%e3%83%bc%e9%99%a4%e5%8e%bb-tagdust" aria-label="アンカー"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h2&gt;
&lt;p&gt;概要
理研OSCで開発されたシーケンスアダプター配列除去ソフト。入出力形式は fastq/a が使える。アダプター配列を multi fasta 形式で入力できるのが地味に便利である。なぜなら複数のアダプタ/プライマーを1回の実行で除去できるためである。これに対応しているものがなかなかない。アダプター/プライマー配列の検索には Muth–Manber algorithm (Approximate multiple string search) を利用している。FDRを調節することで除去の強さを指定できる。ライセンスはGPL3&lt;/p&gt;</description></item><item><title>シーケンスリードのカバレッジ(被覆率)を計算する</title><link>https://catway-jp.pages.dev/bioinformatics/qc/coverage.html</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://catway-jp.pages.dev/bioinformatics/qc/coverage.html</guid><description>&lt;h3 class="relative group"&gt;bedtools で計算する方法 (bam を bed形式に変換する)
 &lt;div id="bedtools-で計算する方法-bam-を-bed形式に変換する" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#bedtools-%e3%81%a7%e8%a8%88%e7%ae%97%e3%81%99%e3%82%8b%e6%96%b9%e6%b3%95-bam-%e3%82%92-bed%e5%bd%a2%e5%bc%8f%e3%81%ab%e5%a4%89%e6%8f%9b%e3%81%99%e3%82%8b" aria-label="アンカー"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h3&gt;
&lt;p&gt;bamからカバレッジを計算し、bedファイルを作成する。bedはテキストファイルなので、bamのサイズ(リード数)によっては、かなり巨大なファイルができる。遺伝子単位や限られたゲノム領域のみについて計算し、
自作のプログラムや表計算ソフトで、処理したいときになどに利用できる。全ゲノムレベルのカバレッジを計算し
たい場合は、bigwigへの変換をお勧めする。&lt;/p&gt;
&lt;p&gt;インストール&lt;/p&gt;
&lt;div class="highlight-wrapper"&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#93a1a1;background-color:#002b36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-text" data-lang="text"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ curl -O //github.com/arq5x/bedtools2/releases/download/v2.25.0/bedtools-2.25.0.tar.gz
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ tar zxvf bedtools-2.25.0.tar.gz
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ cd bedtools2/
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ make
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ cd ..
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ cp -a bedtools2 $HOME/opt/local&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;/div&gt;
&lt;p&gt;設定&lt;/p&gt;
&lt;div class="highlight-wrapper"&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#93a1a1;background-color:#002b36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-text" data-lang="text"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ emacs -nw ~/.zshenv
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;export PATH=$HOME/opt/local/bedtools/bin:$PATH
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ source ~/.zshenv&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;/div&gt;
&lt;p&gt;ここでは、bed ファイル (Pou5f1.bed) に記述された座標にマップされたリードのカバレッジを bam ファイルから(hoge.bam) 計算する。&lt;/p&gt;
&lt;div class="highlight-wrapper"&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#93a1a1;background-color:#002b36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-text" data-lang="text"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ coverageBed -d -abam hoge.bam -b Pou5f1.bed &amp;gt; Pou5f1.TruRNA-Seq01.coverage.bed&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;/div&gt;

&lt;h3 class="relative group"&gt;RSeQCで計算する方法 (bam を wig に変換する)
 &lt;div id="rseqcで計算する方法-bam-を-wig-に変換する" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#rseqc%e3%81%a7%e8%a8%88%e7%ae%97%e3%81%99%e3%82%8b%e6%96%b9%e6%b3%95-bam-%e3%82%92-wig-%e3%81%ab%e5%a4%89%e6%8f%9b%e3%81%99%e3%82%8b" aria-label="アンカー"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h3&gt;
&lt;p&gt;wig file はカバレッジのデータを保存するためによく使われるファイル形式である。ここでは、bam から wig を計算する方法を述べる。RNA-seqデータのQuality checkのツール集&lt;a href="http://rseqc.sourceforge.net/" target="_blank" rel="noreferrer"&gt;RSeQC&lt;/a&gt;に
含まれる、&lt;code&gt;bam2wig.py&lt;/code&gt;を利用する。&lt;/p&gt;</description></item><item><title>シーケンスクオリティが低いのリードを除く</title><link>https://catway-jp.pages.dev/bioinformatics/qc/qualityscore.html</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://catway-jp.pages.dev/bioinformatics/qc/qualityscore.html</guid><description>&lt;p&gt;シーケンスクオリティが低いリードを事前に除いておくことによって、リファレンスゲノムマッピングやアセンブルの精度や計算コストを軽減することができる。またそれらの解析の精度を純粋に評価するためにも、シーケンスクオリティの問題を分けるのが重要なことである。&lt;/p&gt;
&lt;p&gt;ここでは、FASTAX toolbox の fastq_quality_filtter を利用して、fastq file からクオリティが低いリードを除く。&lt;/p&gt;
&lt;div class="highlight-wrapper"&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#93a1a1;background-color:#002b36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-text" data-lang="text"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ fastq_quality_filter -Q 33 -q 30 -p 75 -i input.fastq -o output.fastq&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;/div&gt;
&lt;p&gt;このコマンドでは、quality value が 30 以下の quality value がリード全長の 75% を下回ったときにそのリードを除く。-Q 33 は CASAVA 1.8 で作られた fastq file を扱うためのオプションである。&lt;/p&gt;
&lt;p&gt;Quality score については以下を参照せよ。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href="http://en.wikipedia.org/wiki/FASTQ_format" target="_blank" rel="noreferrer"&gt;FASTQ format - Wikipedia&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description></item><item><title>ゲノムのリピート領域にマッピングされたリードを除く</title><link>https://catway-jp.pages.dev/bioinformatics/qc/rmrepeat.html</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://catway-jp.pages.dev/bioinformatics/qc/rmrepeat.html</guid><description>&lt;p&gt;ゲノムには大量のリピート配列が含まれておりヒト、マウスのゲノムはその約半分がリピートに関連した領域である。シーケンスされたリードをこのような領域にはマッピングすることは、その位置を一意に決めることができないので、困難である。一般的には、複数箇所にマップされるリードを、重複領域にランダムに配置する方法(リード数に応じて確率的に配置する方法が良いとされている)と、データからリピート領域を除いて解析を進める方法の2通りがある。転写因子の ChIP-seq ではリピート領域にかなり高いピークが形成され、正規化などのノイズになるため、リピート領域を最初から解析に含めない方法が取られることがある。この場合は、マッピング後、peak calling の前にこのような処理を行うことになる。&lt;/p&gt;
&lt;p&gt;方法は、RNA-seq データから rRNA を除く方法と同じである。&lt;/p&gt;</description></item><item><title>なぜアダプタやプライマー配列を除く必要があるのか</title><link>https://catway-jp.pages.dev/bioinformatics/qc/rmprimer_adopter.html</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://catway-jp.pages.dev/bioinformatics/qc/rmprimer_adopter.html</guid><description>&lt;p&gt;シーケンスの際に、読みたいインサートを突き抜けてアダプタ/プライマ配列が現われることがある。特にイルミナ社のシーケンスはエラー少ないものの、そのなかでもよくあるエラーがこのアダプタ/プライマ配列の混入である。インサート長が短い場合や、インサートがみあたらず、アダプターダイマーのような配列に由来すると考えられる。&lt;/p&gt;
&lt;p&gt;このような配列は mapping の前に除いておいたほうが良いとされている。しかし mapping すると、その配列はゲノムに正しくマップされないため、マッピングスコアなどにより、実質的にはその後の解析に含まれないようにするすることも可能である。マッピングの計算コストがそれほどかからなくなってきた現在、先にこのような配列をフィルタする必要があるのだろうか。&lt;/p&gt;
&lt;p&gt;答えとしては、それでも除いたほうが良い、である。なぜなら、マッピングされなかった配列がどのような理由でマッピングできなかったのかを知ることは、ライブラリの質を評価することに繋がるためである。最初にこれらの配列をフィルタすることで、それがどのぐらい含まれているのかを知り、それを実験者にフィードバックすることが重要である。仮にアダプタ配列ばかりが読まれると、リードがアダプタDNA断片に奪われてしまうため、期待されるリード読まれる機会が減る。これによりシグナルノイズ比が悪くなる。これは後の解析の成否にかかわることである。このような場合は、読むべきDNA断片とアダプタ量の比率を実験的に調整したり、アダプタダイマーを除くサイズセレクションの精度を上げたり、などの実験的に工夫が必要になる。このような理由に、自分のシーケンス実験のヘルスチェックのために、フィルタリングを行い、その統計情報を持つべきなのである。&lt;/p&gt;</description></item><item><title>ランダムにリードを取り出す</title><link>https://catway-jp.pages.dev/bioinformatics/qc/randomsampling.html</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://catway-jp.pages.dev/bioinformatics/qc/randomsampling.html</guid><description>&lt;p&gt;リード数に応じてシーケンスの深さ (depth) が決まる。この depth は RNA-seq, ChIP-seq などのタグシーケンシングではその精度に関わる。具体的には、depth が深いほど、検出できる遺伝子の数やRNAの発現量やタンパク質-DNA結合量ダイナミックレンジが向上する。自分のサンプルや生物がどのぐらいのリード数が必要であるかを知ることは、正確でかつ、無駄なコストをかけずに実験するには重要なことである。そこで、リードをランダムに除いた系列、例えば、0.1, 1, 10, 100M リードなどを用意して解析することで、検出遺伝子やダイナミックレンジの評価を行うことが重要である。ランダムに配列を除くことを、ダウンサンプリング、あるいは、ランダムサンプリングと呼び、取り出されたリード群を、ダウンサンプル、サブサンプルなどと呼ぶ。&lt;/p&gt;

&lt;h3 class="relative group"&gt;BAM file から一定の確率でランダムにリードを取り出す
 &lt;div id="bam-file-から一定の確率でランダムにリードを取り出す" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#bam-file-%e3%81%8b%e3%82%89%e4%b8%80%e5%ae%9a%e3%81%ae%e7%a2%ba%e7%8e%87%e3%81%a7%e3%83%a9%e3%83%b3%e3%83%80%e3%83%a0%e3%81%ab%e3%83%aa%e3%83%bc%e3%83%89%e3%82%92%e5%8f%96%e3%82%8a%e5%87%ba%e3%81%99" aria-label="アンカー"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h3&gt;
&lt;p&gt;ここでは、Picard (&lt;a href="http://picard.sourceforge.net/" target="_blank" rel="noreferrer"&gt;http://picard.sourceforge.net/&lt;/a&gt;) の DownsampleSam.jar を使って、bam file からランダムに配列を除く方法を述べる。すでにマッピング済みの配列からファイルを除くにはことを想定する。&lt;/p&gt;
&lt;div class="highlight-wrapper"&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#93a1a1;background-color:#002b36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-text" data-lang="text"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ java -jar /opt/picard-tools/DownsampleSam.jar INPUT=input.bam OUTPUT=output.bam PROBABILITY=0.2&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;/div&gt;
&lt;p&gt;ここでは、全体のリードのうち 20% をランダムに取り出している。注意したいのは、tophat2, bowtie2 などで、ひとつのリードを複数の箇所にマッピングされた(いわゆる multi hits)ような bam file を利用する場合は、割合ではなくリードの絶対数を指定しなければならない。それについては次の項を参照すること。&lt;/p&gt;

&lt;h3 class="relative group"&gt;BAM file から一定の数のリードをランダムに取り出す
 &lt;div id="bam-file-から一定の数のリードをランダムに取り出す" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#bam-file-%e3%81%8b%e3%82%89%e4%b8%80%e5%ae%9a%e3%81%ae%e6%95%b0%e3%81%ae%e3%83%aa%e3%83%bc%e3%83%89%e3%82%92%e3%83%a9%e3%83%b3%e3%83%80%e3%83%a0%e3%81%ab%e5%8f%96%e3%82%8a%e5%87%ba%e3%81%99" aria-label="アンカー"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h3&gt;
&lt;p&gt;DwonsampleSam.jar はリードを取り出す確率を指定することはできるが、取り出したい数を直接指定することはできない。そこで、bamtools を使って数を直接指定してリードを取り出す。&lt;/p&gt;</description></item><item><title>異なるバージョンのゲノム座標を変換する: liftover</title><link>https://catway-jp.pages.dev/bioinformatics/qc/liftover.html</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://catway-jp.pages.dev/bioinformatics/qc/liftover.html</guid><description>&lt;p&gt;古い論文のデータと比較しなければならない場合などの、ゲノムのバージョンが古い座標系を使っている場合がある。そこで liftover を使い、より新しいバージョンのゲノムの座標系に変換する。&lt;/p&gt;
&lt;p&gt;インストール
ここでは、マウスゲノムの mm8 から mm9 へ座標変換する。Linux が前提ですが、ほかでもかわりないです。変換されるファイルの形式は bed が基本だが、オプションでほかのファイルにも対応できる。bed ファイルでも browse 行や track 行があるとエラーになるので除いておく。&lt;/p&gt;
&lt;div class="highlight-wrapper"&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#93a1a1;background-color:#002b36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-text" data-lang="text"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ curl -O http://hgdownload.cse.ucsc.edu/goldenpath/mm8/liftOver/mm8ToMm9.over.chain.gz
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;gzip -d mm8ToMm9.over.chain.gz&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;/div&gt;
&lt;p&gt;ほかのゲノム間を比較したい場合は、golden path のダウンロードサイトの下に liftOver というディレクトリがあって、そこに変換テーブル (*.chain) があります。&lt;/p&gt;
&lt;p&gt;変換プログラムをダウンロードしてインストールします。&lt;/p&gt;
&lt;div class="highlight-wrapper"&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#93a1a1;background-color:#002b36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-text" data-lang="text"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ curl -O http://hgwdev.cse.ucsc.edu/~kent/exe/linux/liftOver.gz
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ chmod +x ./liftOver 
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ sudo cp ./liftOver /usr/local/bin/&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;/div&gt;
&lt;p&gt;使い方
では変換してみましょう。mm8.bed が変換したい mm8 なゲノム座標のファイルで、mm9 な座標に変換後 mm9.bed に保存されます。unmapped.txt は座標変換が失敗したエントリが保存されます。 start と end が同じ座標のエントリは変換が失敗するのであらかじめ、どちらかの座標に +1 しておくこと。&lt;/p&gt;
&lt;div class="highlight-wrapper"&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#93a1a1;background-color:#002b36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;"&gt;&lt;code class="language-text" data-lang="text"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;$ liftOver mm8.bed mm8ToMm9.over.chain mm9.bed unmapped.txt&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;/div&gt;</description></item><item><title>異なる生物間のゲノム座標を変換する: liftover</title><link>https://catway-jp.pages.dev/bioinformatics/qc/liftover_org.html</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://catway-jp.pages.dev/bioinformatics/qc/liftover_org.html</guid><description>&lt;p&gt;liftOver はもともとゲノムバージョン間の座標を変換するプログラムであったが、オプションを駆使することで種間の座標を変換することも可能である。&lt;/p&gt;
&lt;p&gt;ポイントとなるオプションは複数箇所にヒットを許す -multiple、最小チェインサイズを指定する -minSizeT, -minSizeQ の2つである。また -minMatch のデフォルトが 0.95 であるが、種間比較で利用するときは 0.01 など低い値を指定する。例えば、ヒトゲノムのENCODE領域 (0.5-1.8MB)では、-minSizeT=4000 とし、 哺乳類では -minSizeQ=20000、鳥類や魚類ゲノムでは -minSizeQ=1000 にすると良いとされている。&lt;/p&gt;</description></item></channel></rss>