2013-01-01から1年間の記事一覧

R Linear Regression (線形回帰) (3) 最小自乗法の補足

最小自乗法において、y(目的変数)とy^(予測値)の差の2乗の和を最小化する意味について: 差の絶対値を最小化する考え方もある(手計算の場合はこちらの方が次数が低く楽である) 各観測点から、回帰直線に垂線を下ろし、その長さを「誤差」と考える考え方も…

R Linear Regression (線形回帰) (2) 予測モデルの作成と評価

分析の題材はこのデータ: #SPC:Sales per customer,顧客単価(JPY) #OpenH:Hours open,営業時間 #NOHWT:Number of households within trade area,商圏内世帯数(世帯) #NOPWT:Number of people with in trade area,商圏内人口(人) #IPH:Income per households…

R 時系列分析講座構成案(Memo)

時系列解析の考え方: 過去に依存して次が決まるかどうか、その強さの度合いがポイント 過去に依存して次が決まる場合は、「先行指標」の見極めが必要である 過去からの依存度合を図る指標も必要である

R Time Series Analysis 時系列解析(2) (decompose)

#decompose関数を分解して理解する#decompose関数は系列データを季節成分、トレンド、残りに分解する関数 #データは経済産業省より取得した「総合原指数【月次】出荷(平成17年=100.0)」 edit(decompose) dat <- read.csv("http://www.meti.go.jp/statisti…

R Time Series Analysis 時系列解析(1) (filterによる移動平均法)

##inputデータは経済産業省より取得data <- read.csv("http://www.meti.go.jp/statistics/tyo/iip/result/h2afdldj/csv/ha2nsgo3j.csv",header=TRUE)#データの整形delete <- c(1,3) data <- data[-delete,] colnames(data) <- data[1,] new_name <- NULL for…

Notes on Kullback-Leibler Divergence and Likelihood Theory カルバック・ライブラ距離

こちらを参照:http://www.snl.salk.edu/~shlens/kl.pdf カルバック-ライブラ(Kullback-Leibler)ダイバージェンス(以下、DKL)は2つの確率分布の類似度を定量化する指標である DKL(p||q) = Σi pi log2(pi/qi) DKLは分布p,qに関して非対象であり、非負数である…

Bioconductor PETAL

Rのソースコードはここから取得する:http://peiwang.fhcrc.org/research-project.html 論文はこれ:http://www.ncbi.nlm.nih.gov/pubmed/16880200 要約:http://nakhirot.hatenablog.com/entry/2013/05/02/103659 ReadMe.txtの通りに実行すれば良いが、コー…

Bioconductor Package 'xcms'

(On progress)

Bioconductor Package 'MSeasy'

#mzXMLファイル毎にフォルダを作成し、各ファイルについてxcmsで作成した#peaklist.txtとmzXMLファイルを配置しておく(下記で入力するCDFpathには、#各サンプルについてxcmsで作成(xcmsSet)したpeaklist.txtとmzXMLファイルが#1つのフォルダに入っており、そ…

Bioconductor Package 'baseline'

http://www.jpo.go.jp/shiryou/s_sonota/hyoujun_gijutsu/mass/2-4-1.pdf に理論の概要は記載されている GCMSデータに適用するには、縦軸がm/z、横軸がRetention Time、数値がIntensityのマトリックスのinputを作成してから、baseline関数を使用 library(bas…

C言語プログラムの実行(linux上)

emacsとgccをインストール emacsで新規文書を作成し、拡張子.cで保存 emacsのマニュアルは http://www.ele.kochi-tech.ac.jp/tacibana/2012/is1/how-to-use-emacs.pdf とか gcc ファイル名:コンパイル ./a.out:実行

適合度の検定と独立性の検定

wiki抜粋: http://ja.wikipedia.org/wiki/%E3%82%AB%E3%82%A4%E4%BA%8C%E4%B9%97%E6%A4%9C%E5%AE%9A これによると、 独立性の検定:2つの変数に対する2つの観察が互いに独立かどうかを検定する。カイ二乗の計算値は、確率分布が二項分布あるいは正規分布に…

御社の特許戦略がダメな理由

御社の特許戦略がダメな理由作者: 長谷川曉司出版社/メーカー: 中経出版発売日: 2010/03/24メディア: 単行本 クリック: 55回この商品を含むブログ (5件) を見る 事業の成否に影響を及ぼすのにも関わらず、特許戦略について漫然と考えていたがために「負けた…

相関係数の意味

ベクトルの内積(平均から各点への点の内積) まとまり具合 wiki:http://en.wikipedia.org/wiki/Pearson_product-moment_correlation_coefficient ←こちらにまとまり具合と相関係数の対応について記載がある。じっくり考えてみる価値あり。 Rank化して相関係数…

Highly sensitive feature detection for high resolution LC/MS

Abstract LC/MSはmetabolomics experimentsにとって重要な分析技術である。LC/MS生データにおける2次元のシグナルの領域、中心、強さを決めることはfeature detectionと呼ばれている。数千のfeaturesに対応する数百の物質を含む複雑なサンプルの一貫性のある…

R Tips(switch関数(条件分岐))

http://cse.naro.affrc.go.jp/takezawa/r-tips/r/29.html より、switch関数の使い方: 条件式の評価結果がケース 1 ,ケース 2 ,ケース 3 ,・・・ と多数あり,その結果によって場合分けを行いたい場合には switch 文を使う.例えば文字列で条件を分けた場合…

R Tips(色)

色のカスタマイズはこちら:http://www.hi-ho.ne.jp/douton/htmlcolor.html 末尾に40をつけると透明色になる(例:#ff00ff40) 多分末尾2桁は色の濃さを表している 色を変えて実験してみた #ユーザー定義関数norm.dense <- function(x,y,r=0.8) { det <- 1 -…

R Tips(不安定なエラーと対処方針)

前の処理の戻り値を使用して、後工程の処理を行う場合、前の処理の戻り値待ちにより後工程にてランダムでエラーを発生することがある。 対処法:Sys.sleep(秒数)を挿入しておく。

R Tips(名前空間について)

関数の依存性について記した"NAMESPACE"ファイルが、R-3.0.0以降では自動的に作成されなくなっている。 R-3.0.0未満で一度パッケージのインストールを行い、そのファイルをライブラリの該当フォルダに移動して解答する。

R tips(parの引数一覧)

グラフのカスタマイズを行う関数parの引数はこちらに詳しい:http://cse.naro.affrc.go.jp/takezawa/r-tips/r/52.html

Identification of direct residue contacts in protein–protein interaction by message passing

論文は、こちら:http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2629192/ 2つの変数x,y間に定義される量 I(X;Y) = ΣΣ p(x,y) log p(x,y)/p(x)p(y) 独立性の判断に使用。決定係数R^2と同様0以上1以下の値をとる 決定係数は線形回帰およびパラメトリック手法 …

Linux Tips (他言語プログラムの起動/実行の繰り返し)

cd (対象ファイルのあるディレクトリ) for i in $(ls | grep -v XXX) ; do YYY; done #XXXは除外すべきファイルに含まれている文字列、YYYはプログラムの命令文。例えば、python get_offset.py $i(←引数)、Java -jar viewerApp.jar --findpeptides INPUT --o…

Python Tips(Linuxから呼び出して実行)

#unix上でpythonを呼び出して実行 python (スクリプトファイル名) (実行対象ファイル※必要に応じて) (他の引数)… (例)python get_offset_tag.py sample.mzXML

Java Tips

#典型的エラー java.lang.ArrayIndexOutOfBoundsException:0 #変域外へのアクセスについてエラーが生じているという意味。

Linux/R Tip (CRANからダウンロード出来ないとき)

#直接ライブラリフォルダにダウンロード後、Unixコマンドで次を入力 R CMD INSTALL xxx.tar.gz #R-3.0.0以降では自動的にNAMESPACEファイルを作成出来ない。 #そのような場合は、一度バージョンを落としてインストールを行い、NAMESPACEファイルを作成後、再…

R Tips(1変数のグラフ)

choose.files()でファイル格納先のディレクトリが取得できる hist(…, right=T):境界線上をどちらに含めるか。例:hist(data$Score, breaks= seq(30, 110, by=5), col="darkgray",right=F qqplot単独で描くときは、library(Rcmdr)のqqPlot関数 Shapiro-wilk …

5/15 ゼミ整理

ヒストグラムを描く目的:確率密度関数の形状を知ること 箱ひげ図の目的:データの粗密を表現すること 解析手法で表現するなら、変数は連続/離散(2値,名義,順序)。2値は連続・離散双方の手法が使用できることもあり、あえて分けている。

講習準備

5/13(月) 決定木done, 線形回帰/ベイズ線形回帰code作成, ロジスティック回帰code作成【注力】 5/14(火) 線形回帰/ベイズ線形回帰done,ロジスティック回帰done【注力】 5/15(水) 演習問題見直しdone, 基本部分作成 5/16(木) 基本部分作成, +α因子分析, 正準…

線形回帰モデル(3章)

パターン認識と機械学習 上 - ベイズ理論による統計的予測作者: C. M.ビショップ,元田浩,栗田多喜夫,樋口知之,松本裕治,村田昇出版社/メーカー: シュプリンガー・ジャパン株式会社発売日: 2007/12/10メディア: 単行本購入: 18人 クリック: 1,588回この商品を…

近似推論法(確認中)

[パターン認識と機会学習 下] [第10章]