読者です 読者をやめる 読者になる 読者になる

Mathematics

Topological network alignment uncovers biological function and phylogeny

こちらの論文がゼミで紹介されたのでメモ 提案されている方法: ・事前情報を使わない ・トポロジーの近さでアライメントをやる ・n-node graphlets:ノードの数によって、どのようなグラフパターンがあるか列挙 ・トポロジーを考える:トポロジー的に同じノ…

R 分布の知識整理(2) t分布1/歪度(わいど)と尖度(せんど)

t分布と正規分布の関係、歪度(わいど)と尖度(せんど)について確認する。説明はここがわかりやすい。t分布とは、 個のデータが独立にに従うとき、 ただし、は標本平均、は不偏分散 に従う分布である。上記の場合は自由度が。 の値を増加させるにつれ、正規分…

R Time Series Analysis 時系列解析(15) ここまでのまとめ

これまで勉強した時系列解析の手法・考え方をまとめる。確信は無い。実際に使う中で随時追記していく予定。 データを読み込んで、ts()で時系列に変換。 時系列を図示、自己相関係数(acf)→ trend, seasonalの存在、分散の一様性を目視で確認。 seasonalが存…

R Time Series Analysis 時系列解析(14) SARIMAモデル

SARIMAモデルとは ARIMAモデルの変化形であるSARIMAモデルの確認を忘れていた。SARIMAモデルとは、通常のARIMA(p,d,q)と季節階差に関するARIMA(k,l,m)を合わせたモデル。季節階差とは、例えば「前年同期との差」のこと。1周期がsである場合に、季節階差を と…

R Time Series Analysis 時系列解析(13) スペクトル分析

定常過程の母スペクトル 定常時系列を特徴を把握するための要素として、自己共分散およびそれを基準化した自己相関係数があった。定常過程の自己共分散に対して、次の無限級数を「自己共分散母関数」として定義する。 これをで割り、に(ただし、は周波数)を…

R Space interpolation 空間補間 ソースコード編集1

この前勉強した空間補間のパッケージgstatを使っていたら、krige関数を使うところで、次の様なエラーが発生。 > P.dat.krige <- krige(Intensity~1, P.dat, dat.grid, model = P.m) [using ordinary kriging] "memory.c", line 58: can't allocate memory in…

R Time Series Analysis 時系列解析(12) 単位根検定1

単位根 において となる過程を「ランダム・ウォーク(RW, 酔歩)」と呼ぶ。この場合、この過程は、特性方程式がのとき1(単位根)を解にもつため、単位根過程と言う事が出来る。ちなみに、<1ならこの過程は定常過程となり、>1なら確率過程とはならない。 単位根…

R Random Forest ランダムフォレスト

現在は時系列解析にプライオリティを置いているが、前勉強した機械学習の手法があったので復習を兼ねて載せる。 こちらで、決定木(Decision Tree)のモデル作成と評価を行った。その精度を高めるために開発されたランダムフォレストという機械学習の手法の一…

R Time Series Analysis 時系列解析(11) ARIMAモデル3 予測

前回までで、時系列を満たすARIMA(p,d,q)のパラメータの決定方法とその評価方法を見てきた。今回は実際に予測を行って効果を検証する。(そもそもARIMAモデルありきで考えてはいけないはず) データはここから落とした日産自動車の株価情報(日次終値)。Rで…

R Time Series Analysis 時系列解析(10) ARIMAモデル2 検証

前回に引き続き、ARIMAモデル。今回はARIMA(p,d,q)を利用することを前提として、そのパラメータの決定をする。Rではarima()関数がパラメータを最尤推定してくれる。 データの下準備は以下。株価のデータを使ってみる。 stock <- read.csv("http://k-db.com/s…

R Space interpolation 空間補間

前回、3次元データ(3列のデータ)の2次元カーネル推定を行ったが、別の手段を考える必要が出てきた。2次元のカーネル推定と言っても、 点(x,y)の分布から点の密度を滑らかな関数で推定する場合 点(x,y,z)の分布が与えられている場合に滑らかな分布の形状を推…

R Time Series Analysis 時系列解析(9) ARIMAモデル1 紹介

ARモデルとMAモデルを組み合わせたものがARMAモデル。p次のARモデルAR(p)とq次のMAモデルMA(q)を組み合わせてARMA(p,q)と書く。以下のようになる。 パラメータを増やすとモデルの自由度が増える一方、パラメータに起因する誤差も増加するが、Box-Jenkinsによ…

R Time Series Analysis 時系列解析(8) (線形定常過程3) MAモデル

AR(Auto Regressive)モデルに対し、今度はホワイトノイズの線形結合形である MA(Moving Average)モデルを考える。(下記は1次のMAモデル) ホワイトノイズは線形定常過程に含まれるため、その線形結合であるMAモデルも当然線形定常過程となると理解した。 と…

R Time Series Analysis 時系列解析(7) (線形定常過程2) 2次ARモデル

こっちでAR1次モデルを扱ったが、2次以降も項が増えるだけで、理屈は似ている。 待ち時間にやってみた。今度はACFの結果も載せる。 AR2 <- function(n,b1,b2,a=0,sd=1,y0=0) { c <- rnorm(n,sd=sd) y <- rep(0,n) y[1] <- y0 for(j in 1:(n-2)) { y[j+2] <- …

R Time Series Analysis 時系列解析(6) (線形定常過程1) 1次ARモデル

線形定常過程とは、 定常過程のうち、ある時点の確率変数が、 それ以前の確率変数とランダムな変動(ホワイトノイズ) の加重平均 となっているものをいう。ホワイトノイズとは次の定義を満たすものを指す。 1. 全ての時点で、平均(期待値)が0である。 2. 全…

R Kernel estimation 2次元カーネル推定

2次元データはこちらで例が載っていたので、ここでは3次元データで2次元カーネル推定を試してみる。MASSパッケージのkde2d関数が、ガウス分布のカーネルを用いて滑らかな密度推定を行ってくれる。 サンプルに用いるデータは、位置情報(lat, long)と各点にお…

R Time Series Analysis 時系列解析(5) (定常確率過程1)

前回までは、平均移動法と指数平滑法を道具とした時系列データの古典的予測方法を見てきた。しかしながら、これらの方法は(重みの度合の差こそあれ)過去に重みを振り分けて和・積を取ることで予想することを前提としており、これとは異なるアプローチもあ…

生存曲線/対応のないt-test メモ

数学いらずの医科統計学 第2版作者: 津崎晃一出版社/メーカー: メディカルサイエンスインターナショナル発売日: 2011/03/24メディア: 単行本購入: 1人 クリック: 37回この商品を含むブログ (2件) を見る 29章 生存曲線の比較 生存曲線に、ハザード比が一貫し…

R Time Series Analysis 時系列解析(4) (HoltWinters法)

#http://www.esri.cao.go.jp/jp/sna/data/data_list/sokuhou/files/2013/qe131_2/gdemenuja.html #より取得し、加工したデータを使用 SNA <- read.csv("GDP_def_extract.csv",header=TRUE) View(SNA) GDP <- ts(SNA$GDP, start=c(1980,1), frequency=4) GDP.…

Combining peak- and chromatogram-based retention time alignment algorithms for multiple chromatography-mass spectrometry data sets

論文はこれ Background: GC-MS,LC-MSデータのRetention Time(RT)のアラインメントは大まかに2つのカテゴリに分けられる Peak-based algorithms:事前のpeak detectionに対してとてもsensitiveである。ピークモデルの形やSNR(signal-to-noise ratio)などのク…

R Time Series Analysis 時系列解析(3) (filterによる指数平滑化法)

####filter関数を使った指数平滑法#### #データは経済産業省総合原指数【月次】出荷(平成17年=100.0)#資本財を対象とするdat <- read.csv("http://www.meti.go.jp/statistics/tyo/iip/result/h2afdldj/csv/ha2zom3j.csv",skip=2,header=TRUE) #skip=2は上…

R Decision Tree (決定木) (2) 予測モデルの作成と評価

#########1.データの取り込み##########分析対象データは、これと同じ #install.packages("kernlab") ※初回のみ左記コマンドを実行 library(kernlab) data(spam) head(spam) #項目名を確認 #データ型を確認 for (i in 1:ncol(spam)) { print(c(names(spam[i]…

多項式時間、NP問題など

こちらより理解メモ 解くべき問題の入力サイズnに対して、処理時間の上界としてnの多項式で表現出来るものが存在するアルゴリズムを、多項式時間のアルゴリズムという ここでも少し触れていた 決定性の多項式時間アルゴリズムでと受ける判定問題の集合をクラ…

標準誤差(SEM)と標準偏差(SD)

数学いらずの医科統計学 第2版作者: 津崎晃一出版社/メーカー: メディカルサイエンスインターナショナル発売日: 2011/03/24メディア: 単行本購入: 1人 クリック: 37回この商品を含むブログ (2件) を見る 第14章より SEM = s/√n (s:標準偏差, Standard Deviat…

R Logistic Regression (ロジスティック回帰) (2) 予測モデルの作成と評価

#########1.データの取り込み,整形######### #install.packages("kernlab") ※初回のみ実行 library(kernlab) data(spam) attributes(spam)$names #項目名を確認 #項目名の解説は、http://archive.ics.uci.edu/ml/datasets/Spambaseに掲載されている #データ…

R package 'FNN' (1) カルバックライブラダイバージェンス

#install.packages("FNN")library(FNN)#http://nakhirot.hatenablog.com/entry/20130607/1370602095 #で理解したKL.divergenceについて、Rの関数(KL.divergence())を分解して理解する ####KL.divergence####function (X, Y, k = 10, algorithm = c("VR", "br…

R Linear Regression (線形回帰) (3) 最小自乗法の補足

最小自乗法において、y(目的変数)とy^(予測値)の差の2乗の和を最小化する意味について: 差の絶対値を最小化する考え方もある(手計算の場合はこちらの方が次数が低く楽である) 各観測点から、回帰直線に垂線を下ろし、その長さを「誤差」と考える考え方も…

R Linear Regression (線形回帰) (2) 予測モデルの作成と評価

分析の題材はこのデータ: #SPC:Sales per customer,顧客単価(JPY) #OpenH:Hours open,営業時間 #NOHWT:Number of households within trade area,商圏内世帯数(世帯) #NOPWT:Number of people with in trade area,商圏内人口(人) #IPH:Income per households…

R 時系列分析講座構成案(Memo)

時系列解析の考え方: 過去に依存して次が決まるかどうか、その強さの度合いがポイント 過去に依存して次が決まる場合は、「先行指標」の見極めが必要である 過去からの依存度合を図る指標も必要である

R Time Series Analysis 時系列解析(2) (decompose)

#decompose関数を分解して理解する#decompose関数は系列データを季節成分、トレンド、残りに分解する関数 #データは経済産業省より取得した「総合原指数【月次】出荷(平成17年=100.0)」 edit(decompose) dat <- read.csv("http://www.meti.go.jp/statisti…

R Time Series Analysis 時系列解析(1) (filterによる移動平均法)

##inputデータは経済産業省より取得data <- read.csv("http://www.meti.go.jp/statistics/tyo/iip/result/h2afdldj/csv/ha2nsgo3j.csv",header=TRUE)#データの整形delete <- c(1,3) data <- data[-delete,] colnames(data) <- data[1,] new_name <- NULL for…

Notes on Kullback-Leibler Divergence and Likelihood Theory カルバック・ライブラ距離

こちらを参照:http://www.snl.salk.edu/~shlens/kl.pdf カルバック-ライブラ(Kullback-Leibler)ダイバージェンス(以下、DKL)は2つの確率分布の類似度を定量化する指標である DKL(p||q) = Σi pi log2(pi/qi) DKLは分布p,qに関して非対象であり、非負数である…

適合度の検定と独立性の検定

wiki抜粋: http://ja.wikipedia.org/wiki/%E3%82%AB%E3%82%A4%E4%BA%8C%E4%B9%97%E6%A4%9C%E5%AE%9A これによると、 独立性の検定:2つの変数に対する2つの観察が互いに独立かどうかを検定する。カイ二乗の計算値は、確率分布が二項分布あるいは正規分布に…

相関係数の意味

ベクトルの内積(平均から各点への点の内積) まとまり具合 wiki:http://en.wikipedia.org/wiki/Pearson_product-moment_correlation_coefficient ←こちらにまとまり具合と相関係数の対応について記載がある。じっくり考えてみる価値あり。 Rank化して相関係数…

Identification of direct residue contacts in protein–protein interaction by message passing

論文は、こちら:http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2629192/ 2つの変数x,y間に定義される量 I(X;Y) = ΣΣ p(x,y) log p(x,y)/p(x)p(y) 独立性の判断に使用。決定係数R^2と同様0以上1以下の値をとる 決定係数は線形回帰およびパラメトリック手法 …

線形回帰モデル(3章)

パターン認識と機械学習 上 - ベイズ理論による統計的予測作者: C. M.ビショップ,元田浩,栗田多喜夫,樋口知之,松本裕治,村田昇出版社/メーカー: シュプリンガー・ジャパン株式会社発売日: 2007/12/10メディア: 単行本購入: 18人 クリック: 1,588回この商品を…

近似推論法(確認中)

[パターン認識と機会学習 下] [第10章]

A Variational Bayesian Framework for Graphical Models

[Hagai Attias] [Gatsby Unit, University College London] [In Advances in Neural Information Processing Systems 12, 2000] 論文はこちら:http://www.goldenmetallic.com/research/nips99vb.pdf 1章:Introduction graphical modelをlearnする標準的方…

R Linear Regression (線形回帰)

#線形回帰 yi = b0 + b1xi +εiにおいて、誤差項εiの仮定は次の4つ。 #1.εiの期待値は0である(i=1,2,…,n) #2.εiの各分散はすべて等しい(i=1,2,…,n) #3.εi,εuは無相関である(i≠u; i,u=1,…,n) #4.εiは正規分布にしたがう(i=1,…,n) #最小自乗法による推定の良さ…

R Decision Tree (決定木)

#目的変数がカテゴリカル変数の場合は、目的変数がどのカテゴリーに #属するのかを予測するための方法としては、ロジスティクス回帰 #分析や判別分析などの方法を用いることが可能 #決定木は全体を説明変数を用いて段階的にグループ分けする #classification…

R Logistic Regression (ロジスティック回帰)

#ロジスティクス回帰分析は、1つのカテゴリカル変数を目的変数 #とし、その目的変数を説明変数で説明するモデルによる分析方法。#より実践的なのはこちら ################目的変数が2値の場合################ ##単項多重ロジスティック回帰 #個票データが…

線形代数の復習

Def n×n行列Aは半正定値 ⇔ 任意のn次元ベクトルxに対し、x^T A x ≧0 Def n×n行列Aは正定値 ⇔ 任意の非ゼロn次元ベクトルに対し、x^T A x >0 次の行列は半正定値であることが知られている。分散・共分散行列、モーメント行列、確率分布の特性関数、力学系の…