2013-06-01から1ヶ月間の記事一覧

標準誤差(SEM)と標準偏差(SD)

数学いらずの医科統計学 第2版作者: 津崎晃一出版社/メーカー: メディカルサイエンスインターナショナル発売日: 2011/03/24メディア: 単行本購入: 1人 クリック: 37回この商品を含むブログ (2件) を見る 第14章より SEM = s/√n (s:標準偏差, Standard Deviat…

R Logistic Regression (ロジスティック回帰) (2) 予測モデルの作成と評価

#########1.データの取り込み,整形######### #install.packages("kernlab") ※初回のみ実行 library(kernlab) data(spam) attributes(spam)$names #項目名を確認 #項目名の解説は、http://archive.ics.uci.edu/ml/datasets/Spambaseに掲載されている #データ…

R package 'FNN' (1) カルバックライブラダイバージェンス

#install.packages("FNN")library(FNN)#http://nakhirot.hatenablog.com/entry/20130607/1370602095 #で理解したKL.divergenceについて、Rの関数(KL.divergence())を分解して理解する ####KL.divergence####function (X, Y, k = 10, algorithm = c("VR", "br…

R Linear Regression (線形回帰) (3) 最小自乗法の補足

最小自乗法において、y(目的変数)とy^(予測値)の差の2乗の和を最小化する意味について: 差の絶対値を最小化する考え方もある(手計算の場合はこちらの方が次数が低く楽である) 各観測点から、回帰直線に垂線を下ろし、その長さを「誤差」と考える考え方も…

R Linear Regression (線形回帰) (2) 予測モデルの作成と評価

分析の題材はこのデータ: #SPC:Sales per customer,顧客単価(JPY) #OpenH:Hours open,営業時間 #NOHWT:Number of households within trade area,商圏内世帯数(世帯) #NOPWT:Number of people with in trade area,商圏内人口(人) #IPH:Income per households…

R 時系列分析講座構成案(Memo)

時系列解析の考え方: 過去に依存して次が決まるかどうか、その強さの度合いがポイント 過去に依存して次が決まる場合は、「先行指標」の見極めが必要である 過去からの依存度合を図る指標も必要である

R Time Series Analysis 時系列解析(2) (decompose)

#decompose関数を分解して理解する#decompose関数は系列データを季節成分、トレンド、残りに分解する関数 #データは経済産業省より取得した「総合原指数【月次】出荷(平成17年=100.0)」 edit(decompose) dat <- read.csv("http://www.meti.go.jp/statisti…

R Time Series Analysis 時系列解析(1) (filterによる移動平均法)

##inputデータは経済産業省より取得data <- read.csv("http://www.meti.go.jp/statistics/tyo/iip/result/h2afdldj/csv/ha2nsgo3j.csv",header=TRUE)#データの整形delete <- c(1,3) data <- data[-delete,] colnames(data) <- data[1,] new_name <- NULL for…

Notes on Kullback-Leibler Divergence and Likelihood Theory カルバック・ライブラ距離

こちらを参照:http://www.snl.salk.edu/~shlens/kl.pdf カルバック-ライブラ(Kullback-Leibler)ダイバージェンス(以下、DKL)は2つの確率分布の類似度を定量化する指標である DKL(p||q) = Σi pi log2(pi/qi) DKLは分布p,qに関して非対象であり、非負数である…

Bioconductor PETAL

Rのソースコードはここから取得する:http://peiwang.fhcrc.org/research-project.html 論文はこれ:http://www.ncbi.nlm.nih.gov/pubmed/16880200 要約:http://nakhirot.hatenablog.com/entry/2013/05/02/103659 ReadMe.txtの通りに実行すれば良いが、コー…

Bioconductor Package 'xcms'

(On progress)

Bioconductor Package 'MSeasy'

#mzXMLファイル毎にフォルダを作成し、各ファイルについてxcmsで作成した#peaklist.txtとmzXMLファイルを配置しておく(下記で入力するCDFpathには、#各サンプルについてxcmsで作成(xcmsSet)したpeaklist.txtとmzXMLファイルが#1つのフォルダに入っており、そ…

Bioconductor Package 'baseline'

http://www.jpo.go.jp/shiryou/s_sonota/hyoujun_gijutsu/mass/2-4-1.pdf に理論の概要は記載されている GCMSデータに適用するには、縦軸がm/z、横軸がRetention Time、数値がIntensityのマトリックスのinputを作成してから、baseline関数を使用 library(bas…

C言語プログラムの実行(linux上)

emacsとgccをインストール emacsで新規文書を作成し、拡張子.cで保存 emacsのマニュアルは http://www.ele.kochi-tech.ac.jp/tacibana/2012/is1/how-to-use-emacs.pdf とか gcc ファイル名:コンパイル ./a.out:実行

適合度の検定と独立性の検定

wiki抜粋: http://ja.wikipedia.org/wiki/%E3%82%AB%E3%82%A4%E4%BA%8C%E4%B9%97%E6%A4%9C%E5%AE%9A これによると、 独立性の検定:2つの変数に対する2つの観察が互いに独立かどうかを検定する。カイ二乗の計算値は、確率分布が二項分布あるいは正規分布に…

御社の特許戦略がダメな理由

御社の特許戦略がダメな理由作者: 長谷川曉司出版社/メーカー: 中経出版発売日: 2010/03/24メディア: 単行本 クリック: 55回この商品を含むブログ (5件) を見る 事業の成否に影響を及ぼすのにも関わらず、特許戦略について漫然と考えていたがために「負けた…

相関係数の意味

ベクトルの内積(平均から各点への点の内積) まとまり具合 wiki:http://en.wikipedia.org/wiki/Pearson_product-moment_correlation_coefficient ←こちらにまとまり具合と相関係数の対応について記載がある。じっくり考えてみる価値あり。 Rank化して相関係数…

Highly sensitive feature detection for high resolution LC/MS

Abstract LC/MSはmetabolomics experimentsにとって重要な分析技術である。LC/MS生データにおける2次元のシグナルの領域、中心、強さを決めることはfeature detectionと呼ばれている。数千のfeaturesに対応する数百の物質を含む複雑なサンプルの一貫性のある…