Program

R Tips データのマージ

#a,bの2テーブルを1対多で紐付ける a <- data.frame(ID=c("a","a","a","b","b","b","c","c","c"),mz=c(1:9)) b <- data.frame(ID=c("b","c","d"),Risk=c(1:3)) merge(b,a,by="ID") #不要な列を削除する df <- ( データフレーム ) 不要 <- c( 要らない列番号…

R 初級講座ネタ検討(カテゴリカル・データ、割合の検定)

#練習問題 binom.test(x=134,n=200,p=0.5) #p値の推定値はp値への影響を与えるが、pの推定値の信頼区間に対しては影響を与えない。 #pの推定値の信頼区間は、測定値が最尤推定値であることを過程した分布によって推定する。 #p値と信頼区間からの離れ具合に…

R 初級講座ネタ検討(カテゴリカル・データの変形)

TAccident <- c(0, 0, 0, 0, 0) colname <- c("Sex","Place","Seatbelt","Injury","Freq") colnames(TAccident) <- colname TAccident <- matrix(c('女性','女性','女性','女性','女性','女性','女性','女性','男性','男性','男性','男性','男性','男性','男…

Linux Tips

#webからアプリケーションをダウンロードし、展開する wget URL(取得先) #ダウンロード先はpwd tar -xvzf (ファイル名) #ダウンロードしたファイルを展開。-xは書庫からファイルの抽出、vは進捗を表示する、zはgzipで圧縮/解除する(*.tar.gz)、fはファイルを…

R Tips(ファイル一覧の取得)

#ファイル一覧の取得 list.files(path = "ディレクトリ名", pattern = "検索対象文字列") #検索対象文字列は、^XXXで前方一致、XXX$で後方一致。Rにおける正規表現について、http://www.okada.jp.org/RWiki/?R%20%A4%CB%A4%AA%A4%B1%A4%EB%C0%B5%B5%AC%C9%BD%B8%B…

Python基本2

①inを使ってオブジェクトの要素の存在を調べる s = "snowslidesystemverticaldropbrainbuster" if "brain" in s: print "brain is found!" #sをif xxx in yyy.values() ※xxxは確認するキー、yyyは辞書名とすれば、辞書中にキーxxxが存在するか確認することが…

Python基本1

組み込み型のまとめ コレクション型:シーケンス型(文字列、リスト、タプル)、マップ型:辞書 変更可能/不可能:リスト、辞書は変更可能。文字列、タプルは変更不可能 文字列検索と比較 find()メソッドでは、文字列が見つかった場合は位置を示す数値が、見つ…

R Mantel-Haenszelの勉強

「Rで学ぶデータサイエンス 1カテゴリカルデータ解析」を参照して作成 UCBAdmissions GAdata <- apply(UCBAdmissions, c(2, 1), sum) mosaicplot(GAdata) chisq.test(GAdata) #データを次々と読み込み、異なる変数名を付与する j = 1 for (i in 0:5) { Dept …

R Lasso regression (ラッソ回帰)

線形回帰(重回帰含む):http://upo-net.ouj.ac.jp/tokei/contents/sub_contents/c01_05_00.xml がわかりやすい。以下、そちらより抜粋。 library(lars) library(glmnet) data(diabetes) attributes(diabetes$x) attributes(diabetes$x2) attributes(diabetes…

Rで多次元尺度法

発想は「2点間距離の情報から、座標を再現する」。 2点間距離を維持したまま、座標を再構成する。内積の定義から、2点間の距離が明らかであれば、2点間の内積を求めることが出来る。(古典的・計量多次元尺度法) ※北海道の2都市間距離から、地図を再現する ho…

R Primary Components Analysis (主成分分析)

<体重、足の大きさの例> x1 <- c(180, 184, 160, 167, 161, 169, 175, 174, 166, 173) x2 <- c(29, 28, 25, 25, 26, 24, 25, 28, 24, 27) x1 <- as.matrix(x1, nrow = 10) x2 <- as.matrix(x2, nrow = 10) x <- cbind(x1, x2) colnames(x) <- c("height", …

フィボナッチピボット

http://webcache.googleusercontent.com/search?q=cache:yeyMQoKqPFAJ:www.k3.dion.ne.jp/~forex/tc/pivot.htm+&cd=4&hl=ja&ct=clnk&gl=jp より転載: ピボット(PIVOT) ピボット(PIVOT)はJ・W・ワイルダーによって考案されたテクニカル指標です。前日の価…

アルゴリズム(3章)

バイオインフォマティクス作者: A.ポランスキ,後藤修出版社/メーカー: 丸善出版発売日: 2012/07/17メディア: 単行本購入: 1人 クリック: 1回この商品を含むブログを見る チューリングマシン:アルゴリズム用に定式化された数学的なモデル。以下の4つから成り…

Rでタイタニックの生存者分析

z <- data.frame(Titanic) Titanic1 <- data.frame(Class = rep(z[,1],z[,5]), Sex = rep(z[,2], z[,5]), Age = rep(z[,3], z[,5]), Survived = rep(z[,4],z[,5])) ########補足:データの型の修正はこちらの方がスマート ########## class(Titanic) TN1 <- …

R標準化関連

dat <- scale(dat) datの平均値を0に、分散を1に。

重要な論文

Personal Omics Profiling Reveals Dynamic Molecular and Medical Phenotypes http://www.cell.com/abstract/S0092-8674(12)00166-3 1人ではあるものの、オミクス横断で解析を行い、関係を明らかにしたもの。※4/6(土)中に読破。

Rにおける複数ファイルの取込

setwd("XXX") f<-list.files("XXX", pattern="txt$") print(f) j = 1 for(i in f) { dat <-read.table(paste("XXX", i, sep = ""), header = T) assign(paste("dat",j,sep=""),dat) j = j + 1 } # 50,000 x 300 x 8 のデータで読み込みに20分。XXXは適切なデ…

Linux Tips

■Linuxの頻出コード ・passwd パスワードの変更 ・cd /パス名 - cdのみ home ディレクトリに戻る - cd - 1つ前のディレクトリに移動 ・相対パス表現 - . (ドット1個) カレントディレクトリ - .. (ドット2個) カレントディレクトリの親ディレクトリ - ~ (…