R コンジョイント分析を活用した商品開発

今回は、下記サンプルデータを用いて商品開発における各要素の最適な組み合わせを見つけ出す方法を紹介したい。 1. 分析の前提 今回は、大手百貨店の商品企画部として、以下のシチュエーションで分析を行うこととする。ある大手百貨店の飲食店のテナントでお…

R 実験計画法を利用した要因分析

今回は、実験計画法による要因分析の方法について例を交えて紹介したい。 1. 分析の前提 まず、今回の例の設定を述べる。 マンション販売のコンサルタントとして、デベロッパーと協力してマンションの販売数を上げるために重要な要素を調査することになった…

R ビールのアンケート調査を分析する1

0. データの紹介 今回は下記の本のサンプルデータを用いて、アンケート調査結果の分析における信頼区間の利用例を示してみたい。 データの定義は次の通り。(少し長いです) このアンケートデータはビールのブランドイメージについての調査結果です。まず、Q1…

R Decision Tree 決定木でサッカーの勝敗を予測する

0. 使用するデータと仮説立案 今回はサッカーの勝敗・試合内容の履歴データから、勝敗の要因や勝敗を予測するモデルを作成してみたい。使用するデータはこちら(出典:Football LAB)。(少し長いです) 0.1 今回の分析の目的 ビッグデータはビジネスの世界…

R Clustering 世界各国を人口構成・産業構成でクラスタリング

自治体のクラスタリングと同様、世界各国の人口構成・産業構成のデータでクラスタリングし、進出市場を検討するための方法をご紹介しようと思います。全体の流れは次の通りです。 分析の設計 データを集める前に、何のためにどのデータを集めるのか、明確に…

R Clustering 日本の自治体を人口構成・産業構成でクラスタリング

今回は、日本の1,835の市区町村(2015年現在)を人口構成と産業構成のデータで分類してみる。今回は「個々を具体的に認識できる範囲」ではないので、非階層クラスター分析(k-means)をしてみることにする。 分析の目的 最近「地方創生」「少子高齢化」「地…

データ分析から考える「地方消滅」1 - ざっくり捉える人口減少の傾向

「少子高齢化」の日本で何が起きているのか? 2014年にいわゆる「増田レポート」が発表され、「消滅可能性都市」が896あると発表されたのは記憶に新しい。2016年2月に速報された2015年の国勢調査では、「15年10月1日時点で外国人を含む日本の総人口は1億271…

R Random Number Generation 乱数の作成

ゼミで特定の分布に従う乱数の作成法について勉強したので、備忘のため、記録しておく。特定のデータがあり、そのデータの分布に従ったデータを生成したいときに重宝する。 実際にやってみる。ある商品の希望買い取り価格調査を19名に対して行ったとして、そ…

R SVM (サポートベクターマシン)

SVM(サポートベクターマシーン)という方法による、グループ分けの例。データはサンプルで適当に生成したものです。渦巻き状に2つのグループのデータ分布しているとしても、両者を自動的に見分けてくれます。SVMはやや複雑な数学を用いますが、精度が非常に良…

Linux Tips (圧縮/解凍/ファイル削除)

記憶のため、メモ。 [ファイルをtar.gz形式で圧縮する] tar cfvz 圧縮後のファイル名.tar.gz 圧縮するファイルのあるパス [tar.gzを解凍する] tar xvzf 圧縮後のファイル名.tar.gz [フォルダの容量を確認] du [フォルダ名を変更] mv 変更前フォルダ名 変更後…

R Resampling (リサンプリング)

ゼミでリサンプリングの手法を学んだので、知識と各手法の善し悪しについて整理しておく。主にこちらのサイトを参考にした。 リサンプリングの定義 初期サンプルから、新しいサンプルを作りだすことに基づいて得られる統計的推定の方法 リサンプリングの目的…

Topological network alignment uncovers biological function and phylogeny

こちらの論文がゼミで紹介されたのでメモ 提案されている方法: ・事前情報を使わない ・トポロジーの近さでアライメントをやる ・n-node graphlets:ノードの数によって、どのようなグラフパターンがあるか列挙 ・トポロジーを考える:トポロジー的に同じノ…

R ROCカーブの知識整理

こちらのページでもROCカーブを用いてきたが、改めて知識を整理しておく。ROCカーブはReceiver Operating Characteristicのことであり、モデルの善し悪しを表現する1つの手段と認識している。 以下は、あるメールがspamか否かをDecision Treeで予測した際のR…

検定の知識整理(3) 検定力について1

有意水準・効果量・標本数・検定力はカルテットである 他の2つの条件が同じであれば、以下の3つの性質がある。 有意水準を大きくすると検定力も大きくなる。有意水準を小さくすると検定力も小さくなる。 効果量が大きければ検定力も大きい。効果量が小さけれ…

R 分布の知識整理(2) t分布1/歪度(わいど)と尖度(せんど)

t分布と正規分布の関係、歪度(わいど)と尖度(せんど)について確認する。説明はここがわかりやすい。t分布とは、 個のデータが独立にに従うとき、 ただし、は標本平均、は不偏分散 に従う分布である。上記の場合は自由度が。 の値を増加させるにつれ、正規分…

検定の知識整理(2) 独立多群間の比較2 一元配置分散分析(one-way ANOVA)

以前、独立多群間の比較について勉強したが、それを問題に対して適用してみる。 ---------------------------------------------------------------------------------------------------------------------------------- 3群に正規分布が想定できるとき、…

A genome-wide association study of the human metabolome in a community-based cohort

論文はこちら。下記は論文を読んだ上での自分の解釈 Framingham Heart Study(FHS)の延べ2076検体(うち873検体は血縁関係がある)について、metabolite profilingとGWASを実施。 平均55歳、51%は女性。 Relative Contributions of Heritable and Clinical Fact…

R Space interpolation 空間補間 ソースコード編集2

C言語の勉強も進んだので、目的である空間補間のソースコード編集をやってみたい。このサイトが非常に分かりやすいので参考にした。 エラーが起きた理由の振り返り こちらでRの空間補間パッケージを使用した際、エラーが起きた。コードの意味も含め、おさら…

C言語 キャスト演算子

キャスト演算子とは、型の変換を行う演算子という理解。次のような例を考える。 #include <stdio.h> void main() { double x; x = 7/3; printf("x=%f\n",x); } xは2.33333…という値が出力されるはず。しかし、実行後の結果は x=2.000000 となる。この原因は、 C言語は</stdio.h>…

C言語 配列を関数に渡す

以前勉強したときに、関数との値のやりとりについては、次の2パターンがあると理解した。 値渡し:引数に変数が渡される。変数自体は変化しない。 ポインタ渡し:関数に変数の値を変えて欲しいときに使用。引数が配列のときはポインタ渡しを使う必要がある …

C言語 多次元配列

他言語同様、C言語でも多次元配列を使うことが出来る。定義は、 型名 配列名 [n次元目要素数][n-1次元目要素数]…[1次元目要素数] と書く。 一様分布従う乱数を発生させ、それを100×100×100の3次元配列に格納してみる。乱数発生はココを参照。 #include <stdio.h> #inc</stdio.h>…

C言語 ポインタのポインタ

C言語改訂版2 はじめて学ぶCの仕組み (CD-ROM付) (プログラミング学習シリーズ)作者: 倉薫出版社/メーカー: 翔泳社発売日: 2009/02/13メディア: 大型本購入: 2人 クリック: 6回この商品を含むブログ (3件) を見る 時系列解析でご無沙汰していたが、この問題…

R 分布の知識整理(1) まずは名前から

XX分布という文言も世の中に飛び交っている。これらの関係を整理し、理解を深めていきたい。少しずつ進めていくことにする。研究対象は次の通り。 一様分布 F分布 分布 ガンマ分布 幾何分布 コーシー分布 指数分布 正規分布 対数正規分布 多項分布 t分布 超…

R aov関数を分解する

Rでコンソールにaovと入力すると、関数の中身が現れる。普段あまり使わない関数も多数登場しているので、意味を確認することにする。 1 function (formula, data = NULL, projections = FALSE, qr = TRUE, contrasts = NULL, ...) "formula"は分散分析の対象…

R 検定の知識整理(1) 独立多群間の比較1

「xx検定」という言葉がゼミでも職場でも飛び交っているが、断片的に統計を勉強してきた自分にとっては知識の劣化があるので、ブログに書いて知識を正確に深化させていきたい。 まずは、直近ゼミでも登場している分散分析周りについておさらい。個々は各回で…

R Time Series Analysis 時系列解析(15) ここまでのまとめ

これまで勉強した時系列解析の手法・考え方をまとめる。確信は無い。実際に使う中で随時追記していく予定。 データを読み込んで、ts()で時系列に変換。 時系列を図示、自己相関係数(acf)→ trend, seasonalの存在、分散の一様性を目視で確認。 seasonalが存…

R Time Series Analysis 時系列解析(14) SARIMAモデル

SARIMAモデルとは ARIMAモデルの変化形であるSARIMAモデルの確認を忘れていた。SARIMAモデルとは、通常のARIMA(p,d,q)と季節階差に関するARIMA(k,l,m)を合わせたモデル。季節階差とは、例えば「前年同期との差」のこと。1周期がsである場合に、季節階差を と…

R Time Series Analysis 時系列解析(13) スペクトル分析

定常過程の母スペクトル 定常時系列を特徴を把握するための要素として、自己共分散およびそれを基準化した自己相関係数があった。定常過程の自己共分散に対して、次の無限級数を「自己共分散母関数」として定義する。 これをで割り、に(ただし、は周波数)を…

R 対応のないt検定

数学いらずの医科統計学 第2版作者: 津崎晃一出版社/メーカー: メディカルサイエンスインターナショナル発売日: 2011/03/24メディア: 単行本購入: 1人 クリック: 37回この商品を含むブログ (2件) を見る 対応のないt検定について、気づいたことがあったので…

R 対応のある群の比較

ゼミの課題に出ていたこともあり、備忘のため記す。東証時価総額上位18社(データ取得期間中に単位が変わっているKDDIは除く)の終値の変動をみる。 まず、データの取得。無料で取得出来るサイトがある。銘柄の番号を変えればRのfor文で取得出来、自動的に更新…