R 初級講座構成案(Memo)
■Chapter1 なぜ分析が必要なのか?
・よく使うデータの変形方法
・企業の中で役立てるとすればどうするか
・ダイナミックオペレーションを目指して(過去の分析から、現在の察知、未来の予測へ)
・知見とは何か?
・多様性に富む世界、知見をたくさん共有し、大勢の人を巻き込む仕組みが必要
・文化の違い、意見の違いを乗り越えるためのデータ分析(世界共通言語)
・その場が立脚するルールは何か、その前提からしてこの人の言っていることは妥当なのか、判断基準を提供してくれる
・結局はあいまいな世界からは抜けられない、でも少しでも真実を見ようとすることが大切
・データ分析は強力な武器、されど限界はある。人的な能力も欠かせない。
・丸腰で臨むか、武器を持って臨むか、その違いは大きい。
■Chapter2 世の中にあるデータ
・内部と外部
・まずは内部、内部が出来たら外部
・データについてのROIの定義のススメ。IT部門をコストセンターからプロフィットセンターへ
■Chapter3 データを分析する手段
・まずは、目標・価値観の設定
・データを得るためのインフラ
・それを解析するツール
■Chapter4 Rの基本操作
・Input, Explore, Variable selection, Transform, Data Partition, Modeling, Compare
■Chapter5 Rを使用した分析 前半:探索的、後半:Specific
-アソシエーション分析
・http://www.tsware.jp/study/vol8/qrybiz_01.htm にサンプルデータあり。
-クラスター分析
・演習問題探し中。
-重回帰/線形回帰
・重回帰では外れ値の除去/多重共線性を紹介。
-ロジスティクス回帰分析
・ロジスティック回帰ではstepの紹介。オッズ比の定義は厳密に話す。例題はTitanicか、倒産確率計算のどちらか。回帰の演習はロジスティクス回帰に集約。
・アンケートを主成分分析で低次元化する話の説明。
・モデルを作る際のランダムサンプリング(IDに対して乱数配分)
・結果の読み取り方の説明。
-決定木分析
・例題はTitanic/倒産確率で良い。ロジスティクス回帰と比較に用いる。
・演習問題探し中。
-時系列解析
-テキスト解析
■Chapter6 並列分散処理の手段
■Chapter7 まとめ