R 初級講座構成案(Memo)

■Chapter1 なぜ分析が必要なのか?

・よく使うデータの変形方法

・企業の中で役立てるとすればどうするか

・ダイナミックオペレーションを目指して(過去の分析から、現在の察知、未来の予測へ)

・知見とは何か?

・多様性に富む世界、知見をたくさん共有し、大勢の人を巻き込む仕組みが必要

・文化の違い、意見の違いを乗り越えるためのデータ分析(世界共通言語)

・その場が立脚するルールは何か、その前提からしてこの人の言っていることは妥当なのか、判断基準を提供してくれる

・結局はあいまいな世界からは抜けられない、でも少しでも真実を見ようとすることが大切

・データ分析は強力な武器、されど限界はある。人的な能力も欠かせない。

・丸腰で臨むか、武器を持って臨むか、その違いは大きい。

■Chapter2 世の中にあるデータ

・内部と外部

・まずは内部、内部が出来たら外部

・データについてのROIの定義のススメ。IT部門をコストセンターからプロフィットセンターへ

■Chapter3 データを分析する手段

・まずは、目標・価値観の設定

・データを得るためのインフラ

・それを解析するツール

■Chapter4 Rの基本操作

・Input, Explore, Variable selection, Transform, Data Partition, Modeling, Compare

■Chapter5 Rを使用した分析 前半:探索的、後半:Specific

-アソシエーション分析 

 

http://www.tsware.jp/study/vol8/qrybiz_01.htm にサンプルデータあり。

-クラスター分析 

 

・演習問題探し中。
-重回帰/線形回帰 

 

・重回帰では外れ値の除去/多重共線性を紹介。

-ロジスティクス回帰分析 

 

 

・ロジスティック回帰ではstepの紹介。オッズ比の定義は厳密に話す。例題はTitanicか、倒産確率計算のどちらか。回帰の演習はロジスティクス回帰に集約。

 

・アンケートを主成分分析で低次元化する話の説明。

 

・モデルを作る際のランダムサンプリング(IDに対して乱数配分)

 

・結果の読み取り方の説明。

 

 

 

-決定木分析

 

・例題はTitanic/倒産確率で良い。ロジスティクス回帰と比較に用いる。

・演習問題探し中。

-時系列解析 
-テキスト解析 

■Chapter6 並列分散処理の手段

■Chapter7 まとめ