読者です 読者をやめる 読者になる 読者になる

R Clustering 世界各国を人口構成・産業構成でクラスタリング

R Program クラスタリング DSL 課題

自治体のクラスタリングと同様、世界各国の人口構成・産業構成のデータでクラスタリングし、進出市場を検討するための方法をご紹介しようと思います。全体の流れは次の通りです。

f:id:nakhirot:20160522221647p:plain

分析の設計

データを集める前に、何のためにどのデータを集めるのか、明確にする必要があります。一般的に、進出市場を検討するときは、①:市場規模、②:成長率、③:競争環境、④:自社の強みの発揮、といった要素が初期的に検討の対象となります。ここでは20 - 30代の顧客がターゲットであるとしましょう。

f:id:nakhirot:20160522221753p:plain

①~④それぞれに対応する適切なデータ(自社の事業領域の市場規模や成長率の各国データ、または企業内部のデータ)があれば良いのですが、一般的に数十万~数百万出して買うか、またはデータが存在しないこともありますので、ここでは上記のように代替指標でやることにします。

データの取得

GDPや人口構成、産業構成の大枠のデータは国連や国際労働機関などから幸いにも得ることが出来ます。ただし、全てのデータがあるのは世界196カ国(データ作成当時)のうち、116カ国なのでこれらを対象とします。また、アメリカ、インド、中国は人口が莫大で例外的なので分析対象から除くことにします。

f:id:nakhirot:20160522222508p:plain

デンドログラムの作成

Rを立ち上げて、ディレクトリを設定(こちらがわかりやすいです)、read.csv関数でデータを読み込み、scale関数で標準化、hclust関数で階層クラスタリング(ウォード法)、plot関数(クラスタ数8)で図示をすると次のようになります。 

f:id:nakhirot:20160522155530p:plain

理解のしやすさを重視し、クラスタは8つに分けることにしました。

クラスタに名前をつける

さて、クラスタリングができたら、aggregate関数で各クラスタの平均値を計算し、radarchart関数でレーダーチャートを描き、各クラスタの特徴を理解して名前をつけてみましょう。(名前の付け方はやや失礼にあたるかもしれませんが、ここではクラスタ分析の説明をすることが主題なので、悪しからず)また、GDP、GDP増加率(GDPIncreasePct)、人口(Population)は大国と小国で大きさの違いが極端であることから、対数化またはBinningによって分布を平準化しています。

クラスタ1 農業中心の発展途上国

f:id:nakhirot:20160522155747p:plain

ラインナップは次の通り。

"Albania" "Armenia" "Azerbaijan" "Bolivia" "Cambodia" "Chile" "Costa Rica" "Dominican Republic""Ecuador" "El Salvador" "Honduras" "Indonesia" "Jamaica" "Jordan" "Kazakhstan" "Kirgiz" "Moldova" "Mongolia" "Morocco" "Namibia" "Nicaragua" "Pakistan" "Panama" "Paraguay" "Peru" "Philippines" "Sri Lanka" "Thailand" "Vietnam" "Palestine"

農業の従事する人の割合(PrimarySecPct)が比較的大きい反面、1人あたりのGDP(GDP per capita)はそれほど高くないことから「農業中心発展途上国」と名付けることにします。

クラスタ2 工業中心の中進国

f:id:nakhirot:20160522160046p:plain

ラインナップは次の通り。

"Algeria" "Brazil" "Colombia" "Egypt" "Iran" "Malaysia" "Mexico" "Saudi Arabia" "South Africa" "Syria" "Tunisia" "Turkey" "Venezuela"  

1人あたりのGDP(GDP per capita)が、クラスタ1よりはやや大きく、産業構成は工業(IndustrySecPct)に偏りがあり、GDP自体も比較的大きいようです。したがって、「工業中心中進国」と名付けます。なお、戦争の影響でSyriaは現在は大きく状況が変わっているかもしれません。

クラスタ3 リゾート地

f:id:nakhirot:20160522160356p:plain

ラインナップは次の通り。

"Antigua and Barbuda" "Bahamas" "Barbados" "Cyprus" "Polynesia" "Latvia" "Lithuania" "Malta" "Mauritius" "Montenegro" "New Caledonia" "Torinidad and Tobago""Uruguay"  

サービス業(ServiceSecPct)に従事する人の割合が比較的大きく、1人あたりのGDP(GDPcapita)も前の2つのクラスタより大きいようです。また、ラインナップを見ると、聞いたことのあるようなリゾート地の名前が出てきていますので、「リゾート地」と名付けることにします(すべてそういうわけではないですが)。

クラスタ4 高齢化が進行する先進国

f:id:nakhirot:20160522160656p:plain

 ラインナップは次の通り。

"Australia" "Austria" "Belgium" "Canada" "Denmark" "Finland" "France" "Germany" "Iceland" "Ireland" "Israel" "Italy" "Japan" "Luxemburg" "Netherlands" "New Zealand" "Norway" "Puerto Rico""Spain" "Sweden" "Switzerland" "Britain"

主に欧州の国が目立ちます。GDP, 1人あたりGDP, 人口(Population)が大きく, 65歳以上の人口割合(PctOver65)が大きく, 産業はサービス業(ServiceSecPct)に偏っています。名前としては「高齢化が進行する先進国」という名前が適切かと思います。

クラスタ5 産油国

f:id:nakhirot:20160522160941p:plain

ラインナップは次の通り。

"Bahrain" "Oman"    "Qatar"

産油国ばっかりですね。 人口(Population)がそれほど大きく割に1人あたりGDP (GDP per capita)がそこそこ大きく、産業構成は産油系の事業が集中している(第2次産業 IndustrySecPct)ことが特徴です。最近石油価格が下落していますから、データをアップデートすると異なる結果になると思われます。

クラスタ6 高齢化が進行する東欧国

f:id:nakhirot:20160522161215p:plain

ラインナップは次の通り。

"Belarus" "Bosnia and Herzegovina" "Bulgaria" "Croatia" "Cuba" "Czech" "Estonia" "Greece" "Hungary" "Macedonia" "Poland" "Portugal" "Romania" "Russia" "Serbia" "Slovakia" "Slovenia" "Taipei" "Ukraine" 

東欧の国が主であり、65歳以上の人口割合(PctOver65)が比較的大きいことから、「高齢化が進行する東欧国」と名付けることにします。

クラスタ7 貧困問題を抱える発展途上国

f:id:nakhirot:20160522161716p:plain

 ラインナップは次の通り。

"Boudin" "Cameroon" "Ghana" "Guatemala" "Iraq" "Liberia" "East Timor" "Uganda" "Vanuatu" "Yemen"

産業が第一次産業(PrimarySecPct)に集中しており、出生率(FertilityRate)が高く、15歳以下の人口割合(Under15)が比較的大きいに状況ですが、GDPは極めて低い状況です。したがって、「貧困問題を抱える発展途上国」と名付けることにします。

クラスタ8 サービス業で栄える小国

f:id:nakhirot:20160522161959p:plain

ラインナップは次の通り。

"Hong Kong" "Macao" "Korea" "Singapore" "United Arab Emirates"

サービス業(ServiceSecPct)に従事する方の割合が比較的大きく、1人あたりのGDP(GDP Per Capita)も大きい部類に入ります。人口はそれほど大きくありません。ラインナップを見ると、香港、マカオ、シンガポール、UAEといった小さくとも栄えているイメージのある国家が表れていることから「サービス業で栄える小国」とすることにします。

クラスタを評価する

さて、レーダーチャートを確認したら、今度はどのクラスタの優先順位が高いか、評価してみましょう。今回の分析の目的は①:市場規模、②:成長率、③:競争環境、④:自社の強みの発揮の4つの観点で、有望市場のクラスタを見つけることですから、仮に20 - 30代の消費者をターゲットとするビジネスだとすれば、次の通りになると想定されます。

f:id:nakhirot:20160522224428p:plain

再掲ですが、評価基準はこちら。

f:id:nakhirot:20160522224509p:plain

提言する

どのクラスタも一長一短ではありますが、今回使用したデータ限りでは、下記のクラスタが検討対象となる可能性があります。

農業中心の発展途上国

"Albania" "Armenia" "Azerbaijan" "Bolivia" "Cambodia" "Chile" "Costa Rica" "Dominican Republic""Ecuador" "El Salvador" "Honduras" "Indonesia" "Jamaica" "Jordan" "Kazakhstan" "Kirgiz" "Moldova" "Mongolia" "Morocco" "Namibia" "Nicaragua" "Pakistan" "Panama" "Paraguay" "Peru" "Philippines" "Sri Lanka" "Thailand" "Vietnam" "Palestine"

 

工業中心の中進国

 

"Algeria" "Brazil" "Colombia" "Egypt" "Iran" "Malaysia" "Mexico" "Saudi Arabia" "South Africa" "Syria" "Tunisia" "Turkey" "Venezuela" 

産油国

"Bahrain" "Oman"    "Qatar"

貧困問題を抱える発展途上国

"Boudin" "Cameroon" "Ghana" "Guatemala" "Iraq" "Liberia" "East Timor" "Uganda" "Vanuatu" "Yemen"

さすがに、用いたデータが荒くてうまく絞れていないですが…、人口動態データを男女別で取得したり、年齢別で細かく取得して実施するともう少し精度よく絞り込みができるはずです。 

 

 

まとめ

このように、国連や国際労働機関にあるデータを使ってクラスタリングすることにより、世界各国から自社にとって有望な市場を評価することが出来ます。もちろん、高額レポートやもっと具体的なデータが取得できるのであれば、それを使って評価するに越したことはありません。また機会があれば、他のデータを使って分析する予定です。