
2008年07月12日
rpartの解析例
Rコマンダーを使用して、視覚的なプレゼンに使えそうなものを色々試す。
散布図行列で変数間の全体的な関連を把握する。

x1:地域差指数総合
x2:地域差指数食料
x3:一人当たり県民所得
x4:県内総生産額対前年増加率
x5:県内総生産対前年増加
x6:財政力指数
x7:携帯電話
x8:パソコン所有数量
x9:第1次産業就業者比率
x10:保育所数
x11:労働災害発生の頻度
そのうち2変数をピックアップして、「x4:県内総生産額対前年増加率」の回帰曲面と立体的関係を見てみる。

regt<-rpart(x4~x1+x2+x3+x6+x7+x8+x9+x10+x11,data=region)
regt
n= 47
node), split, n, deviance, yval
* denotes terminal node
1) root 47 65.646380 0.4829787
2) x3< 2949.5 36 37.122220 0.1777778
4) x2< 99.65 12 7.629167 -0.4583333 *
5) x2>=99.65 24 22.209580 0.4958333
10) x11>=1.495 17 9.102353 0.2470588 *
11) x11< 1.495 7 9.500000 1.1000000 *
3) x3>=2949.5 11 14.196360 1.4818180 *

変数x4(県内総生産額対前年増加率)47都道府県が
変数x3(一人当たり県民所得)の2950千円を境に36と11に分類される。
11都道府県はx3が2950千円より大きく、増加率の平均が1.482と高いグループである。
36都道府県のグループはさらに変数x2(地域差指数食料)で12と24の集団に分けられ、x2が99.65より小さい12都道府県群の増加率の平均が-0.4583の集団である。
残りは、さらに変数x11(労働災害発生の頻度)で17と7の集団に枝分かれし、x11が1.495より大きい都道府県が増加率の平均が0.2471の群。
それより大きい都道府県が増加率の平均が1.1の群である。
このデータセットから言えることは、経済成長の指標として採用したx4の要因としてピックアップした全11変数のうち、x3、x2、x11の3変数で説明でき、最初にx3で大きく分類することができるということが分かる。また、地域差指数食料の小さいほうが経済成長が低いグループとなっている。
+++++++++++++++++++++++++++++++++++++++++++++++
+++++++++++++++++++++++++++++++++++++++++++++++
regt<-rpart(x6~x1+x2+x3+x4+x7+x8+x9+x10+x11,data=region)
n= 47
node), split, n, deviance, yval
* denotes terminal node
1) root 47 1.57249000 0.4280851
2) x1< 104.55 40 0.42904700 0.3702250
4) x3< 2527.5 15 0.01864960 0.2714000 *
5) x3>=2527.5 25 0.17600420 0.4295200
10) x10>=445.85 8 0.01027288 0.3548750 *
11) x10< 445.85 17 0.10017990 0.4646471 *
3) x1>=104.55 7 0.24432140 0.7587143 *

x6:財政力指数について要因分析を描画した。
財政力指数はx1(地域差指数総合)で基本的な分類ができ、104.55より大きい7都道府県が高い財政力をもつと判断される。
それ以外の40都道府県は、x3(一人当たり県民所得)が2528千円より低い15都道府県と、大きい25都道府県に分類される。
この25都道府県はさらにx10(保育所数)が445.8より多い17都道府県と、そうでない8都道府県に分けられる。そのうち財政力の高いのは保育所の少ないほうである。
ここでは経済成長と財政健全度という2つの例をあげたが、分類するためにモデルに組み込まれた変数と、分類の結果に関しては、何故このような分類になったか、色々な仮説なり、想像をめぐらすことができる。特に、財政力指数と保育所の関係は興味深いが、なぜこうなったかは、他の情報を利用したりするなどして、もっと考えてみる必要がありそうだ。
散布図行列で変数間の全体的な関連を把握する。

x1:地域差指数総合
x2:地域差指数食料
x3:一人当たり県民所得
x4:県内総生産額対前年増加率
x5:県内総生産対前年増加
x6:財政力指数
x7:携帯電話
x8:パソコン所有数量
x9:第1次産業就業者比率
x10:保育所数
x11:労働災害発生の頻度
そのうち2変数をピックアップして、「x4:県内総生産額対前年増加率」の回帰曲面と立体的関係を見てみる。

regt<-rpart(x4~x1+x2+x3+x6+x7+x8+x9+x10+x11,data=region)
regt
n= 47
node), split, n, deviance, yval
* denotes terminal node
1) root 47 65.646380 0.4829787
2) x3< 2949.5 36 37.122220 0.1777778
4) x2< 99.65 12 7.629167 -0.4583333 *
5) x2>=99.65 24 22.209580 0.4958333
10) x11>=1.495 17 9.102353 0.2470588 *
11) x11< 1.495 7 9.500000 1.1000000 *
3) x3>=2949.5 11 14.196360 1.4818180 *

変数x4(県内総生産額対前年増加率)47都道府県が
変数x3(一人当たり県民所得)の2950千円を境に36と11に分類される。
11都道府県はx3が2950千円より大きく、増加率の平均が1.482と高いグループである。
36都道府県のグループはさらに変数x2(地域差指数食料)で12と24の集団に分けられ、x2が99.65より小さい12都道府県群の増加率の平均が-0.4583の集団である。
残りは、さらに変数x11(労働災害発生の頻度)で17と7の集団に枝分かれし、x11が1.495より大きい都道府県が増加率の平均が0.2471の群。
それより大きい都道府県が増加率の平均が1.1の群である。
このデータセットから言えることは、経済成長の指標として採用したx4の要因としてピックアップした全11変数のうち、x3、x2、x11の3変数で説明でき、最初にx3で大きく分類することができるということが分かる。また、地域差指数食料の小さいほうが経済成長が低いグループとなっている。
+++++++++++++++++++++++++++++++++++++++++++++++
+++++++++++++++++++++++++++++++++++++++++++++++
regt<-rpart(x6~x1+x2+x3+x4+x7+x8+x9+x10+x11,data=region)
n= 47
node), split, n, deviance, yval
* denotes terminal node
1) root 47 1.57249000 0.4280851
2) x1< 104.55 40 0.42904700 0.3702250
4) x3< 2527.5 15 0.01864960 0.2714000 *
5) x3>=2527.5 25 0.17600420 0.4295200
10) x10>=445.85 8 0.01027288 0.3548750 *
11) x10< 445.85 17 0.10017990 0.4646471 *
3) x1>=104.55 7 0.24432140 0.7587143 *

x6:財政力指数について要因分析を描画した。
財政力指数はx1(地域差指数総合)で基本的な分類ができ、104.55より大きい7都道府県が高い財政力をもつと判断される。
それ以外の40都道府県は、x3(一人当たり県民所得)が2528千円より低い15都道府県と、大きい25都道府県に分類される。
この25都道府県はさらにx10(保育所数)が445.8より多い17都道府県と、そうでない8都道府県に分けられる。そのうち財政力の高いのは保育所の少ないほうである。
ここでは経済成長と財政健全度という2つの例をあげたが、分類するためにモデルに組み込まれた変数と、分類の結果に関しては、何故このような分類になったか、色々な仮説なり、想像をめぐらすことができる。特に、財政力指数と保育所の関係は興味深いが、なぜこうなったかは、他の情報を利用したりするなどして、もっと考えてみる必要がありそうだ。
Posted by ryu908 at 19:09│Comments(0)