2.1 データの簡単な要約
前の章で読み込んだfukuoka2015
を用いて、Rにおける基本的なデータの要約と可視化の方法を確認します。要約する際には、各列のデータ型が適切なものになっているか確認しましょう。前に述べたように、city_code
や地域
の列は因子型に変換すべきでしょう。
$area_code <- factor(fukuoka2015$area_code)
fukuoka2015$地域 <- factor(fukuoka2015$地域) fukuoka2015
データフレームの各列についての要約を見たい場合は、summary()
関数を使うと便利です。
summary(fukuoka2015)
## area_code 地域 総面積 人口総数 昼間人口
## 40101 : 1 うきは市: 1 Min. : 572 Min. : 2174 Min. : 1946
## 40103 : 1 みやこ町: 1 1st Qu.: 2165 1st Qu.: 18805 1st Qu.: 17175
## 40105 : 1 みやま市: 1 Median : 4192 Median : 40270 Median : 37514
## 40106 : 1 芦屋町 : 1 Mean : 6068 Mean : 70901 Mean : 71486
## 40107 : 1 鞍手町 : 1 3rd Qu.: 7822 3rd Qu.: 87014 3rd Qu.: 83004
## 40108 : 1 宇美町 : 1 Max. :24671 Max. :306015 Max. :381926
## (Other):62 (Other) :62
## 世帯数
## Min. : 742
## 1st Qu.: 7264
## Median : 16508
## Mean : 30830
## 3rd Qu.: 35107
## Max. :141682
##
データフレームを引数としてsummary()
関数を実行すると、変数が数値型の場合、5数要約(最小値、最大値、第1四分位数、中央値、第3四分位数)と平均値が、因子型の場合、各水準ごとのデータの個数の集計値が出力されます。
ベクトルに対して利用した代表値(平均値や中央値)、ばらつきの指標(分散、標準偏差)などは、データフレームの列に対して適用できます。
mean(fukuoka2015$人口総数)
## [1] 70901.26
median(fukuoka2015$人口総数)
## [1] 40269.5
var(fukuoka2015$人口総数)
## [1] 5978006833
sd(fukuoka2015$人口総数)
## [1] 77317.57
数値型の変数の組に対しては、相関係数をcor()
関数で計算することができます。
# 2つのベクトルを指定
cor(fukuoka2015$人口総数, fukuoka2015$昼間人口)
## [1] 0.9584306
# 複数列における変数の各組の相関係数を計算
cor(fukuoka2015[, 3:6])
## 総面積 人口総数 昼間人口 世帯数
## 総面積 1.0000000 0.2802705 0.2234106 0.2081516
## 人口総数 0.2802705 1.0000000 0.9584306 0.9840105
## 昼間人口 0.2234106 0.9584306 1.0000000 0.9876913
## 世帯数 0.2081516 0.9840105 0.9876913 1.0000000
複数の変数の各組の相関係数を行列形式で表示したものを相関行列(Correlation Matrix)と呼びます。