2.1 データの簡単な要約

前の章で読み込んだfukuoka2015を用いて、Rにおける基本的なデータの要約と可視化の方法を確認します。要約する際には、各列のデータ型が適切なものになっているか確認しましょう。前に述べたように、city_code地域の列は因子型に変換すべきでしょう。

fukuoka2015$area_code <- factor(fukuoka2015$area_code)
fukuoka2015$地域 <- factor(fukuoka2015$地域)

データフレームの各列についての要約を見たい場合は、summary()関数を使うと便利です。

summary(fukuoka2015)
##    area_code        地域        総面積         人口総数         昼間人口     
##  40101  : 1   うきは市: 1   Min.   :  572   Min.   :  2174   Min.   :  1946  
##  40103  : 1   みやこ町: 1   1st Qu.: 2165   1st Qu.: 18805   1st Qu.: 17175  
##  40105  : 1   みやま市: 1   Median : 4192   Median : 40270   Median : 37514  
##  40106  : 1   芦屋町  : 1   Mean   : 6068   Mean   : 70901   Mean   : 71486  
##  40107  : 1   鞍手町  : 1   3rd Qu.: 7822   3rd Qu.: 87014   3rd Qu.: 83004  
##  40108  : 1   宇美町  : 1   Max.   :24671   Max.   :306015   Max.   :381926  
##  (Other):62   (Other) :62                                                    
##      世帯数      
##  Min.   :   742  
##  1st Qu.:  7264  
##  Median : 16508  
##  Mean   : 30830  
##  3rd Qu.: 35107  
##  Max.   :141682  
## 

データフレームを引数としてsummary()関数を実行すると、変数が数値型の場合、5数要約(最小値、最大値、第1四分位数、中央値、第3四分位数)と平均値が、因子型の場合、各水準ごとのデータの個数の集計値が出力されます。

ベクトルに対して利用した代表値(平均値や中央値)、ばらつきの指標(分散、標準偏差)などは、データフレームの列に対して適用できます。

mean(fukuoka2015$人口総数)
## [1] 70901.26
median(fukuoka2015$人口総数)
## [1] 40269.5
var(fukuoka2015$人口総数)
## [1] 5978006833
sd(fukuoka2015$人口総数)
## [1] 77317.57

数値型の変数の組に対しては、相関係数cor()関数で計算することができます。

# 2つのベクトルを指定
cor(fukuoka2015$人口総数, fukuoka2015$昼間人口)
## [1] 0.9584306
# 複数列における変数の各組の相関係数を計算
cor(fukuoka2015[, 3:6])
##             総面積  人口総数  昼間人口    世帯数
## 総面積   1.0000000 0.2802705 0.2234106 0.2081516
## 人口総数 0.2802705 1.0000000 0.9584306 0.9840105
## 昼間人口 0.2234106 0.9584306 1.0000000 0.9876913
## 世帯数   0.2081516 0.9840105 0.9876913 1.0000000

複数の変数の各組の相関係数を行列形式で表示したものを相関行列(Correlation Matrix)と呼びます。