3.3 nycflights13

ここでは、nycflights13パッケージで提供されているflightsデータを利用して各種機能の解説や演習を行っていきます。パッケージのインストールは以下のように行います。

install.packages("nycflights13")

データを利用するには

library(nycflights13)

としておきます。

flightsにデータが格納されています。flightsデータは、データフレームを拡張したtibbleという形式となっていますが、ほとんどの場合データフレームと同じ扱い方で問題ありません4。データフレームの場合、以下のようにオブジェクトの中身を出力するとすべてが出力されますが、tibbleの場合、最初の10行のみと、コンソールに入る列数分の変数が表示され、データの下に残りの行数と変数の数と変数名と変数の型が表示されます。

flights
## # A tibble: 336,776 x 19
##     year month   day dep_time sched_dep_time dep_delay arr_time sched_arr_time
##    <int> <int> <int>    <int>          <int>     <dbl>    <int>          <int>
##  1  2013     1     1      517            515         2      830            819
##  2  2013     1     1      533            529         4      850            830
##  3  2013     1     1      542            540         2      923            850
##  4  2013     1     1      544            545        -1     1004           1022
##  5  2013     1     1      554            600        -6      812            837
##  6  2013     1     1      554            558        -4      740            728
##  7  2013     1     1      555            600        -5      913            854
##  8  2013     1     1      557            600        -3      709            723
##  9  2013     1     1      557            600        -3      838            846
## 10  2013     1     1      558            600        -2      753            745
## # ... with 336,766 more rows, and 11 more variables: arr_delay <dbl>,
## #   carrier <chr>, flight <int>, tailnum <chr>, origin <chr>, dest <chr>,
## #   air_time <dbl>, distance <dbl>, hour <dbl>, minute <dbl>, time_hour <dttm>

flightsデータには、2013年にニューヨークの各空港を離陸したすべてのフライトに関する情報が記録されています。変数の一覧を表に示します。

列名 内容 列名 内容
year tailnum 機体番号
month flight 便名
day origin 出発地
dep_time 離陸時刻 dest 到着地
dep_delay 離陸遅延時間[分] air_time 飛行時間[分]
arr_time 到着時刻 distance 飛行距離
arr_delay 到着遅延時間[分] hour 離陸時刻[時]
carrier 航空会社省略名 minute 離陸時刻[分]
time_hour 出発予定時刻

  1. そうでない場合も一部あります。↩︎