R で可視化〜可視化の意義と ggplot2 の概要〜
「R で可視化」と題して ggplot2 を使った色々な可視化方法について紹介していきたいと思います。
なぜ可視化が必要なのか
- データの特徴を理解し、モデリングや仮説構築に活かすため
データへの理解はその後のモデリングの質や、新たな仮説を立てられるかなどに影響します。可視化することで経験的に想像していたデータに対する思い込み、誤解をなるべくなくしたり、新しい発見により特徴量の変換方法を変えたり、「A と B が相関を持っているのは、〇〇という理由ではないか」といった仮説を立てることにも役立ちます。探索的データ分析の主たるツールとなるのが可視化ではないでしょうか。 - 分析結果をわかりやすく伝えるため
文字、数字の羅列ではなく、図で理解できるのであればそれが最善です。というか、大抵の場合図の方が理解しやすいです。また、視覚的に理解させるという目的からはずれますが、美しいデザインで「興味を引く」ことも大切だと思います。
ggplot2 とは
概要
Hadley Wickham 氏が作成した、R で様々なバリエーションの図をいい感じに描写するためのパッケージです。R のベース関数 plot
と比べると必要なコード量が多くなり、最初のうちは「こんな書かなきゃいけないなら plot
でいいわ」と思うかもしれません。しかし、ggplot の柔軟性、図の美しさ、豊富な描写パターンを体験すれば、きっとこれからも使いたくなると思います。
ちなみに、「R で可視化」シリーズでは、ggplot の便利さを実感しながら様々なグラフ描画方法を紹介していきます。
使い方
まず、ggplot2 で描写する手順のイメージをお伝えします。
- x 軸、y 軸にどの値が該当するかを決め、ベースとなるキャンバスを用意
- 具体的にどんな絵(グラフ)を描くか決める(どんどん重ねられる)
- 全体的なデザインや文字、数字のサイズを決める
- 軸ラベルやタイトルなど、描きたい文字、数字を決める
細かい調整箇所などはたくさんありますが、このシリーズでは大体この流れに基づいて進めます。
また、ggplot2 で描写する際は、基本的には整然データとよばれる形式のデータを準備し、必要に応じて変形させながら可視化をおこないます。