ExcelとAccessのスキルアップをサポートするサイトです

ExcelとAccessの学習室

Excelで散布図を上手に活用する方法

これまでは、Excelのグラフの中よく使われる、他人に見せるための3つのグラフ(棒グラフ・折れ線グラフ・円グラフ)について紹介してきました。

これからは、敷居が高いように感じられるけど、実はデータを分析するために活用できる、是非マスターしておいた方が良いグラフに触れていきます。

今回は散布図を紹介します。

この記事を読むことで、

  • 散布図を作れるようになる
  • 散布図からデータの傾向を読み取れるようになる
  • 散布図が世の中にどれだけ貢献しているかが理解できる

といった効果を期待できます。

散布図を使う目的

散布図の目的は、2つの項目の関係を確認するために行います。

例えば、

  • 「身長」と「体重」の関係は?
  • 「年齢」と「成人病発生率」の関係は?
  • 「シートベルト着用」と「交通事故」による死亡の関係は?

といったように、世の中の現象で何か関係ありそうなことを検証する時に使えます。

散布図は様々な業界で使うことができます。身近なものと言えば、職場内の問題点を解決するための手がかりを見つける場合です。

大きなテーマとして、

  • 新しい研究成果を出すため
  • 何か新しいビジネスを興す時
  • 法律を施行するための根拠

といったことにも活用できます。

世界的なIT企業であるGAFA(Google,Apple,Facebook,Amazon)は、データを上手に活用して成長してきました。

何をビジネスにすればよいのかという「仮説」を立てて、実際にデータの傾向を確認する「検証」を行い、方針を打ち出す。

散布図は仮説検証を行うための強力なツールとなりえることができるのです。

散布図の作り方

散布図の作り方は以下のような流れで作られます。

  1. 元になるデータを作成
  2. 挿入タブから散布図を作成
  3. 軸ラベルやタイトルを加工

では、順番に作り方を解説していきます。

元になるデータを作成

まずは、散布図をつくるためのデータが入力された表を作成します。

ここで注意すべきことは、「出来るだけ多くのデータ件数をそのまま使う」ことです。

他人に伝える、見せるためのグラフである棒グラフや円グラフは、集計を行ってデータ件数を少なくします。折れ線グラフは件数が多めでも大丈夫ですが、多すぎると見にくいグラフになります。

散布図の場合は、データ(打点)数が多くても見にくくなりにくいです。また、データが多いほど信頼性の高いグラフに仕上がります。

ここでは、2種類の食材の消費を組み合わせて散布図を作ってみます。

今回は総務省統計局のデータを引用しました。こちらからデータをExcel形式でダウンロードすることができます。

家計調査(二人以上の世帯) 品目別都道府県庁所在市及び政令指定都市(※)ランキング
(2017年(平成29年)~2019年(令和元年)平均)

政令指定都市毎に、様々な食材の消費量がまとめられていますが、ここではワインとチーズの消費を散布図にしてみます。

データが入力された表を選択します。ここでは、都市名を選択しないように注意してください。

挿入タブから散布図を作成

挿入タブを選択し、散布図アイコンをクリックします。

更に散布図を選択すると、グラフ(散布図)が新しく作成されました。

軸ラベルやタイトルを加工

タイトルや軸ラベルを加工して、何を表現しているグラフなのか分かるようにします。

「グラフのデザイン」タブを選択後、「軸ラベル」の 第一横軸 と 第一縦軸 を追加します。

軸ラベルが追加されました。文字を編集する必要があります。

ラベルの文字を変更して、縦軸と横軸が何を表しているか判別できるようにしました。ついでのタイトルも編集しておきました。

軸の範囲を設定します。「軸の書式設定」で、境界値の 最大値 と 最小値 を調整します。

最大値と最小値の範囲を設定し直すことで、打点のバラツキが分かりやすくなりました。

散布図からデータの傾向を確認する

散布図を確認することで、おおよその相関を確認することができますが、数値で評価できたら、より説得力が増します。

グラフのデザインタブを選択し、線形の近似曲線を選択すると、グラフ上に線を表示することができます。

近似値線の書式設定で、「グラフに数式を表示する」と「グラフにR-2乗値を表示する」にチェックを入れます。

直線の式と相関係数(R2)が表示されました。

R2=0.4061ですので、正の弱い相関関係にあると言えます。

他の近似曲線を選ぶと、相関係数の数値が若干変わります。

データラベルを表示する

データラベルに都市名を表示させることが出来ます。

まずはデータラベルを表示します。全ての打点にY値が表示されているのでとても見にくくなっています。

書式設定で、セルの値を選択します。

範囲を選択するダイアログが表示されるので、都市名が入力された範囲を選択します。ここでは、表示したい都市のみを右端の列にリンクさせています。

Y値のチェックを外します。

データラベルに都市名が表示されました。

ここでは、全都市を表示すると見づらくなるので、表示したい都市のみを新しい列にリンクさせています。

複数にデータを分ける

散布図を作ってみたが、傾向がつかめない場合は、データを細分化する事で新しい傾向が分かることがあります。

例として、年齢ごとの男女の平均身長を表してみます。

データの参照元は、「e-STAT 政府統計の総合窓口」というサイトを使用しています。

キーワード検索で「身長・体重の平均値」を検索すると対象の情報を取得することが出来ます。

政府統計の総合窓口

同じ色で打点した場合は、男女の区別がわかりづらいです。

男女の列を分けて表示させると、違いと傾向が分かります。

細かく分析していくと、10歳と11歳の時は女性が男性を逆転していることが分かります。

他の事例についても、このようにデータを分けることで新しいことを発見できます。

データを分けた散布図についても、後日詳しく触れていきます。

バブルチャートについて

散布図と同じ仲間に含まれるバブルチャートについても触れておきます。

散布図は2項目の関係を表すことができますが、バブルチャートは3項目の関係を表すことが出来ます。

先ほど作成したワインとチーズの散布図にパンを加えます。6都市のみを抽出しバブルチャートを作成します。

バブルが大きい都市はパンの消費が多くなっています。

津市や大阪市はパンの消費量が多いのですが、チーズとワインの消費量は少ない傾向にあるようです。

おそらく関西や中部地方の食生活の傾向が、関東とは違うことを反映した結果ではないかと予想されます。

バブルチャートについても、後日詳しく解説します。

まとめ

このように、散布図を活用することで、仮説に対する検証を行ったり、新しい仮説を立てたりすることができます。

仮説が正しければ、計画していた施策をそのまま行うことが出来ます。

仮定が間違っていれば、再度仮説を立て直せばよいです。

散布図を使った統計は、今話題のAI(画像認識など)の技術で使われています。

散布図を理解して正しく使えるようになれば、最新のテクノロジーを上手に活用することが出来ます。また、最新のテクノロジーの発展に大きく貢献できるかもしれません。


次回はまた別のグラフを紹介していきます。

ありがとうございました。