NHK高校講座

数学T

Eテレ 毎週 月曜日 午前10:30〜10:50
※この番組は、前年度の再放送です。

数学T

Eテレ 毎週 月曜日 午前10:30〜10:50
※この番組は、前年度の再放送です。

今回の学習

第34回 データの分析

散布図

  • 湘南工科大学特任教授/湘南工科大学附属高校教育顧問 湯浅 弘一
学習ポイント学習ポイント

散布図

  • ばんび/あすみ
  • 湯浅先生

数学Tの時間です!
この番組のMCはみみずくのアイク、みなさんといっしょに学習していくのは、藤本ばんびさん、酒井蒼澄(あすみ)さんの2人です。
そして数学を分かりやすく教えてくれるのは、湯浅弘一先生です。
今日も数学を楽しみましょう!

今回のテーマは「散布図」です!

  • 読書時間とSNS利用時間(表)

アイク「ここに、ある高校生10人の、1週間の読書時間とSNS利用時間を調べたデータがあるんだ。2つのデータを見て、どう思う?」

ばんび「数字がずらっと並んでいるね」

あすみ「ぱっと見ただけだと、よく分かんないかな」

湯浅先生「数字だけじゃよく分からないですよね。そこで今回は、データをビジュアル化しちゃいます!」

Step1 散布図の作り方
散布図とは

散布図とは、上の画像のように、2種類のデータの組み合わせを座標で表したものです。
この図は、ある高校生10人のSNSの利用時間と読書時間の散布図です。
先ほど見た表をもとに作られています。

例えば、生徒aは、読書時間が3時間でSNS利用時間は1時間なので、赤い矢印で示した位置に点を打ちます。
同様に、その他の生徒の読書とSNSの利用時間に対応する点を記入していきます。
このようにすると、読書時間とSNS利用時間の組み合わせがどのように散らばっているかを、分かりやすく表すことができます。

  • 高校生10人の読書時間と勉強時間の表
  • ばんび正答

問題です。

上の画像の表は、ある高校生10人の読書時間と勉強時間です。
この2つのデータの散布図を作りなさい。

2人は散布図を作るために、縦軸と横軸に項目を決め、1つ1つのデータをグラフ上の点にして打っていきました。

生徒aであれば読書3時間、勉強3時間なので、上の右の画像の赤丸の部分のように(3,3)に点を記入します。

こうして、2人とも10個の点を全て正しく記入して正解です。

Step2 散布図の読み方
  • 斜めの円

湯浅先生「次に、散布図の点の散らばり方に注目していきたいと思います。先ほどかいていただいた散布図はどんな形に見えますか?」

あすみ「斜めの円?ざっくり、そんな感じ」

湯浅先生「その“ざっくり”がすごくいいですね。“ざっくりこんな感じ"っていう様子をつかむことが、この散布図のメリットだから」

  • 相関関係
  • 正の相関関係、負の相関関係

2種類のデータについて、片方が変化すると、他方も変化するような傾向があることを「相関関係」といいます。

上の右の画像中、ピンクの楕円で示したように、
データの分布が右上がりならば、一方の値が増加すると、もう一方の値も増加する傾向があります。この関係を、「正の相関関係」があるといいます。

反対に、データの分布が右下がりならば、「負の相関関係」があるといいます。
負の相関関係があるときは、一方が増加すると、もう一方は減少する傾向があります。

  • 2つのデータの関係がビジュアル化できる
  • 散布図からわかること

散布図にすると、2つのデータの関係がビジュアル化でき、数字だけでは見えにくい「データの傾向」が見えてきます。

では、先ほどの散布図から、どういうことが分かるでしょうか。

ばんび「横軸の値が増えたら縦軸の値も増えている関係」

湯浅先生「それをもうちょっと正確に言ってみよう。読書時間が増えるとどうなってる?」

ばんび「読書時間が増えると、勉強時間も増える」

湯浅先生「お見事!そういうことが見えてきます」

西洋数学がやってきた!
  • 統計学
  • 杉が作り出した感じ

明治時代、日本に西洋の数学が新たに輸入されたころのこと。
当時は、統計学を意味する英語「statistics」を、カタカナで「スタチスチック」と表していました。

しかし、「日本近代統計学の父」と言われる杉亨二(こうじ)は、「statistics」を漢字にしようと試みます。
そこでなんと、杉は、自分で漢字を作り出しました。

それが、上の右の画像の漢字です。
「スタチスチック」と読む狙いはよく分かりますが、残念ながら広まりませんでした。

Step3 箱ひげ図を作る
  • 箱ひげ図
  • 数列

散布図以外にもデータをビジュアル化する方法はいろいろありますが、その中の一つ、「箱ひげ図」をやってみましょう。

「箱ひげ図」とは、上の左の画像ような図のことです。
箱ひげ図を作るときに必要なのが、四分位数(しぶんいすう)です。
四分位数とは、データを小さい順に並べ、個数で4等分したものです。

16、21、17、25、3、26、5、13、22、12

このデータの四分位数を求めてみましょう。

  • 四分位数

まずは、データを小さいものから順に並べます。
次に中央値を求めます。
この中央値を第2四分位数といいます。

このデータの第2四分位数は、16と17の真ん中の値、16.5です。

中央値を境にして、小さいほうを下位、大きいほうを上位といいます。

次に、下位の中央値を求めます。
このデータでは12で、これを第1四分位数といいます。

そして、上位の中央値を求めます。
このデータでは、22で、これを第3四分位数といいます。

この四分位数を元に、箱ひげ図を作っていきましょう。

箱ひげ図の作り方

まず、第1四分位数から第3四分位数までの長方形をかきます。
これが、「箱」です。
次に、箱に中央値、すなわち第2四分位数を示す縦線を入れます。
最後に、箱の両端から、最小値と最大値にそれぞれ「ひげ」を書きます。
これで「箱ひげ図」の完成です。

  • 問題

では箱ひげ図づくりに挑戦です。
あすみクラスとばんびクラスそれぞれの、1週間のSNS利用時間の箱ひげ図を作成しなさい。

四分位数を求める

ばんびクラスの10個の数字を小さいものから順に並べると、

2、5、8、9、10、12、13、14、19、20

データは10個あるので、中央値は5番目と6番目の10と12の平均をとって11。
これが第2四分位数になります。

次に、第1四分位数は、下位の2、5、8、9、10の中央値の8。
第3四分位数は、上位の12、13、14、19、20の中央値の14です。

同様に、あすみクラスの四分位数も求めました。

まとめると、次のようになります。

ばんびクラス
第1四分位数 8
第2四分位数 11
第3四分位数 14

あすみクラス
第1四分位数 5
第2四分位数 9.5
第3四分位数 15

あすみの解答

ここから箱ひげ図を作成します。

箱の端は第1四分位数と第3四分位数なので、ばんびクラスでは8から14までになります。
箱をかいたら、第2四分位数(データの中央値)の11に線を引きます。

箱から、最小値2と最大値20までひげをかきます。
あすみクラスも同様に箱ひげ図をかいていきます。

あすみさんは上の画像のように答えて正解です。


湯浅先生「どちらがばんびクラスであすみクラスなのか、分かるようにかいてくれたのは良かったですね」

箱ひげ図に平均を書く

箱ひげ図には、データ全体の平均値を「+」でかき入れることもできます。
ばんびクラスの平均値は10.5、あすみクラスの平均値は11.2です。
平均値は必ず書かなくてはならないというものではなく、目安として書く場合もあると知っておくと良いでしょう。

  • 箱には50%

この2つのクラスの箱ひげ図から、どんなことが分かるでしょうか。
あすみクラスは、SNS利用時間が週1時間〜23時間と、幅が広いのが特徴です。
また、あすみさんは、ひげの長さを比べたときに、ばんびクラスのほうが中央に集まっていることがひと目で分かることに気づきました。
ばんびさんは、箱の部分も、ばんびクラスの方が幅が狭いことに気づきます。
箱の幅が狭くなっているということは、そこに対象が密に入っているということです。

湯浅先生「全体の約50%のデータが箱の中に入っているんです。だから、あすみクラスは、ばんびクラスにくらべてデータの分布が広くなっているということが分かります」

  • 散布図と箱ひげ図
  • 度数分布表

データをビジュアル化する方法は、散布図、箱ひげ図以外にもあります。

上の右の画像の表は、先ほどの2人のデータを度数分布表にしたものです。

度数分布表とは、データをいくつかに区切って、その区間ごとの個数の分布の様子を表したものです。

例えば、ばんびクラスで、1時間以上6時間未満SNSを利用している生徒は2人。
あすみクラスでは、3人です。
各区間を階級、各階級に入っているデータの個数を度数といいます。
また、各階級の真ん中の値を階級値といいます。

では、度数分布表をビジュアル化してみましょう。

  • ヒストグラムのかきかた
  • ヒストグラム

まずは、階級を横軸に、度数を縦軸にとります。
階級の幅を底辺、度数を高さとする長方形を作っていきます。
例えば、1時間以上6時間未満は、ばんびクラスでは2人。
あすみクラスは3人なので、上の左の画像のような長方形になります。

同様に、階級ごとに長方形を作っていくと、上の右の画像ような図になります。
このようなグラフをヒストグラムといいます。

ヒストグラムにすると、データの個数がどのあたりに多く、どのあたりに少ないかが分かりやすくなります。

  • そんなデータはない
  • 次回もお楽しみに!

アイク「今日は、どうだった?」

あすみ「すごく楽しかった。箱ひげ図っていうかわいい図を見たり。データもぱっと見ることができたし。」

ばんび「数字だけじゃ何がなんだか分からなかったけど、図にしたら、一目で傾向とかが分かるから楽しいなあって思った。」

湯浅先生「データにはいろんな表現の仕方があるということが分かりましたね」


それでは、次回もお楽しみに!

科目トップへ

制作・著作/NHK (Japan Broadcasting Corp.) このページに掲載の文章・写真および
動画の無断転載を禁じます。このページは受信料で制作しています。
NHKにおける個人情報保護について | NHK著作権保護 | NHKインターネットサービス利用規約