NHK高校講座

数学T

Eテレ 毎週 月曜日 午前10:30〜10:50
※この番組は、前年度の再放送です。

数学T

Eテレ 毎週 月曜日 午前10:30〜10:50
※この番組は、前年度の再放送です。

今回の学習

第35回 データの分析

相関係数

  • 湘南工科大学特任教授/湘南工科大学附属高校教育顧問 湯浅 弘一
学習ポイント学習ポイント

相関係数

  • ばんび/あすみ
  • 湯浅先生

数学Tの時間です!
この番組のMCはみみずくのアイク、みなさんといっしょに学習していくのは、藤本ばんびさん、酒井蒼澄(あすみ)さんの2人です。
そして数学を分かりやすく教えてくれるのは、湯浅弘一先生です。
今日も数学を楽しみましょう!

今回のテーマは「相関係数」です!

相関関係とは、2つのデータについて「一方が変化すれば、それに伴ってもう一方も変化する関係」のことでした。
その相関関係の度合いを数値で表したものを、相関係数といいます。

まずは、今まで学習してきた「データの分析」の知識をおさらいしましょう。

Step1 データの分析のいろいろ
  • データ分析のいろいろ
  • カフェ・アイクのデータ

平均値とは、データの値の合計を、データの個数で割ったものであり、
平均値=(データの値の合計)÷(データの個数)
という式で表されます。
データの値をすべて加えて、平らにした値です。

「偏差」とは、個々のデータの値から平均値を引いたものであり、
偏差=(個々のデータの値)−(平均値)
という式で表されます。
偏差から、データが平均からどの程度離れているのかが分かります。

「分散」とは、各データの、偏差の2乗の平均値でのことであり、
分散=(偏差)の平均値
という式で表されます。
分散によって、データ全体の散らばり具合を知ることができます。

「標準偏差」とは、分散の「正の平方根」です。
標準偏差=分散の正の平方根(√分散)
という式で表され、これもデータの平均からのばらつきを見る指標の1つです。

今日は、これらを使って実際にデータの分析をしてみます。

上の右画像の表(上半分)は、カフェ・アイクの、ある5日間の最高気温と売れたホットコーヒーの数のデータです。
表の下半分は、同じ5日間に売れたハンバーグとパフェの数のデータです。

この2つのデータを詳しく分析しましょう。

相関関係

ここで、前回作った“散布図”を思い出してみましょう。
散布図とは、どんなものだったでしょうか。

ばんび「データの分布が右上がりだったら、正の相関関係。右下がりの楕円形だったら、負の相関関係

湯浅先生「そうですね。散布図は、2つのデータの関係を視覚的に分かりやすくしたものですね」

では、カフェ・アイクのデータを散布図にしてみましょう。

散布図解説

あすみさんは、「気温とコーヒーの売り上げ」を、ばんびさんは「ハンバーグとパフェの売り上げ」をそれぞれ散布図にしていきます。

上の画像の表の赤枠のデータから、グラフの赤矢印の交わる部分に点をかきました。
他のデータも同様に記入しました。

ばんびさんも、同様に散布図を作りました。

  • カフェの散布図
  • 相関関係?

2つの散布図を整えたものが、上の左の画像です。
これらを見て、何か気づいたことはあるでしょうか?

ばんび「最高気温とコーヒーの売り上げは、負の相関関係。ハンバーグとパフェの売り上げは、正の相関関係?

湯浅先生「なんとなくそんな感じだよね。この、なんとなくを、数値で考えていこうというのが、これからの目的になります」

Step2 共分散
共分散

そんなときに役に立つのが、共分散です。

ばんび「前に分散ってやったけど、分散と何が違うの?」

分散は1種類のデータの散らばり具合を数値で表したものですが、2種類のデータの相関関係を数値で表した指標のひとつ共分散です。
共分散は、
共分散={(xの偏差)×(yの偏差)の総和}÷(データの個数)
という式で求めます。

2種類のデータをx、yとすると、共分散はそれぞれの偏差の積の総和をデータの個数で割った値であり、つまり偏差の積の平均値です。

共分散が正の値のときは、「正の相関関係」が、負の値のときは「負の相関関係」があることを表します。

では、先ほどの気温とコーヒーのデータを使って、実際に共分散を求めてみましょう。

  • 平均値を求める
  • 偏差を求める

共分散={(xの偏差)×(yの偏差)の総和}÷(データの個数)
を計算するために、まず、それぞれの偏差を求めます。

偏差を求めるために、まず、それぞれの平均値を求めました。
そして、各データから平均値を引いた値が偏差です。

偏差

上の表は、先ほどのデータをきれいに整えたものです。
では、それぞれの偏差から、共分散を求めましょう。

偏差の積の総和

2種類のデータをxとyとします。
共分散とは、xの偏差とyの偏差を掛け算して全部足し、それをデータの個数で割ったものです。

まずは、偏差の積の総和を計算します。
上の画像のように一番左から、「2.6×(−5.6)=−14.5」のように、最高気温とコーヒーの偏差を掛けていきます。

プラスとマイナスの掛け算もあるので、計算ミスしないように注意しましょう。

すべて掛け終わったら、合計を計算します。
偏差の積の総和は、上の画像のとおり、−87.2となります。

共分散

できたら、次は共分散を求めます。
共分散は「偏差の積の平均値」ですので、偏差の積の行の「平均値」の欄に記入してもらいました。

偏差の総和−87.2をデータの個数の5で割って、 −17.44。
このように、共分散は負の値になりました。
したがって、「気温が高くなると、コーヒーは売れにくくなる」ということが分かります。
つまり、このデータには、「片方が増えると他方は減る」という関係があるということがわかりました。


アイク「と言うことは、気温が低くなると?」

ばんび「コーヒーは、売れない!」

アイク「違うね?」

ばんび「 気温が“低く”なると、コーヒーは売れる!」

アイク「それそれ!」

カレンダーの不思議
  • カレンダーの不思議
  • 奇数月も同様

4月4日、6月6日、8月8日、10月10日、12月12日

この5つの日付けは、「同じ数字が並んでいる」ということ以外にも共通点があります。
なんでしょうか?

正解は、毎年必ず「同じ曜日」になる、ということです。

それぞれの日付けが、前の日付けの「63日後」、つまり7の倍数だからです。

奇数の月の3月3日、5月5日、7月7日も同じ曜日。
ひな祭り、こどもの日、七夕が、毎年同じ曜日なんですね。

Step3 相関係数
相関係数の求め方

共分散は、2つのデータの関連性を数値で表しています。
共分散よりつながり具合をよりはっきりと表す方法が、他にもあります。

2種類のデータの相関関係の強弱を、数値で表したものが「相関係数」です。
相関係数は一般的に、記号「r」で表され、
r=(xとyの共分散)/{(xの標準偏差)×(yの標準偏差)}
のように、「xとyの共分散」を、「xの標準偏差」と「yの標準偏差」の積で割ったものです。
相関係数の値は、必ず「−1≦r≦1」になります。

相関係数は、1に近いほど正の相関関係が強く、−1に近いほど負の相関関係が強いと考えられます。

相関係数と散布図

画像の上にかかれている図は、相関係数の値と、相関関係の強弱のめやすです。
1に近いほど正の相関関係が強く、−1に近いほど負の相関関係が強いと考えられます。

その下にかかれている図は、相関係数と散布図の関係です。
相関係数が正のときは、散布図は右上がり、負のときは右下がりです。

相関係数と分布の幅

そして、相関係数の絶対値が大きいほど、細い形になります。

あすみ「確かに、相関係数を使うと、関係がもっとはっきり分かりそうじゃない?」

ハンバーグとパフェの偏差

では、カフェ・アイクのハンバーグとパフェのデータを使って、相関係数を求めてみましょう。

ハンバーグとパフェ、それぞれの偏差は上の画像のように計算できます。
2人は、この表をもとに、共分散を求めるところから計算をはじめます。

偏差の積を求める

まず、上の画像のように、ハンバーグとパフェの、偏差の積を求めていきます。
月曜日であれば「(–1.2)×(−2)=2.4」です。
そして、求めた偏差の積を合計すると、3になります。

共分散を求める

それをデータの個数5で割って、共分散は0.6と求まりました。

  • 標準偏差の求め方
  • 分散の求め方

共分散が求まったので、次はxとyの標準偏差をそれぞれ求めます。

湯浅先生「標準偏差って、どうやって求めるんでしたっけ?」

あすみ「分散の、正の平方根ですね

アイク「じゃあ、分散を求める式は?」

ばんび「偏差の2乗の平均

湯浅先生「おー、よく言えましたね」

偏差の2乗の平均が分散

今回、分散と標準偏差は、小数第3位を四捨五入して小数第2位まで求めます。

まず、ハンバーグのデータで、それぞれの曜日の偏差の2乗を計算し、それらの合計を求めます。
この合計をデータの個数で割ると、上の画像のように、「2.8÷5=0.56」となります。
この値が「分散」です。

標準偏差

そして、分散の「正の平方根」が、標準偏差です。
ハンバーグでは0.75、パフェでは1.10となりました。

  • 相関係数に使う値
  • 相関係数の計算

相関係数を求める式は、
r=(xとyの共分散)/{(xの標準偏差)×(yの標準偏差)}
でした。
2つの標準偏差の値と、共分散の値が求まったので、この式にそれぞれを代入して、相関係数は0.73になりました。
正解です!

  • 相関係数の意味
  • 次回もお楽しみに!

相関係数は0.73でした。
相関係数が0.7を超えているので、「強い正の相関関係がみられる」と言えます。
このことから、「ハンバーグがたくさん売れたときは、パフェもたくさん売れる」という強い相関があるということが分かったということです。

湯浅先生「データとして把握することは大事だし、数値を求めることは楽しいですね。データの分析で気をつけなきゃいけないのは、そこから先は冷静に、ということです。」

それでは、次回もお楽しみに!

科目トップへ

制作・著作/NHK (Japan Broadcasting Corp.) このページに掲載の文章・写真および
動画の無断転載を禁じます。このページは受信料で制作しています。
NHKにおける個人情報保護について | NHK著作権保護 | NHKインターネットサービス利用規約