近年では、ビッグデータに注目が集まり、それに伴って統計学の重要性も高まってきています。私たちの周りには、数多くのデータがあります。しかし、データは何らかの処理を行って傾向を見たり、分類をしたり、手を加えないとその性質や意味を知ることができません。統計学とは、バラバラになっているデータ(母集団)から一部を抜き取って、その抜き取ったデータ(標本)の性質を調べることで、元の大きなデータの性質を推測したりするための方法論を体系化したものです。 統計は 記述統計推測統計 に分けられます。  記述統計では、母集団を特徴づける数値(平均や分散)をそのまま調べます。母集団が小さい場合には、全てのデータを調べ、整理し、表やグラフを使ってわかりやすく表すことができます。  推測統計では、母集団から無作為にサンプル(標本)を抽出し、このサンプルを調べる事で元の母集団の分布を推測します。母集団が大きい場合、母集団全体をつぶさに調べるのが困難なことがあります。そのような場合には、推測統計を利用します。
 データ全体の性質を表す値として、平均値(mean, average)中央値(median)最頻値(mode)等が挙げられます。 平均値 $\bar{x}$ すべての変量 $x_{i}$ を足し合わせたものを、データの個体数(サイズ) $n$ で割ったものです。以下のように表します。 $\bar{x} = \displaystyle \sum_{i=1}^n x_i$ 中央値(median) 変量を小さい方から並べたときに、真ん中にくる値です。データサイズが奇数の場合は真ん中の値をとりますが、偶数の場合は真ん中の2つの数値の平均をとります。 最頻値(mode) 最も頻繁に出現する変量のことです。 統計学について、さらに詳しく学びたい方には、以下の本がおすすめです(楽天のサイトにとびます)。
   
 母集団が小さいときは、データを全て並べ、その平均や分散をそのまま調べることができます。 データのばらつきを表す指標として、分散標準偏差があります。分散には、母集団のデータのばらつきを表す母分散と、母集団から取り出した標本のデータのばらつきを表す標本分散があります。  まず、偏差について説明します。偏差とは、各変量 $x_{i}$ と平均 $\bar{x}$ の差 $(x_{i} - \bar{x})$ のことです。分散は、この偏差の2乗を足し合わせてデータサイズ $n$ で割ったものです。なぜ、偏差を2乗するのかというと、すべてのデータの偏差を単純に足し合わせてしまうと、その値は必ず $0$ になってしまうからです。偏差を2乗したもの $(x_{i} - \bar{x})^2$ を、偏差平方和、または変動といいます。 母分散 $\sigma^2$は、以下のような式で表されます。

$\sigma_{x}^2 = \dfrac{1}{n} \displaystyle \sum_{i=1}^n (x_{i} - \bar{ x })^2 = \dfrac{1}{n} \displaystyle \sum_{i=1}^n x_{i}^2 - \bar{ x }^2$ $\sigma_{y}^2 = \dfrac{1}{n} \displaystyle \sum_{i=1}^n (y_{i} - \bar{ y })^2 = \dfrac{1}{n} \displaystyle \sum_{i=1}^n y_{i}^2 - \bar{ y }^2$

 1変数データの場合は $x_{i}$ のみですが、2変数データの場合、$(x_{i}, y_{i}) (i = 1, 2, \cdots, n )$ なので $y_{i}$ が追加されます。式を見てもわかる通り、偏差の2乗を足し合わせてデータサイズで割っています。 母分散の定義式は、 $\sigma_{x}^2 = \dfrac{1}{n} \displaystyle \sum_{i=1}^n (x_{i} - \bar{ x })^2$ なのですが、これが $\dfrac{1}{n} \displaystyle \sum_{i=1}^n x_{i}^2 - \bar{ x }^2$ になることを確認してみましょう。
$\sigma_{x}^2 = \dfrac{1}{n} \displaystyle \sum_{i=1}^n (x_{i} - \bar{ x })^2 = \dfrac{1}{n} \displaystyle \sum_{i=1}^n (x_{i}^2 - 2 \bar{ x } x_{i} + \bar{ x }^2)$
$\bar{ x }$ は定数なので $\sigma_{x}^2 = \dfrac{1}{n} (\displaystyle \sum_{i=1}^n x_{i}^2 - 2 \bar{ x } \displaystyle \sum_{i=1}^n x_{i} + \bar{ x }^2 \displaystyle \sum_{i=1}^n 1$) ここで $\displaystyle \sum_{i=1}^n x_{i} = n \bar{ x }$ 、 $\displaystyle \sum_{i=1}^n 1 = n$ なので
$\sigma_{x}^2 = \dfrac{1}{n} (\displaystyle \sum_{i=1}^n x_{i}^2 - 2 n \bar{ x }^2 + n \bar{ x }^2) = \dfrac{1}{n} (\displaystyle \sum_{i=1}^n x_{i}^2 - n \bar{ x }^2) = \dfrac{1}{n} \displaystyle \sum_{i=1}^n x_{i}^2 - \bar{ x }^2$
よって、母分散の定義式が $\dfrac{1}{n} \displaystyle \sum_{i=1}^n x_{i}^2 - \bar{ x }^2$ に変形できることが確認できました。実際の計算では、定義式よりこちらの式を使った方が簡単なことが多いです。
 標準偏差は、以下のような式で表されます。

$\sigma_{x} = \sqrt{\sigma_{x}^2}  \left(= \sqrt{\dfrac{1}{n} \displaystyle \sum_{i=1}^n (x_{i} - \bar{ x })^2} \right) $

 標準偏差は、分散の平方根をとったものになります。分散は、偏差を2乗してしまっているので、元のデータとは単位が異なります。そのため、平方根をとることで、本来のデータと同じ単位に合わせているのです。  分散が大きいと、標準偏差も大きくなります。また、分散と同様に、データのばらつきが小さいと、標準偏差は $0$ に近づきます。
 2変数データの場合は、共分散という指標も重要です。共分散は、2つのデータに関係があるかどうか調べるときに使われます。共分散は、以下のような式で表されます。

$\sigma_{xy} = \dfrac{1}{n} \displaystyle \sum_{i=1}^n (x_{i} - \bar{ x })(y_{i} - \bar{ y }) = \dfrac{1}{n} \displaystyle \sum_{i=1}^n x_{i} y_{i} - \bar{ x } \bar{ y }$

上の式の中辺からわかる通り、共分散は、$x$ の偏差と $y$ の偏差をかけ合わせて、データサイズで割ったものであることが分かります。共分散には以下のような意味があります。

・共分散の値が正である $\rightarrow$ $x$ が大きいとき $y$ も大きくなる傾向がある ・共分散の値が $0$ に近い $\rightarrow$ $x$ と $y$ の関係は薄い ・共分散の値が正である $\rightarrow$ $x$ が大きいとき $y$ は小さくなる傾向がある

 共分散の定義式は、 $\dfrac{1}{n} \displaystyle \sum_{i=1}^n (x_{i} - \bar{ x })(y_{i} - \bar{ y })$ なのですが、これが $\dfrac{1}{n} \displaystyle \sum_{i=1}^n x_{i} y_{i} - \bar{ x } \bar{ y }$ になることを確認してみましょう。
$\sigma_{xy} = \dfrac{1}{n} \displaystyle \sum_{i=1}^n (x_{i} - \bar{ x })(y_{i} - \bar{ y }) = \dfrac{1}{n} \sum_{i=1}^n (x_{i} y_{i} - x_{i} \bar{ y } - y_{i} \bar{ x } + \bar{ x } \bar{ y }) = \dfrac{1}{n} \left( \sum_{i=1}^n x_{i} y_{i} - \bar{ y } \sum_{i=1}^n x_{i} - \bar{ x } \sum_{i=1}^n y_{i} + \bar{ x } \bar{ y } \sum_{i=1}^n 1 \right)$
ここで $\displaystyle \sum_{i=1}^n x_{i} = n \bar{ x }$ 、 $\displaystyle \sum_{i=1}^n y_{i} = n \bar{ y }$、 $\displaystyle \sum_{i=1}^n 1 = n$ なので
$\sigma_{xy} = \dfrac{1}{n} \left( \displaystyle \sum_{i=1}^n x_{i} y_{i} - n \bar{ x } \bar{ y } - n \bar{ x } \bar{ y } + n \bar{ x } \bar{ y } \right) = \dfrac{1}{n} \left( \displaystyle \sum_{i=1}^n x_{i} y_{i} - n \bar{ x } \bar{ y } \right) = \dfrac{1}{n} \displaystyle \sum_{i=1}^n x_{i} y_{i} - \bar{ x } \bar{ y }$
よって、母分散の定義式が $\dfrac{1}{n} \displaystyle \sum_{i=1}^n x_{i} y_{i} - \bar{ x } \bar{ y }$ に変形できることが確認できました。
 大きさ $n$ の母集団の2変数データ $x$ と $y$ の相関関係を数量的に表したものが 相関係数 $ρ_{xy}$ であり、以下のように定義されます。

$\rho_{xy} = \dfrac{\sigma_{xy}}{\sigma_{x} \sigma_{y}} = \dfrac{\displaystyle \sum_{i=1}^n (x_{i} - \bar{ x })(y_{i} - \bar{ y })}{\sqrt{\displaystyle \sum_{i=1}^n (x_{i} - \bar{ x })^2 \displaystyle \sum_{i=1}^n (y_{i} - \bar{ y })^2}}   (-1 ≦ ρ_{xy} ≦ 1)$

 右辺の分母には平方根がついており必ず正の値となるので、分子の偏差の積和が相関係数 $\rho_{xy}$ の符号を決定する事が分かります。$\rho_{xy}$ が $-1$ から $1$ の範囲でどのような相関があるかは以下のように判断します。

$0 \lt ρ_{xy}$ : 正の相関 $\rho_{xy} \lt 0$ : 負の相関 $\rho_{xy} = 0$ : 相関がない $\rho_{xy} = ±1$ : 完全相関(データが一直線上に並ぶ)

また、正の相関でも、 $1$ に近づくほど正の相関が強く、負の相関でも、$-1$ に近づくほど負の相関が強くなります。 これらの指標の使い方を、以下のデータ整理の項で学んでみましょう。
 それでは、上で学んだ知識を使って、1つ問題を解いてみましょう。

問1 AからEの5人の生徒が数学と物理のテストを受けたところ、以下の表のような結果となった。 テスト結果 数学と物理のテストそれぞれの平均点、標準偏差と共分散を求めよ。また、数学と物理のテスト結果の相関係数を求めよ。

 統計では、同じような計算を何度も行うことが多いので、プログラムを用いるか、Excelやスプレッドシート等の表計算システムを使って結果の算出をするとよいです。  今回はエクセルを使って、以下のように偏差や母分散、共分散を算出してみました。数学のテストの点数を $x_{i}$、物理のテストの点数を $y_{i}$ としています。 テスト結果集計 数学のテストの平均点 $\bar{x}$ は、$x_{i}$ の列の値をすべて足し合わせて、データサイズ(5人)で割ってやります。
$\bar{x} = \dfrac{1}{5} \displaystyle \sum_{i=1}^5 x_i = \dfrac{62 + 78 + 43 + 86 + 91}{5} = 72.0$
物理のテストの平均点 $\bar{y}$ も、上と同様にして
$\bar{y} = \dfrac{1}{5} \displaystyle \sum_{i=1}^5 y_i = \dfrac{54 + 88 + 59 + 94 + 80}{5} = 75.0$
次に、それぞれのテストの標準偏差を出すために、分散 $\sigma_{x}^2, \sigma_{y}^2$ を求めます。
$\sigma_{x}^2 = \dfrac{1}{n} \displaystyle \sum_{i=1}^n (x_{i} - \bar{ x })^2 = \dfrac{1}{5} \displaystyle \sum_{i=1}^5 (x_{i} - 72.0)^2 = \dfrac{100 + 36 + 841 + 196 + 361}{5} = 306.8$
$\sigma_{y}^2 = \dfrac{1}{n} \displaystyle \sum_{i=1}^n (y_{i} - \bar{ y })^2 = \dfrac{1}{5} \displaystyle \sum_{i=1}^5 (y_{i} - 75.0)^2 = \dfrac{100 + 36 + 841 + 196 + 361}{5} = 250.4$
分散の平方根をとって、標準偏差を求めます。 $\sigma_{x} = \sqrt{306.8} = 17.52$ $\sigma_{y} = \sqrt{250.4} = 15.82$ 相関係数 $\rho_{xy} = \dfrac{\sigma_{xy}}{\sigma_{x} \sigma_{y}}$ を求めるためには、それぞれの標準偏差以外に、共分散 $\sigma_{xy}$ が必要です。
$\sigma_{xy} = \dfrac{1}{n} \displaystyle \sum_{i=1}^n (x_{i} - \bar{ x })(y_{i} - \bar{ y }) = \dfrac{1}{5} \displaystyle \sum_{i=1}^5 (x_{i} - 72.0)(y_{i} - 75.0) = \dfrac{210 + 78 + 464 + 266 + 95}{5} = 222.6$
$x_{i}, y_{i}$ の分散と共分散が求まったので、相関係数を求めます。 $\rho_{xy} = \dfrac{\sigma_{xy}}{\sigma_{x} \sigma_{y}} = \dfrac{222.6}{17.5 \cdot 15.8} = 0.803$
page top