この章では推測統計の中でも 推定 に焦点を当てて解説します。 検定 については次の章で解説します。 推定とは、ある母集団から標本を抽出した時に、母集団を特徴づける母数を統計学的に推測することです。例えば、ある製品全体(母集団)から無作為に50個を抽出した製品の重量からその製品全体の平均重量を推測するような場合です。母数とは統計学で使われる言葉で、母集団を特徴づける値のことです。例えば、母平均($\mu$ :母集団の平均)や母分散($\sigma^2 :$母集団の分散)のことです。 推定には 点推定区間推定 という2つの方法があります。点推定とは母数(平均値や分散)の「値」を推定することであり、区間推定とは母数の「値の範囲」を推定することです。また、点推定の母数の推定量には 不偏推定量最尤推定量 があります。
 日本人男性全体から無作為に100人を抽出して得た平均身長が仮に 173.5cm だったとします。この「173.5cm」を日本人男性全体(母集団)の平均値(母平均)と見なしてしまおうとするのが母平均の点推定です。これには大数の法則(母平均が $\mu$ である集団から標本を抽出する場合、標本サイズが大きくなるにつれて標本平均 $\bar{x}$ は母平均 $\mu$ に近づく)の性質を利用しています。 母集団から無作為にn個の標本($X_{1}$、$X_{2}$、 $\cdots$ 、$X_{n}$)を抽出します。標本の各要素 $X_{i}$ は標本の取り方によって変化する確率変数と考えて、$X_{i} = x_{i}$ とおき、$x_{i}$ をその実現値と考えます。 標本から測定した推定量 $\tilde{\theta}$ の期待値 $E[\theta]$ が母集団のそれ(つまり母数 $\theta$ )に等しいとき、その推定量を 不偏推定量 といいます。母平均 $\mu$ と母分散 $\sigma^2$ の不変推定量を以下に示します。 母平均 $\mu$ と母分散 $\sigma^2$ をもつ母集団から無作為に抽出した標本 $X_{1}$、$X_{2}$、 $\cdots$ 、$X_{n}$ に対して  母平均 $\mu$ の不変推定量を標本平均 $\bar{X}$ といい、以下のように表します。  $bar{X} = \dfrac{1}{n} \displaystyle \sum_{i=1}^n X_{i} = \dfrac{1}{n} (X_{1} + X_{2} + \cdots + X_{n})$  母分散 $\sigma^2$ の不変推定量を標本分散 $S^2$ または不偏分散といい、以下のように表します。  $S^2 = \dfrac{1}{n-1} \displaystyle \sum_{i=1}^n (X_{i} - \bar{X})^2$  最尤法 最尤法では、母集団が従う確率密度もしくは確率関数をあらかじめ仮定します。 最尤推定量とは、手元のデータがどの母数に従う分布から得られる確率が最も高いかに基づいて考えられる推定量です。 母平均 $\mu$ と母分散 $\sigma^2$ の最尤推定量を以下に示します。  母平均 $\mu$ の最尤推定量 $\tilde{\mu}$ は以下のように表します。標本平均と同じであることが分かります。  $\tilde{\mu} = \dfrac{1}{n} \displaystyle \sum_{i=1}^n X_{i} = \dfrac{1}{n} (X_{1} + X_{2} + \cdots + X_{n})$  母分散 $\sigma^2$ の最尤推定量 $\tilde{\sigma}^2$ は以下のように表します。こちらは標本分散とは異なります。  $\tilde{\sigma}^2 = \dfrac{1}{n-1} \displaystyle \sum_{i=1}^n (X_{i} - \tilde{\mu})^2$ 推定(確率統計)について、さらに詳しく学びたい方には、以下の本がおすすめです(楽天のサイトにとびます)。
    
 区間推定は、母集団の未知の母数 $\theta$ に対して、$P(\theta_{1} \leqq \theta \leqq \theta_{2}) = 1 - \alpha (\alpha :有意水準))$ のときに、有意水準$\alpha = 0.05$を指定して、$1 - \alpha$ の確率で、未知の母数 $\theta$ が $\theta_{1} \leqq \theta \leqq \theta_{2}$ の範囲に存在することを示す手法です。母集団の従う分布が正規分布であると仮定して、標本から得られた値を使ってある区間でもって母平均 $\mu$ や母分散 $\sigma^2$ などの母数を推定します。 このときの区間のことを 信頼区間 といい、略語表記として「CI」と表されたりします。 母平均の区間推定では、母分散が分かっている場合と分からない場合とで求め方が異なります。 母分散既知の場合 この場合、母分散の値を使って標準正規分布を用いて信頼区間を算出します。正規分布 $N(\mu , \sigma^2) (分散 \sigma^2 は既知)$ に従う母集団から無作為に抽出した標本 $X_{1}$、$X_{2}$、 \cdots 、$X_{n}$ を使って新たな確率変数 $Z = \dfrac{\bar{X} - \mu}{\sqrt{\frac{\sigma^2}{n}}}  ただし、\bar{X} = \dfrac{1}{n} \displaystyle \sum_{i=1}^n X_{i}$ を定義すると、$Z$ は標準正規分布 $N(0, 1)$ に従います。 母分散未知 母分散既知より母分散未知である方が一般的です。不偏分散の値を使って t分布を用いて信頼区間を算出します。正規分布 $N(\mu , \sigma^2) (分散 \sigma^2 は未知)$ に従う母集団から無作為に抽出した標 本$X_{1}$、$X_{2}$、 \cdots 、$X_{n}$ を使って新たな確率変数 $U = \dfrac{\bar{X} - \mu}{\sqrt{\frac{S^2}{n}}}  (ただし、\bar{X} = \dfrac{1}{n} \displaystyle \sum_{i=1}^n X_{i}, S^2 = \dfrac{1}{n-1} \displaystyle \sum_{i=1}^n (X_{i} - \bar{X})^2$ を定義すると、$U$ は自由度 $(n-1)$ の t分布に従います。
page top