数学が好き!



Home
Software
Blog
Link

統計学

近年、ビッグデータに注目が集まり、それに伴って統計学の重要性も高まってきました。 私たちの周りには、数多くのデータがあります。 しかし、データは何らかの処理を行って傾向を見たり、分類をしたり、手を加えてあげないと、その性質や意味を知ることができません。 統計学とは、バラバラになっているデータ(母集団)から一部を抜き取って、その抜き取ったデータ(標本)の性質を調べることで、元の大きなデータの性質を推測したりするための方法論を体系化したものです。 Follow @spacedirac

分布の出し方

生徒のテストの偏差値を出すとき、君ならどう情報を処理する?ボルトのサイズのばらつきをグラフで定式化したいとき、君ならどういう手法で定式化行うだろう?こんなとき、正規分布が威力を発揮するんだな!   こんなグラフ見たことある?
normal distribution
こんな形のグラフを正規分布、もしくはガウス分布と言う。実は、この世界のいろいろな自然現象が正規分布に従うんだ。正規分布では、ある分布が正規分布に従っているという前提で、その事象が発生する確率は何%あるか、といった計算に使用されるんだ。具体的な式を見てみよう!期待値(平均値)がμ,標準偏差がσの正規分布を表わす確率分布関数は下のような式で表される。 \[f(x) = \frac{1}{\sqrt{2{\pi}}σ}e^{-\frac{(x-μ)^2}{2σ^2}}\]たぶん式を見て「イヤアァァァァァーーーー!」ってなったよね笑 具体例を見ながら、ちょっとずつ説明していくね。

ヒストグラム

横軸を身長として、身長150~151cmの人は何人、151~152cmは何人、というようなグラフです。 この手のグラフは、それが身長であれ試験の得点であれ、なぜか形が似ています。角を丸くした富士山みたいな形をしてます。 データのバラつきが小さいヒストグラムは、とがって細い富士山、バラつきが大きいと、低くて広がってる富士山に見えます。 標準偏差とは、その富士山の広がり具合を表すために考え出された物です。標準偏差が大きいとは、データのバラつきが大きい(富士山が低く広がってる)ことを意味します。

例1) おとめ座高校の数学テスト

おとめ座高校3年B組の期末テストの結果は、下のような表になった。 =NORMDIST(x, 平均(μ), 標準偏差(σ), 関数形式) 関数形式・・・Trueの場合は累積分布関数の値、Falseの場合は確立密度関数の値(グラフのY値) 分散 \[S^2 = {n}\{(x_{1}-\bar{x})^2+(x_{2}-\bar{x})^2+\cdots+(x_{n}-\bar{x})^2\}\] 偏差値 \[(偏差値) = \frac{10*(x-\bar{x})}{\sigma}+50\]

例1) ボルト長さのばらつき

工場で50mmのボルトを100本作成した。しかし、すべてが正確に50mmになっているとは限らない。そこで、全品長さを測定したところ、±1ml(49 or 51mm)が30本、±2ml(48ml or 52mm)が20本・・・のように分布すると思います。 もしかしたら1万本に1本は480ml とすごく量が少ないお茶があるかもしれません。 これをグラフに描くと以下のようになるのは直観的に理解できると思います。 標準偏差σの正規分布を N(μ,σ^2) で表わして、「確率変数 X は、正規分布 N(μ,σ^2) に従う」という。
To the top