騙されない為の統計リテラシー ~その結果偶然じゃない?~
皆さんこんにちは!
本日は、騙されない為の統計リテラシーとして、
目次
結果が偶然であるかどうか?
を確認する方法について説明します。
前回、集計だけのデータではなく、適切な比較を行う必要がある。
と書かせていただきましたが、
比較をすれば答えが出るというわけではありません。
なぜなら、
比較をして出た結果が偶然である可能性があるためです。
例を出します。
ある中学校のA組(30人)とB組(30人)でどちらが学力が優秀であるか?を競うことになりました。
そこで、中間テストの成績を比較することにしました。
テストの結果
A組
総得点 1676点
平均点 55.8点
B組
総得点 1800点
平均点 60点
となりました。
中間テストの成績は、ややB組が上回る結果となりました。
B組の生徒達が、
「B組の方が優秀なんだ!」
と声高々に自慢してきました。(嫌な奴らですね・・・)
しかし、本当にB組の方が優秀なのでしょうか?
偶然、中間テストの成績だけB組が勝っていただけかもしれない
可能性もありますよね?
これを検討するのに
P値(Probabilityの頭文字)という
”誤差や偶然によってたまたま差が生じる確率”
を求めます。
P値は、T検定・分散分析・カイ二乗検定などといった統計手法を用いて算出されます。
統計手法の違いについて簡単に説明すると
T検定:2グループ間で、テストの点数といった連続値を比較する場合
分散分析:3グループ以上で、連続値を比較する場合
カイ二乗検定:恋人いるorいないといった、あり・なしを比較する場合
にそれぞれ用いられます。
厳密には、もっと細かく分けるのですが、詳しくは統計の本をご参照ください。
よって今回は、T検定を用います。
結果
P値=0.30
という結果になりました。
これはつまり
偶然、B組のテストの成績が良かった確率は30%である。
30%は3回に1回の確率なので、結構生じることがあるため
間違っても
B組の方が学力が優秀であるとは断定できません。
医学研究の論文では慣習的に、
P値が0.05未満であれば差や関連がある、P値が0.05以上であれば差や関連がないと判断します。
(科学的な裏付けはどこにもないそうです)
近年、商品の広告などに「当社で行った研究結果」といって、他社や自社の他の製品と比較した
グラフを載せているのも良く目にします。
その際には、P値の表記があるか?をよく見てみてください。
自信がある結果であれば、必ずP値を表記するはずなので、
もしもP値の表記がない場合はグラフの結果を真に受けないように注意しましょう。
仮にP値が0.05未満であっても真に受けてはいけないのですが、それはまた後日記事にしたいと思います。
まとめますと、
・比較したデータを目にしたときは、P値はどうか?を確認する
・P値の数値が高い、または表記がないものは特に、真に受けないようにしましょう
を覚えておいて下さい。
本日も最後まで読んでいただきありがとうございました。
今日も楽しくやっていきましょう!