私たちセラピストは、悩ましい症例を担当することになった場合などに、文献を読むこともあるかと思います。そこでは、『~は有意な差があった。』など目にすることがあります。
しかし、その意味をしっかり理解できているでしょうか?何となく理解しているつもりになっていたりしていないでしょうか。
ここでは、できるだけ簡潔に分かりやすく、実際に臨床で目にする事例を多く用いながらその言葉の意味をもう一度復習してみたいと思います。
“有意差があるとは言えない”とは?
読んで字のごとく、有意差とは“意味のある差”のことです。これを説明するためには、逆に“意味のある差とは言えない”ということを理解することも重要です。
“意味のある差とは言えない”とは、偶然や誤差により起きた差のことです。これによって起きた差は、“有意差があるとはいえない”ということになります。
偶然・誤差による差
例えば、ある新人理学療法士Aさんが肩関節周囲炎の患者さんを担当し、医師から特に肩の屈曲可動域の改善を行うように指示されました。あなたはAさんの指導者であり、次のように報告を受けました。
「初日は肩屈曲140°でしたが、二日目は150°でした。」
この報告を聞いて、「初回介入で10°改善したのだから、リハビリは順調だな」と思われるかもしれません。
しかし、Aさんは可動域測定が苦手であり心配だったので、実は各5回計測していました。その結果は以下の通りでした。
初日 | 二日目 | |
1回目 | 142° | 150° |
2回目 | 130° | 140° |
3回目 | 150° | 145° |
4回目 | 134° | 160° |
5回目 | 144° | 155° |
平均 | 140° | 150° |
この結果から、平均値を報告していたわけです。
これを後から知ったとすると、どうでしょうか?初日と二日目の可動域は改善があった(差があった)と言えるでしょうか?かなり怪しくなってきませんでしょうか。
ここでは、Aさんは正確な数値がどうしても計測できないので、平均値を出すしかないと仮定して下さい。
意味のある差というのは、その数値に信頼性が必要なのがお分かりいただけるかと思います。もし何度計測しても同じ角度が出てくるのであれば、両者は“意味のある差”であると言えますが、あまりにもバラつき(これを偶然誤差と言います)が大きい平均値同士の比較であれば、“意味のある差とは言えない”かもしれません。
もう一度5回ずつ計測して平均値を出せば、全く違う値になるかもしれません。このバラツキ《同じ検査をしているのに、平均値が毎回違うその幅の大きさ》が問題です。
ちなみにこの《バラツキの大きさ》は、計測回数を増やせば小さくなっていきます。例えば、今回は5回でしたが、30回計測すれば同じ検査をした際における平均値同士のブレ幅は小さくなるということです。
バイアスについて
余談にはなりますが、そもそも計測の仕方が間違っていることも考えられます。
例えば、肩屈曲可動域を計測する際には、通常は【基本軸:肩峰を通る床への垂直線】【移動軸:上腕骨】です。しかし、新人Aさんは、肩峰の触診が間違っており、鎖骨から計測してしまったとします。すると、全ての角度に一定の誤差が生じるかもしれません。
しかしこの場合に限っては、一定の誤差がゆえに、同じ人を一人で計測している以上は初日と二日目の差には大きく影響しないでしょう。しかしこれも誤差の一つであり、系統誤差(バイアス)と呼びます。
“有意差がある”とは
“意味のある差”(有意差)があると考える方法で重要なのは、真の値として推定した初日と二日目の平均値の《バラツキ》同士を比べることです。例えば、もし100回やって100回とも、初日に計測した肩屈曲角度の平均値の幅が135°~142°の間にあり、二日目の平均値の幅が146°~152°の間にあると仮定すれば(この数字も仮定の数字ですので、先ほどの計測値とは関連がありません)、何となく“意味のある差”があるように感じませんか?
下の図がそれを表しています。復習ですが、ここで言う“意味のある差”の範囲(初日と2日目の差)とは、計測した角度による数値の誤差による差ではないということです。計測した際の誤差はすでにそれぞれ含んでいますから。
実際の平均値のバラツキは以下のような、「◯回測定した際に平均値として出てくる確率の密度を示したグラフ」になっています。平たく言えば、『真の値(理論的な真の平均値)がありそうな範囲を示したグラフ』であるとします。
このグラフを見ていただけると分かる通り、山なりになっています。山の頂上は、それだけ多く計測データの平均値として出てくる確率が高い数値なのです。逆にグラフの裾(すそ)は左右に大きく広がっており、確率がどんどん少なくなっていきます。
ということは、少ない確率ではありますが、初日における真の平均値がこのグラフの146°くらいであってもおかしくはないのです。そうなれば、初日と二日目には差があるとは言えなくなってしまいます。
このように、極めて0に近いような全ての確率を含めて比較することは不可能です。よって、かなり小さな確率はとりあえず無視しようということで、ある程度の範囲外は切ってしまおうというわけです。下のピンク色で示した範囲(通常は全体の5%分)は、切ってしまう範囲です。
このように範囲を限定することで、比較できるようになりました。
しかし、この切ってしまう範囲も少ないながらも可能性がないわけではないので、“有意差がある”というのは、100%ではないことが分かります。
あくまでも、設定した範囲内においては有意差があるということになります。
簡潔に言えば、この場合の“有意差がある”とは、誤差を想定したとしても、かなりの確率でそれ以上の差が起きる(両者の差は誤差ではない)ことと言えます。
逆に、有意差があるといえない場合は、単なる誤差の範囲内かもしれないということが言えます。
おわりに
今回は、できるだけ専門的な分かりにくい表現を避けるため、帰無仮説などを避けた形でご紹介してきました。p値などが出てこないことに疑問を感じられる方にむけて、少し補足したいと思います。
ここで紹介したのは、『95%信頼区間同士が重ならない時に、有意差がある』ということを表現したかったわけですが、例え95%信頼区間が重なったとしても、p<0.05となることはあります。