これは http://mitochondrion.jp/ に掲載している「医学日記」を、諸般の便宜のために、 1 記事 1 ファイルとして形成し直したものです。 簡単なプログラムで自動生成しているので、体裁の乱れなどが一部にあるかと思われますが、ご容赦ください。
統計学に疎い人々の中には、こうした臨床試験について「試験設計の段階で適切な検出力を持つよう設定されているのだから、有意差なしということは、つまり、本当に差がないということなのだ」などと言う者がいる。医学科の教授の中にも、平気でこういう発言をする者が少なくないから、困る。こういう人々は、具体的にどうやって検出力の推定や試験設計を行うのか理解していないのに、「キチンとやれば、できるらしい」と信じているのだろう。科学者としての基本的な姿勢が、なっていない。
検出力を推定するには、6 月 11 日の記事の例でいえば、プラセボ群とステロイド吸入群との間の differential treatment response がどの程度であるかを予測し、どの程度の統計誤差が生じるかを推定する必要がある。基本的には、症例数が多くなるほど検出力は増す。そこで、望ましい検出力を得るために必要な症例数を計算し、試験を設計するのである。
当然ながら、臨床試験を行う前の段階で「differential treatment response がどの程度であるか」を正確に予測できるはずがない。Differential treatment response を知ることが臨床試験の目的なのだから、それを正しく予測できるぐらいなら、臨床試験を実施する必要がないのである。そこで小規模の先行研究を行って、おおまかに differential treatment response を推定し、それに基づいて試験計画を立てることが多い。むろん、この先行研究は統計誤差が大きいので、推定された differential treatment response は著しく不正確であり、結果として、検出力の推定も、あまり信頼できないものになる。
さらにいえば、そもそも、充分に高い検出力があったとしても、「有意差なし」という結果を「本当に差がない」と読み換えることはできない。このあたりの問題については実験結果の再現性を論じたレビューである Biochem. Pharmacol. 151, 226-233 (2018). が読みやすい。
先に述べた吸入ステロイドの話でいえば、ステロイド吸入群の方がプラセボ群よりも、いくらか経過良好な傾向がみられた。単に p = 0.025 の基準を満足できなかった、というだけのことなのである。これは、試験計画の段階で検出力を過大に推定してしまい、結果として、症例数が不足したのであろう。もっと症例数を増やして再試験すれば、有意差が認められるはずである。それを、安易に「吸入ステロイドの効果はプラセボと同程度」などと解釈しては、ならぬ。