日本を代表する鍼灸医学の学術団体 公益社団法人 全日本鍼灸学会

学会の活動

SSL GMOグローバルサインのサイトシール

HOME > 学会の活動 > 研究活動

研究活動

全日本鍼灸学会研究部「統計の手引き」ワーキンググループ

高橋 則人 七堂 利幸 篠原 鼎 鍋田 智之 北小路博司 川喜田健司

はじめに

鍼灸関連の雑誌で発表されている論文の統計誤 用が共著者のひとりである七堂氏によって指摘さ れて以来、統計誤用に関する関心は高まり、鍼灸 医学に関係の深い問題を集めた「統計の手引き」 を作る必要性が唱えられてきました。

学会の研究 部は、旧学術部研究委員会当時からその作成に向 けていろいろと協議を重ねてきましたが、その議 論の当初から、いわゆるマニュアルの形で作ると そのまま鵜呑みにされて、かえって本当の意味で の問題解決にならないということが指摘されてい ました。

そこで、適当な例題を出して、そこで生 じうる問題をピックアップするということが大筋 としては決まったのですが、何を具体的な例題と して取り上げるのか、いろいろと議論を重ねてき ているところです。

この間、統計誤用の問題に関する問題は、鍼灸 学会ばかりではなく、ひろく医学会や心理学の分 野で注目を集め、活発な議論が行われるようにな っています。

そこで、完成した形とは言いかねま すが、討論の材料として、これまでの議論の一部 を紹介することにしましたので、参考にしていた だきたいと思います。

本稿は、研究計画が十分に検討されないまま実 施された仮想的な研究を例題として取り上げ、そ の問題点を指摘していく形をとっています。十分 な研究計画がなされないままに結果だけを見て統 計解析を行うと、文中で指摘されているような問 題が起こることをご理解いただきたいと思います。

今回の例題では、全日本鍼灸学会誌でも頻繁に 見られる統計学的な問題として、同時比較(同時 測定)でない研究、多重性の問題、タイプ1 エラ ーおよびt 検定の誤用(多期比較、いわゆる輪切 り検定)について取り上げました。また用語解説 を載せてありますので参考にして下さい。

例題 経穴A への鍼刺激が経穴B の耐痛閾 値に及ぼす影響。

方法

ある経穴(経穴A )への鍼刺激が別のある経穴 (経穴B )の耐痛閾値に与える影響を、コントロー ル時、条件負荷時および回復期の3 つの時点で、 プッシュプルゲージを用いて測定を行った。測定 は、最初にコントロール時の経穴B の閾値を測定 し、10 分後に経穴A に鍼刺激を10 分間行い、刺激 終了直後に経穴B の閾値(条件負荷時)を測定し、 さらにその10 分後に経穴B の閾値(回復期)を測 定した。

この研究に5 人の被検者が参加した。被 検者A は1 日1 回、3 日連続で測定を行い、被検 者B は1 日1 回、1 日間隔で5 日間、すなわち3 つのデータセットを得、被検者C は1 日で3 つの データセットを得た。被検者D は1 回のみ測定し 1 つのデータセットを得た。被検者E は1 日に1 つのデータセットを得、1 週間後にさらにもう1 つのデータセットを得た(表1 q赫a

図1 :耐痛閾値の経時的変化

グラフ縦軸は耐痛閾値,横軸は各測定時期を示す.値は平均と標準偏差を示す.耐痛閾値は鍼刺激を与えると有意(p<0.05 )に上昇し,回復時においてもコントロール時と比較して有意(p<0.05 )に増加していた.

耐痛閾値の経時的変化

なお統計はt 検定を用い、解析ソフトにはMacintosh 版 STATISTICA 4.1J を用いた。

結果

等分散性の検定(バートレット検定)と記述統 計を表2 、3 に、生データを表4 に、結果をグラ フ化したものを図1 に示す。t 検定の結果、コン トロール時と条件負荷時ではt 値が−7.00543 でp 値が0.0000225 、条件負荷時と回復時ではt 値が4.912670 でp 値が0.0004622.コントロール時と回復 時ではt 値が−2.28448 でp 値が0.0431950 であった(図中の星印はp <0.05 )。

考察

以上の結果から、経穴A への鍼刺激は、経穴B の耐痛閾値を増加させ、その効果は鍼刺激10 分後 でも持続している事が示唆された。(注意:この 例題に提示した数値データは仮想データです)

全般的な問題点

この研究の最大の問題点は、事前の研究計画が 綿密になされていないことです。まず研究の目的 を明確にする必要があります。この例題では「あ る経穴(経穴A )への鍼刺激による経穴B の耐痛 閾値への影響を調べる〜」となっていますが、研 究者の真の目的は何でしょうか?つまり、「コン トロール時(刺激前)に比較して後の2 時期の耐 痛閾値に差があるかどうか」ということになると 思われます。そうなると2 群間の比較を繰り返す こと(t 検定を用いること)は適切ではありませ ん。多重比較を用いなくてはなりません。

また検定法は研究計画を立てるプロセスの中で、 サンプルサイズ(対象の数)を決定する際におの ずと決まってくるもので、「このような研究結果 (測定データ)に対してどのような統計法を用い るか?」というプロセスは、本来あり得ないはず なのです。臨床研究で用いられている検定法は、 実際のデータを取得する前に決定しておくべきで あり、そのためには十分に研究計画を練らなけれ ばなりません。そうすることによって、現在のい わゆる「統計の問題」というのは存在しなくなる はずです。そればかりか、その臨床研究の価値を 向上させることにもなるのです。

ではこの例題にあるような臨床研究の問題点を あげ、予想される批判とその根拠を列挙してみま しょう。

同時比較でない

まず同時比較でないことがあげられます。この研究の中で強いて同時比較として見ることが出来 るのは測定日1 の,,,,の5 つのデータセ ットだけです。つまり5 人の被検者から5 つのデ ータということになります。同時期に比較しない と、気候変動などの比較時の条件が異なっていた りした場合に、結果に大きく影響を与える可能性 があります。特に被検者C は1 日に3 回もの測定 を行っており(同時比較性を言いかえれば)、も し測定値が測定日と交互作用があれば、測定値は 独立とはいえず、測定日にも影響されていること になります。

測定日12345678
被験者A     
被験者B     
被験者CЛ┃       
被験者D       
被験者E      
表1:被験者と測定日およびサンプリング
被験者と測定日およびサンプリングを行った時期を表にして示した。この表からも分るように、実際には5名しか参加していない研究から12個のデータを得ている。
ハートレイF-最大コクランCバートレットx2乗自由度水準P
0.59342610.11133952.28291220.3193667
表2:等分散性検定(バートレット検定)
今回得られたデータが、各時期において正規分布をしているかどうかを検定した結果。
水準Pが0.05以上なので、得られたデータは正規分布している(各測定時期間で測定値の分布に明らかな偏りがない)ことを示している。多重比較する場合にも、この等分散検定を事前に行う必要がある。
変数n最小値最大値平均標準誤差標準偏差歪度尖度
コントロール時123127.3330.8012.7740.199-0.774
条件負荷時1271812.7500.9703.361-0.016-0.831
回復時126149.2500.6052.0940.8151.456
表3:記述統計結果
今回得られたデータの記述統計をまとめた表。用いる統計ソフトにより若干計算される項目名が異なる。
 コントロール時(kg)条件負荷時(kg)回復時(kg)
被験者A( 7129
被験者A(◆4109
被験者A()6138
被験者B(ぁ10158
被験者B(ァ91610
被験者B(Α376
被験者C(А5117
被験者C(─61814
被験者C()121711
被験者D()11149
被験者E()899
被験者E()71111
表4:個々の測定データ
このような研究では、個々の測定データを掲載することは希であるが、今回は掲載した。一人の被験者から最大3つのデータを得ていることに注意。

多重性の問題がある(検定法が適切でない)

次に検定法ですが、この研究ではt 検定を3 回 用いて各時期を比較しています。これは多期比較 (いわゆる輪切り検定)といわれタイプ1 のエラ ーが5 %ですまなくなり、多重性の問題を引き起 こしています。輪切り検定では有意差がでやすく なってしまうのです。この研究のようにコントロ ール時、条件負荷時および回復期の3 時期で検定 するには、まず等分散の検定を行い、等分散であ れば等分散の多重比較法を、不等分散であれば不 等分散の多重比較法を用います。当然前述した同 時期比較であることが前提です。

用語解説

交互作用:interaction

二つの要因がお互いに影響しあう効果を交互作 用と言います。この例題では、要因1 が測定日 (1 日目、2 日目など)で、要因2 が各々の時期 (コントロール時、条件負荷時および回復時)に 測定された耐痛閾値となります。ちなみに一つの 要因の単独効果を主効果といいます。図2 で説明 すると、もし1 日に一つのデータを取るのであれ ば、耐痛閾値がコントロール時、条件負荷時およ び回復時の3 つの期間でどれだけ全体の平均値か ら差があるかを検討するだけですみますが、測定 が何日かにわたると、加えて測定日による差につ いても考えなければいけません。すなわち要因1 (測定日)による差、要因2 (時期)による差の 他に、要因1 と要因2 がお互いに影響して生じた 差(交互作用による差)および偶然による差の4 つについて注目しなければなりません。同時対照 比較ではないこの例題の研究目的を上記のように 考えると、「測定日によって耐痛閾値が変化する のか?時期によって変化するのか?あるいは測定 日と時期が複雑に絡みあって耐痛閾値に影響を及 ぼすのか?」という解釈になってしまい、当初の 目的と食い違ってきます。

タイプ1 のエラー:第一種の過誤、type 1 error

実際には帰無仮説が真であるにもかかわらず、 結果が統計学的に有意と考え、帰無仮説を棄却し てしまう過誤を指します。例題では、耐痛閾値が 鍼刺激によって全く変化しないのが事実(帰無仮 説が真)だとすると、適切な統計処理を行えば有 意差が出なかったかもしれないところを、t 検定 の誤用により、計算上ではp 値が0.05 以下となっ てしまい、研究者はこの計算結果を信じ、帰無仮 説を棄却して、対立仮説を採用し、耐痛閾値は鍼 刺激によって変化すると結論を出してしまうこと です。これをタイプ1 エラーといいます。αで表 され、通常(習慣上)0.05 に設定されます。
またタイプ2 エラー(第二種の過誤:type 2 error )というのも存在します。これは実際には帰 無仮説が偽であるにも関わらず、結果が統計学的 に有意でないと考え、帰無仮説を採用してしまう 過誤を指します。βで表され(1 −β)を検出力 と呼び、サンプルサイズの設計に使います。これは研究計画の中でサンプルサイズを十分に検討し ていれば避ける事が出来る過誤です。この2 つの 関係を図3 に示します。

図3:事象の心理と研究による結果との関係
事象の真理を知るには、全てのサンプル(対象が日本人男性であればその全て)を対象とすることが望ましいが、現実には不可能である。そこで我々は母集団(例えば日本人成人男性の一部)から(無作為に)サンプルを抽出し、そのサンプルから得られた結果から母集団での事象を推定する。その推定が正しく導かれていればポジティブな結果であれネガティブな結果であれ、研究結果とは結論は正しく母集団を推定できていることになる。母集団の真理と研究結果の食い違いにはタイプ1エラーとタイプ2エラーがある。いずれも母集団の真理は不変であるので、過誤は研究結果の方にある。
 母集団における真理
(研究目的としている事象の真実)
鍼刺激により耐痛閾値が変化するかどうか?
サンプル集団における
研究結果
(研究で得られたデータ)
 鍼刺激により耐痛閾値が変化するのが真実鍼刺激により耐痛閾値が変化しないのが真実
帰無仮説を否定
(変化すると結論)
正しい研究結果と結論
(鍼刺激により耐痛閾値は変化する)ポジティブな結果
タイプ1エラー
帰無仮説を採用
(変化しないと結論)
タイプ2エラー正しい研究結果と結論
(鍼刺激により耐痛閾値は変化しない)ネガティブな結果
図4:多期検定によるタイプ1エラーの増加
多期検定によるタイプ1エラーの増加は、サイコロによる確率の計算で考えてみるとわかりやすい。同じ事を繰り返す(サイコロを何回も振ったり、t検定を何回も行う)事により我々は知らず知らずタイプ1エラーを増加させてしまう。

問題となる事象の起こる確率=すべての事象−問題となる事象以外の起こる確率

ここで、すべての事象を1、サイコロで1以外の目の出る確率は6分の5(約0.83)

1-(約0.83×約0.83)=約0.306 すなわち約30%

これが「サイコロを3回振って…」となると

1-(約0.83×約0.83×約0.83)=約0.421 すなわち約42%

t検定を3回繰り返して行ったとき少なくとも1つの組み合わせに有意差の出る確率は

1-(0.95×0.95×0.95)=約0.143 すなわち約14%

繰り返し検定の問題

なぜ多期にわたってt 検定を用いてはいけない のでしょうか?なぜコントロール群と条件負荷時 (以下C 対S )、コントロール時と回復時(以下C 対 R )および条件負荷時と回復時(以下S 対R )とt 検定を3 回繰り返して行うのはいけないのでしょ うか?
例えば「サイコロを2 回振って少なくとも一回 は1 の出る確率」は図4 に示した式より導かれます。 この式を使って計算すると前述の確率は約31 %と 計算することが出来ます。同じように「サイコロ を3 回振って少なくとも一回は1 の出る確率」を計 算してみると、その確率は約42 %になります。こ のように同じ事を繰り返す(サイコロを何回も振 る)と、全体として1 の出る確率はだんだん高く なっていきます。
ではt 検定を3 回繰り返すことは、前述の統計 の基本から考えるとどの様になるでしょうか。C 対S 、C 対R およびS 対R の3 つの組み合わせで検定 を行った場合、「少なくとも1 つの組み合わせに有 意差が出る確率」はどの様になるでしょうか?こ こで帰無仮説上「有意差がある」となる確率、い わゆる危険率は5 %ですから、「有意差がない」と なる確率は95 %、すなわち0.95 になります。そう すると全部で3 回の検定を行うのですから、図4 に 示したような式が成り立ちます。これを計算する と約0.143 となります。つまり「少なくとも一つの 組み合わせに有意差が出る確率」は約14 %で、 我々が期待している5 %よりもはるかに高い確率 になってしまいます。これが4 つ5 つと多期検定の 数が増えればどの様な結果になるかはもうおわか りになると思います。

おわりに

我が国の鍼灸関連雑誌における統計の誤用が指 摘されて依頼、論文作成時に統計の問題はかなり 意識されるようになってきています。そして単純 な統計上の誤りは少なくなってきたように見受け られます。本稿を手始めとして、統計にまつわる 様々な問題を紹介していきたいと考えていますの で参考にしていただければ幸いです。また、本稿 の内容について忌憚のないご意見をお聞かせ下さ い。
心理学の立場から統計誤用の問題にご意見をい ただき、また単一被験体法の鍼灸研究への導入に 関して示唆に富む提案をいただいた、今は亡き故 桑田 繁先生に心よりお礼申し上げるとともにご 冥福をお祈りいたします。

参考文献(ホームページを含む)

1 )向後千春:ハンバーガーショップで学ぶ楽し い統計学(ttp://hyogen.edu.toyama- u.ac.jp/stat/ index.html quコBR>

2 )長谷川芳典:心理研究法再考(1)基礎的統計解 析の誤用をなくすための30 のチェック項目
q栄ttp://www.okayama- u.ac.jp/user/le/psycho/ member/Hase/artivles/9407Hasegawa.htm quコBR>

3 )Hully SB and Cummings SR,木原正博監訳:医 学的研究のデザイン:研究の質を高める疫学 的アプローチ:メディカル・サイエンス・イ r2r}qzr詠ur&r詠*q`1997 qc
qム q貝ang TA and Secic M,How to Report Statistics in Medicine,ACP,Philadelphia,1997

ページトップ▲

 

公益社団法人 全日本鍼灸学会 〒170-0005 東京都豊島区南大塚3-44-14(日本鍼灸会館内) 電話 03-3985-6188  Fax 03-3985-6135