記事をシェア

医師のための統計学再入門

【基礎編】第4回：推測統計の基礎―推定と仮説検定

とみー先生（産婦人科医）

2025.04.08

臨床医の皆様が統計学を再学習し、臨床研究のデザインや統計学の基礎知識を身につけることを目的としたシリーズ「医師のための統計学再入門」。寄稿記事の第4回目となる今回は、「推測統計の基礎—推定と仮説検定」について解説します。

前回の記事はこちら：医師のための統計学再入門【基礎編】第3回：確率と確率分布の基礎

目次

1.推定の種類
2.統計的な仮説を検証する仮説検定
3.仮説検定上の過誤と検出力
4.実際の研究を題材に推定統計を復習してみましょう～LACC試験の考察～
5.まとめ

推定の種類

推定とは、サンプルデータを用いて母集団の特性（パラメータ）を推測する統計的手法です。推定には主に「点推定」と「区間推定」の2種類があります。

点推定

点推定は、母集団のパラメータを単一の値で推測する方法です。例えば、ある薬剤の効果を評価する際に、患者サンプルの平均値を計算し、それを母集団の平均効果の推定値とする場合がこれに該当します。

点推定は計算が容易で直感的ですが、推定値の不確実性を示す情報が欠けているというデメリットがあります。

区間推定

区間推定は、母集団のパラメータが含まれると考えられる範囲（信頼区間）を提供する方法です。

例えば、95%信頼区間は、「同様のサンプル抽出を繰り返した場合、95%の確率で真の母集団パラメータがこの区間内に含まれる」という解釈になります。

これにより、推定値の不確実性を考慮した上で、より信頼性の高い結論を導くことが可能となります。

統計的な仮説を検証する仮説検定

仮説検定は、サンプルデータを用いて、ある仮説が統計的に支持されるかを評価する手法です。臨床研究において、新しい治療法の効果を既存の治療法と比較する際などに用いられます。

仮説検定の基本的な手順

1.帰無仮説（H₀）と対立仮説（H₁）の設定
帰無仮説は「差がない」や「効果がない」といった仮定で、対立仮説は「差がある」や「効果がある」といった仮定を設定します。
2.有意水準（α）の設定
通常、5%（0.05）や1%（0.01）といった値が用いられます。これは、帰無仮説が正しい場合に、検定で誤って帰無仮説を棄却する確率を示します。
3.検定統計量の計算
サンプルデータから適切な統計量を計算します。
4.p値の算出と解釈
計算した検定統計量に基づき、p値を算出します。p値は、帰無仮説が正しいと仮定した場合に、観測されたデータ以上に極端な結果が得られる確率を示します。
5.結論の導出
p値が設定した有意水準以下であれば、帰無仮説を棄却し、対立仮説を支持します。そうでなければ、帰無仮説を棄却できないと判断します。

p値の解釈

p値は、帰無仮説の下で観測されたデータ以上に極端な結果が得られる確率を示します。例えば、p値が0.03の場合、帰無仮説が正しいとすると、3%の確率で現在のデータ以上の差が偶然に生じることを意味します。

p値が小さいほど、帰無仮説が正しいと考えるのは難しくなりますが、p値が有意水準以下でない場合でも、効果が全くないと結論付けるのは適切ではありません。サンプルサイズや検出力など、他の要因も考慮する必要があります。

仮説検定上の過誤と検出力

仮説検定において、2種類の過誤が存在します。

第一種過誤（αエラー）

第一種過誤は、実際には差がないのに、誤って帰無仮説を棄却してしまう誤りです。例えば、新しい治療法が既存の治療法と効果に差がないにも関わらず、差があると結論付ける場合です。

この過誤の確率は有意水準αで管理され、通常は0.05（5%）以下に設定されます。

第二種過誤（βエラー）

第二種過誤は、実際には差があるのに、誤って帰無仮説を棄却しない誤りです。例えば、新しい治療法が既存の治療法より効果があるにも関わらず、差がないと結論付ける場合です。この過誤の確率はβで表されます。

検出力（1-β）

検出力（1-β）は、実際に差が存在する場合に、その差を正しく検出して帰無仮説を棄却する確率を指します。検出力が高いほど、真の効果を見逃すリスクが低減されます。

一般的に、検出力は80%（0.8）以上が望ましいとされています。

検出力は以下の要因によって影響を受けます。

1.サンプルサイズ
サンプルサイズが大きいほど、データのばらつきが減少し、検出力が向上します。
2.効果量
比較する群間の真の差が大きいほど、検出力は高まります。
3.有意水準（α）
有意水準を高く設定すると、第一種過誤のリスクは増加しますが、検出力は向上します。

臨床研究を計画する際には、これらの要因を考慮して必要なサンプルサイズを事前に計算し、適切な検出力を確保することが重要です。これにより、研究結果の信頼性と再現性を高めることができます。

以上が、推測統計における推定と仮説検定の基本的な概念と手順、ならびに第一種過誤、第二種過誤、検出力に関する解説です。これらの理解を深めることで、臨床研究のデザインや結果の解釈において、統計的な誤解を避け、より正確な判断が可能となります。

上記の流れを、実際の論文を交えて以下で説明します。

実際の研究を題材に推定統計を復習してみましょう～LACC試験の考察～

ここでは産婦人科領域の治療における臨床試験結果を題材に、推定（点推定・区間推定）や仮説検定（p値、第一種・第二種過誤、検出力）といった統計学の基本概念を具体的に解説します。

適切な症例数設計に基づくRCTの例として、信頼区間やp値の解釈、非劣性試験の考え方まで含めて臨床医向けに説明します。

研究の目的

本研究は、早期子宮頸癌患者において、腹腔鏡・ロボット支援下による低侵襲手術 (MIS) が開腹手術に比べて劣らない（非劣性である）かどうかを検証することが主要目的でした。

具体的には、根治的子宮全摘術（広汎子宮全摘）における手術アプローチの違い（低侵襲 vs 開腹）が無病生存率（DFS）に与える影響を比較し、低侵襲手術の悪性腫瘍を扱う上での安全性を評価することを目的としています。副次的に全生存率（OS）なども評価されています。

研究デザイン・方法

本研究は、国際共同の多施設オープンラベル無作為化比較試験として実施されました。デザインは非劣性試験であり、低侵襲手術が開腹手術に対して一定の許容範囲内で劣らないことを示すよう計画されています。

対象は主にⅠ期の子宮頸がん患者で、術前治療歴のない早期症例が組み入れられました。被験者は2群（低侵襲手術 vs 開腹手術）にランダムに割り付けられ、それぞれ319例 vs 312例、合計631例が登録されました。

主要評価項目として術後4.5年時点の無病生存率（DFS）を比較する計画であり、非劣性マージンは「DFS差7.2%減まで許容」と設定されています。統計計画上、開腹手術群の4.5年DFSを約90%と仮定し、検出力80〜90%（第II種過誤β=10–20%）で非劣性を検出するために必要な症例数が見積もられました。

試験は患者および術者に盲検化できないオープンラベル方式ですが、主要アウトカム評価は客観的な生存期間でありバイアスの影響は小さいと考えられます。

主要アウトカム・評価項目

主要アウトカムは両群の無病生存率 (DFS) で、術後4年半（54か月）時点での生存割合の比較が中心となりました。DFSは病勢進行や再発、死亡が起こらず生存している患者の割合で定義されています。副次的アウトカムとして全生存率（OS）や手術転帰（合併症率、転換率）なども報告されています。

主要評価項目であるDFSについては、Intention-to-treat解析（ITT解析）で両群を比較し、必要に応じてper-protocol解析も行われています（非劣性試験の特性上、ITTとPP両解析が参考として報告されました）。

統計解析手法

解析には推定と仮説検定の両アプローチが用いられています。まず主要アウトカムである4.5年DFSについて、各群の生存率および群間差の点推定値と95%信頼区間が算出されました。加えて、Cox比例ハザードモデルによる解析からハザード比 (HR) 及びその95%信頼区間が報告されています。

仮説検定としては、非劣性検定（一側検定）により「低侵襲手術は開腹手術に対してDFSで非劣性である」という仮説を検証しています。統計的有意水準は第一種過誤α=0.05に設定され、非劣性マージンを満たすかどうかがp値および信頼区間の下限によって評価されました。

試験登録症例数は上述の仮定に基づき決定されており、最終解析時点では予定症例の追跡期間が一部短かったものの、それでも約84%の検出力が確保されたと報告されています。

結果

LACC試験における術後4.5年間の無病生存率（DFS）のKaplan-Meier曲線。青線は低侵襲手術群、緑線は開腹手術群を示す。低侵襲群では経時的に開腹群より再発・死亡が多く、生存曲線が低下していることが分かります。

主要評価項目である4.5年DFSは、低侵襲手術群で86.0%と開腹手術群の96.5%に比べ低い値でした。群間差は-10.6パーセントポイントで、低侵襲群が約11%低い生存率となり、その95%信頼区間は-16.4〜-4.7と推定されています。非劣性検定の結果、p=0.87となり、この値は事前に定めた有意水準(α=0.05)を大きく上回りました。

したがって非劣性は証明されず、むしろ信頼区間の下限が非劣性マージン(-7.2%)を下回っていたため、統計学的には「低侵襲手術群の成績は開腹群より有意に劣る可能性が高い」と判断されました。

実際、低侵襲群の患者では再発リスクが約4倍（HR=3.7, 95%CI: 1.6–8.6）に増加し、死亡リスクも約6倍（HR=6.0, 95%CI: 1.77–20.3）と報告されています。副次評価項目である全生存率も、追跡期間中の死亡数が低侵襲群で有意に多く、4.5年OSは90.6% vs 96.2%と低侵襲群で劣り、死亡のハザード比は2.71（95%CI: 1.32–5.59）と有意差が認められました。

以上の結果より、「早期子宮頸がんに対する低侵襲手術アプローチは従来の開腹手術に比べて再発・死亡リスクを上昇させる可能性が示唆された」と結論づけられています。

この知見は産婦人科腫瘍領域に大きな衝撃を与え、従来MISが標準と考えられていた流れが一転し、開腹手術の再評価が行われる契機となりました。

統計学的解釈のポイント

本論文の結果は、点推定・区間推定および仮説検定の基本概念を臨床的に理解するうえで格好の例となります。

点推定（効果量の推定値）
低侵襲群と開腹群の4.5年DFSの差 -10.6%や、再発リスクのハザード比3.7といった値が点推定に当たります。

これらは観察された効果の大きさを示す指標で、臨床的には「低侵襲手術では約11%絶対リスクが悪化した」ことや「再発の相対リスクが約3.7倍になった」ことを表しています。
区間推定（信頼区間）
点推定に対する95%信頼区間は不確実性の幅を示します。例えばDFS差の95%CIは -16.4〜-4.7でしたが、これは「真の効果量がこの範囲にあると95%信頼できる」ことを意味します。すべて負の値を含むこの区間は、低侵襲群のDFSが真に開腹群を下回っている可能性を示唆します。

またハザード比3.7の95%CI(1.6〜8.6)も1を大きく上回っており、低侵襲手術の再発リスク増加が統計的にも有意であることを示しています。
p値と仮説検定
非劣性仮説の検定ではp=0.87と高い値が得られました。通常、p値が事前に定めた有意水準（例えば5%）未満であれば仮説検定において「有意差あり」と判断しますが、今回は0.87と有意水準を大きく超えているため統計学的有意差は認められません。

すなわち「低侵襲手術は開腹手術に劣らない」という仮説を支持できず、むしろ劣る可能性を示唆する結果となりました（非劣性試験では帰無仮説が「劣る」である点に注意）。

一方で、DFSやOSに関する優越性の検定では、ハザード比の解析でそれぞれp<0.01の有意差が示されており、低侵襲手術群の予後不良は統計的にも明確と言えます。
第一種過誤と第二種過誤
本試験では第一種過誤（α）を5%に設定し、これは「効果に差がないのに有意差があると誤って結論づけてしまう確率」を意味します。

非劣性試験においては、α=0.05は「真に非劣性でないのに非劣性と判定してしまう誤り」の許容率とも言えます。第二種過誤（β）は「実際に差がある（劣性である）のにそれを見逃す誤り」です。

本研究では必要症例数の設定時に第二種過誤を20%以内（検出力80%以上）に抑えるよう計画され、結果的に解析時点で検出力84%程度が確保されました。これは、真に非劣性が成立しない場合に約84%の確率でそれを検出できることを意味します（裏を返せば真の差を見逃すリスクβ≒16%ということになります）。

今回、実際に低侵襲手術群の劣位性が示唆されたのは、この試験が十分な検出力を持ち、有意な差を捉えることができたためと解釈できます。