【基礎編】第1回：統計学の基本概念とデータの種類

とみー先生（産婦人科医）

2025.03.13

初めまして、医師の「とみー」と申します。私は普段は勤務医をしながら人工知能の研究をしています。
これから5回に渡って「医師のための統計学再入門：基礎編」として、苦手意識のある先生の多い統計学について分かりやすく解説していきますので、よろしくお願いします。

目次

統計学の定義と医療分野での必要性

統計学とは、データの収集、分析、解釈、そして結果の提示を体系的に行う学問です。医療分野では、患者のデータや臨床試験の結果を適切に解析し、エビデンスに基づく医療（EBM）を実践するために不可欠です。

例えば、新薬の効果を評価する際、統計学的手法を用いてその有効性や安全性を客観的に判断します。

データは主に「定量データ」と「定性データ」に分類されます。それぞれの特徴と具体例を以下に示します。

数値で表され、測定可能なデータです。「定量データ」はさらに連続変数と離散変数に分けられます。

連続変数（Continuous Variables）	任意の値を取り得るデータ。身長、体重、血圧など。	例：患者Aの血圧が120.5 mmHg、患者Bの体重が68.2 kg
離散変数（Discrete Variables）	特定の整数値のみを取るデータ。入院回数、服用している薬の数など。	例：患者Cの年間入院回数が3回、患者Dが服用している薬の数が2種類

数値ではなく、カテゴリーや属性で表されるデータです。「定性データ」はさらに、名義変数と順序変数に分けられます。

名義変数（Nominal Variables）	カテゴリー間に順序がないデータ。血液型、性別、疾患の種類など。	例：患者Eの血液型がA型、患者Fの性別が女性。
順序変数（Ordinal Variables）	カテゴリー間に明確な順序があるデータ。疼痛の程度（軽度、中等度、重度）、腫瘍のステージ（I期、II期、III期、IV期）など。	例: 患者Gの疼痛レベルが中等度、患者Hの腫瘍ステージがIII期。

正確なデータ収集は、信頼性の高い研究結果を得るための基盤です。主なデータ収集方法を以下に示します。

研究者が介入せず、対象を観察してデータを収集する方法です。以下の種類があります。

横断研究（Cross-Sectional Study）	ある特定の時点で、集団内の曝露と疾患の状態を同時に調査します。	例: 2025年に東京で成人の喫煙率と肺疾患の有病率を同時に調査する。
コホート研究（Cohort Study）	特定の曝露を受けた群と受けていない群を追跡し、疾患の発生率を比較します。	例: 喫煙者と非喫煙者のグループを10年間追跡し、肺癌の発生率を比較する。
症例対照研究（Case-Control Study）	疾患を持つ群（症例群）と持たない群（対照群）を比較し、過去の曝露歴を調査します。	例: 肺癌患者（症例群）と健常者（対照群）の過去の喫煙歴を調査し、喫煙と肺癌の関連性を評価する。

介入研究とは、研究者が積極的に介入を行い、その効果を評価する研究デザインを指します。

最も代表的なものが「ランダム化比較試験（Randomized Controlled Trial; RCT）」です。RCTでは、被験者を無作為に介入群と対照群に割り付け、介入の効果を比較します。

この無作為化により、交絡因子（研究において主要な要因と結果の間の関係を歪める第3の変数）の影響を最小限に抑え、公平な比較が可能となります。

ある新薬の効果を検証するため、1000人の患者を対象にRCTを実施するとします。

患者は無作為に500人ずつの2つのグループに分けられ、一方のグループには新薬を、もう一方にはプラセボ（偽薬、形状は同じで薬効のない薬）を投与します。

一定期間後、両グループの症状改善率を比較することで、新薬の有効性を評価します。この方法により、患者の年齢や性別などの背景因子が均等に分配され、介入の純粋な効果を測定できます。

無作為化には以下の手法があります。

単純無作為化	コイン投げや乱数表を用いて、各被験者を介入群または対照群に割り付けます。この方法は簡便ですが、グループ間の被験者数に偏りが生じる可能性があります。
ブロック無作為化	被験者を一定数のブロックに分け、その中で均等に介入群と対照群に割り付けます。これにより、各グループ間の被験者数を均等に保つことができます。
層別無作為化	年齢や性別などの特定の因子で層別化し、その中で無作為化を行います。これにより、重要な背景因子が各グループ間で均等に分配されます。

一方、被験者の割り付けを無作為に行わない試験を非ランダム化比較試験と呼びます。例えば、主治医の判断や患者の希望によってグループ分けを行う場合です。

この方法では、グループ間で患者の背景因子に偏りが生じる可能性があり、結果の解釈には注意が必要です。

RCTには以下のような種類があります。

並行群間比較試験	被験者を複数の群に無作為に割り付け、各群に異なる介入を同時に行い、その効果を比較する試験です。
クロスオーバー試験	被験者が一定期間ごとに異なる介入を受ける試験デザインで、各被験者が自身の対照となります。
クラスターランダム化試験	個人ではなく、病院や地域などの集団単位で無作為化を行う試験です。

これらのデザインは、研究の目的や対象に応じて選択されます。

RCTの主な利点は以下の通りです。

交絡因子の制御	無作為化により、既知および未知の交絡因子が各群に均等に分配され、介入の純粋な効果を評価できます。
バイアスの最小化	盲検化（ブラインド化）を組み合わせることで、観察者や被験者のバイアスを減らし、結果の信頼性を高めます。
因果関係の推定	介入と結果の時間的前後関係が明確であるため、因果関係の推定が可能です。

以上のように、介入研究、特にランダム化比較試験は、医療分野において介入の効果を科学的に評価するための重要な手法です。適切なデザインと実施により、高いエビデンスレベルの情報を提供し、臨床判断や政策決定に貢献します。