バークソンのパラドックス

バークソンのパラドックスの例:
図1では、才能と魅力は母集団のいて無相関であると仮定している。
図2では、有名人を使って母集団をサンプリングしたもので、才能も魅力もない人が有名人になることはないので、才能と魅力には負の相関があると誤って推測してしまう。

バークソンのパラドックス: Berkson's paradox)は、条件付き確率統計学において生じるパラドックスで、バークソン・バイアス合流点バイアスバークソンの誤謬などとも呼ばれる。これは比率の統計的検定において生じる交絡因子である。特に、研究デザインに確認バイアスが内在する場合に生じる。ベイジアンネットワークでのexplanation away現象や、グラフィカルモデルでの合流点による条件付けなどと関連している。

この問題は、ジョセフ・バークソンによる元の記述のように、医療統計学生物統計学の分野で記述されることが多い。

[編集]

概要[編集]

バークソンのパラドックスの図解。上のグラフは実際の分布で、ハンバーガーとフライドポテトの品質の間には正の相関がある。どちらも悪い場所で食事をしない人には、下のグラフの分布しか見えないので、負の相関があるように見える。

バークソンのパラドックスの最も一般的な例は、 2つのポジティブな特性の間に負の相関がある(ある特性を持つメンバーは、もう一つの特性を持たない傾向がある)という誤った観察である。この観察が真実のように見えても、実際には2つの特性が無関係ないし正の相関がある場合に、バークソンのパラドックスとなる。このパラドックスは、両方が欠けているメンバーがあまり観察されないことによって起こる。

たとえば、ある人は、自分の住んでいる地域のファストフード店で、おいしいハンバーガーを出す店は、まずいポテトを出す傾向があり、その逆もしかりであることを経験から観察しているかもしれない。しかし、両方ともまずい店では食事をしないだろうから、両方ともまずい店がたくさんあることを考慮していないため、相関関係が弱くなったり、逆転したりする可能性がある。

オリジナルの解説[編集]

バークソンのオリジナルの解説では、病院の入院患者から統計的に抽出された標本を用いて、ある疾患の危険因子を調査する後方視的研究を描いている。一般の人々からではなく、病院の入院患者から標本を抽出するため、疾患と危険因子との間に見かけの負の相関が生じる可能性がある。例えば、危険因子が糖尿病で、疾患が胆嚢炎の場合、糖尿病を持たない入院患者は、糖尿病以外の入院理由(胆嚢炎の原因になるかもしれない)があるから、一般人に比べて胆嚢炎になる可能性が高いと考えられる。この結果は、一般人口において糖尿病と胆嚢炎の間に関連性があるかどうかに関わらず、得られるものである。

エレンバーグが提示した例[編集]

アレックスは、優しさとハンサムさがある閾値を超えた場合にのみ、男性とデートするとする。そうすると、優しい男性はハンサムでなくても、アレックスの交際相手として認められる。つまり、アレックスがデートする男性の中で、たとえこれらの特徴が一般の人々の間では無相関であったとしても、優しい男性は平均してハンサムではないということが観察されるかもしれない(逆もまたしかり)。

デートの対象となりうる男性が、男性全体と比べて劣っているわけではない。むしろ、デートのハードルが高いことを意味する。アレックスがデートする優しい男性は、実際には、男性全体の平均よりもハンサムである(優しい男性でも、ハンサムからかけ離れると対象外になる)。粗野な男性は、より一層ハンサムな人だけがデートの資格を得る。

定量的な例[編集]

あるコレクターが1000枚の切手を持っており,そのうち300枚が可愛い、100枚が希少、30枚は可愛いかつ希少とする。切手全体の10%が希少で,可愛い切手の10%が希少なので,可愛いさと希少さは無関係である。可愛いまたは希少な切手は370枚あり、これらを全て展示することを考える。 展示されている切手のうち100枚(27%強)が希少だが、可愛い切手のうち希少なのは10%だけである。観察者が展示されている切手だけを考慮すると、選択バイアスの結果として,可愛さと希少性の間に見かけの負の関係を観察することになる(展示された切手のうち、可愛くないものは全て希少だが、コレクション全体ではそうならない)。

提示[編集]

独立した2つの事象であっても、どちらかが起こったことを条件付けることで、条件付き従属(負の従属)となる。

かつ かつ 」 ならば、 が成立する。

  • 事象Aと事象Bは、発生する場合と発生しない場合がある。
  • 条件付き確率であり、事象Bの下で事象Aを観測する確率のことである。
事象Aと事象Bは互いに独立している。
  • は、「Bかつ(AまたはB)」の下でAを観測する確率であり、 とも書ける。
事象Bかつ(AまたはB)の下で事象Aを観測する確率は、事象AまたはBの下で事象Aを観測する確率よりも小さい。

つまり、2つの独立した事象が与えられた場合、どちらも発生しない場合を除外して考えると、負の相関が生まれる(事象Bが発生したなら、事象Aが発生した確率は下がる)。

説明[編集]

事象AまたはBの下で事象Aが起こる条件付き確率は、どちらも起こらない場合を除外したため、事象A自体の確率よりも高くなる。

条件付き確率は、無条件の場合と比べ高くなる

これを表形式で見ると、次のようになる。黄色の領域は、少なくとも1つの事象が発生したアウトカムである(~X は事象Xが発生しなかったことを表す)。

A ~A
B A & B ~A & B
~B A & ~B ~A & ~B

たとえば、100人のサンプルがあって、事象AもBも半分ずつ発生する()のであれば、次のようになる。

A ~A
B 25 25
~B 25 25

つまり、事象AまたはBが発生したのは 75 人で、そのうち50人で事象Aが発生している。Aの条件付き確率 とAの無条件確率 を比較すると

事象Aが起こる確率は、事象AまたはBが起こった人においては 2/3 と、集団全体の1/2よりも高くなる。一方、事象Bかつ(AまたはB)の下でのAの発生確率は、AとBが独立なので、集団全体の1/2と等しくなる(下図の黄色)。

A ~A
B 25 25
~B 25 25

ここでAの発生確率は

バークソンのパラドックスは、AまたはBにおける、Bの下でのAの条件付き確率が母集団での条件付き確率と等しいために生じる。AまたはBにおける、Aの無条件確率は、母集団全体での無条件確率と比べて高いので、AまたはBにおいて、Bが存在することでAの条件付き確率が減少する(全体の無条件確率に戻る)。

関連項目[編集]

参考文献[編集]

  • Berkson, Joseph (June 1946). “Limitations of the Application of Fourfold Table Analysis to Hospital Data”. Biometrics Bulletin 2 (3): 47–53. doi:10.2307/3002000. JSTOR 3002000. PMID 21001024.  (この論文は、1949年の文献として誤って引用されることが多い)

外部リンク[編集]