データサイエンスの基礎 – 3.決定木とシンプソンのパラドックス

シンプソンのパラドックスは、多くのデータセットに存在するよく知られた問題であり、その結果、データが示す傾向の解釈が対立することになります。決定木は、デフォルトではこの問題を発見しませんが、視覚的な性質を持つので、この問題をテスト、実証できます。

簡単な例を使ってシンプソンのパラドックスの問題を、Altair Knowledge Studioの決定木を使って説明します。

パラドックスを実証するために使用するデータセットには、我々の惑星(地球)を訪問中にウイルス感染症にかかった900人の地球外生命体患者の記録が含まれています。我々(人間)は、我々が持っている薬を使って彼らの治療を試みました。何人かの宇宙人はその治療を受け入れ、何人かは受け入れませんでした。火星から来た宇宙人もいれば、月から来た宇宙人もいて、その生存率は様々でした。

このデータセットの調査の目的は、治療が生存率にプラスの影響を与えたかどうかを判断することです。

図1は、このデータセットの決定木のルートノードで、50.5%の宇宙人患者が感染を免れていることを示しています(ノードの赤背景部分)。

データサイエンスの基礎 - 3.決定木とシンプソンのパラドックス

1宇宙人生存(Survived)データの決定木のルートノード

宇宙人患者が治療を受けたかどうかを表す変数を使ってデータを分割すると、図2のようになります。

データサイエンスの基礎 - 3.決定木とシンプソンのパラドックス

2受療(Treated )変数で分割した宇宙人生存データ

図2を見ると、ノード3(受療セグメント)の生存率は55%で、ノード2(未治療患者セグメント)よりも高くなっています。この図からすると、治療によって宇宙人の生存率が41.6%から55%に上昇したことになり、感染した宇宙人全体から見れば、我々が持っている薬で宇宙人全員を治療することが有益であると言えます。

別のアプローチを試してみましょう。まず出身(Origin)変数でデータセットを分割します。第2レベルの分割では、2つのグループのそれぞれを “Treated “変数で分割します(図3)。

データサイエンスの基礎 - 3.決定木とシンプソンのパラドックス

3:出身(Origin)と受療(Treated)変数で分割されたツリー

図3に示したツリーの第2分割では、どちらのグループの宇宙人も生存率が低下していることを示しています。

図3の結果は重要な疑問を投げかけています。火星人と月人のどちらのグループでも、薬物治療が生存の可能性を減らしたとしたら、図2が示したように、なぜ治療が全人口を助けることができたのでしょうか?

図2と図3は明らかに矛盾した結論を示しています。これがシンプソンのパラドックスです。

シンプソンのパラドックスは長い間研究されており、多くの説明や解釈があります。私の考えでは、治療法に関する生存データの分布は、どちらにも解釈できるように境界的に安定しているということです。言い換えれば、生存率に対する治療の効果を明確に推論することはできないということです。

パラドックスを示すデータセットに関する重要な観察は、対象の変数の分布に関して、問題のグループが非常に異なる振る舞いを示すことです。例えば,図3のルートノードは,ノード2と3のグループ間の生存率に大きな違いがあります。したがって、異なるグループ間の分布でこのような格差が見られるときはいつでも、このデータの問題をチェックする必要があります

シンプソンのパラドックスは一般的か?

私は長い間データサイエンティストをしていますが、実際のデータでこの問題に何度か遭遇しました。原則として、データ中に多くのカテゴリー変数があり、そのうちのいくつかは従属変数の分布が大きく異なる場合に、このパラドックス問題の存在を疑うべきです。

問題を早期に発見することの重要性は、2つの目的のために予測モデルを開発することです。傾向というのは、従属変数がある独立変数の値とどのように関連しているかを説明するために予測モデルを開発するという意味です。宇宙人患者の場合、それは生存率と治療法の関係でした。ここでパラドックスが現れる可能性があります。私たちが一番避けたいのは、予測モデルを開発し、それを使って特定の傾向を実証しようとしたときに、この問題が発覚することです。

回帰問題は?

シンプソンのパラドックスのデータ問題は、回帰問題にも存在する可能性があります。例えば、図4に示したデータを例にとると、宇宙人の体重と年齢(地球年で正規化済み)に関連する単純な回帰モデルを当てはめてみました。

データサイエンスの基礎 - 3.決定木とシンプソンのパラドックス

4宇宙人の体重対年齢の回帰モデル

図4は、宇宙人の体重が年齢とともに増加することを示しています。しかし、たまたま火星と月の宇宙人のデータであった2つのクラスターを分離し、それぞれの回帰直線を求めると、図5のようになります。

データサイエンスの基礎 - 3.決定木とシンプソンのパラドックス

52つの宇宙人グループごとの回帰線

図5は、体重対年齢のトレンドが両群で逆転していることを明確に示しており、年齢が上がるにつれて体重が減少していることを示しています。繰り返しますが、これはシンプソンのパラドックスにあたり、ある変数でデータをセグメント化すると、データセット全体で観察された傾向が逆転してしまうのです。

結論

今回は、決定木を視覚化ツールとして使用することで、シンプソンのパラドックスを探求しました。決定木がこのデータ問題の実証をいかに理解しやすくするかを示すことができたと思います。また、パラドックスは回帰問題の場合にも存在する可能性がり、モデルの結果を説明するために矛盾した傾向を導く可能性があることを示しました。

*この記事は、「Data Science Basics — (3) Decision Trees and the Simpson’s Paradox」を翻訳したものです。


データ分析・AIプラットフォームAltair® RapidMiner®


2. データ探索と変換のための決定木 << >> 4. 統計分布を理解する

0 0 votes
Article Rating

カテゴリー: Altair Global Blog, データアナリティクス

Subscribe
Notify of
0 Comments
Inline Feedbacks
View all comments