データサイエンスの基本 – 1. 決定木 vs ニューラルネットワーク

現在、データサイエンスのモデルといえばニューラルネットワークであることがほとんどですが、この連載の最初の記事では、決定木(ディシジョンツリー)について説明します。決定木は優れた予測モデルであるだけでなく、データを探索して変数間の関係を理解したり、外れ値を特定したり、他のタイプのモデルでどのようにスコアが割り当てられているかを説明したり、変数のカーディナリティを減らす最適な方法を見つけたりするのにも使えます。

決定木の最大の特徴は、最も理解しやすいモデルであるということです。アナリストもそうでない人も、決定木がどのように予測を行うかを、単純に木の枝(分岐)をたどり、単純なルールとして読み取ることで理解できます。

たとえば、下の図1は、2つの分岐を持つ単純なツリーを示しています。この木がモデル化しようとする2値の従属変数はDVと呼ばれ、”Yes”と”No”の2つの値をとります。

図1: 2つの分岐を持つ単純な決定木(Altair Knowledge Studioを使用)

図1: 2つの分岐を持つ単純な決定木(Altair Knowledge Studioを使用)

この単純な例では、見込み客に特定の新製品を提供する販売キャンペーンの結果をモデル化しています。変数DV(Yes, No)は、この提案に対する応答を表します。

ツリーの一番上のルート・ノードは、16,281件のデータセット全体を表し、そのうち23.62%(3,846件)が新製品の提案を受け入れました。各ノードは、「Yes」と「No」の回答の割合に比例して、赤と青の影で示されています。つまり、ルート・ノードの23.62%が赤で、残りのノード領域が青で塗られています。このようにして、「はい」の回答が集中している母集団のセグメントを簡単に見ることができます。

ツリーの説明は簡単です。たとえば、ノード番号 8 は、最も高い回答率(71.59%)を持つ母集団のセグメントを表し、次のルールで説明できます:

変数”Relationship(関係)”の値が”Husband(夫)”または”Wife(妻)”の顧客、

そして

教育変数に値(”Bachelors(学士)”、”Doctorate(博士)”、”Masters(修士)”、”Prof-school(大学院)”)のいずれかを持ちます。

木(ツリー)を育てる

決定木は基本的に、異なる変数の値を使用してデータを再帰的に分割することによって、データをセグメントに分割する体系的な方法です。たとえば、図1では、最初の分割では、変数「relationship」の値を使用して、データを 4つのセグメントに分割しました。

(1)どの変数を使ってデータを分割するか、(2)その変数を使ってどのようにデータを分割するか。実際、ツリーアルゴリズムはこの2つの決定を同時に行います。まず、それぞれの変数を使ってデータを分割する最良の方法を見つけ、次にすべての変数を比較して最良のものを見つけます。しかし、”最良”とは何を意味するのでしょうか?

木アルゴリズムは、データをできるだけ「異なる」セグメントに分割しようとします。セグメント間の違いの度合いは、「純度の尺度」として知られているものです。この純度尺度は、異なる分割を互いに比較するために使用されます。純度尺度は、データを分割することで得られる情報量を決定するために使用されます。例えば、同じ年齢の個体が100人いたとして、それを2つのグループに分けたとすると、「年齢」だけでは2つのグループの違いについての洞察は得られません。

分類や回帰タスクのための信頼できる予測モデルを開発するのに有用であることが証明された、さまざまなツリーアルゴリズムがあります。それらは、どのように分割を探索するか、そして、これらの分割を評価し優先順位をつけるために使用する純度の尺度が異なります。また、ツリーの成長を停止する条件や、成長後または成長中にツリーを「剪定」する条件も異なります。

決定木とニューラルネットワークの比較

決定木と比較するためにニューラルネットワークを選んだ唯一の理由は、ニューラルネットワークをすべてのアプリケーションのデフォルトの予測モデルとして使うという現在の傾向です。実際には、回帰モデル(線形およびロジスティック)やクラスタリングアルゴリズムなど、他のいくつかのモデルタイプも同様に重要であり、特定のアプリケーションで体系的に使用されています。

一般的にニューラルネットワークは、決定木を含む他のモデルよりも予測精度が高いのですが、データに多くのカテゴリー変数が含まれる場合、決定木は他のモデルと同等かそれ以上の精度を達成することがよくあります。決定木が本当に優れているのは、より正確なモデルを開発することではなく、モデルがどのように予測を行うかを明確に説明することです。特定の特性を持つセグメントの形でデータを視覚的にわかりやすく表現することが、決定木の最大の特徴です。したがって、決定木を扱うための優れた対話型ソフトウェアを使用することが、決定木の利点を活用する鍵と言えます。

決定木が他のモデルタイプより優れている点をまとめます。

  1. データが多くのカテゴリー変数を含んでいるとき、より正確なモデルを生成することが多い
  2. 決定木は、特にデータのサブセグメントにおいて、独立変数候補間の相互作用を発見するためのインタラクティブなツールとして使用することができる
  3. 欠損値やはずれ値を持つ観測値の振る舞いを探索するのに適している
  4. 連続変数では最適なビニングを、カテゴリー変数では最適なセグメンテーションを見つけるのに最適
  5. 独立変数候補の予測力を計算し、予測できない変数をフィルタリングするのに使用できる
  6. 信用リスクスコアリングで使用されるスコアカードの開発に必要な、最適なビニングとWoE(Weight of Evidence)変換を計算するのに最適
  7. シンプソンのパラドックスとして知られるデータ問題の存在を探索し説明する簡単な方法を提供(シンプソンのパラドックス:データが不安定で、相反する傾向を示す可能性がある場合)
  8. より複雑なモデルがどのように予測を行うかを説明するのに最適
  9. Python、R、SAS、SQLなどの一般的なプログラミング言語への翻訳が容易で、複雑なインフラを必要とせず、データソースに直接展開できる

結論

ニューラルネットワークはデータサイエンティストの間でデフォルトのモデルとして人気があります、決定木には無視できない独自の利点があります。最も重要なのは、モデルを説明する能力と、決定がどのようになされるかを説明する能力です。とはいえ、その利点を十分に活用するためには、ツリーと対話的に作業できる優れたソフトウェアが必要です。

*本記事は、Mediumに掲載された「Data Science Basics — 1. Decision Trees」を翻訳したものです。

データ分析・AIプラットフォームAltair® RapidMiner®

 

5 1 vote
Article Rating

カテゴリー: Altair Global Blog, データアナリティクス

Subscribe
Notify of
0 Comments
Inline Feedbacks
View all comments