わかりやすい深層学習:第2回 教師あり学習と教師なし学習

前回は「AI、機械学習、深層学習の違い」について解説しました。
次に、機械学習の種類について解説していきます。

機械学習には大きく分けて3つのカテゴリがあります。
1つ目は教師あり学習、2つ目は教師なし学習、3つめが強化学習です。ここでは教師あり学習と教師なし学習について詳しく書こうと思います。強化学習は最近ホットな分野なので興味があればぜひ調べてみてください。また最近は自己教師あり学習という答えを自分で作成して学習していくというモデルも注目されています。

教師あり学習

教師あり学習とは答えがある学習のことを指します。答えがある学習とはどういうことか、そもそもモデルが学習するとはどういうことか図1を使って説明します。

例えば、手書きの数字の画像がどの数字かをコンピュータに識別させたいとします。
そこで、まず手書きの数字の画像データをたくさん用意します。次に学習前のモデルを用意します。そのモデルに手書きのデータを入れるとその手書きが1なのか2なのかのようにどの数字かを識別して返してくれます。

図1の一つ目のモデルは、学習が完全にされる前のモデル、ここでは5回だけ学習が終わったモデルを示しています。この5回学習モデルはまだ完璧に学習されてないので識別として帰ってくる結果は正しいものもあれば間違って識別されているものもあります。

学習の経過
図1 学習の経過

この識別の間違った大きさを表すものを損失(Loss)といい、損失を算出とする関数を損失関数といいます。Lossが小さくなるようにモデルは回数を追うごとに学習していきます(この図2ではLOSSは仮定の数字を使用しています)。この時の答えに当たる部分をラベルといいます。
学習が進むとLossは小さくなり正答率が上がっていきます。学習が終わると学習のトレーニングで使用していなかった新しいデータを入力しても文字がちゃんと識別されるようになります。このように答えと出力の差を利用して学習していくものを教師あり学習といいます。

教師なし学習

では反対に教師なし学習とはどういう学習かといいますと、データの答えがない状態で学習するモデルのことです。つまり、データ自身の特徴量を使用して、特徴量に従って識別していくモデルを指します。具体的にはクラスタリング(Clustering)やPCA、AutoEnocoderなどの手法があります。ここではこれら3つについて少しだけ説明したいと思います。

まずクラスタリングとは、図2のように散らばっているデータをまとまりでとらえてグループ化する方法です。グループ化されてないデータをグループ化するときに使用されることが多いです。

クラスタリング
図2 クラスタリング

次のPCAは図3のように次元が大きいデータを情報が多く残るように次元圧縮をする方法です。これは、5次元データのうちの情報が残っている2次元の部分のデータだけ見たい時などに使用します。


図3 PCA

そして最後のAutoEnocoderは入力データと一致するデータを出力することを目的とするモデルで、入力データの次元を圧縮し、それを復元させることで入力データを再構成させるモデルです。これにより、データから低次元の特徴量を抽出することができます。

AutoEnocoder
図4 AutoEnocoder

ここまで、AI、機械学習、深層学習の違い、機械学習の教師あり学習と教師なし学習の概要の2点をお話ししてきました。次回は、教師あり学習の中の回帰問題と分類問題について説明します。

0 0 votes
Article Rating

カテゴリー: Tips, データアナリティクス

Subscribe
Notify of
0 Comments
Inline Feedbacks
View all comments