機械学習ツールKnowledge Studioを用いた期日前投票のクラスター分析

前回に続いて、Monarchで取り込んだデータを用いて分析をしてみたいと思います。

機会学習ツールAltair Knowledge Studioを起動してk-means法を用いたクラスタリングを実行してみます。k-means法は似たデータを任意のクラスター数に分類してくれるアルゴリズムです。

以下のようにノードを繋いで分析を実行します。今回の分析はクラスター数を5に設定しました。

分析結果

結果は以下のようになりました。Cluster Indexがクラスター番号です。
投票者の絶対数が多い東京が一つでクラスターを形成して、他の人口の多い都道府県はクラスター番号5に所属する傾向が見えます。その他の府県のほとんどは1、4のいずれかに所属していますが、沖縄と佐賀はペアでクラスターを形成しています。

結果
この分析では投票数の絶対数を用いましたが、人口の差を考慮にいれるためにそれぞれの投票数を期日前投票数全体で割った割合をみて分析を実行してみます。

変数の変換はKnowledge Studio上で簡単に行えます。Variable Transformationsのノードを追加して先ほど用いたデータと繋ぎ、ModifyからTransform Fieldsを選択します。
変換する変数を選び、Expressionに式を入れます。
結果

Runで実行するとデータが変換されました。そして、先ほどと同様にクラスター数5でk-means法を実行してみました。
人口差の影響が小さくなった分クラスタリングの結果も変わりました。

結果

クラスター番号1には西方の県が固まることになりました。これらの県は公職選挙法の定める「法第48条の2第1項第6号該当者」の割合が多く、これは「天災又は悪天候により投票所に到達することが困難」な有権者が多かったことを示しています。実際この投票日付近の九州方面の天気は、著しく悪かったというデータがあります。

一方で、佐賀県と沖縄県のペアのクラスターは健在という結果になりました。この2県の特徴は「法第48条の2第1項第2号該当者」の割合が他県と比べて非常に多いことです。これは「交通至難の地域に居住中、滞在中」の有権者が期日前投票をしているということになります。沖縄県は島も多く交通至難地域が多いことは理解できますが、佐賀県はどうしてこのような特異な値を持っているのでしょうか。詳しく調べてみたところ、佐賀県の唐津市の7つの離島では、天候の影響で投開票日が後ろにずれるのを回避するために投票日に投票所を設置せず、期日前投票のみで対応していたことが分かりました(記事はコチラ)。

おわりに

データの読み取りから分析までを一気に行いました。そして、取り出したデータをKnowledge Studioを使って手軽な分析を実行して簡単な知見を得られました。変数を変換するのも、わざわざExcel上で改めて式を打ち込むことをせずに、Knowledge Studio上で行うことができるのでとても便利です。
Altairの機械学習ツールなら、プログラミングができない方でもデータ分析プロセスの初めから終わりまで一貫して行えます。ぜひお試しください。

 

機械学習に関するブログ記事一覧

5 1 vote
Article Rating

カテゴリー: Tips, データアナリティクス

Subscribe
Notify of
0 Comments
Inline Feedbacks
View all comments