データ分析に欠かせない「データプレパレーション(データ準備)」の効率的な進め方とは?

データ準備

人々のライフスタイルが多様化し競争が激化するあらゆるビジネスでは、迅速に意思決定を行い実行しながら軌道修正していくことの重要性が日に日に増しています。データドリブンという言葉が日常で使われるようになり、IT発展に伴い情報量が増え続ける今日、多くの企業ではデータ活用への取り組みが積極的に行われています。

しかし日本においては、大企業やDX先進企業を除き、データを活用できているとは言い難く、昨年2019年には、オーストラリア、中国、フランス、ドイツ、日本、英国、米国の7か国のうち最も活用できていない国に挙げられました。(参考)そう聞くと、データ分析ってそんなに難しいの?と考えてしまいますが、なかなか活用できない理由はデータ分析前の準備にあります。

今回は、データプレパレーション(データ準備)についてご説明します。

データ活用最大の難関「データプレパレーション」とは?

いざビッグデータ分析しようとしたものの「分析したいデータファイルがあちこちに点在している」「形式が揃っていない」「データをまとめるのに時間がかかりすぎる」等の問題が発生し、社内に眠る貴重なデータを活かせていない企業が多く存在します。

データを扱うプロであるデータアナリストやデータサイエンティストでさえ、データ分析に費やす時間のうちの60~80%をデータ収集や準備に費やしています。インサイトを引き出す分析そのものが最も時間を要する作業だと思われがちですが、実は分析前の準備が最も複雑で手のかかる作業です。社内に専属のデータアナリストやデータサイエンティストがいる企業はまだまだ少なく、企業のリソースは限られています。そのため、ビジネス部門のみなさんが自らデータ準備を行う必要がありますが、通常業務の負担となるため時間をあまりかけられず、中途半端になり、思うような分析ができていません。

たとえば、以下のような作業をしていないでしょうか?

  • 既存ファイルと、システム上のデータをエクスポートしたときのファイル形式が異なるため各自が双方の紐づけをしている
  • PDFファイル等の非構造化データが多く、それらをデータ分析用ファイルに手入力している
  • 自力でデータ結合するものの、重複や欠損等のエラーや入力ミスがありそれらの修正を手作業でしている

営業部門であれば顧客の売上動向、マーケティング部門は実行したプロモーションの実績、人事部であれば従業員の評価やコメントなど、各部門で必要なデータを収集し取りまとめ分析まで行っている組織もあれば、IT部門がデータを管理し必要に応じて各部門のニーズに合わせたデータを準備し提供する組織もあると思います。いずれにしても、こうした作業に時間をとられるため、タイムリーでスピーディーな分析ができず、意思決定を遅らせるボトルネックになっています。

データの収集、結合、構造化、整理、データクレンジングなど、データ分析前のこういった下準備のことをデータプレパレーションと呼びます。(その他のデータ分析に関する用語はこちら

データ準備、データ分析フロー
データ分析前のデータ準備“データプレパレーション”

データプレパレーションの質は分析結果の質に

データが少量であれば個人が手作業でデータプレパレーションを行ってもミスなく準備ができるのですが、企業のもつ何億行にも及ぶビッグデータになるとさすがにそう簡単にはいきません。 データ分析は意思決定の際に重要な役割を果たしますが、データにミスやエラーがあったり正しいデータが摘出されていなかったりすると、正しい分析結果を導き出すことは困難です。こうした分析過程における少しのズレが、判断ミスや、然るべき改善策をとれないなどのマイナス要因を生むため、データプレパレーションはデータ分析において最も重要なパートといっても過言ではありません。

ユーザー主導でデータ加工と準備ができるBIツール

最近、この時間も手間もかかるデータプレパレーションに、セルフサービス型BIなどのデータプレパレーションツールが使用されるようになってきました。BIツールを導入することで、データプレパレーションに奪われていた貴重な時間や労力を分析に使用できるようになります。

【BIツールでできること】

  • PDFやテキストファイルなど、あらゆるデータソースやシステムからデータを抽出し加工できる
  • マウス操作だけで作業できる(プログラミングや高度なExcelの知識が不要)
  • 様々なレポート生成ツール、分析ツール、可視化ツールへのエクスポートも可能

また、セルフサービス型データプレパレーションツールであれば、IT部門がデータをまとめてくれるまで待つことなく、ビジネスユーザーがいつでも自由にデータにアクセスし準備を行えるようになります。

データプレパレーションツールAltair Monarchを使ったデータプレパレーション

Altair Monarch(アルテア モナーク)はセルフサービス型データプレパレーションツールです。構造化データのみならず、非構造化データ、クラウドベースのデータ、ビッグデータを含む複数のデータソースに接続でき、データのクレンジングと処理にコーディングを必要としないため、誰でも簡単にデータ準備ができます。80以上の関数があらかじめ搭載されているため、乱雑なデータを分析用の“使える”データセットに簡単に変換できる優れものです。

PDFファイルやフォーマットの異なる複数のファイルを、Monarchを使ってひとつのデータにまとめる手順を簡単にご説明します。

PDFファイルをExcelに変換する

このようなPDFの経費精算書を、Excelシートにコピペしてデータ化する作業は1ページあたり3分程度かかります。

PDFからExcel

これを何百何千件と処理していると膨大な時間がただのコピペに消費されてしまいます。

Monarchを使用すると…

PDFファイルをMonarchに取り込みます。

データ準備 ツール

取り込んだPDFファイルが表示され、データとして必要な箇所を選択します。

データ準備 ツール

選択した箇所がテーブル化されたら、好きなファイル形式(ExcelやCSVなど)に出力して完了です。

複数のファイルを取り込み(データのブレンド)、一つのファイルに統合するなど、自由に加工ができます。

PDFから取り込み

定義したデータ取得条件は引き継げるので、上の経費精算書の例のように同じフォーマットのファイルを処理する場合、より便利に使えます。先日、弊社のエンジニアがMonarchを初めて使って「すごいじゃん!モナーク賢いじゃん!」と興奮していました。データプレパレーションで苦労されている方にぜひお使いいただきたいツールです。

データプレパレーションツールを活用してデータ活用をもっと簡単に

データ準備に特化したプレパレーションツール、データ準備ツールを使用すれば、作業工数を大幅に削減でき、データ分析や意思決定など、時間をかけるべき業務に集中することができます。工数削減はもちろん、綿密なデータ分析から得られるインサイトとそれに基づく最適な意思決定は、ビジネスを成功へ導く一助となるはずです。

Altair Monarchは現在30日間の試用版を現在無償で提供しております。Altair Monarch無償試用版ダウンロードの申請は以下のフォームから送信、もしくはダウンロードページより申請いただけます。この機会にぜひお試しください。

試用版のお申し込み

※申請後、3営業日以内に折り返しご連絡させていただきます。

関連記事: セルフサービス型データ準備ツールで強化する、社内のデータガバナンス
      Excel関数はもういらない、作業をあっという間に終わらせるためのデータプレパレーション

 

3.8 5 votes
Article Rating

カテゴリー: データアナリティクス

Subscribe
Notify of
0 Comments
Inline Feedbacks
View all comments