*本記事は、英国オフィスのSean LangによるLinkedInの投稿文を翻訳したものです。
デロイト社の予測によると、来年2021年には英国企業の80%がデータサイエンティストを採用し、転職者向け企業レビューサイトGlassdoorの調査では過去6年連続で最も人気のある仕事の第1位に選ばれていることから、データサイエンティストになるには今が絶好のチャンスと言えます。一方で、マッキンゼーは2025年までに米国だけで25万人のデータサイエンティストが不足すると予測しています。今必要とされる「次世代のデータサイエンティスト」をどのように定義し、見極めればよいのでしょうか?業界の動きをよりよく理解するため、先日、私は以下の方々と未来のデータサイエンティストについて議論しました。
・Pedro Pinto Coelho氏 – Banco BNI Europa最高経営責任者
・Antti Myllymäki氏 – OP Financial Group 人工知能担当責任者
・Tad Slaff氏 – Picnic Technologies データサイエンスプロダクトリーダー
・Georges Mansourati氏 – ノースミル銀行 チーフ・アナリティクス・オフィサー
・Thomas Berngruber氏 – Jyske Bank データ分析・開発責任者
私はこれまでAltairのアカウントマネージャーとして数々のデータエグゼクティブの方々とお話してきましたが、データサイエンティストの定義は、基本的なレポートの作成や簡単なSQLクエリの実行の担当者から、複雑な機械学習モデルやデータ処理パイプラインなどの構築を担当する人まで、企業によってその言葉の定義がまったく異なっていました。「データサイエンティスト」という肩書きが広く普及したことによってこの分野が脚光を浴びるようになりましたが、一方でその役割が業界によって異なる意味をもつことから、深刻な不明確さをもたらしているといえます。例えば、Georges Mansourati氏(ノースミル銀行)は、「データサイエンティスト」に関連する3つの役割を異なる言葉で表現しています。
「データサイエンティスト」=モデリングを行う人
「データエンジニア」=建築家 – 配管を作る人
「BI開発者」=可視化を行い、これをエンドユーザーに提示する人
同様に、Picnic社のTad Slaff氏(データサイエンスプロダクトリーダー)は、「フルスタックデータサイエンティスト」を同社で募集していると述べています。「データサイエンティストだけを募集しているわけでも、エンジニアリングサイドだけを募集しているわけでも、データ抽出/ETL作業だけを募集しているわけでもなく、データを引き出し、必要なクリーニングをすべて行いモデルを構築し、それを自分たちで本番さながらに実行できる人を求めています。
1つはっきりしているのは、多くの企業はデータサイエンティストを1人雇用するのではなく、より広範でマルチスキルのデータチームを作ることに徐々にシフトしているということです。業界を問わずデータサイエンティストはデータを通じて価値を創造することを任務としていますが、必ずしも深いプログラミングの知識やコンピュータサイエンス経験が必要なのではなく、強い好奇心をもち問題をより深く掘り下げて答えを見つけようとする意欲が求められています。創造的な科学者たちと同じですね。
新型コロナウイルスのパンデミックは多くの産業の足を止めているものの、データサイエンスは変わらずビジネスのメインストリームに深く入り込み続けており、もはや私たち一部のオタクのためだけの仕事だけではなくなっています。ニュースを見ていると、このウイルスの蔓延をグラフ化し、将来的な広がりを予測したグラフやモデルが後を絶ちませんし、政府や保健機関はこれまでも世界的な規制をつくるために、データサイエンスに大きく依存してきました。今では日常的に使用されるようになったロックダウン、マスク、ソーシャルディスタンスというアイデアはすべて、膨大な量の過去とリアルタイムのデータ分析から生まれたものです。さらに、世界各国が国境をクローズしても、Netflixが新しい映画をオススメしてくれたり、Spotifyが気分に合わせてプレイリストを作成してくれたり、Amazonがトイレットペーパーからクイズ本まで必要なものをすべて届けてくれたりと、データサイエンスはたとえ閉じられた家の中でもわたしたちの生活を支えて続けています。
明らかにデータサイエンティストには大きな期待が寄せられていますが、彼らの最も切迫した課題は何か、そして彼らの仕事を少しでも楽にするにはどうすればいいのでしょうか。いくつかの重要なトレンドについて説明します。
【データの質】
準備や前処理が不十分なデータは、データサイエンスの成功を阻む最大の障害の一つであり続けています。Georges Mansourati氏(ノースミル銀行)は、「ありきたりな答えになりますが、データサイエンスにはデータが重要です。データの質が良く、データインフラが良く、あらゆるビジネスで得た興味深いデータセットを組み合わせることができることがデータサイエンスには重要です。私がこれまで直面した課題のなかで共通して問題となっていたのはモデリングではなく、データそのものとその可用性です」と述べています。
また、本ウェビナー視聴者の半数もデータサイエンスプロジェクト失敗の主な理由として、データの質の低さを挙げていました。CIOとCDOは、高品質で関連性の高い、タイムリーなデータセットの重要性をこれまで以上に訴え続ける必要があります。Garbage In Garbage Out(ガベージインガベージアウト)はゴミからはゴミしか生まれないという意味ですが、データサイエンスの世界では「不正確なデータからは、不正確な分析結果しか生まれない」ことを意味します。データサイエンティストは、ピカピカのニューラルネットワークやランダムフォレストモデルに気を取られすぎて、データ品質の重要性をすっかり忘れてしまうことが実はよくあります。次世代のデータサイエンティストはモデリングのどの工程もスキップすることなく、解決しようとしている問題と一致しない機械学習モデルの構築を避けなければなりません。より正確なモデル構築のためであれば、データを扱う作業に膨大な時間を費やしても問題はないでしょう。
【自動化】
典型的なデータサイエンティストは、1日のうちの80%をデータ準備や前処理、特徴エンジニアリング、特徴量選択などの反復的で時間のかかる、かつエラーを起こしやすい作業に時間を費やしていると言われています。これは効率的でも生産的でもなく、データサイエンティストはすぐにオートメーションファーストの考え方を採用しましょう。昨年発表されたKDnuggetsの世論調査では、回答者の51%が、現在データサイエンティストが行っている作業のうち、2025年までに予測分析/データサイエンス作業がほぼ専門家レベルで自動化されるだろうと答えています。自動化は素晴らしいことですが、デメリットとしては機械学習の学習内容の追跡が困難になり、監査や管理の複雑化が挙げられます。
Pedro Pinto Coelho氏(Banco BNI EuropaのCEO)「金融サービス業界においてブラックボックス問題と呼んでいる非常に懸念すべき点があります。モデル構築を行う優秀なデータサイエンティストは多数いますが、その結果を説明することができないのです。例えば、実際にどのようにして信用度の面での勧告を出したのかなどです。なので、私は決断のプロセスをトレースしモデルについて、根拠も含め、規制当局や株主などのステークホルダーの皆様に説明できるようにしておくべきと考えます。」
AutoML(オートマシンラーニング)とモデル説明可能性は、成功を生み出すためにはお互いにミラーリングする必要があります。所属する組織のデータサイエンスへの理解が深まれば、データサイエンティストは管理職からの賛同と予算の増加を確実なものにするでしょう。
【コミュニケーション】
高いコミュニケーション能力がなければ、データサイエンティストが経験した技術的な仕事の多くはすぐに台無しになってしまいます。技術者ではない人たちに技術的な概念を説明することは重要な仕事ですが、何日も何週間も黙々と作業してきた頭から、コミュニケーションへと頭を切り替えることが難しいと感じる傾向があります。データサイエンスはまだ比較的新しい技術であるため、意思決定者や管理職がこれらの技術をすぐに理解するのは無理があります。最近アメリカで行われた議会の公聴会で明らかになったことは、マーク・ザッカーバーグのような世界的な技術リーダーでさえ、技術者ではない人たちに直面すると、自分たちの考えを伝えるのに苦労するということです。
Antti Myllymäki氏(OP Financial GroupのAI責任者)曰く、「データサイエンティストは、複雑なことをシンプルにするのではなく、複雑なものを理解できるように伝える能力に長けていなければならない」のです。データサイエンティストへのプレゼンテーショントレーニングに時間とリソースを投資することは、モデリングワークフローでトレーニングするのと同じくらい重要と言えるでしょう。それは、データサイエンティストは他の科学分野とは異なり同じ志を持つ技術者仲間に向けて発表することがほとんどなく、多くの場合は機能横断的なチームで仕事をしているので異なる理解度の中でコミュニケーションをとらなければならないためです。
「個々の事象は必ずしもそれほど複雑ではありませんが、すべてをまとめてしまうとソリューションに多くの複雑さを生み出してしまうということは常に念頭に置いています。マネジメントの変革は今後より重要になってきている現在、私たちが日々取り組んでいることは既存のビジネスモデルに変革を起こすこと」だとThomas Berngruber氏(Jyske Bankのデータ分析・開発部門の責任者)が述べていることも納得できます。
【ドメインナレッジ】
多くの企業は、十分なデータサイエンティストを雇用する余裕がないか(Glassdoorによると、データサイエンティストの年収は平均11万3309ドル)、スキルのバランスが適切なサイエンティストを見つけられていないかのどちらかに課題を抱えています。しかし、近年ガートナーによって「市民データサイエンティスト」という言葉が生み出され、多くの組織にとって参入障壁が低くなったと言えます。ガートナーは、市民データサイエンティストの定義を「高度な診断分析や予測・処方箋機能を使用したモデルを作成または生成する人で、主な職務が統計や分析以外である人」としています。ビジネスに精通した専門家に対しデータサイエンス教育を行うことで、ビジネスとデータサイエンティスト間の溝を減らすことができます。
Thomas Berngruber氏(Jyske Bank)が述べているように、「一言で言えば、大事なことは意思決定と知識を一致させること」です。
もちろん、機械学習への深い理解を必要とする複雑なアルゴリズムへの大規模な投資を促すROIがあるケースもたくさんあるでしょう。したがって、データサイエンティストにとっては強力、かつデータアナリストにとってはアクセスをしやすい技術を設計することが非常に重要になります。Pedro (Banco BNI Europa)は、「最終的には、データサイエンティストは我々が行うすべてのことの中心的存在になるので、うまくいけばいつか我々一人一人が、スキルと特定のセクターについての知識を掛け合わせることで価値を生み出すようになる」と考えています。この新しい10年に向けて、データリテラシーはあらゆる組織戦略の最前線にあるべきだと私は考えています。
最近、ヨーロッパで最も急成長しているオンラインスーパーマーケットPicnic Technologiesで、Tad Slaff氏と彼のチームが購買注文管理のための需要予測モデルを構築していたときに多くの課題が収束しました。
「私たちが日々注文している商品の多くは、現在の需要予測に基づいています。例えば、明日お客様にバナナをお届けするために今日は何本のバナナを発注する必要があるのかなど、それを正確に予測できることが非常に重要になります。純粋なデータサイエンスの観点からは、過去のデータが大量にあり、我々も定期的に発注をしているので、それほど難しいことではないように思えます。しかし、これを運用システムにすること、そしてリアルタイムで動作させるというのは非常に困難なことなのです。データがどれだけ新鮮か、モデルが正しく機能しているか、精度の高い予測ができるかなど、すべての要素がかみ合っていなければなりません。もし発注すべき商品の数量を正確に導き出せないとすぐに損失につながり、事業に大きく影響します。モデルの構築は今回のチャレンジの中では小さなピースに過ぎません。優れたモデルを構築できることが必ずしも素晴らしいのではなく、周辺のものすべてを見極め、実際に商品を素早く市場に卸し、ビジネス上の価値をもたらすことが企業にとって価値のあることなのです」
しかし、次世代のデータサイエンスに投資することで得られるメリットにはもちろん素晴らしいものがあります。Antti Mylmmaki氏(OP)は、「2016年後半にAIトランスフォーメーションの流れがはじまったとき、このビッグデータとAIのトレンドは、顧客のインサイトと販売業務、つまり個々のユーザーとその嗜好をよりよく理解すればするほど顧客の財布に占めるシェアが大きくなると誰もが思っていました。しかし、当社ではチャットボットやカスタマーサービスだけでなく、不正検知やマネーロンダリング対策などの分野での手作業によるレポートの削減などがより大きな影響を与えている」と言います。
実際、OP社の研究拠点では、これまでの3年間ですでに2300万ユーロ以上を削減する業務効率化をAI導入によって達成しています。
データサイエンスに関するたくさんの情報を述べてきましたが、覚えていただきたい重要なことはデータサイエンスは自転車に乗るのと同じようなものだということです。やってみないとできません。メリットは明らかです。補助輪を外しましょう。データの質の重要性を忘れずに。オートメーションファーストの考え方をもって、データリテラシーを全面に押し出しましょう。次世代データサイエンティストが必要とされる時代はすぐそこまで来ています。
これらのコンセプトをもとに設計されたAltairの「次世代データサイエンティストのための革新的ツール」にご興味をお持ちいただけましたら、10月28日のウェビナーにぜひご参加ください。(英語のみ)
https://web.altair.com/en/innovative-tools-for-the-next-generation-data-scientist
関連記事: データサイエンティスト不在でもビッグデータを活用したい!
カテゴリー: データアナリティクス