ころがる狸

ころがる狸のデータ解析ブログ

【書評】戦略的データサイエンス入門

こんばんは。

ITブログを目指して設立し4か月ほど経ちましたが、洗濯の方法や美味しいアイスの食べ方など生活感ある記事しか書いておらず当初の想定を大きく外しました。ですが、ついにIT領域の記事を書きたいと思います!

仕事ではITに携わっているのですが、最近注目を集めるデータサイエンスの企業への適用例を把握したいと考え「戦略的データサイエンス入門」を購入し読み進めています。まだ20ページ程度しか読んでいないのですが、すでに学びにあふれた良い本であることが分かりご機嫌です。

www.oreilly.co.jp

一部抜粋:

データサイエンスにおける重要な能力の一つは、データ分析の対象とする問題を、対応方法が分かっているタスクへと分解し、解決できる状態にすることです。一般的な問題とその解決策を知っておくことで、車輪の再発明に対する時間とリソースの消費を回避することができます。これにより、人間の関与を必須とする高度なプロセスに人的リソースを集中させることができます。すなわち、自動化されておらず、人の創造性・知性が必要となるようなプロセスです。(22ページ) 

 取り組む問題それ自体はすべて特殊なものであり、都度それに見合ったソリューションを見出す必要があります。しかしそれを解決法の分かっている部分問題に落とし込むと難易度を下げることができ、より創造的な仕事へ集中することができます。

これはどのようなことを言っているのでしょう?例えば、気象予測の問題を解く場合、それ自体は日本の台風の進路予測か、アメリカのハリケーンか、はたまた日照量予測かといった違いはあるでしょうが、ニューラルネットワークを使うか、ランダムフォレストを使って予測するかという部分問題に押し込めればあとは技術の問題に帰着しますね。そしてそれらの技術は様々な問題解決に転用できるため、ノウハウを蓄積しやすく車輪の再発明を回避できる、といったような意味かと解釈しました。この、部分問題への落とし込みの速度や精度こそはデータサイエンティストの腕の見せ所という気がしますね。

この本の残りの部分に、こうしたスキルを向上させるためのノウハウが記載されていることを期待します。有益な情報があればまた取り上げたいと思います。