第3章:データサイエンティストになるには
第1章では、データサイエンティストの仕事内容、第2章では、データサイエンティストに必要なスキルを紹介しました。
連載の最後となる本章では、データサイエンティストを目指す方に向けて、データサイエンティストになるにはというテーマでお話しします。
まずデータサイエンティストはどのような企業にいるのかということを紹介した後、データサイエンティストへのキャリアパス、そして最後にデータ分析を自習する環境をご紹介します。
データサイエンティストはどのような企業にいるのか
基本的に、大量にデータが存在する環境であれば、データサイエンティストが活躍できる場があります。しかしながら、2014年4月現在、大量のデータを保有している企業のほとんどがWEB系の企業であり、多くのデータサイエンティストがWEB系の企業に所属しています。では具体的にどのようなサービスでどのような分析を行っているのでしょうか?下記で詳しく紹介します。
□WEBポータルサービス
WEBポータルサービスには膨大なログデータが蓄積されています。というのは、WEBポータルサービスは検索をはじめ、オークションや乗り換え検索など様々なサービスを提供しているからです。そのため、それらのサービスを横断的に分析することで、より使いやすいサービスへ改善し続けることが出来ます。またYahoo! JAPANのように、データ分析から世の中の課題解決に迫るという取り組みをしている企業もあります。
Yahoo! JAPANビッグデータレポート
□ECサイト
ECサイトでは「ユーザーにより高頻度でアクセスしてもらい、多くの商品を購入していただく」ということがビジネス目標です。その目標に対して、下記のようなデータ分析が行われています。
- 高頻度化:購入履歴解析によるダイレクトメールのパーソラナイズ、購入予測に基づいた新商品アラートメール送信
- 高単価化:サイトデザインのパーソナライズ、レコメンドエンジンの最適化
□ソーシャルゲームサービス
ソーシャルゲームサービスのビジネス目標は、「ユーザーにより高頻度に遊び続けてもらい、より課金をしていただく」ことです。その目標を実現するために、定量的データに基いたゲームの難易度調整や課金アイテムの内容調整などをほぼ毎日行っています。
□その他WEBサービス
その他のWEBサービスでもデータサイエンティストの活躍の機会は多々あります。世の中には、飲食店紹介サービス、動画共有サービスなど様々なサービスがありますが、どのサービスも「ユーザーに使ってもらう」ということは共通しています。
そのため、「新規ユーザーの離脱ポイント特定」や「退会ユーザーの特徴的な行動分析」などは共通して必要な分析です。もちろん、上記のような共通で必要な分析だけでなく、各サービスに寄り添った深い分析も行っています。
□B2B企業
上記のような自社のデータを分析する企業だけでなく、クライアントのデータを分析する企業も増えてきています。具体的に言うと、コンサルティング企業やSIerがデータ分析部門を立ち上げる例が増えてきています。これらの企業では、ビジネス課題解決のためのデータ分析を提供することが求められますので、より高度なビジネススキルが求められます。
□その他
また、産業のデジタル化によって、WEB系企業以外の製造業や広告代理店、監査法人などの金融系でもデータが爆発的に増加しているため、そのような企業で活躍されているデータサイエンティストの方もいらっしゃいます。
代表的なデータサイエンティストへのキャリアパス
それでは、どのようなキャリアからデータサイエンティストを目指すのかを紹介します。データサイエンティストは他のIT職種とは異なり、様々なバックグラウンドを持った方が活躍されています。
信じられないかもしれませんが、非IT業界出身の方でも前職で培われたバックグラウンドを活かして、第一線で活躍されている方も大勢いらっしゃいます。
というのは、第2章で紹介した通り、データサイエンティストに求められるスキルが「ビジネススキル」「ITスキル」「統計解析スキル」と非常に多岐にわたるからです。
そのため、これらのスキルのいずれかをコアスキルとして持ちながら、他のスキルをのばされている方がほとんどです。
では、具体的にどのような職種の方がどのようなスキルをコアとして活躍されているのでしょうか?下記で詳しく紹介します。
□ビジネススキル
ビジネススキルをコアにされている方は、コンサルタントやマーケティングリサーチ出身の方がほとんどです。これらの職業の方は、データを用いて論理的に物事を考える力が強く、その力はデータサイエンティストでもすぐに活かすことができるでしょう。
□ITスキル
ITスキルをコアにされている方は、WEB系のエンジニアやSIerでシステムエンジニアをされていた方が多いです。システム開発やシステム安定運用のスキルがあるため、分析基盤環境の構築・運用で力を発揮されるでしょう。また、プログラミングの経験があると思いますので、RやHive、pigなどの言語もすぐに馴染めるかと思います。
□統計解析スキル
統計解析スキルをコアにされている方は、電機メーカーや材料メーカーの技術開発職、大学や独立法人での研究職などの専門職出身の方が多いです。やはり数式に強いというのは強力な武器の一つです。データ分析の専門書も苦労することなく読み進めるかと思います。
データ分析を自習する環境
転職でデータサイエンティストを目指される方の多くは、データ分析に携わった経験が大変少ないかと思います。
そのため、転職活動をされる前にデータ分析を自習されることをお勧めします。もちろん、業界研究や業種研究の一環ですが、私が自習をお勧めする最も大きな理由は、自習を通じて自らの志向を再確認できるからです。
「データ分析ってやっぱり面白い!」と感じれば転職の軸が合致しているでしょうし、「難しそうで向いていない…」と感じれば転職の軸を再考した方がよいでしょう。
また、データ分析で使用するソフトウェアのほとんどがフリーソフトウェアであり、自宅でも簡単に試すことが出来ることもお勧めする理由の一つです。
□Hadoop
業務では複数台のマシンで構築するHadoopですが、1台構成にすることも出来ます。
自宅のPCにLinux環境を構築し、その上にHadoopを構築することは大変勉強になります。
□MySQL
MySQLは最も普及ししているデータベースの一つです。
Linux環境はもちろんWindows環境にもインストール可能ですので、データベース未経験の方は是非触っておくことをお勧めします。
□R
Rは統計解析のソフトウェアで、世の中にある解析手法のほぼすべてが実行できると言っても過言ではありません。クラスタ分析や決定木分析、また回帰分析や統計検定など業務で使用する分析ももちろん実行できますので、データ分析の醍醐味を味わうことが出来ます。
□分析データ
分析環境だけでなく、分析データも無償で手に入れることが出来ます。
日本統計局(http://www.stat.go.jp/data/index.htm)のような公共機関が公開している統計データもあれば、リクルートWEBサービス(http://webservice.recruit.co.jp)のようにAPI経由でマスターデータを公開している企業も多いです。
前者を使用すれば、様々な指標を用いて都市のクラスタ分析(図1)を実行できますし、後者を使用すれば自分の好みの飲食店の傾向を学習するプログラムを書くことが出来ます。
政府統計ポータルサイト(e-Stat)の下記ページの、平成22年 都道府県・市区長村別統計表から表1を作成し、k-means法によるクラスタ分析にかけたものです。
http://www.e-stat.go.jp/SG1/estat/GL08020103.do?_toGL08020103_&tclassID=000001037709&cycleCode=0&requestSender=search
都市名 | 第1次産業 就業者の割合 (%) |
第2次産業 就業者の割合 (%) |
第3次産業 就業者の割合 (%) |
---|---|---|---|
札幌市 | 0.45 | 15.22 | 84.33 |
仙台市 | 0.90 | 15.12 | 83.98 |
さいたま市 | 0.81 | 19.94 | 79.26 |
千葉市 | 0.75 | 18.09 | 81.17 |
特別区部 | 0.18 | 16.56 | 83.25 |
横浜市 | 0.48 | 20.67 | 78.84 |
新潟市 | 3.73 | 22.21 | 74.07 |
岐阜市 | 1.79 | 24.94 | 73.27 |
静岡市 | 2.87 | 26.61 | 70.52 |
名古屋市 | 0.26 | 24.28 | 75.47 |
大津市 | 1.26 | 24.13 | 74.60 |
京都市 | 0.86 | 21.65 | 77.49 |
大阪市 | 0.10 | 23.02 | 76.89 |
神戸市 | 0.77 | 20.12 | 79.11 |
奈良市 | 1.50 | 19.08 | 79.42 |
和歌山市 | 2.09 | 24.24 | 73.67 |
岡山市 | 2.87 | 21.74 | 75.39 |
広島市 | 1.03 | 21.67 | 77.31 |
福岡市 | 0.68 | 13.90 | 85.42 |
表1をクラスタ分析にかけることによって、都市を下記の3つのグループに分類することができました。
- グループ1:第一次産業の割合が高い都市群
- グループ2:第二次産業の割合が高い都市群
- グループ3:第三次産業の割合が高い都市群
ソーシャルゲームなどでは、同様の手法を用いて「バトルが好きなユーザー」や「トレードが好きなユーザー」といった分類を行い、それぞれのユーザーに適したコンテンツの内容を決定することもあります。
以上、三章にわたってデータサイエンティストについてご紹介してきましたがいかがでしたでしょうか。近い将来、センサーの小型化や低価格化によってデータが爆発する時代がきます。その時には様々な企業でデータ分析が行われることでしょう。
本連載をきっかけにして、その時代を支えるデータサイエンティストが生まれれば、著者としてそれ以上幸せなことはありません。
最後まで読んでいただき大変ありがとうございました。