株式会社ドワンゴ様では、分析基盤戦略の策定に向けて、クラウドエースが提供する Google Cloud Platform ( GCP ) 認定トレーニングメニュー「データ エンジニアリング トラック ( Data Engineering on Google Cloud Platform ) 」を受講していただきました。
このトラックはハンズオンラボを通して、 GCPでのデータ処理システムの設計、エンドツーエンドのデータ パイプラインの構築、データの分析、機械学習の実施方法を学習するトレーニングです。
今回、受講されたサービス開発本部 Dwango DataManagement Service部 数値基盤セクションの木浦正博氏にお話を伺いました。

株式会社ドワンゴ様について教えてください。

木浦氏:
ドワンゴは、「ニコニコ動画」や「ニコニコ生放送」をはじめとしたニコニコサービスを、個人のユーザー様に向けて提供している会社です。また、ARと位置情報を活用したスマートフォン向けゲーム「テクテクテクテク」を2018年11月にリリースしました。
私が所属している数値基盤セクションでは、「ニコニコ動画」や「ニコニコ生放送」など、各種サービスの企画やディレクターが、ファミリーサービスから出力されるログを分析して新たなインサイトが得られるよう、それらのログを蓄積し分析基盤として提供することを目的としております。
このようなログは複数のサイトから発生し100種類以上に及ぶため、蓄積するログデータはかなりの量になります。どうすればデータの読み込みや集計処理が速くなり、分析結果を社内の担当者が早く得ることができるかを検討し、チェーニングする必要があります。また、日々、膨大な量のログデータを蓄積しているので、バッチ処理にも時間がかかっています。さまざまな業務を効率よく、かつ低コストで行えるように計画することも、我々のミッションとなっています。

GCP を使うようになったのはなぜでしょう?

木浦氏:
実はまだ GCP を活用していません。我々の分析基盤は、今後どのように発展させていくか、そのロードマップを分析基盤戦略として策定するフェーズにあります。GCP の他にも AWS や Azure など、様々なクラウドサービスも今後分析基盤を発展させていく上での材料になる可能性があります。
ですので、引き続きオンプレミスで運用し続ける可能性も0ではないですし、クラウドサービスを使うとしたらどのような構成がよいのか? GCP がいいのか、AWS、Azureがいいのか? さらに GCP を活用するとしたらどのようなアーキテクチャーがいいのか? 各種、案を出して今後の方向性を決める取り組みを2018年8月から行なっております。
ただ、GCP は、簡単にかつ、早く分析ができるBigQueryとその周辺のコンポーネントも使いやすいと考えています。トレーニングを受講して、数テラバイトやペタバイト級のデータであっても数秒以内に処理が完了し結果が出力される、というのは圧倒的な強みだと思いました。
また、オンプレミスとクラウドの両方を使うことも選択肢としてありますが、個人的には、そのようなハイブリッド構成を取ることと比較すれば、分析基盤全体を GCP に乗せてしまった方がコストや人的ミスを抑えられるのではないかと考えています。

トレーニングを受けようと考えたのはどうしてでしょう?

木浦氏:
情報収集をするだけでなくもっと踏み込んだ情報を習得したいと考え、4日間のクラストレーニングを受講することにしました。今ではインターネットでもトレーニングを受けることは可能です。しかし、対面でのトレーニングは、受講者の率直な疑問に対して講師から直接回答が得られる、ということがメリットです。
そのなかでクラウドエースを選んだのは、まず日本語で受講できる点、そして他の社員の方々を含むトレーニング講師の方が GCP の資格を取得していて、高度なナレッジやスキルレベルを保有していることが見えていたので、安心してお任せできると感じた点です。
事実、トレーニングでは、私のナレッジやスキルレベルに応じた情報を得ることができました。例えば、弊社の分析基盤に GCP を乗せる場合、どのようにすればいいのか、という質問に対しても、的確な回答をしていただきました。その意味ではとても有益なトレーニングだったといえます。
特に今回は、トレーニングによくある「使い方」という視点ではなく、実際の業務に置き換えた場合、どうなるのかを中心に情報収集することが目的だったので、その意図は果たせたと思います。他社のトレーニングも受けたことがありますが、クラウドエースのトレーニングではより踏み込んだ回答をいただけたことは、非常に有意義でした。
例えば、弊社では企画やディレクターが分析を行う場合、大規模データの蓄積・分析を分散処理技術によって実現するオープンソースのミドルウェア「Hadoop」をログ分析基盤として活用しているのですが、それを GCP に乗せた場合、どのように権限管理を行えばいいのか、といったような具体的な質問に対しても、実際の方法を回答していただくことができました。
トレーニングは4日間だったのですが、丁度いい長さだったと思います。1日では短すぎますし、妙に長くてもだれる可能性もあります。質問して、その日に回答していただけたものもありましたし、調査や確認が必要なものについては、翌日に回答していただけました。そのような対応をしていただけたこともあり、疑問点はかなりクリアできました。また、ハンズオンでの講習もあったのでアウトプットを実践できた点もみのりが大きかったと言えますね。

トレーニング後の展開や今後の課題・期待はいかがでしょう

木浦氏:
現場の基盤を GCP に乗せた場合、どれくらいの費用がかかるのかを概算できるようになることも、今回のトレーニングの目的のひとつでした。現状、分析基盤でひとつのログを新たに提供する場合、数日を要するケースもあります。それが、GCP に乗せることによって、1日や1時間に短縮されるのならば、我々の工数も削減されます。今後はそれを狙っています。
GCP を活用することで、例えば BigQuery での処理結果が数秒で返ってきた場合、我々分析基盤の人間だけではなく、社内の企画やディレクターが分析、解析する場合にもメリットはあります。
また、GCP を使う上で、データエンジニアリングのトレーニングはとても有益でしたが、周辺のミドルウェアやコンポーネントも活用できれば、データエンジニアリング関係のコンポーネントを活用して行く上でよりスムーズだと考えています。
ですので今後、データエンジニアリング以外のトレーニングも受講し、データ分析基盤としてより円滑で強固、よりコストを抑えられるようなものを作りたいと考えています。
今回は私一人の受講でしたが、分析基盤を担当している他のメンバーにもトレーニングを受けてもらいたいと考えています。それによって部署内のメンバーとも連携して有効活用できればと思っております。
また、今後 GCP を活用したいという他部署があれば、トレーニングを紹介するということもあると思います。事実、他部署からトレーニングに対する感想を聞かれたこともあります。
クラウド技術も日々進化していますので、メリットとオペレーション変更のコストを天秤にかけながら柔軟に技術の取捨選択をし続けていくことが必要であると感じており、実際に今回のトレーニングを通してさまざまな可能性が広がったと感じております。