• tech系
5分で読める

Cloud OnAir 第12回 ~「ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩」 LIVE 編~

こちらの記事は弊社技術ブログに掲載していた内容となります。一部を除き、投稿当時の情報となりますので、紹介内容の最新情報については別途公式情報等をご参照下さい。

こんにちは。クラウドエース編集部の高木です。

2017年10月5日より、【隔週木曜 18:00~18:45】に、Google社のエンジニアが、Google Cloud Platformの製品、サービスや導入事例等について解説する番組が始まっています。
ユーザー参加型の生放送番組となっており、視聴者からのリアルタイムQ & Aも受け付けています!
この記事では、動画を見逃した方や、見る時間が無い方向けに、要点をかい摘まんで、クイックに紹介したいと思います。
今回はデータ分析をするにあたって、データの蓄積や活用するための基盤についてお話いたします。
講師は、Google Cloud カスタマーエンジニアの寳野 雄太さんです。

今回のテーマ: 「ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩」 LIVE 編

今回のテーマは、データ分析をする上での、「データの蓄積・活用」をメインとした内容となっております。
ビジネスにおいて、売り上げに直結することもあるデータ分析。
そのビジネスに対するインパクトは日々大きくなってきています。
まず簡単なデータ分析の説明から、データを蓄積・活用するため基盤に関して解説していきます。
アジェンダ

  1. 企業におけるデータの活用
  2. データ活用のための基盤とは
  3. Google Cloud 事例
  4. 本日のまとめ

企業におけるデータの活用

まずは、データ活用について紹介していきます。

データを活用することにより、

  • 仮説を立てた際に、その仮説を後押しすることができる
  • 確度の高い打ち手を打っていける
  • AIを使用し、過去のデータから良い結果を導き出せる

などの側面があります。

データの現実

データを活用するといっても、そのデータが使えない状態にあっては活用することができません。
具体的にデータが使えない状態とは…

  • フォーマットが違う
  • 格納場所が違う
  • データを捨てている
  • データがとれてない
  • 検索・集計ができない

上述したように、データが使えない状態とは、そもそも活用するデータがない、データがあるのにうまく活用できないということです。
こういったことが現実に多くあります。
AI、機械学習したいと考えている場合、データの分析ができていない状態では、AI、機械学習をする準備ができているとは言えません。

データ分析、機械学習をビジネスに適用するステップ

スライドは、実際にデータを分析、機械学習をする上で必要な準備です。
データを収集、蓄積するためには、データを正しく持ってくることが重要です。
具体的には、手動、つまり人の手でデータを収集させた場合、ミスが起こる場合があります。
こういった自体をさけるためにも、データを収集する際は、自動的に収集するようにシステムを作ることが重要となります。
システムで収集することにより、収集する人の時間の確保も可能となります。

データ活用のための基盤とは

データウェアハウス と データレイク

  • データ分析基盤の根幹を無す「データ」は、『データウェアハウス』と『データレイク』から成ります。
  • 整理された倉庫のようなデータウェアハウスだけで良いのでは?それは後述します。

データウェアハウス(Data WareHouse、DWH)とは

  • きっちりと整理、整備され、『検索できる』倉庫のようなものです。
  • 原則としてデータは更新せず、蓄積し続けます。
  • 構造化されたデータを蓄積します。

なぜDWHが必要なのか?

  • たとえばECサイト(Web店舗)での売り上げに由来するデータと、実店舗のデータが別々に保存されている場合。
  • 経営側の視点としては「同じ、売り上げのデータ」であり、両方を利用している顧客の情報を得たい、という要件も。
  • データを専用の一箇所に集約することで、負荷軽減にもなります。

DWHに求められる要件と、それを叶えるBigQuery

Google Cloudで作るDWH

  • BigQueryなら、フルマネージドなので分析のみに集中できる
  • DataStudioで別途ツールを用意する必要なく、すぐに可視化、スプレッドシートへの出力も
  • Web-UIでほぼ全てが完結するとっつきやすさ

データレイク(Data Lake)とは

  • 構造化されていないデータを蓄積する。
  • 加工前のデータを蓄積する。
  • 湖(lake)のように、生のデータをざぶざぶ入れるもの。

なぜデータレイクが必要なのか?

データレイクに求められる要件と、それを叶えるGoogle Cloud Storage(GCS)

GCSの耐障害性

  • 災害対策(DR)に対応、複数国へのデータ配信
  • リージョン内部でのデータ複製で 11 Nines ( 99.999999999% )の耐久性を誇る

GCSのパフォーマンスとコストのバランス

GCSのデータレイクとしての使い方の例
データウェアハウス、データレイク 各々の要件を満たすBigQuery / GCS

Google Cloud 事例

データの活用をした例を、スライドとともに紹介していきます。
SONY 様の活用例です。

リクルートライフスタイル様の例です。

Q & A

Q & Aはありませんでした。

本日のまとめ

  • データを活用するためには、データを蓄積、整理・分析する必要がある
    • データを蓄積するにはデータレイク
    • データを整理・分析するためにはデータウェアハウス(DWH)
  • クラウドならではのスケーラビリティ、コストを利用することで気軽に構築が可能

機械学習、データ分析などを活用する時を逃さない
そのためにも、データ活用のための基盤を構築する必要があります。

最後にひとこと

今回は、データ分析の説明から、データを蓄積・活用するため基盤に関して解説していきました。
データを蓄積、活用するためのサイクルを回すことにより、ビジネスにおいての意思決定をスムーズにすることや、そのまま直接売り上げに貢献できることが多くあります。
昨今話題になっている、AIや機械学習を利用するためにも、データを整理し、データ分析できるようなシステム、仕組みづくりをしていきたいですね。

参考リンク

Youtube視聴

Cloud OnAirの放送は、今回分含め、バックナンバーも全てYoutubeで視聴できます。
スライドと合わせて進行する解説を、是非ご覧ください!
Youtube URL:https://www.youtube.com/watch?time_continue=2&v=porw57xqAXI

SlideShare

今回の動画で説明に使用されたスライドについても、SlideShareでいつでも閲覧可能です。
登場した用語について振り返りたい、用語同士の関係性を確認したい等、大変参考になります!
スライドURL:https://www.slideshare.net/GoogleCloudPlatformJP/cloud-onair-live-2018412

それでは、次回も05/10(木) 18:00にお会いしましょう。

この記事を共有する

合わせて読みたい