LookerのAnikaです
この技術デモでは
Lookerを使用して
従来のデータサイエンスワークフローの
データクレンジングと
レポート作成にかかる時間を
どのように短縮できるかを紹介します
最初にLookerアーキテクチャの
長所について
概要レベルで説明したのち
予測分析の具体的な例を取り上げて
ワークフローの各ステップについて考えます
最後に図を見ながら
Lookerを利用した
情報フローについて説明します
まず手短にLookerについて紹介します
Looker は最新型の
データプラットフォームです
運用中のデータに接続し
再利用可能なビジネス定義を
記述および統合し
処理結果を出力して
エンドポイントや
ワークフロー間で共有できます
従来のデータサイエンティストの作業は
3つのステップのワークフローでした
最初のステップがデータの検索
クリーンアップそしてステッチです
2番目のステップは
そのデータに基づき実行するモデルの構築
3 番目のステップで
モデル出力のレポートをエクスポートし
ビジネスの意思決定のために提供します
この従来のワークフローでは
データマンジングやレポート作成などの
単純な下準備のために
データサイエンティストの貴重な時間が
たくさん使われ
複雑なモデルの構築や
反復測定といった重要な作業に
それほど時間をあてることができませんでした
データサイエンティストが有意義な仕事に
もっと時間を使えるように
Lookerでは信頼性の高い
メトリック定義の共有セットを提供しています
データガバナンスの改善と
時間の有効活用を
次の2つの方法で実現しています
1つ目としてLookerは
エンドユーザーの代わりにSQLを作成し
共有定義からデータを取り出し
その場で変換します
この方法により 予測分析モデルに使用する
正確なデータセットを
非常に効率的に抽出できます
2つ目としてLookerでは
予測モデルの出力を簡単に取り出して
グラフィカルで扱いやすいインターフェイスで
ビジネス関係者に提供できます
スケジュールやアラートによって
自動化できるので
技術的なことに詳しくないユーザーも
データサイエンティストの提供するデータを活用し
迅速にインサイトを運用に活かせます
データの準備や共有にLookerを利用すれば
モデルの構築と反復測定の
フィードバックの循環が密になり
データのクレンジングやマンジングや
レポート作成ではなく
データサイエンスの重要な部分に
もっと時間を使うことができます
自転車シェアリングのデータを
例にして考えてみましょう
まずデータサイエンティストが
再利用可能なメトリック定義から
必要なフィールドにアクセスします
LookerはSQLを作成し
データベースに対して直接クエリを実行します
その際にはLookMLで記述された
信頼性の高い共有定義を使用します
データサイエンティストは
クレンジング済みのデータを
RStudioやJupyter Notebookなどの
アプリケーションからLooker APIを介して
RやPythonモデルにフィードします
その後データサイエンティストは
出力をレビューしてモデルを微調整し
その結果をデータベースに戻します
最後にLookerは最新のモデル出力を取り出し
次のことができるようにします
1つ目に アクセスが制限された
他の関連データも含めて検索する
2つ目に アクションを含むワークフローを構築する
3つ目に スケジューラを使って
自動的に結果を出力する
要約するとLookerはデータサイエンティストが
貴重な時間をもっとモデルの構築と
反復測定に使えるようにし
データクレンジング（ステップ1）と
レポート作成（ステップ3）
にかかる時間を短縮します
Lookerをデータサイエンスワークフローと
統合することによって
企業は効率的な機械学習やAI
予測分析を活用し
より迅速なTime to Valueを
達成できるのです
