arrow_back

Engineer Data for Predictive Modeling with BigQuery ML: チャレンジラボ

参加 ログイン
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Engineer Data for Predictive Modeling with BigQuery ML: チャレンジラボ

Lab 1時間 universal_currency_alt クレジット: 5 show_chart 中級
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

GSP327

Google Cloud セルフペース ラボ

概要

チャレンジラボでは、シナリオと一連のタスクが提供されます。各ステップの説明に沿って進める形式ではなく、クエスト内のラボで習得したスキルを駆使して、ご自身でタスクを完了していただきます。タスクが適切に完了したかどうかは、このページに表示される自動スコアリング システムで確認できます。

チャレンジラボは、Google Cloud の新しいコンセプトについて学習するためのものではありません。デフォルト値を変更する、エラー メッセージを読み調査を行ってミスを修正するなど、習得したスキルを応用する能力が求められます。

100% のスコアを達成するには、制限時間内に全タスクを完了する必要があります。

このラボは、「Engineer Data for Predictive Modeling with BigQuery ML」スキルバッジに登録している受講者を対象としています。準備が整ったらチャレンジを開始しましょう。

設定

[ラボを開始] ボタンをクリックする前に

こちらの手順をお読みください。ラボの時間は記録されており、一時停止することはできません。[ラボを開始] をクリックするとスタートするタイマーは、Google Cloud のリソースを利用できる時間を示しています。

このハンズオンラボでは、シミュレーションやデモ環境ではなく、実際のクラウド環境を使ってご自身でラボのアクティビティを行うことができます。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。

このラボを完了するためには、下記が必要です。

  • 標準的なインターネット ブラウザ(Chrome を推奨)
注: このラボの実行には、シークレット モードまたはシークレット ブラウジング ウィンドウを使用してください。これにより、個人アカウントと受講者アカウント間の競合を防ぎ、個人アカウントに追加料金が発生することを防ぎます。
  • ラボを完了するために十分な時間を確保してください。ラボをいったん開始すると一時停止することはできません。
注: すでに個人の Google Cloud アカウントやプロジェクトをお持ちの場合でも、このラボでは使用しないでください。アカウントへの追加料金が発生する可能性があります。

チャレンジ シナリオ

あなたは TaxiCab Inc. のデータ エンジニアという新たな役割を担うことになり、そこで過去のデータを BigQuery の作業データセットにインポートして、入手可能な情報に基づいて乗車時に運賃を予測する基本モデルを構築することを求められています。経営陣は、乗客向けに運賃を予測するアプリの構築に関心を持っています。プロジェクトにはソースデータが用意されます。

これらのタスクのスキルや知識があるという前提のため、手順ガイドは提供されません。

チャレンジ

席に着いてノートパソコンを開くと、経営陣のために BQML の基本的な運賃予測モデルを構築するよう求める最初のアサインメントを受け取ります。次のタスクを実行して、データをインポート、クリーニングしてから、モデルを構築します。経営陣がこのモデルのパフォーマンスを確認して、このアプリの機能のデプロイを許可できるかどうかを判断できるように、新しいデータでバッチ予測を実行してください。

タスク 1. トレーニング データをクリーニングする

最初のステップはすでに完了しています。データセット taxirides を作成して、過去のデータをテーブル historical_taxi_rides_raw にインポートしました。これは 2015 年より前の乗車データです。

注: プロジェクトにすべてのデータが入力されるまでに 1~3 分かかることがあります。

このタスクでは、次の作業が必要です。

  • historical_taxi_rides_raw のデータをクリーニングして、同じデータセット内の にコピーします。このテーブルの作成とデータのクリーニングには、BigQuery、DataPrep、DataFlow などを使用できます。ターゲット列の名前は必ず にしてください。

役に立つヒント:

  • BQ UI でソース データセットを確認できます。最初にソースのスキーマを理解しておきましょう。
  • 予測時に使用可能なデータに関するヒントとして、テーブル taxirides.report_prediction_data をよく確認しておいてください。予測時にどのような形式のデータが得られるかがわかります。

データ クリーニングのタスク:

  • trip_distance より大きいことを確認します。
  • fare_amount が非常に小さい行(たとえば、$ 未満)を削除します。
  • このユースケースで妥当な緯度と経度であるかどうかを確認します。
  • passenger_count より大きいことを確認します。
  • tolls_amountfare_amount をターゲット変数として に追加してください。total_amount にはチップが含まれるからです。
  • ソース データセットが大きい(10 億行を超える)場合は、サンプリングして 100 万行未満のデータセットにしてください。
  • モデルで使用されるフィールドのみをコピーします(report_prediction_data を参考にしてください)。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。データをクリーニングして にコピーを作成する

タスク 2. BigQuery ML モデルを作成する

  1. のデータに基づいて を予測する BigQuery ML モデルを構築します。

  2. モデルの名前を にします。

注: このタスクでは、モデルの RMSE が 10 未満である必要があります。

役に立つヒント:

  • 追加のデータ変換は TRANSFORM() 句にカプセル化することができます。
  • TRANSFORM() 句に含まれる特徴量のみがモデルに渡されることに注意してください。* EXCEPT(feature_to_leave_out) を使用して、明示的に呼び出すことなくすべての特徴量またはその一部を渡すことができます。
  • BigQuery の GIS 関数 ST_distance()ST_GeogPoint() を使用して、ユークリッド距離を簡単に計算できます(乗車から降車までのタクシーの走行距離など)。
ST_Distance(ST_GeogPoint(pickuplon, pickuplat), ST_GeogPoint(dropofflon, dropofflat)) AS euclidean

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。RMSE が 10 未満の BigQuery ML モデル を作成する

タスク 3. 新しいデータに対してバッチ予測を実行する

経営陣は、作成されたモデルが新しいデータ(この場合は、2015 年に収集されたすべてのデータ)に対してうまく機能するかどうか確認することを希望しています。このデータは taxirides.report_prediction_data に含まれます。予測時に既知の値のみがテーブルに含まれます。

  • ML.PREDICT と作成したモデルを使用して、 を予測し、結果を 2015_fare_amount_predictions というテーブルに格納します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 バッチ予測を実行して新しいテーブル 2015_fare_amount_predictions に格納する

お疲れさまでした

「Engineer Data for Predictive Modeling with BigQuery ML」バッジ

次のスキルバッジを獲得する

このセルフペース ラボは、「Engineer Data for Predictive Modeling with BigQuery ML」スキルバッジの一部です。このスキルバッジを完了すると成果が認められて、上のようなバッジが贈られます。獲得したバッジを履歴書やソーシャル プラットフォームに記載し、#GoogleCloudBadge を使用して成果を公表しましょう。

このスキルバッジは、Google Cloud のデータ エンジニア向け学習プログラムの一部です。この学習プログラムの他のスキルバッジを獲得済みの場合は、他の登録可能なスキルバッジをカタログで検索してみてください。

Google Cloud トレーニングと認定資格

Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベスト プラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。

マニュアルの最終更新日: 2024 年 3 月 25 日

ラボの最終テスト日: 2023 年 9 月 11 日

Copyright 2024 Google LLC All rights reserved. Google および Google のロゴは Google LLC の商標です。その他すべての企業名および商品名はそれぞれ各社の商標または登録商標です。