arrow_back

Data Catalog: Qwik Start

参加 ログイン
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Data Catalog: Qwik Start

Lab 30分 universal_currency_alt クレジット: 1 show_chart 入門
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

GSP729

Google Cloud セルフペース ラボ

概要

Data Catalog は、Dataplex 内のスケーラブルなフルマネージド型メタデータ管理サービスです。

データ検出のためのシンプルで使いやすい検索インターフェースと、テクニカル メタデータおよびビジネス メタデータの両方を取得できる柔軟で強力なカタログ化システムを提供しています。また、Cloud Data Loss Prevention(DLP)および Cloud Identity and Access Management(IAM)とのインテグレーションにより、セキュリティとコンプライアンスの強固な基盤を備えています。

BigQuery は、Google のインフラストラクチャの処理能力を利用して SQL クエリを高速で実行するエンタープライズ データ ウェアハウスです。

ユーザーがデータを BigQuery に読み込んだら、後の処理は Google 側で行われます。 他のユーザーにデータの表示やクエリを許可するなど、ビジネスニーズに基づいてプロジェクトとデータへのアクセスを制御できます。

Data Catalog の使用

Data Catalog では、主に 2 つの操作を行います。

  • アクセス可能なデータアセットを検索する。
  • メタデータでアセットにタグ付けする。

Data Catalog のユースケース

自分が自社のデータ エンジニアであると想像してみてください。データ サイエンティストやビジネス アナリストなど、同僚があらゆるデータセットを簡単に探索して使用できるようにすることが仕事です。新しいデータセットを入手したら、重要な情報でアノテーションを付けます。例えば、PII データが含まれているかどうかや、データセットの所有者は誰か、データセットに含まれている行の数はいくつか、といった情報が含まれます。

こういった情報をアノテーションとして付けるには、対象のデータセットとテーブルにタグを追加します。Data Catalog を使用すると、タグ テンプレートを作成して、タグ付けしたい属性の種類を定義できます。これにより、データセットとテーブルに簡単にアクセスしてマッピングし、関連情報を見つけ出すことができます。

ラボの内容

このラボでは、次の方法について学びます。

  • Data Catalog API を有効にして、このサービスを Google Cloud プロジェクトで使用できるようにする。
  • BigQuery でデータセットを作成する。
  • New York Taxi 一般公開テーブルをデータセットにコピーする。
  • Data Catalog タグ テンプレートを作成する。
  • 新しく作成したテーブルに、新しく作成したタグを付ける。

前提条件

注: ラボを開始する前に個人または企業の Gmail アカウントからログアウトするか、このラボをシークレット モードで実行してください。

これにより、ラボの受講中にログインによる混乱を避けることができます。

設定と要件

[ラボを開始] ボタンをクリックする前に

こちらの手順をお読みください。ラボの時間は記録されており、一時停止することはできません。[ラボを開始] をクリックするとスタートするタイマーは、Google Cloud のリソースを利用できる時間を示しています。

このハンズオンラボでは、シミュレーションやデモ環境ではなく、実際のクラウド環境を使ってご自身でラボのアクティビティを行うことができます。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。

このラボを完了するためには、下記が必要です。

  • 標準的なインターネット ブラウザ(Chrome を推奨)
注: このラボの実行には、シークレット モードまたはシークレット ブラウジング ウィンドウを使用してください。これにより、個人アカウントと受講者アカウント間の競合を防ぎ、個人アカウントに追加料金が発生することを防ぎます。
  • ラボを完了するために十分な時間を確保してください。ラボをいったん開始すると一時停止することはできません。
注: すでに個人の Google Cloud アカウントやプロジェクトをお持ちの場合でも、このラボでは使用しないでください。アカウントへの追加料金が発生する可能性があります。

ラボを開始して Google Cloud コンソールにログインする方法

  1. [ラボを開始] ボタンをクリックします。ラボの料金をお支払いいただく必要がある場合は、表示されるポップアップでお支払い方法を選択してください。 左側の [ラボの詳細] パネルには、以下が表示されます。

    • [Google コンソールを開く] ボタン
    • 残り時間
    • このラボで使用する必要がある一時的な認証情報
    • このラボを行うために必要なその他の情報(ある場合)
  2. [Google コンソールを開く] をクリックします。 ラボでリソースが起動し、別のタブで [ログイン] ページが表示されます。

    ヒント: タブをそれぞれ別のウィンドウで開き、並べて表示しておきましょう。

    注: [アカウントの選択] ダイアログが表示されたら、[別のアカウントを使用] をクリックします。
  3. 必要に応じて、[ラボの詳細] パネルから [ユーザー名] をコピーして [ログイン] ダイアログに貼り付けます。[次へ] をクリックします。

  4. [ラボの詳細] パネルから [パスワード] をコピーして [ようこそ] ダイアログに貼り付けます。[次へ] をクリックします。

    重要: 認証情報は左側のパネルに表示されたものを使用してください。Google Cloud Skills Boost の認証情報は使用しないでください。 注: このラボでご自身の Google Cloud アカウントを使用すると、追加料金が発生する場合があります。
  5. その後次のように進みます。

    • 利用規約に同意してください。
    • 一時的なアカウントなので、復元オプションや 2 要素認証プロセスは設定しないでください。
    • 無料トライアルには登録しないでください。

その後このタブで Cloud Console が開きます。

注: 左上にある [ナビゲーション メニュー] をクリックすると、Google Cloud のプロダクトやサービスのリストが含まれるメニューが表示されます。 ナビゲーション メニュー アイコン

Cloud Shell をアクティブにする

Cloud Shell は、開発ツールと一緒に読み込まれる仮想マシンです。5 GB の永続ホーム ディレクトリが用意されており、Google Cloud で稼働します。Cloud Shell を使用すると、コマンドラインで Google Cloud リソースにアクセスできます。

  1. Google Cloud コンソールの上部にある「Cloud Shell をアクティブにする」アイコン 「Cloud Shell をアクティブにする」アイコン をクリックします。

接続した時点で認証が完了しており、プロジェクトに各自の PROJECT_ID が設定されます。出力には、このセッションの PROJECT_ID を宣言する次の行が含まれています。

Your Cloud Platform project in this session is set to YOUR_PROJECT_ID

gcloud は Google Cloud のコマンドライン ツールです。このツールは、Cloud Shell にプリインストールされており、タブ補完がサポートされています。

  1. (省略可)次のコマンドを使用すると、有効なアカウント名を一覧表示できます。
gcloud auth list
  1. [承認] をクリックします。

  2. 出力は次のようになります。

出力:

ACTIVE: * ACCOUNT: student-01-xxxxxxxxxxxx@qwiklabs.net To set the active account, run: $ gcloud config set account `ACCOUNT`
  1. (省略可)次のコマンドを使用すると、プロジェクト ID を一覧表示できます。
gcloud config list project

出力:

[core] project = <project_ID>

出力例:

[core] project = qwiklabs-gcp-44776a13dea667a6 注: Google Cloud における gcloud ドキュメントの全文については、gcloud CLI の概要ガイドをご覧ください。

タスク 1. Data Catalog API を有効にする

  1. ナビゲーション メニューで [API とサービス] > [ライブラリ] を選択します。

  2. 検索バーに「Data Catalog」と入力し、1 番目の結果を選択します。

  3. 続いて [有効にする] をクリックします。

Data Catalog API を有効にしようとして次のエラーが発生した場合:

API 有効化に失敗したエラー メッセージ

  1. [閉じる] をクリックします。
  2. ブラウザのタブを更新します。
  3. もう一度 [有効にする] をクリックします。

Data Catalog API が正常に有効になるはずです。

Data Catalog API の概要を表示する Google Cloud Data Catalog ウィンドウ

BigQuery コンソールを開く

  1. Google Cloud コンソールで、ナビゲーション メニュー > [BigQuery] を選択します。

[Cloud コンソールの BigQuery へようこそ] メッセージ ボックスが開きます。このメッセージ ボックスには、クイックスタート ガイドとリリースノートへのリンクが表示されます。

  1. [完了] をクリックします。

BigQuery コンソールが開きます。

タスク 2. データセットを作成する

  1. BigQuery の左側のナビゲーション パネルで、プロジェクト ID の横に表示される「アクションを表示」アイコンをクリックし、続いて [データセットを作成] をクリックします。

[アクションを表示] ナビゲーション メニュー。プロジェクトのサブメニュー内で [データセットを作成] オプションがハイライト表示されている。

  1. [データセットを作成する] ダイアログで、次の操作を行います。
  • [データセット ID] に「demo_dataset」と入力します。

  • [データのロケーション] で、[us(米国の複数のリージョン)] を選択します。

[データセットの作成] ページ。[プロジェクト ID]、[データセット ID]、データ ロケーションの各欄が入力されている。

  1. [データセットを作成] をクリックします。
注: Cloud コンソールを使用してデータセットを作成するときに、説明やラベルを追加することはできません。説明とラベルを追加できるのは、データセットが作成された後になります。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 データセットを作成する

タスク 3. New York Taxi 一般公開テーブルをデータセットにコピーする

  1. 左側のパネルで、[+ 追加] > [公開データセット] をクリックします。

  2. 検索バーに「NYC TLC Trips」と入力し、表示される結果をクリックします。

検索結果。[フィルタ条件] メニューの横にある「NYC TLC Trips」タイルがハイライト表示されている。

このラボでは、このデータセットのテーブルを使用します。これには 2018 年のニューヨーク市のタクシー賃走データが含まれています。

  1. 先に進む準備ができたら、サイドパネルの外をクリックし、コンソールに戻ります。

  2. Cloud Shell パネルで次のコマンドを実行して、tlc_yellow_trips_2018 テーブルをコピーします。

bq cp bigquery-public-data:new_york_taxi_trips.tlc_yellow_trips_2018 $(gcloud config get project):demo_dataset.trips

上記のコマンドは、bq コマンドライン ツールを使用して一般公開テーブルをプロジェクトにコピーし、先ほど作成した demo_dataset に配置しました。

  1. BigQuery ブラウザページを更新します。
  1. trips テーブルが demo_dataset にリストされていることを確認します。

固定されたプロジェクトの一覧。trips テーブルは demo_dataset 内のファイルとして表示されている。

次のセクションでは、このテーブルに Data Catalog タグを追加します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 New York Taxi 一般公開テーブルをデータセットにコピーする

タスク 4. Data Catalog タグ テンプレートを作成する

Data Catalog UI でタグ テンプレートを作成します。

  1. ナビゲーション メニューを開き、[Data Catalog] > [タグ テンプレート] を開きます。[+ タグ テンプレートを作成] をクリックします。

[Data Catalog] ペイン。[テンプレートの作成] ボタンとともにタグ テンプレート オプションがハイライト表示されている。

  1. テンプレート フォームに入力して、「Demo Tag Template」を定義します。
  • テンプレートの表示名: Demo Tag Template
  • テンプレート ID: demo_tag_template
  • ロケーション:

次に、4 つのタグ属性(タグ「フィールド」とも呼ばれます)を作成します。

  1. [フィールドを追加] をクリックします。

下記の値を持つ 4 つの属性を作成します。「ソース」属性は必須タグ属性を定義します。属性名には小文字とアンダースコアを使用できます。

  • フィールド表示名: Source of data asset
  • フィールド ID: source_of_data_asset
  • このフィールドを必須にする: オン
  • タイプ: 文字列
  1. [完了] をクリックします。

  2. [フィールドを追加] をクリックして、以下のように入力します。

  • フィールド表示名: Number of rows in data asset
  • フィールド ID: number_of_rows_in_data_asset
  • このフィールドを必須にする: オフ
  • タイプ: 倍精度
  1. [完了] をクリックします。

  2. [フィールドを追加] をクリックして、以下のように入力します。

  • フィールド表示名: Has PII
  • フィールド ID: has_pii
  • このフィールドを必須にする: オフ
  • タイプ: ブール値
  1. [完了] をクリックします。

  2. [フィールドを追加] をクリックして、以下のように入力します。

  • フィールド表示名: PII type
  • フィールド ID: pii_type
  • このフィールドを必須にする: オフ
  • タイプ: 列挙
  1. この属性には次の 3 つの値を追加します。
  • Email
  • Social Security Number
  • なし
  1. 次に [完了] をクリックします。

完成したタグ テンプレート フォームには、次の 4 つのタグ属性がリストされます。

完成したタグ テンプレート フォーム、[公開設定] オプション、[作成] ボタン、[キャンセル] ボタン。

  1. [作成] をクリックします。

Data Catalog の [タグ テンプレート] ページには、テンプレートの詳細と属性が表示されます。

完成した Data Catalog。テンプレートの詳細、フィールド、表示名、タイプが表示されている。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 タグ テンプレートを作成する

タスク 5. 新しく作成したタグをテーブルに追加する

  1. データアセット内のテーブルにタグを付けるには、左上にある Data Catalog アイコンをクリックします。

  2. 左側のペインにある [検索] をクリックし、検索ボックスに「demo_dataset」と入力します。

  3. [検索] をクリックします。

Data Catalog ページ。検索バーに「demo_dataset」という検索キーワードが入力されている。

先ほどデータセットにコピーした demo_dataset と trips テーブルが検索結果に表示されます。

  1. trips」をクリックしてテーブルを開きます。

demo_dataset とその仕様が表示され、trips テーブルがハイライト表示されている。

[エンティティの詳細] ページが開きます。

  1. [タグを付ける] をクリックします。

[エンティティの詳細] ページ。[タグを付ける] ボタンがハイライト表示されている。

  1. [タグを付ける] ダイアログの「タグを付ける対象の選択」の下で trips テーブルを選択し、[OK] をクリックします。

  2. タグ テンプレートに「Demo Tag Template」を選択します。

  3. 次に、タグの各属性に次の値を挿入または選択します。

  • Source of data asset: tlc_yellow_trips_2018
  • PII type: NONE

[タグを付ける] ページ。Demo Tag Template 内では、[Source of data asset] と [PII type] が選択され、値が入力されている。

  1. [保存] をクリックします。

  2. Demo Tag Template」をクリックすると、タグ属性が [エンティティの詳細] ページに表示されます。

[エンティティの詳細] ページ。Demo Tag Template の表示名、データアセットのソース、および PII タイプが表示されている。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 タグをテーブルに添付する

お疲れさまでした

お疲れさまでした。Data Catalog を使用して、タグをテーブルに正しく付ける方法を学習しました。

クエストを完了する

このセルフペース ラボは、「BigQuery for Marketing Analysts」クエストと「Data Catalog Fundamentals」クエストの一部です。クエストとは学習プログラムを構成する一連のラボのことで、完了すると成果が認められて上のようなバッジが贈られます。バッジは公開して、オンライン レジュメやソーシャル メディア アカウントにリンクできます。このラボの修了後、このラボが含まれるクエストに登録すれば、すぐにクレジットを受け取ることができます。受講可能なすべてのクエストについては、Google Cloud Skills Boost カタログをご覧ください。

学習した内容

このラボでは、以下の操作について学習しました。

  • Data Catalog API の有効化
  • データセットの作成
  • データセットへの New York Taxi 一般公開テーブルのコピー
  • タグ テンプレートの作成とテーブルへのタグ添付

次のステップと詳細情報

ラボを終了する

ラボが完了したら、[ラボを終了] をクリックします。ラボのプラットフォームから、アカウントと使用したリソースが削除されます。

ラボの評価を求めるダイアログが表示されたら、星の数を選択してコメントを入力し、[送信] をクリックします。

星の数は、それぞれ次の評価を表します。

  • 星 1 つ = 非常に不満
  • 星 2 つ = 不満
  • 星 3 つ = どちらともいえない
  • 星 4 つ = 満足
  • 星 5 つ = 非常に満足

フィードバックを送信しない場合は、ダイアログ ボックスを閉じてください。

フィードバックやご提案の送信、修正が必要な箇所をご報告いただく際は、[サポート] タブをご利用ください。

Google Cloud トレーニングと認定資格

Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベスト プラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。

マニュアルの最終更新日: 2023 年 9 月 20 日

ラボの最終テスト日: 2023 年 9 月 20 日

Copyright 2024 Google LLC All rights reserved. Google および Google のロゴは Google LLC の商標です。その他すべての企業名および商品名はそれぞれ各社の商標または登録商標です。