menu
arrow_back

Cloud Dataflow でのビッグデータ テキスト処理パイプラインの実行

Cloud Dataflow でのビッグデータ テキスト処理パイプラインの実行

40分 7クレジット

GSP047

Google Cloud セルフペース ラボ

概要

Dataflow は、ETL、バッチ コンピューティング、連続コンピューティングなど、広範なデータ処理パターンの開発と実行を行うことができる、統合型プログラミング モデルのマネージド サービスです。Dataflow はマネージド サービスであるため、リソースをオンデマンドで割り当てることにより、レイテンシを最小限に抑えつつ、リソースの利用効率を高いレベルで維持できます。

Dataflow モデルはバッチ処理とストリーム処理を組み合わせたもので、開発時に正確さ、費用、処理時間の折り合いを気にする必要がありません。このラボでは、テキスト ファイル内での特定の単語の出現回数を調べる Dataflow パイプラインを実行する方法について説明します。

ラボの内容

  • Cloud Dataflow SDK を含む Maven プロジェクトを作成する

  • Google Cloud Platform Console を使用してサンプル パイプラインを実行する

  • 関連する Cloud Storage バケットとその中身を削除する

Join Qwiklabs to read the rest of this lab...and more!

  • Get temporary access to the Google Cloud Console.
  • Over 200 labs from beginner to advanced levels.
  • Bite-sized so you can learn at your own pace.
Join to Start This Lab
スコア

—/10

Create a new Cloud Storage bucket

ステップを実行

/ 5

Run a text processing pipeline on Cloud Dataflow

ステップを実行

/ 5