menu
arrow_back

Pipeline zur Big-Data-Textverarbeitung in Cloud Dataflow ausführen

Pipeline zur Big-Data-Textverarbeitung in Cloud Dataflow ausführen

Minutes 7 Credits

GSP047

Google Cloud-Labs zum selbstbestimmten Lernen

Überblick

Dataflow ist ein einheitliches Programmiermodell und ein verwalteter Dienst für die Entwicklung und Ausführung verschiedener Datenverarbeitungsmuster wie ETL, Batchberechnung und kontinuierliche Berechnung. Da es sich um einen verwalteten Dienst handelt, können Ressourcen auf Abruf zugewiesen werden. Dies verringert die Latenz und sorgt gleichzeitig für eine anhaltend hohe Auslastungseffizienz.

Im Dataflow-Modell werden die Batch- und Streamverarbeitung kombiniert, damit Entwickler in Sachen Qualität, Kosten und Verarbeitungszeit keine Kompromisse eingehen müssen. In diesem Lab lernen Sie, wie Sie mit einer Dataflow-Pipeline herausfinden, wie häufig einzelne Wörter in einer Textdatei vorkommen.

Lerninhalte

  • Maven-Projekt mit dem Cloud Dataflow SDK erstellen

  • Beispiel-Pipeline mithilfe der Google Cloud Platform Console ausführen

  • Zugehörigen Cloud Storage-Bucket und seine Inhalte löschen

Join Qwiklabs to read the rest of this lab...and more!

  • Get temporary access to the Google Cloud Console.
  • Over 200 labs from beginner to advanced levels.
  • Bite-sized so you can learn at your own pace.
Join to Start This Lab
Score

—/10

Create a new Cloud Storage bucket

Schritt durchführen

/ 5

Run a text processing pipeline on Cloud Dataflow

Schritt durchführen

/ 5