arrow_back

Dataprep: Qwik Start

Unirse Acceder
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Dataprep: Qwik Start

Lab 1 hora universal_currency_alt 1 crédito show_chart Introductorio
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Este lab se desarrolló junto con nuestro socio Trifacta. Es posible que tu información personal se comparta con Trifacta, el patrocinador del lab, si aceptaste recibir actualizaciones, anuncios y ofertas de productos en el perfil de tu cuenta.

GSP105

Labs de autoaprendizaje de Google Cloud

Descripción general

Cloud Dataprep de Trifacta es un servicio de datos inteligente que permite explorar, limpiar y preparar los datos de manera visual para su análisis. Cloud Dataprep funciona sin servidores y a cualquier escala. No es necesario implementar ni administrar una infraestructura. Prepara los datos de manera sencilla con solo unos clics y sin código.

En este lab, usarás Dataprep para manipular un conjunto de datos. Importarás conjuntos de datos y corregirás datos no coincidentes, además de transformar y unir datos. Si todo esto es nuevo para ti, al final del lab sabrás de qué se trata.

Configuración y requisitos

Antes de hacer clic en el botón Comenzar lab

Lee estas instrucciones. Los labs son cronometrados y no se pueden pausar. El cronómetro, que comienza a funcionar cuando haces clic en Comenzar lab, indica por cuánto tiempo tendrás a tu disposición los recursos de Google Cloud.

Este lab práctico te permitirá realizar las actividades correspondientes en un entorno de nube real, no en uno de simulación o demostración. Para ello, se te proporcionan credenciales temporales nuevas que utilizarás para acceder a Google Cloud durante todo el lab.

Para completar este lab, necesitarás lo siguiente:

  • Acceso a un navegador de Internet estándar (se recomienda el navegador Chrome)
Nota: Usa una ventana de navegador privada o de Incógnito para ejecutar este lab. Así evitarás cualquier conflicto entre tu cuenta personal y la cuenta de estudiante, lo que podría generar cargos adicionales en tu cuenta personal.
  • Tiempo para completar el lab: Recuerda que, una vez que comienzas un lab, no puedes pausarlo.
Nota: Si ya tienes un proyecto o una cuenta personal de Google Cloud, no los uses en este lab para evitar cargos adicionales en tu cuenta.

Cómo iniciar su lab y acceder a la consola de Google Cloud

  1. Haga clic en el botón Comenzar lab. Si debe pagar por el lab, se abrirá una ventana emergente para que seleccione su forma de pago. A la izquierda, se encuentra el panel Detalles del lab que tiene estos elementos:

    • El botón Abrir la consola de Google
    • Tiempo restante
    • Las credenciales temporales que debe usar para el lab
    • Otra información para completar el lab, si es necesaria
  2. Haga clic en Abrir la consola de Google. El lab inicia recursos y abre otra pestaña en la que se muestra la página de acceso.

    Sugerencia: Ordene las pestañas en ventanas separadas, una junto a la otra.

    Nota: Si ve el diálogo Elegir una cuenta, haga clic en Usar otra cuenta.
  3. Si es necesario, copie el nombre de usuario del panel Detalles del lab y péguelo en el cuadro de diálogo Acceder. Haga clic en Siguiente.

  4. Copie la contraseña del panel Detalles del lab y péguela en el cuadro de diálogo de bienvenida. Haga clic en Siguiente.

    Importante: Debe usar las credenciales del panel de la izquierda. No use sus credenciales de Google Cloud Skills Boost. Nota: Usar su propia Cuenta de Google podría generar cargos adicionales.
  5. Haga clic para avanzar por las páginas siguientes:

    • Acepte los términos y condiciones.
    • No agregue opciones de recuperación o autenticación de dos factores (esta es una cuenta temporal).
    • No se registre para obtener pruebas gratuitas.

Después de un momento, se abrirá la consola de Cloud en esta pestaña.

Nota: Para ver el menú con una lista de los productos y servicios de Google Cloud, haga clic en el Menú de navegación que se encuentra en la parte superior izquierda de la pantalla. Ícono del menú de navegación

Tarea 1: Crea un bucket de Cloud Storage en tu proyecto

  1. En la consola de Cloud, elige el menú de navegación(Ícono del menú de navegación) > Cloud Storage > Buckets.

  2. Haz clic en Crear bucket.

  3. En el diálogo Crear un bucket, agrega un nombre de bucket único en el campo Nombre. Deja el resto de los parámetros de configuración con sus valores predeterminados.

Nota: Obtén más información para otorgar nombres a buckets en los lineamientos de Nombres de buckets.
  1. Desmarca la opción Aplicar la prevención de acceso público en este bucket en Elige cómo controlar el acceso a los objetos.

  2. Haz clic en Crear.

Creaste tu bucket. Recuerda su nombre para los pasos posteriores.

Prueba la tarea completada

Haz clic en Revisar mi progreso para verificar la tarea realizada. Si creaste con éxito un bucket de Cloud Storage, verás una puntuación de evaluación.

Crea un bucket de Cloud Storage

Tarea 2: Inicializa Cloud Dataprep

  1. Elige el menú de navegación > Dataprep.
  2. Marca la casilla de verificación para aceptar las Condiciones del Servicio de Google Dataprep. Luego, haz clic en Accept.
  3. Marca la casilla de verificación para autorizar que se comparta la información de tu cuenta con Trifacta. Luego, haz clic en Agree and Continue.
  4. Haz clic en Allow para que Trifacta pueda acceder a los datos del proyecto.
  5. Haz clic en tu nombre de usuario de estudiante para acceder a Cloud Dataprep de Trifacta. Tu nombre de usuario es el que figura en el panel izquierdo del lab.
  6. Haz clic en Allow para que Cloud Dataprep pueda acceder a tu cuenta de lab de Google Cloud.
  7. Marca la casilla de verificación para aceptar las Condiciones del Servicio de Trifacta. Luego, haz clic en Accept.
  8. En la pantalla First time setup, haz clic en Continue para crear la ubicación de almacenamiento predeterminada.

Se abre Dataprep.

Prueba la tarea completada

Haz clic en Revisar mi progreso para verificar la tarea realizada. Si inicializaste con éxito Cloud Dataprep con una ubicación de almacenamiento predeterminada, verás una puntuación de evaluación.

Inicializar Cloud Dataprep

Tarea 3: Crea un flujo

Cloud Dataprep usa un lugar de trabajo de flow para acceder a los conjuntos de datos y manipularlos.

  1. Haz clic en el ícono Flows y en el botón Create. Luego selecciona Blank Flow:

Ícono Flows, botón Create, opción Blank Flow

  1. Haz clic en Untitled Flow y, luego, otorga un nombre y una descripción al flujo. Dado que en este lab se usan datos del 2016 de la Comisión de Elecciones Federales de los Estados Unidos, otorga el nombre “FEC-2016” al flujo y descríbelo como “Comisión de Elecciones Federales de los Estados Unidos de 2016”.
  2. Haz clic en OK.

Se abrirá la página del flujo FEC-2016.

Tarea 4: Importa conjuntos de datos

En esta sección, importarás y agregarás datos al flujo FEC-2016.

  1. Haz clic en Add Datasets y, luego, selecciona el vínculo Import Datasets.

  2. En el panel del menú de la izquierda, elige Cloud Storage para importar conjuntos de datos desde Cloud Storage; luego, haz clic en el lápiz si quieres modificar la ruta de acceso al archivo.

Página de Cloud Storage

  1. Escribe gs://spls/gsp105 en el cuadro de texto Choose a file or folder. Luego, haz clic en Go.

Es posible que debas ampliar la ventana del navegador para ver los botones Go y Cancel.

  1. Haz clic en us-fec/.

  2. Haz clic en el ícono + junto a cn-2016.txt para crear el conjunto de datos que se muestra en el panel de la derecha. Haz clic en el título del conjunto de datos en el panel de la derecha y cámbiale el nombre a “Candidate Master 2016”.

  3. Del mismo modo, agrega el conjunto de datos itcont-2016.txt y cámbiale el nombre a “Campaign Contributions 2016”.

  4. Una vez que ambos conjuntos de datos figuren en el panel de la derecha, haz clic en Import & Add to Flow.

Dos conjuntos de datos en el panel de la derecha

Verás que ambos conjuntos de datos aparecen como un flujo.

Tarea 5: Prepara el archivo de candidatos

  1. De forma predeterminada, se seleccionará el conjunto de datos Candidate Master 2016. En el panel de la derecha, haz clic en Edit Recipe.

Página de conjuntos de datos “Candidate Master 2016”

Se abrirá la página de Transformer “Candidate Master 2016” en la vista de cuadrícula.

Página de Transformer “Candidate Master 2016” en la vista de cuadrícula

En la página de Transformer, compilarás tu receta de transformación y verás los resultados aplicados en el ejemplo. Cuando estés conforme con el resultado, ejecuta el trabajo con tu conjunto de datos.

  1. Cada uno de los encabezados de columna tiene un nombre y un valor que especifican el tipo de datos. Para ver los tipos de datos, haz clic en el ícono de la columna:

column6

  1. Observa también que, si haces clic en el nombre de la columna, se abre el panel Details a la derecha.

  2. En la esquina superior derecha del panel Details, haz clic en la X para cerrar el panel Details.

En los pasos siguientes, explorarás los datos en la vista de cuadrícula y aplicarás los pasos de transformación a tu receta.

  1. En Column5, se proporcionan datos desde 1990 hasta 2064. Amplíala (como lo harías en una hoja de cálculo) para separar cada año. Haz clic para seleccionar el depósito más alto, que representa el año 2016.

column5

Así se crea un paso en el que se seleccionan estos valores.

  1. A la derecha, en la sección Keep rows del panel Suggestions, haz clic en Add para agregar este paso a tu receta.

 Panel Suggestions

El panel Recipe a la derecha ahora incluye el paso siguiente:

Keep rows where(DATE(2016, 1, 1) <= column5) && (column5 < DATE(2018, 1, 1))

  1. En Column6 (State), coloca el cursor sobre la parte no coincidente del encabezado (de color rojo) y haz clic en ella para seleccionar las filas que no coinciden.

column6

Desplázate hacia la parte inferior (resaltada en color rojo), busca los valores no coincidentes y observa que la mayoría de estos registros tienen el valor “P” en column7 y “US” en column6. La falta de coincidencia se debe a que column6 está marcada como “State” (que se indica con el ícono de la bandera), pero existen otros valores (como “US”).

  1. Para corregir esto, haz clic en la X en la parte superior del panel Suggestions con el objetivo de cancelar la transformación. Luego, haz clic en el ícono de marcado, en Column6, y cámbialo a una columna “String”.

column6

Ya no hay valores que no coincidan y el marcador de columna ahora es de color verde.

  1. Filtra solo los candidatos presidenciales, que son aquellos registros que tienen el valor “P” en column7. En el histograma de column7, coloca el cursor sobre los dos depósitos para ver cuál es “H” y cuál es “P”. Haz clic en el depósito “P”.

column7

  1. En el panel Suggestions de la derecha, haz clic en Add para aceptar el paso a la receta.

Cuadro Keep rows

Tarea 6: Deriva el archivo Contributions y únelo al archivo Candidates

En la página Join, puedes agregar tu conjunto de datos actual a otro conjunto de datos o receta según la información que tienen en común.

Deberás limpiar el archivo Contributions antes de unirlo al archivo Candidates.

  1. Haz clic en FEC-2016 (el selector de conjunto de datos), en la parte superior de la página de vista de cuadrícula.

FEC-2016 en la parte superior de la página de vista de cuadrícula

  1. Haz clic para seleccionar Campaign Contributions 2016, que está inhabilitado.

  2. En el panel de la derecha, haz clic en Add > Recipe y, a continuación, en Edit Recipe.

  3. Haz clic en el ícono de receta, en la parte superior derecha de la página, y, a continuación, en Add New Step.

Ícono de receta y botón Add New Step

Quita los delimitadores adicionales del conjunto de datos.

  1. Inserta el comando siguiente en lenguaje Wrangle en el cuadro de búsqueda:
replacepatterns col: * with: '' on: `{start}"|"{end}` global: true

El compilador de transformaciones analiza el comando Wrangle y propaga los campos de transformación Find and Replace.

Compilador de transformaciones

  1. Haz clic en Add para agregar la transformación a la receta.

  2. Agrega otro paso nuevo a la receta. Haz clic en New Step y, luego, escribe “Join” en el cuadro de búsqueda.

Cuadro Search transformations

  1. Haz clic en Join datasets para abrir la página Joins.

  2. Haz clic en “Candidate Master 2016” para unirlo a Campaign Contributions 2016. Luego, haz clic en Accept en la parte inferior derecha.

Fila “Candidate Master 2016”

  1. En el lado derecho, coloca el cursor sobre la sección Join keys y, luego, haz clic en el lápiz (ícono de edición).

Cuadro Join conditions

Dataprep infiere claves comunes. Hay muchos valores comunes que Dataprep sugiere como claves de unión.

  1. En la sección Suggested join keys del panel Add key, haz clic en column2 = column11.

Panel Add Key

  1. Haz clic en Save and Continue.

Las columnas 2 y 11 se abren para revisarlas.

  1. Haz clic en Next. A continuación, marca la casilla de verificación a la izquierda de la etiqueta “Column” para agregar todas las columnas de ambos conjuntos de datos al conjunto de datos unido.

Lista de etiquetas “Column”

  1. Haz clic en Review y, luego, en Add to Recipe para volver a la vista de cuadrícula.

Tarea 7: Resumen de datos

Con el objetivo de generar un resumen útil, agrega, promedia y cuenta las contribuciones de la columna 16, y agrupa a los candidatos por ID, nombre y partido en las columnas 2, 24 y 8, respectivamente.

  1. En la parte superior del panel Recipe a la derecha, haz clic en New Step y allí ingresa la fórmula siguiente en el cuadro de búsqueda Transformation para obtener una vista previa de los datos agregados.
pivot value:sum(column16),average(column16),countif(column16 > 0) group: column2,column24,column8

Puede verse un ejemplo inicial de los datos unidos y agregados, que representan una tabla de resumen de los candidatos presidenciales de EE.UU. y sus métricas de contribución de campaña para el año 2016.

Página de contribución de campaña

  1. Haz clic en Add para abrir una tabla de resumen de los principales candidatos presidenciales de EE.UU. y sus métricas de contribución de campaña para el año 2016.

Tarea 8: Cambia el nombre de las columnas

Para facilitar la interpretación de los datos, cambia el nombre de las columnas.

  1. Agrega uno por uno los pasos de cambio de nombre y de redondeo a la receta con un clic en New Step. Luego, escribe lo siguiente:
rename type: manual mapping: [column24,'Candidate_Name'], [column2,'Candidate_ID'],[column8,'Party_Affiliation'], [sum_column16,'Total_Contribution_Sum'], [average_column16,'Average_Contribution_Sum'], [countif,'Number_of_Contributions']
  1. A continuación, haz clic en Add.

  2. Agrega este último New Step para redondear el monto promedio de la contribución:

set col: Average_Contribution_Sum value: round(Average_Contribution_Sum)
  1. A continuación, haz clic en Add.

Los resultados deberían ser similares al siguiente:

Tabla de resultados con columnas para Candidate_Id, Candidate_Name, Part_Affiliation y Total_Contribution_Sum

¡Felicitaciones!

Usaste Dataprep con el objetivo de agregar un conjunto de datos y creaste recetas para derivar resultados significativos a partir de ellos.

Próximos pasos/Más información

Este lab forma parte de una serie llamada Qwik Starts. Estos labs están diseñados para ofrecerte una visión general de las numerosas funciones disponibles de Google Cloud. Busca “Qwik Starts” en el catálogo de labs para elegir el próximo lab que desees completar.

Capacitación y certificación de Google Cloud

Recibe la formación que necesitas para aprovechar al máximo las tecnologías de Google Cloud. Nuestras clases incluyen habilidades técnicas y recomendaciones para ayudarte a avanzar rápidamente y a seguir aprendiendo. Para que puedas realizar nuestros cursos cuando más te convenga, ofrecemos distintos tipos de capacitación de nivel básico a avanzado: a pedido, presenciales y virtuales. Las certificaciones te ayudan a validar y demostrar tus habilidades y tu conocimiento técnico respecto a las tecnologías de Google Cloud.

Actualización más reciente del manual: 15 de septiembre de 2023

Prueba más reciente del lab: 15 de septiembre de 2023

Copyright 2024 Google LLC. All rights reserved. Google y el logotipo de Google son marcas de Google LLC. Los demás nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que estén asociados.