Test and share your knowledge with our community!

done

Get access to over 700 hands-on labs, skill badges, and courses

Criar e executar os conectores MySQL, PostgreSQL e SQLServer para o Data Catalog

Lab 1 hora 15 minutos universal_currency_alt 1 crédito show_chart Introdutório

GSP814
Visão geral
Objetivos
Configuração e requisitos
Tarefa 1. Ativar a API Data Catalog
Tarefa 2. SQL Server para Dataplex
Tarefa 3. PostgreSQL para Dataplex
Tarefa 4. MySQL para Dataplex
Parabéns!

Test and share your knowledge with our community!

done

Get access to over 700 hands-on labs, skill badges, and courses

GSP814

Laboratórios autoguiados do Google Cloud

Visão geral

O Dataplex é a malha de dados inteligente que as organizações usam para conhecer, gerenciar, monitorar e supervisionar em um só lugar os dados em data lakes, data warehouses e data marts permitindo análises em escala.

O Data Catalog é um serviço de metadados totalmente gerenciado e escalonável no Dataplex. Ele tem uma interface de pesquisa simples e fácil de usar para descoberta de dados, um sistema de catalogação flexível e avançado para capturar metadados técnicos e comerciais, além de uma base sólida de segurança e compliance integrada ao Cloud Data Loss Prevention (DLP) e ao Cloud Identity and Access Management (IAM).

Como usar o Data Catalog

Com o Data Catalog no Dataplex, é possível pesquisar ativos a que você tem acesso e marcar ativos de dados para dar suporte à descoberta e ao controle de acesso. As tags permitem anexar campos de metadados personalizados a ativos de dados específicos para fácil identificação e recuperação (por exemplo, marcar que determinados ativos têm dados protegidos ou sensíveis). Também é possível criar modelos de tags reutilizáveis para atribuição rápida das mesmas tags a diferentes ativos de dados.

Objetivos

Neste laboratório, você vai aprender o seguinte:

Ativar a API Data Catalog.
Configurar os conectores do Dataplex para SQL Server, PostgreSQL e MySQL.
Pesquisar as entradas do SQL Server, do PostgreSQL e do MySQL no Data Catalog do Dataplex.

Pré-requisitos

Observação: antes de iniciar este laboratório, saia da sua conta pessoal ou corporativa do Gmail ou faça o laboratório usando a navegação anônima. Isso evita problemas de login durante o laboratório.

Configuração e requisitos

Antes de clicar no botão Start Lab

Leia estas instruções. Os laboratórios são cronometrados e não podem ser pausados. O timer é iniciado quando você clica em Começar o laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.

Este laboratório prático permite que você realize as atividades em um ambiente real de nuvem, não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.

Confira os requisitos para concluir o laboratório:

Acesso a um navegador de Internet padrão (recomendamos o Chrome).

Observação: para executar este laboratório, use o modo de navegação anônima ou uma janela anônima do navegador. Isso evita conflitos entre sua conta pessoal e a conta de estudante, o que poderia causar cobranças extras na sua conta pessoal.

Tempo para concluir o laboratório---não se esqueça: depois de começar, não será possível pausar o laboratório.

Observação: não use seu projeto ou conta do Google Cloud neste laboratório para evitar cobranças extras na sua conta.

Como iniciar seu laboratório e fazer login no console do Google Cloud

Clique no botão Começar o laboratório. Se for preciso pagar, você verá um pop-up para selecionar a forma de pagamento. No painel Detalhes do laboratório à esquerda, você verá o seguinte:
- O botão Abrir Console do Cloud
- Tempo restante
- As credenciais temporárias que você vai usar neste laboratório
- Outras informações se forem necessárias
Clique em Abrir Console do Google. O laboratório ativa recursos e depois abre outra guia com a página Fazer login.

Dica: coloque as guias em janelas separadas lado a lado.
Observação: se aparecer a caixa de diálogo Escolher uma conta, clique em Usar outra conta.
Caso seja preciso, copie o Nome de usuário no painel Detalhes do laboratório e cole esse nome na caixa de diálogo Fazer login. Clique em Avançar.
Copie a Senha no painel Detalhes do laboratório e a cole na caixa de diálogo Olá. Clique em Avançar.
Importante: você precisa usar as credenciais do painel à esquerda. Não use suas credenciais do Google Cloud Ensina. Observação: se você usar sua própria conta do Google Cloud neste laboratório, é possível que receba cobranças adicionais.
Acesse as próximas páginas:
- Aceite os Termos e Condições.
- Não adicione opções de recuperação nem autenticação de dois fatores (porque essa é uma conta temporária).
- Não se inscreva em testes gratuitos.

Depois de alguns instantes, o console do GCP vai ser aberto nesta guia.

Observação: para ver uma lista dos produtos e serviços do Google Cloud, clique no Menu de navegação no canto superior esquerdo. Ícone do menu de navegação

Ativar o Cloud Shell

O Cloud Shell é uma máquina virtual com várias ferramentas de desenvolvimento. Ele tem um diretório principal permanente de 5 GB e é executado no Google Cloud. O Cloud Shell oferece acesso de linha de comando aos recursos do Google Cloud.

Clique em Ativar o Cloud Shell na parte de cima do console do Google Cloud.

Depois de se conectar, vai notar que sua conta já está autenticada, e que o projeto está configurado com seu PROJECT_ID. A saída contém uma linha que declara o projeto PROJECT_ID para esta sessão:

Your Cloud Platform project in this session is set to YOUR_PROJECT_ID

gcloud é a ferramenta de linha de comando do Google Cloud. Ela vem pré-instalada no Cloud Shell e aceita preenchimento com tabulação.

(Opcional) É possível listar o nome da conta ativa usando este comando:

gcloud auth list

Clique em Autorizar.
A saída será parecida com esta:

Saída:

ACTIVE: * ACCOUNT: student-01-xxxxxxxxxxxx@qwiklabs.net To set the active account, run: $ gcloud config set account `ACCOUNT`

(Opcional) É possível listar o ID do projeto usando este comando:

gcloud config list project

Saída:

[core] project = <project_ID>

Exemplo de saída:

[core] project = qwiklabs-gcp-44776a13dea667a6

Observação: para conferir a documentação completa da gcloud, acesse o guia com informações gerais sobre a gcloud CLI no Google Cloud.

Tarefa 1. Ativar a API Data Catalog

Abra o menu de navegação e selecione APIs e serviços > Biblioteca.
Na barra de pesquisa insira "Data Catalog" e selecione Google Cloud Data Catalog API.
Depois clique em Ativar.

Observação: se você encontrar o erro "Falha ao realizar a ação" após tentar ativar a API Data Catalog, clique em Fechar, atualize a guia do navegador e clique de novo em Ativar.

Clique em Verificar meu progresso para conferir o objetivo. Ativar a API Data Catalog

Tarefa 2. SQL Server para Dataplex

Primeiro configure seu ambiente.

Clique no ícone Ativar o Cloud Shell no canto superior direito do console para abrir uma nova sessão do Cloud Shell:
Execute o seguinte comando para definir o ID do projeto como uma variável de ambiente:

export PROJECT_ID=$(gcloud config get-value project)

Criar o banco de dados do SQL Server

Na sessão do Cloud Shell, execute o seguinte comando para fazer o download dos scripts para criar e preencher a instância do SQL Server:

gsutil cp gs://spls/gsp814/cloudsql-sqlserver-tooling.zip . unzip cloudsql-sqlserver-tooling.zip

Mude o diretório de trabalho atual para o diretório salvo:

cd cloudsql-sqlserver-tooling/infrastructure/terraform

Execute o seguinte comando para alterar de us-central1 para a região padrão atribuída a você:

export REGION={{{project_0.default_region|REGION}}} sed -i "s/us-central1/$REGION/g" variables.tf

Agora execute o script init-db.sh.

cd ~/cloudsql-sqlserver-tooling bash init-db.sh

Isso cria e preenche a instância do SQL Server com um esquema aleatório.

Observação: se Error: Failed to load "tfplan" as a plan file for exibido, execute de novo o script init-db.

Esse procedimento pode levar de 5 a 10 minutos para ser concluído. Será possível continuar quando receber a seguinte resposta:

CREATE TABLE factory_warehouse15797.employees53b82dc5 ( school80581 REAL, reason91250 DATETIME, randomdata32431 BINARY, phone_number52754 REAL, person66471 REAL, credit_card75527 DATETIME ) COMPLETED

Clique em Verificar meu progresso para conferir o objetivo. Criar o banco de dados do SQL Server

Configurar a conta de serviço

Execute o seguinte comando para criar uma conta de serviço:

gcloud iam service-accounts create sqlserver2dc-credentials \ --display-name "Service Account for SQL Server to Data Catalog connector" \ --project $PROJECT_ID

Crie e faça o download da chave da conta de serviço.

gcloud iam service-accounts keys create "sqlserver2dc-credentials.json" \ --iam-account "sqlserver2dc-credentials@$PROJECT_ID.iam.gserviceaccount.com"

Adicione o papel de administrador do Data Catalog à conta de serviço:

gcloud projects add-iam-policy-binding $PROJECT_ID \ --member "serviceAccount:sqlserver2dc-credentials@$PROJECT_ID.iam.gserviceaccount.com" \ --quiet \ --project $PROJECT_ID \ --role "roles/datacatalog.admin"

Clique em Verificar meu progresso para conferir o objetivo. Configurar a conta de serviço para SQLServer

Executar o conector do SQL Server para o Dataplex

Para criar o conector do SQL Server, acesse este repositório do GitHub.

Para facilitar, você usará uma imagem Docker.

As variáveis necessárias foram geradas pela configuração do Terraform.

Migre os diretórios para o local dos scripts do Terraform:

cd infrastructure/terraform/

Copie as seguintes variáveis de ambiente:

public_ip_address=$(terraform output -raw public_ip_address) username=$(terraform output -raw username) password=$(terraform output -raw password) database=$(terraform output -raw db_name)

Retorne ao diretório raiz do código de exemplo:

cd ~/cloudsql-sqlserver-tooling

Use o seguinte comando para executar o conector:

docker run --rm --tty -v \ "$PWD":/data mesmacosta/sqlserver2datacatalog:stable \ --datacatalog-project-id=$PROJECT_ID \ --datacatalog-location-id=$REGION \ --sqlserver-host=$public_ip_address \ --sqlserver-user=$username \ --sqlserver-pass=$password \ --sqlserver-database=$database

Logo depois, você receberá a seguinte resposta:

============End sqlserver-to-datacatalog============

Clique em Verificar meu progresso para conferir o objetivo. Executar o conector do SQL Server para o Data Catalog

Pesquisar as entradas do SQL Server no Dataplex

Após o script ser concluído, abra o menu de navegação e selecione Dataplex na lista de serviços.
Na página Dataplex, clique em Modelos de tag.

Vai aparecer uma lista de modelos de tag do sqlserver.

Em seguida, selecione Grupos de entradas.

O grupo de entradas sqlserver deverá aparecer na listaGrupos de entrada:

Clique no grupo de entradas sqlserver. Seu console mostrará o seguinte:

Detalhes do grupo de entrada

Esse é a vantagem real de um grupo de entradas: as entradas do sqlserver vão aparecer na interface.

Clique em uma das entradas de warehouse. Confira os detalhes e as tags da entrada personalizada.

Essa é a vantagem real do conector: ele permite pesquisar os metadados no Dataplex.

Limpar

Para excluir os recursos criados, execute o seguinte comando, que removerá os metadados do SQL Server:

./cleanup-db.sh

Execute o contêiner mais limpo:

docker run --rm --tty -v \ "$PWD":/data mesmacosta/sqlserver-datacatalog-cleaner:stable \ --datacatalog-project-ids=$PROJECT_ID \ --rdbms-type=sqlserver \ --table-container-type=schema

Execute o seguinte comando para excluir o banco de dados do SQL Server:

./delete-db.sh

No menu de navegação, clique em Dataplex.
Pesquise sqlserver.

Os modelos de tag do SQL Server não vão aparecer mais nos resultados:

Verifique se a seguinte resposta aparece no Cloud Shell antes de continuar:

Cloud SQL Instance deleted COMPLETED

Agora você aprenderá a fazer o mesmo com uma instância do PostgreSQL.

Tarefa 3. PostgreSQL para Dataplex

Criar o banco de dados do PostgreSQL

Execute o seguinte comando no Cloud Shell para retornar ao diretório principal:

Execute este comando para clonar o repositório do GitHub:

gsutil cp gs://spls/gsp814/cloudsql-postgresql-tooling.zip . unzip cloudsql-postgresql-tooling.zip

Mude o diretório de trabalho para o do repositório clonado:

cd cloudsql-postgresql-tooling/infrastructure/terraform

Execute o seguinte comando para alterar de us-central1 para a região padrão atribuída a você:

export REGION={{{project_0.default_region|REGION}}} sed -i "s/us-central1/$REGION/g" variables.tf

Execute o script init-db.sh:

cd ~/cloudsql-postgresql-tooling bash init-db.sh

Isso cria e preenche a instância do PostgreSQL com um esquema aleatório. Esse processo pode levar de 10 a 15 minutos para ser concluído.

Observação: se Error: Failed to load "tfplan" as a plan file for exibido, execute de novo o script init-db.

Logo depois, você receberá a seguinte resposta:

CREATE TABLE factory_warehouse69945.home17e97c57 ( house57588 DATE, paragraph64180 SMALLINT, ip_address61569 JSONB, date_time44962 REAL, food19478 JSONB, state8925 VARCHAR(25), cpf75444 REAL, date_time96090 SMALLINT, reason7955 CHAR(5), phone_number96292 INT, size97593 DATE, date_time609 CHAR(5), location70431 DATE ) COMPLETED

Clique em Verificar meu progresso para conferir o objetivo. Criar o banco de dados do PostgreSQL

Configurar a conta de serviço

Crie uma conta de serviço:

gcloud iam service-accounts create postgresql2dc-credentials \ --display-name "Service Account for PostgreSQL to Data Catalog connector" \ --project $PROJECT_ID

Crie e faça o download da chave da conta de serviço:

gcloud iam service-accounts keys create "postgresql2dc-credentials.json" \ --iam-account "postgresql2dc-credentials@$PROJECT_ID.iam.gserviceaccount.com"

Agora adicione o papel de administrador do Data Catalog à conta de serviço:

gcloud projects add-iam-policy-binding $PROJECT_ID \ --member "serviceAccount:postgresql2dc-credentials@$PROJECT_ID.iam.gserviceaccount.com" \ --quiet \ --project $PROJECT_ID \ --role "roles/datacatalog.admin"

Clique em Verificar meu progresso para conferir o objetivo. Criar uma conta de serviço para o PostgreSQL

Executar o conector do PostgreSQL para o Dataplex

Acesse este repositório do GitHub para criar o conector PostgreSQL por conta própria.

Para facilitar, você usará uma imagem Docker.

As variáveis necessárias foram geradas pela configuração do Terraform.

Migre os diretórios para o local dos scripts do Terraform:

cd infrastructure/terraform/

Copie as seguintes variáveis de ambiente:

public_ip_address=$(terraform output -raw public_ip_address) username=$(terraform output -raw username) password=$(terraform output -raw password) database=$(terraform output -raw db_name)

Retorne ao diretório raiz do código de exemplo:

cd ~/cloudsql-postgresql-tooling

Execute o conector:

docker run --rm --tty -v \ "$PWD":/data mesmacosta/postgresql2datacatalog:stable \ --datacatalog-project-id=$PROJECT_ID \ --datacatalog-location-id=$REGION \ --postgresql-host=$public_ip_address \ --postgresql-user=$username \ --postgresql-pass=$password \ --postgresql-database=$database

Logo depois, você receberá a seguinte resposta:

============End postgresql-to-datacatalog============

Clique em Verificar meu progresso para conferir o objetivo. Executar o conector PostgreSQL para o Data Catalog

Confira os resultados do script

Verifique se você está na página inicial do Dataplex.
Clique em Modelos de tag.

Os seguintes modelos de tag postgresql serão vão aparecer:

Tabela do Postgresql – Esquema do Postgresql e metadados – Metadados

Clique em Grupos de entrada.

O seguinte grupo de entradas postgresql vai aparecer:

postgresql

Clique no grupo de entradas postgresql. Seu console mostrará o seguinte:

Entradas do grupo postgresql

Essa é a vantagem real de um grupo de entradas: as entradas do postgresql são exibidas na interface.

Clique em uma das entradas de warehouse. Confira os detalhes e as tags da entrada personalizada:

Página com guias de detalhes de entrada personalizada

Essa é a vantagem real do conector: ele permite pesquisar os metadados no Dataplex.

Limpar

Para excluir os recursos criados, execute o seguinte comando, que remove os metadados do PostgreSQL:

./cleanup-db.sh

Execute o contêiner mais limpo:

docker run --rm --tty -v \ "$PWD":/data mesmacosta/postgresql-datacatalog-cleaner:stable \ --datacatalog-project-ids=$PROJECT_ID \ --rdbms-type=postgresql \ --table-container-type=schema

Por último, exclua o banco de dados do PostgreSQL:

./delete-db.sh

No menu de navegação, clique em Dataplex.
Pesquise PostgreSQL. Os modelos de tag do PostgreSQL não vão estar mais nos resultados:

Resultados da pesquisa: nenhuma linha a ser exibida

Verifique se a seguinte resposta aparece no Cloud Shell antes de continuar:

Cloud SQL Instance deleted COMPLETED

Agora você aprenderá a fazer o mesmo com uma instância do MySQL.

Tarefa 4. MySQL para Dataplex

Criar o banco de dados do MySQL

Execute o seguinte comando no Cloud Shell para retornar ao diretório principal:

Execute o seguinte comando para fazer o download dos scripts para criar e preencher a instância do MySQL:

gsutil cp gs://spls/gsp814/cloudsql-mysql-tooling.zip . unzip cloudsql-mysql-tooling.zip

Mude o diretório de trabalho para o do repositório clonado:

cd cloudsql-mysql-tooling/infrastructure/terraform

Execute o seguinte comando para alterar de us-central1 para a região padrão atribuída a você:

export REGION={{{project_0.default_region|REGION}}} sed -i "s/us-central1/$REGION/g" variables.tf

Execute o script init-db.sh:

cd ~/cloudsql-mysql-tooling bash init-db.sh

Isso cria e preenche a instância do MySQL com um esquema aleatório. Depois de alguns minutos, você receberá a seguinte resposta:

CREATE TABLE factory_warehouse14342.persons88a5ebc4 ( address9634 TEXT, cpf12934 FLOAT, food88799 BOOL, food4761 LONGTEXT, credit_card44049 FLOAT, city8417 TINYINT, name76076 DATETIME, address19458 TIME, reason49953 DATETIME ) COMPLETED

Observação: se a mensagem Error: Failed to load "tfplan" as a plan file for exibida, execute de novo o script init-db.

Clique em Verificar meu progresso para conferir o objetivo. Criar o banco de dados do MySQL

Configurar a conta de serviço

Execute o seguinte comando para criar uma conta de serviço:

gcloud iam service-accounts create mysql2dc-credentials \ --display-name "Service Account for MySQL to Data Catalog connector" \ --project $PROJECT_ID

Crie e faça o download da chave da conta de serviço:

gcloud iam service-accounts keys create "mysql2dc-credentials.json" \ --iam-account "mysql2dc-credentials@$PROJECT_ID.iam.gserviceaccount.com"

Agora adicione o papel de administrador do Data Catalog à conta de serviço:

gcloud projects add-iam-policy-binding $PROJECT_ID \ --member "serviceAccount:mysql2dc-credentials@$PROJECT_ID.iam.gserviceaccount.com" \ --quiet \ --project $PROJECT_ID \ --role "roles/datacatalog.admin"

Clique em Verificar meu progresso para conferir o objetivo. Criar uma conta de serviço para o MySQL

Executar o conector do MySQL para o Dataplex

Acesse este repositório do GitHub para criar o conector MySQL por conta própria.

Para facilitar a utilização, este laboratório usa uma imagem Docker.

As variáveis necessárias foram geradas pela configuração do Terraform.

Migre os diretórios para o local dos scripts do Terraform:

cd infrastructure/terraform/

Copie as seguintes variáveis de ambiente:

public_ip_address=$(terraform output -raw public_ip_address) username=$(terraform output -raw username) password=$(terraform output -raw password) database=$(terraform output -raw db_name)

Retorne ao diretório raiz do código de exemplo:

cd ~/cloudsql-mysql-tooling

Execute o conector:

docker run --rm --tty -v \ "$PWD":/data mesmacosta/mysql2datacatalog:stable \ --datacatalog-project-id=$PROJECT_ID \ --datacatalog-location-id=$REGION \ --mysql-host=$public_ip_address \ --mysql-user=$username \ --mysql-pass=$password \ --mysql-database=$database

Logo depois, você receberá a seguinte resposta:

============End mysql-to-datacatalog============

Clique em Verificar meu progresso para conferir o objetivo. Executar o conector MySQL para o Data Catalog

Confira os resultados do script

Verifique se você está na página inicial do Dataplex.
Clique em Modelos de tag.

Os seguintes modelos de tag do mysql vão aparecer:

Tabela do Mysql – Metadados e banco de dados Mysql – Metadados

Clique em Grupos de entrada.

O seguinte grupo de entradas mysql vai aparecer:

mysql

Clique no grupo de entradas mysql. Seu console mostrará o seguinte:

entradas do grupo mysql

Essa é a vantagem real de um grupo de entradas: todas as entradas do MySQL vão aparecer na interface.

Clique em uma das entradas de warehouse. Confira os detalhes e as tags da entrada personalizada.

Essa é a vantagem real do conector: ele permite pesquisar os metadados no Dataplex.

Limpar

Para excluir os recursos criados, execute o seguinte comando, que remove os metadados do MySQL:

./cleanup-db.sh

Execute o contêiner mais limpo:

docker run --rm --tty -v \ "$PWD":/data mesmacosta/mysql-datacatalog-cleaner:stable \ --datacatalog-project-ids=$PROJECT_ID \ --rdbms-type=mysql \ --table-container-type=database

Por último, exclua o banco de dados do PostgreSQL:

./delete-db.sh

No menu de navegação, clique em Dataplex.
Pesquise MySQL. Os modelos de tag do MySQL não vão aparecer mais nos resultados.

Verifique se a seguinte resposta aparece no Cloud Shell antes de continuar:

Cloud SQL Instance deleted COMPLETED

Parabéns!

Parabéns! Neste laboratório, você aprendeu como criar e executar os conectores MySQL, PostgreSQL e SQL Server para o Dataplex. Também aprendeu a pesquisar as entradas do SQL Server, PostgreSQL e MySQL no Data Catalog dentro do Dataplex. Com esse conhecimento, é possível criar seus conectores.

Conclusão do curso

Este laboratório autoguiado faz parte dos cursos BigQuery for Data Warehousing, BigQuery for Marketing Analysts e Data Catalog Fundamentals. Confira o catálogo do Google Cloud Ensina para acessar todos os cursos disponíveis.

Próximas etapas/Saiba mais

Treinamento e certificação do Google Cloud

Esses treinamentos ajudam você a aproveitar as tecnologias do Google Cloud ao máximo. Nossas aulas incluem habilidades técnicas e práticas recomendadas para ajudar você a alcançar rapidamente o nível esperado e continuar sua jornada de aprendizado. Oferecemos treinamentos que vão do nível básico ao avançado, com opções de aulas virtuais, sob demanda e por meio de transmissões ao vivo para que você possa encaixá-las na correria do seu dia a dia. As certificações validam sua experiência e comprovam suas habilidades com as tecnologias do Google Cloud.

Manual atualizado em 17 de outubro de 2023

Laboratório testado em 17 de outubro de 2023

Copyright 2024 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.