arrow_back

Google Cloud Speech API: Qwik Start

Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Google Cloud Speech API: Qwik Start

Lab 30 godz. universal_currency_alt 1 punkt show_chart Wprowadzające
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

GSP119

Moduły Google Cloud do samodzielnego ukończenia

Opis

Interfejs Google Cloud Speech API umożliwia łatwą integrację opracowanych przez Google technologii rozpoznawania mowy z aplikacjami deweloperskimi. Interfejs Speech API pozwala na wysyłanie nagrań głosowych i otrzymywanie ich transkrypcji wygenerowanych przez usługę. Aby dowiedzieć się więcej, przeczytaj opis Google Cloud Speech API.

Czego się nauczysz

W tym module wykonasz te czynności, aby skonfigurować i używać Speech API:

  • utworzysz klucz interfejsu API;
  • utworzysz żądanie do interfejsu Speech API;
  • wywołasz żądanie do interfejsu Speech API.

Konfiguracja i wymagania

Zanim klikniesz przycisk Rozpocznij moduł

Zapoznaj się z tymi instrukcjami. Moduły mają limit czasowy i nie można ich zatrzymać. Gdy klikniesz Rozpocznij moduł, na liczniku wyświetli się informacja o tym, na jak długo udostępniamy Ci zasoby Google Cloud.

W tym praktycznym module możesz spróbować swoich sił w wykonywaniu opisywanych działań w prawdziwym środowisku chmury, a nie w jego symulacji lub wersji demonstracyjnej. Otrzymasz nowe, tymczasowe dane logowania, dzięki którym zalogujesz się i uzyskasz dostęp do Google Cloud na czas trwania modułu.

Do ukończenia modułu potrzebne będą:

  • dostęp do standardowej przeglądarki internetowej (zalecamy korzystanie z przeglądarki Chrome).
Uwaga: uruchom ten moduł w oknie incognito lub przeglądania prywatnego. Dzięki temu unikniesz konfliktu między swoim kontem osobistym a kontem do nauki, co mogłoby spowodować naliczanie oddatkowych opłat na koncie osobistym.
  • Odpowiednia ilość czasu na ukończenie modułu – pamiętaj, że gdy rozpoczniesz, nie możesz go wstrzymać.
Uwaga: jeśli masz już osobiste konto lub projekt w Google Cloud, nie używaj go w tym module, aby uniknąć naliczania opłat na koncie.

Po rozpoczęciu modułu zalogujesz się w konsoli Google Cloud.

Rozpoczynanie modułu i logowanie się w konsoli Google Cloud

  1. Kliknij przycisk Rozpocznij moduł. Jeśli moduł jest odpłatny, otworzy się wyskakujące okienko, w którym możesz wybrać formę płatności. Po lewej stronie znajduje się panel Szczegóły modułu z następującymi elementami:

    • przyciskiem Otwórz konsolę Google;
    • czasem, który Ci pozostał;
    • tymczasowymi danymi logowania, których musisz użyć w tym module;
    • innymi informacjami potrzebnymi do ukończenia modułu.
  2. Kliknij Otwórz konsolę Google. Moduł uruchomi zasoby, po czym otworzy nową kartę ze stroną logowania.

    Wskazówka: otwórz karty obok siebie w osobnych oknach.

    Uwaga: jeśli pojawi się okno Wybierz konto, kliknij Użyj innego konta.
  3. W razie potrzeby skopiuj nazwę użytkownika z panelu Szczegóły modułu i wklej ją w oknie logowania. Kliknij Dalej.

  4. Skopiuj hasło z panelu Szczegóły modułu i wklej je w oknie powitania. Kliknij Dalej.

    Ważne: musisz użyć danych logowania z panelu po lewej stronie, a nie danych logowania Google Cloud Skills Boost. Uwaga: korzystanie z własnego konta Google Cloud w tym module może wiązać się z dodatkowymi opłatami.
  5. Na kolejnych stronach wykonaj następujące czynności:

    • Zaakceptuj Warunki korzystania z usługi.
    • Nie dodawaj opcji odzyskiwania ani uwierzytelniania dwuskładnikowego (ponieważ konto ma charakter tymczasowy).
    • Nie rejestruj się w bezpłatnych wersjach próbnych.

Poczekaj, aż na karcie otworzy się konsola Google Cloud.

Uwaga: aby wyświetlić menu z listą produktów i usług Google Cloud Console, w lewym górnym rogu kliknij menu nawigacyjne. Ikona menu nawigacyjnego

Zadanie 1. Tworzenie klucza interfejsu API

Ponieważ w celu wysłania żądania do Speech API będziesz korzystać z biblioteki curl, musisz wygenerować klucz interfejsu API, aby przekazać URL żądania.

  1. Aby utworzyć klucz interfejsu API, kliknij Menu nawigacyjne > Interfejsy API i usługi > Dane logowania.

  2. Następnie kliknij Utwórz dane logowania.

  3. Z menu wybierz Klucz interfejsu API.

  4. Skopiuj wygenerowany klucz i kliknij Zamknij.

Kliknij Sprawdź postępy, aby zobaczyć, jak Ci poszło.

Tworzenie klucza interfejsu API

Po utworzeniu klucza interfejsu API należy zapisać go jako zmienną środowiskową, dzięki czemu unikniesz wprowadzania jego wartości przy każdym żądaniu.

Aby wykonać kolejne kroki, połącz się za pomocą SSH z udostępnioną instancją.

  1. Menu nawigacyjnym wybierz Compute Engine. Skorzystaj z instancji linux-instance podanej w oknie Instancje maszyn wirtualnych.

  2. Kliknij przycisk SSH w linijce z instancją linux-instance. Czynność ta spowoduje przejście do interaktywnej powłoki.

  3. W wierszu poleceń wpisz następującą wartość, zastępując <YOUR_API_KEY> (TWÓJ_KLUCZ API) skopiowanym uprzednio kluczem:

export API_KEY=<YOUR_API_KEY>

Pozostaniesz w tej sesji SSH do samego końca modułu.

Zadanie 2. Tworzenie żądania do interfejsu Speech API

Uwaga: będziesz korzystać z gotowego nagrania dostępnego w Google Cloud Storage: gs://cloud-samples-tests/speech/brooklyn.flac. Odsłuchaj plik audio, zanim prześlesz ten plik do Speech API
  1. Utwórz plik request.json w wierszu poleceń SSH. W celu utworzenia żądania do Speech API użyjesz:
touch request.json
  1. Otwórz request.json:
nano request.json Uwaga: możesz skorzystać z preferowanego edytora wiersza poleceń (nano, vim, emacs) lub gcloud. W tym module przedstawiamy instrukcje do nano.
  1. Dodaj następujący kod do pliku request.json, używając wartości identyfikatora uri pliku dźwiękowego RAW:
{ "config": { "encoding":"FLAC", "languageCode": "en-US" }, "audio": { "uri":"gs://cloud-samples-tests/speech/brooklyn.flac" } }
  1. Naciśnij control + x, a potem y, by zapisać, i naciśnij Enter, by zamknąć plik request.json.

W treści żądania znajdują się obiekty config oraz audio.

Dzięki obiektowi config informujesz Speech API o tym, jak ma przetworzyć żądanie. W trakcie przesyłania pliku parametr encoding przekazuje interfejsowi API dane dotyczące tego, jakiego rodzaju kodowania audio używasz. FLAC to typ kodowania dla plików RAW. Więcej informacji o typach kodowania uzyskasz w przewodniku RecognitionConfig.

Istnieją też inne parametry, które można dodać do obiektu config, ale parametr encoding jest jedynym wymaganym.

W obiekcie audio interfejsowi API przekazuje się identyfikator URI pliku audio w Cloud Storage.

Kliknij Sprawdź postępy, aby zobaczyć, jak Ci poszło.

Tworzenie żądania do interfejsu Speech API

Teraz możesz przejść do wywoływania interfejsu Speech API.

Zadanie 3. Wywoływanie interfejsu Speech API

  1. Do interfejsu Speech API przekaż treść żądania wraz ze zmienną środowiskową klucza interfejsu API oraz następującym poleceniem curl (umieść wszystko w jednym wierszu poleceń):
curl -s -X POST -H "Content-Type: application/json" --data-binary @request.json \ "https://speech.googleapis.com/v1/speech:recognize?key=${API_KEY}"

Odpowiedź powinna wyglądać mniej więcej tak:

{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }

Wartość transcript zwróci transkrypcję Twojego pliku audio wygenerowaną przez interfejs Speech API, natomiast wartość confidence pokazuje, w jakim stopniu interfejs API jest pewny poprawności transkrypcji Twojego pliku.

Zapewne zauważysz, że w znajdującym się powyżej żądaniu wykorzystana została metoda syncrecognize. Interfejs Speech API obsługuje zarówno synchroniczną, jak i asynchroniczną transkrypcję związaną z zamianą mowy na tekst. W tym ćwiczeniu udało Ci się wysłać kompletny plik audio, ale możesz też użyć metody syncrecognize, aby zamienić mowę na tekst podczas strumieniowego przesyłania danych (gdy użytkownik mówi).

Utworzyliśmy żądanie do interfejsu Speech API i go wywołaliśmy.

  1. Uruchom następujące polecenie, aby zapisać odpowiedź w pliku result.json:
curl -s -X POST -H "Content-Type: application/json" --data-binary @request.json \ "https://speech.googleapis.com/v1/speech:recognize?key=${API_KEY}" > result.json

Kliknij Sprawdź postępy, aby zobaczyć, jak Ci poszło.

Wywoływanie interfejsu Speech API

Gratulacje!

To już koniec modułu do samodzielnego ukończenia o nazwie Google Cloud Speech API: Qwik Start. Zintegrowaliśmy w nim funkcję rozpoznawania mowy z aplikacją oraz wygenerowaliśmy transkrypcję z usługi.

Ukończ kurs

Ten moduł do samodzielnego ukończenia jest częścią kursów Baseline: Data, ML, AIIntro to ML: Language Processing. Każdy kurs składa się z zestawu powiązanych ze sobą modułów, które razem tworzą ścieżkę szkoleniową. Za ukończenie kursu otrzymujesz odznakę – stanowi ona potwierdzenie Twojego osiągnięcia. Swoje odznaki możesz ustawiać jako widoczne publicznie, a także podać do nich linki w swoim CV lub w mediach społecznościowych. Zarejestruj się na dowolny kurs zawierający ten moduł, a zostanie on automatycznie zaliczony. Wszystkie dostępne kursy znajdziesz w katalogu.

Przejdź do kolejnego modułu

Ten moduł należy do serii modułów Qwik Start. Opracowaliśmy je, aby dać Ci przedsmak bogactwa funkcji dostępnych w Google Cloud. Wyszukaj „Qwik Start” w katalogu modułów i znajdź kolejny interesujący Cię moduł.

Kolejne kroki / Więcej informacji

Szkolenia i certyfikaty Google Cloud

…pomogą Ci wykorzystać wszystkie możliwości technologii Google Cloud. Nasze zajęcia obejmują umiejętności techniczne oraz sprawdzone metody, które ułatwią Ci szybką naukę i umożliwią jej kontynuację. Oferujemy szkolenia na poziomach od podstawowego po zaawansowany prowadzone w trybach wirtualnym, na żądanie i na żywo, dzięki czemu możesz dopasować program szkoleń do swojego napiętego harmonogramu. Certyfikaty umożliwią udokumentowanie i potwierdzenie Twoich umiejętności oraz doświadczenia w zakresie technologii Google Cloud.

Ostatnia aktualizacja instrukcji: 15 września 2023 r.

Ostatni test modułu: 13 października 2023 r.

Copyright 2024 Google LLC. Wszelkie prawa zastrzeżone. Google i logo Google są znakami towarowymi Google LLC. Wszelkie inne nazwy firm i produktów mogą być znakami towarowymi odpowiednich podmiotów, z którymi są powiązane.