Image by Firmbee.com, from Unsplash

Google Gemini 2.5 Dodaje Narzędzia do Real-Time Audio i Własnych Komunikatów Głosowych

Przeczytasz w: 2 min

Opublikowano po raz pierwszy: Jun 6, 2025

Zaktualizowano 2 razy od czasu publikacji

Autor: Kiara Fabbri Była autorka artykułów dot. nowinek technologicznych
Tłumaczenie Zespół ds. lokalizacji i tłumaczenia Usługi związane z tłumaczeniem i lokalizacją treści

Google wprowadził funkcje natywnego dźwięku w modelu Gemini 2.5, rozszerzając tym samym swoje natywne wsparcie dla dialogów w czasie rzeczywistym i kontrolowalnej generacji tekstu na mowę (TTS).

Spieszysz się? Oto najważniejsze informacje:

Użytkownicy mogą kontrolować ton, akcent i emocje za pomocą głosu lub sygnałów.
Funkcje tekstu na mowę pozwalają na ekspresyjne, wielojęzyczne generowanie dźwięku z wieloma mówcami.
Gemini potrafi ignorować dźwięki w tle i reagować tylko wtedy, gdy jest to istotne.

Google ogłosił, że użytkownicy i programiści mogą teraz korzystać z AI do prowadzenia rozmów mówionych oraz tworzenia treści audio, za pomocą ponad 24 opcji językowych.

Google informuje, że Gemini 2.5 teraz generuje i rozumie mowę bezpośrednio w formie dźwiękowej, co umożliwia użytkownikom szybsze i bardziej naturalne interakcje. Model akceptuje polecenia w języku naturalnym, aby modyfikować swój ton, akcent i styl, jednocześnie dodając niemówione cechy, takie jak przerwy i szepty.

System utrzymuje połączenie z zewnętrznymi narzędziami za pośrednictwem Google Search oraz niestandardowych API, podczas całych rozmów, aby pobierać odpowiednie informacje.

Jedna z funkcji ma na celu poprawę świadomości kontekstu. System Gemini 2.5 wykrywa tło mowy lub hałasu, aby dostarczać odpowiedzi tylko wtedy, gdy jest to odpowiednie. System obsługuje rozumienie audio-wideo, co pozwala mu analizować i komentować obraz z kamery lub współdzielony ekran.

Komponent tekst-na-mowę również został zaktualizowany. Użytkownicy mogą teraz kontrolować generowanie dźwięku za pomocą zaawansowanych funkcji, które obejmują regulację tonu emocjonalnego, kontrolę tempa, dostosowanie wymowy i wielogłośnikowe wyjście audio. Funkcje te działają z różnymi typami treści, w tym opowiadaniami, ogłoszeniami i podcastami.

Google udostępnia Gemini 2.5 Pro i podgląd Flash dla programistów za pośrednictwem Google AI Studio lub Vertex AI. Podgląd Flash służy do szybkiego i niedrogiego użytku, ale Pro oferuje rozszerzoną funkcjonalność dla skomplikowanych poleceń.

Google zaimplementowało znak wodny poprzez SynthID we wszystkim generowanym przez AI dźwięku podczas rozwoju, aby zapewnić przejrzystość i przeprowadziło oceny ryzyka dla celów bezpieczeństwa. Firma przeprowadziła wewnętrzne i zewnętrzne oceny bezpieczeństwa przed udostępnieniem systemu publiczności. Google wprowadza te funkcje jako część swojej inicjatywy rozwoju multimodalnych systemów AI, które działają między tekstem, obrazem, wideo, kodem i zaawansowanym dźwiękiem.

Google Gemini 2.5 Dodaje Narzędzia do Real-Time Audio i Własnych Komunikatów Głosowych

Cieszymy się, że doceniasz to, co robimy!