
Image by Firmbee.com, from Unsplash
Google Gemini 2.5 Dodaje Narzędzia do Real-Time Audio i Własnych Komunikatów Głosowych
Google wprowadził funkcje natywnego dźwięku w modelu Gemini 2.5, rozszerzając tym samym swoje natywne wsparcie dla dialogów w czasie rzeczywistym i kontrolowalnej generacji tekstu na mowę (TTS).
Spieszysz się? Oto najważniejsze informacje:
- Użytkownicy mogą kontrolować ton, akcent i emocje za pomocą głosu lub sygnałów.
- Funkcje tekstu na mowę pozwalają na ekspresyjne, wielojęzyczne generowanie dźwięku z wieloma mówcami.
- Gemini potrafi ignorować dźwięki w tle i reagować tylko wtedy, gdy jest to istotne.
Google ogłosił, że użytkownicy i programiści mogą teraz korzystać z AI do prowadzenia rozmów mówionych oraz tworzenia treści audio, za pomocą ponad 24 opcji językowych.
Google informuje, że Gemini 2.5 teraz generuje i rozumie mowę bezpośrednio w formie dźwiękowej, co umożliwia użytkownikom szybsze i bardziej naturalne interakcje. Model akceptuje polecenia w języku naturalnym, aby modyfikować swój ton, akcent i styl, jednocześnie dodając niemówione cechy, takie jak przerwy i szepty.
System utrzymuje połączenie z zewnętrznymi narzędziami za pośrednictwem Google Search oraz niestandardowych API, podczas całych rozmów, aby pobierać odpowiednie informacje.
Jedna z funkcji ma na celu poprawę świadomości kontekstu. System Gemini 2.5 wykrywa tło mowy lub hałasu, aby dostarczać odpowiedzi tylko wtedy, gdy jest to odpowiednie. System obsługuje rozumienie audio-wideo, co pozwala mu analizować i komentować obraz z kamery lub współdzielony ekran.
Komponent tekst-na-mowę również został zaktualizowany. Użytkownicy mogą teraz kontrolować generowanie dźwięku za pomocą zaawansowanych funkcji, które obejmują regulację tonu emocjonalnego, kontrolę tempa, dostosowanie wymowy i wielogłośnikowe wyjście audio. Funkcje te działają z różnymi typami treści, w tym opowiadaniami, ogłoszeniami i podcastami.
Google udostępnia Gemini 2.5 Pro i podgląd Flash dla programistów za pośrednictwem Google AI Studio lub Vertex AI. Podgląd Flash służy do szybkiego i niedrogiego użytku, ale Pro oferuje rozszerzoną funkcjonalność dla skomplikowanych poleceń.
Google zaimplementowało znak wodny poprzez SynthID we wszystkim generowanym przez AI dźwięku podczas rozwoju, aby zapewnić przejrzystość i przeprowadziło oceny ryzyka dla celów bezpieczeństwa. Firma przeprowadziła wewnętrzne i zewnętrzne oceny bezpieczeństwa przed udostępnieniem systemu publiczności. Google wprowadza te funkcje jako część swojej inicjatywy rozwoju multimodalnych systemów AI, które działają między tekstem, obrazem, wideo, kodem i zaawansowanym dźwiękiem.