Google Gemini 2.5 Dodaje Narzędzia do Real-Time Audio i Własnych Komunikatów Głosowych

Image by Firmbee.com, from Unsplash

Google Gemini 2.5 Dodaje Narzędzia do Real-Time Audio i Własnych Komunikatów Głosowych

Przeczytasz w: 2 min

Google wprowadził funkcje natywnego dźwięku w modelu Gemini 2.5, rozszerzając tym samym swoje natywne wsparcie dla dialogów w czasie rzeczywistym i kontrolowalnej generacji tekstu na mowę (TTS).

Spieszysz się? Oto najważniejsze informacje:

  • Użytkownicy mogą kontrolować ton, akcent i emocje za pomocą głosu lub sygnałów.
  • Funkcje tekstu na mowę pozwalają na ekspresyjne, wielojęzyczne generowanie dźwięku z wieloma mówcami.
  • Gemini potrafi ignorować dźwięki w tle i reagować tylko wtedy, gdy jest to istotne.

Google ogłosił, że użytkownicy i programiści mogą teraz korzystać z AI do prowadzenia rozmów mówionych oraz tworzenia treści audio, za pomocą ponad 24 opcji językowych.

Google informuje, że Gemini 2.5 teraz generuje i rozumie mowę bezpośrednio w formie dźwiękowej, co umożliwia użytkownikom szybsze i bardziej naturalne interakcje. Model akceptuje polecenia w języku naturalnym, aby modyfikować swój ton, akcent i styl, jednocześnie dodając niemówione cechy, takie jak przerwy i szepty.

System utrzymuje połączenie z zewnętrznymi narzędziami za pośrednictwem Google Search oraz niestandardowych API, podczas całych rozmów, aby pobierać odpowiednie informacje.

Jedna z funkcji ma na celu poprawę świadomości kontekstu. System Gemini 2.5 wykrywa tło mowy lub hałasu, aby dostarczać odpowiedzi tylko wtedy, gdy jest to odpowiednie. System obsługuje rozumienie audio-wideo, co pozwala mu analizować i komentować obraz z kamery lub współdzielony ekran.

Komponent tekst-na-mowę również został zaktualizowany. Użytkownicy mogą teraz kontrolować generowanie dźwięku za pomocą zaawansowanych funkcji, które obejmują regulację tonu emocjonalnego, kontrolę tempa, dostosowanie wymowy i wielogłośnikowe wyjście audio. Funkcje te działają z różnymi typami treści, w tym opowiadaniami, ogłoszeniami i podcastami.

Google udostępnia Gemini 2.5 Pro i podgląd Flash dla programistów za pośrednictwem Google AI Studio lub Vertex AI. Podgląd Flash służy do szybkiego i niedrogiego użytku, ale Pro oferuje rozszerzoną funkcjonalność dla skomplikowanych poleceń.

Google zaimplementowało znak wodny poprzez SynthID we wszystkim generowanym przez AI dźwięku podczas rozwoju, aby zapewnić przejrzystość i przeprowadziło oceny ryzyka dla celów bezpieczeństwa. Firma przeprowadziła wewnętrzne i zewnętrzne oceny bezpieczeństwa przed udostępnieniem systemu publiczności. Google wprowadza te funkcje jako część swojej inicjatywy rozwoju multimodalnych systemów AI, które działają między tekstem, obrazem, wideo, kodem i zaawansowanym dźwiękiem.

Spodobał Ci się ten artykuł? Oceń go!
Był okropny Nie podobał mi się Był w porządku Był całkiem dobry! Był super!

Cieszymy się, że doceniasz to, co robimy!

Cenimy Twoją opinię. Czy możemy liczyć na ocenę na Trustpilot? Zajmie Ci to tylko chwilę. Będziemy zobowiązani. Dziękujemy za wsparcie!

Oceń nas na Trustpilot
0 Na podstawie głosów 0 użytkowników
Tytuł
Komentarz
Dziękujemy za Twoją opinię