Започва нова ера в гласовия превод с изкуствен интелект на Google
Нов аудио модел на Google осигурява естествени разговори с изкуствен интелект в популярни онлайн услуги като Google Meet, Google Translate и за разработчици чрез приложния програмен интерфейс Gemini Live API. Google пусна тази седмица Gemini 3.
Нов аудио модел на Google осигурява естествени разговори с изкуствен интелект в популярни онлайн услуги като Google Meet, Google Translate и за разработчици чрез приложния програмен интерфейс Gemini Live API.
Google пусна тази седмица Gemini 3.5 Live Translate – новия си авангарден аудио модел за превод от реч към реч в близко до реалното време.
Технологията позволява плавна комуникация на над 70 езика, като превръща науката за езика в „магията на човешката връзка“.
Gemini 3.5 Live Translate се отличава от традиционните системи за превод по своята способност да работи непрекъснато, вместо да изчаква говорещия да приключи изречението си.
Моделът автоматично разпознава езиците и генерира естествено звучаща реч, която запазва интонацията, темпото и височината на оригиналния глас, оставайки само на няколко секунди зад говорещия през цялата сесия.
„Gemini 3.5 Live Translate преобразува начина, по който общуваме в глобален мащаб“, заявиха от разработчика.
„Моделът балансира нуждата от контекст за постигане на високо качество с необходимостта от незабавен превод, за да поддържа синхрон между участниците в разговора без неудобни паузи“.
Gemini 3.5 Live Translate вече се разпространява в ключови платформи.
Така например, за разработчиците е наличен в публична предварителна версия (public preview) чрез Gemini Live API и в Google AI Studio.
Google пусна и частна предварителна версия (private preview) за клиенти на Google Meet, където се поддържат над 2000 езикови комбинации.
Корпоративните клиенти ще се възползват и от подобрен интерфейс на Live Translation функцията в Google Meet.
Масовият потребител ще получи новата функция от приложението Google Translate за Android и iOS.
Нещо повече, за потребителите на Android се въвежда нов „режим на слушане“, който предава превода директно през слушалката на телефона, точно като при обикновен разговор.
Водещи компании вече внедряват Gemini 3.5 Live Translate, за да премахнат езиковите бариери.
Grab, популярна платформа в Югоизточна Азия, тества модела, за да улесни комуникацията между шофьори и пътници, които провеждат над 10 милиона гласови разговори месечно.
Партньори като LiveKit, Agora и Vision Agents също интегрират модела в своите платформи, позволявайки на разработчиците лесно да изграждат приложения за гласов превод.
В съответствие с ангажиментите на Google за безопасност, цялото аудио съдържание, генерирано от модела, е маркирано с цифрови водни знаци чрез технологията SynthID.
Този невидим за човешкото ухо маркер е вграден директно в аудио изхода, което позволява откриването на генерирано от AI съдържание и помага за предотвратяване на дезинформацията.
Коментари (0)