OpenAI представила новую модель искусственного интеллекта GPT-4o с расширенным голосовым режимом.
Буква "о" в слове GPT-4o означает "omni", что говорит о его широких возможностях. Обновленная модель может работать с речью, текстом и видео. По данным компании, GPT-4o обрабатывает звук в среднем за 320 миллисекунд, что сопоставимо со временем реакции человека при разговоре.
GPT-4o соответствует по производительности предыдущей топовой модели OpenAI - GPT-4 Turbo. Однако, по словам компании, она превосходит ее в понимании изображений и аудио.
Как отмечает TechCrunch, хотя модели GPT уже давно предлагают голосовой режим, GPT-4o значительно расширяет эту функцию, позволяя пользователям взаимодействовать с ChatGPT как с помощником. Модель реагирует на голосовой ввод в режиме реального времени, распознает нюансы голоса и может генерировать ответы в различных эмоциональных стилях, включая пение. По данным OpenAI, она говорит на 50 языках.
GPT-4o стал доступен пользователям 13 мая. Первоначально голосовые функции будут доступны только избранной группе доверенных партнеров, а более широкий доступ для платных подписчиков ожидается в июне.
Бесплатный GPT-4 для всех
ChatGPT-4 также теперь доступен всем бесплатно. Не совсем понятно, чем вызвано такое решение. Скорее всего, OpenAI таким образом пытается удержать старых пользователей и привлечь новых, ведь конкуренция в области ИИ не перестает усиливаться. Конкуренты буквально каждую неделю выпускают по несколько продуктов.
GPT-5, который должен был выйти еще в конце прошлого года, до сих пор не стал доступен. Вероятно, OpenAI на этом фоне также пытается переключить внимание с этой проблемы. Еще один плюс в том, что новые версии ИИ используют данные о взаимодействии пользователей со старыми версиями, поэтому OpenAI старается получить как можно больше данных.
Похожие посты
Вам также могут понравиться эти посты
Оставить комментарий
Ваш электронный адрес не будет опубликован.
Comments on this post
0 comments