OpenAI представила новую модель нейросети GPT-4о
13 мая компания OpenAI представила последнюю версию искусственного интеллекта ChatGPT — GPT-4о. Рассказываем о новых возможностях программы и инновациях, представленных в этой версии
Сегодня между международными технологическими корпорациями идет ожесточенная борьбы за первенство в сфере создания и обучения моделей искусственного интеллекта. За разработку собственных моделей уже взялись такие гиганты индустрии, как Google и Apple. Однако первенство в этом направлении по-прежнему удерживает компания OpenAI, которая подарила миру нашумевшую нейронную языковую модель ChatGPT.
13 мая, за день до международной конференции разработчиков Google I/O 2024, на которой Google должен был анонсировать свою модель ИИ Gemini AI, разработчики из OpenAI представили обновленную версию ChatGPT.
Новая модель называется GPT-4o. Буква "о" в названии символизирует латинский префикс omni, чье значение можно перевести на русский как "все". Так разработчики хотели показать мультимодальность и новые возможности обновленной версии языковой модели.
Какие возможности у нового GPT-4o?
Как заявляет технический директор OpenAI Мира Мурати, по уровню интеллекта GPT-4o соответствует их последней модели GPT-4. Главное новшество обновления — более естественное взаимодействие человека и компьютера.
Дело в том, что GPT-4o хорошо воспринимает не только текстовую, но и аудио- и видеоинформацию. Причем скорость, с которой программа отвечает на голосовые сообщения, не намного отличается от быстроты реакции живых людей: если в голосовом режиме общения прошлые модели ChatGPT отвечали пользователям с задержкой в диапазоне 2,8–5,4 сек., то в GPT-4o это время удалось значительно сократить. По заверениям разработчиков, ИИ анализирует голосовую информацию за 232–320 мс (0,232–0, 32 сек.).
Такого результата удалось добиться благодаря тому, что программа ушла от трехступенчатой цепочки обработки аудиоинформации, которая была в версиях GPT-3.5 и GPT-4. Раньше процесс происходил так: одна модель транскрибировала аудио, потом та или иная версия ChatGPT выводила текст ответа, после чего третья модель преобразовывала получившийся результат в аудио и зачитывала его. В результате время задержки увеличивалось, а качество ответов страдало, так как некоторая важная информация ускользала от "мозга" цепочки. У языковой модели попросту не было возможности напрямую воспринимать речь пользователя: реагировать на фоновые шумы, анализировать тон голоса и так далее.
От описанной системы удалось уйти в последнем анонсированном обновлении: разработчики OpenAI создали единую модель для сквозного анализа информации из разных источников, аудио, видео и текста. В результате все входные и выходные данные в ней обрабатываются одной и той же нейронной сетью.
Благодаря этой инновации характеристики GPT-4o улучшились по сравнению с GPT-4 и GPT-3.5. Разработчики продемонстрировали новые способности ИИ: анализируя информацию с фронтальной камеры и динамиков телефона, программа смогла описать одежду и эмоции сидящего перед ней человека, особенности комнаты, в которой тот находился, и даже заметить, когда к нему сзади подошла коллега и поставила "рожки". После этого GPT-4o и вовсе сочинил и исполнил песню на основе того, что увидел и услышал.
Сами производители признают, что еще не до конца раскрыли потенциал, который открывает сочетание этих методов восприятия. Однако это обновление — первый шаг на пути к преобразованию ChatGPT в полноценного помощника-ассистента.
Новая модель GPT-4o доступна на многих языках
GPT-4o лучше овладел иностранными языками. Теперь ИИ можно использовать в качестве переводчика в режиме реального времени. Как продемонстрировали разработчики, программа способна быстро переводить речь, что открывает новые возможности и захватывающие перспективы для пользователей. Например, смотреть шоу на других языках в прямом эфире или новую серию любимого сериала, не дожидаясь выхода перевода.
Кроме того, разработчики увеличили производительность программы на иностранных языках, чтобы сделать ChatGPT более полезным для зарубежных пользователей. Так, они смогли уменьшить количество токенов, которые требуются для обработки текстов на английском и других языках.
ЧТО ТАКОЕ ТОКЕНЫ?
Это последовательность текстовых символов, на которые ИИ разбивает сообщения пользователей, чтобы осознать и проанализировать заложенную в них информацию.
Например, если раньше для того, чтобы программа поняла русскую фразу: "Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!", требовалось 39 токенов, то теперь — всего 23. Это означает, что GPT-4o может воспринимать большие объемы текстовой информации.
Новая модель GPT-4o доступна всем пользователям ChatGPT вне зависимости от уровня подписки. Однако у платных пользователей лимит на доступ к программе будет в пять раз выше. Когда же лимит обращений будет превышен, программа автоматически переключится на более старую версию: GPT-4 у платных и GPT-3.5 у бесплатных пользователей. Однако главное новшество обновления, а именно — голосовое общение, на данный момент доступно лишь ограниченному кругу доверенных партнеров OpenAI. Как объяснили разработчики, это связано с тем, что существуют риски неправильного использования новой функции. В июне же доступ появится и у платных подписчиков.
Мария Богрянова
|