Релизы и анонсы из мира искусственного интеллекта за ноябрь.
В ноябре для развития искусственного интеллекта произошло много важных событий. NVIDIA выпустила бесплатные модели для симуляций, что поможет обучать и тестировать разные системы. Runway представила новую модель для обработки видео, а Google и ByteDance поспешили за улучшением качества изображений по текстовому описанию. Яндекс и Сбер сделали шаги к тому, чтобы у компаний появились собственные «умные» помощники и генераторы контента.
Разберёмся по порядку: что именно стало доступно, зачем это нужно и кому это поможет упростить работу.
Что это значит для специалистов? Во-первых, инженерам стало проще просчитывать множество вариантов конструкций и условий эксплуатации — вместо часов и суперкомпьютеров они могут получать быстрые ответы и экспериментировать. Во-вторых, компаниям проще создавать виртуальные копии своих устройств или зданий — так называемые цифровые двойники — и проверять различные сценарии еще до того, как что-то будет построено или запущено. Ну и, наконец, исследователи получают доступ к моделям, которые они могут дообучать и адаптировать под свои конкретные задачи, а не вынуждены пользоваться закрытыми инструментами. В целом, Apollo — это шаг к тому, чтобы сложные инженерные расчеты стали менее сложными и более доступными: нужны меньшие ресурсы, меньше инфраструктуры, и любая команда может быстрее экспериментировать и тестировать свои идеи.
Runway выпустила новую версию своей видеомодели под названием Gen-4.5. Эта программа превращает текстовые описания в движущиеся видео, делая результаты гораздо более стабильными и естественными. Объекты в видео меньше «плывут», сцены целостные, свет и тени выглядят реалистично, а персонажи не превращаются в странные глитч-артные картинки при каждом кадре.
Компания говорит, что в новой версии акцент был сделан на трёх вещах. Во-первых, движок лучше передаёт физику движения: теперь всё выглядит намного более похоже на реальность — как течёт вода или как ведут себя тени. Во-вторых, сцена держится лучше: объекты и персонажи реже «телепортируются» или пропадают — модель лучше запоминает, что было в начале видео, и сохраняет это в течение всей сцены. И, наконец, она лучше понимает «фантазийные» идеи, например описание странных миров или смешанных стилей, поэтому можно легче получить желаемое изображение, даже если оно очень необычное.
Для кого это хорошая новость
Эта новинка — хорошая новость для тех, кто занимается маркетингом и созданием видеоконтента. Благодаря этой технологии можно быстрее делать первые черновики промороликов и концептов. Маленькие студии и фрилансеры, у которых раньше не было бюджета на полноценную 3D-анимацию, теперь могут собрать базовое видео через Runway, а потом дорисовать или доработать его вручную. Бренды и медиаорганизации также используют такие модели для быстрого тестирования своих идей и концептов: если ролик не понравился, можно просто переформулировать текст и сразу получить новую версию, не тратя деньги и время на постоянную съёмку.
Конечно, пока такие модели ещё не идеальны: иногда они ошибаются в логике или показывают эффект раньше причины, то есть не всегда всё выглядит идеально и правильно. Но уровень качества существенно вырос, и технологии движутся вперёд очень быстро.
Google DeepMind создала новую модель для создания и редактирования изображений, которая называется Nano Banana Pro. Она построена на базе другой модели — Gemini 3 Pro. Главная особенность этой новой модели — она хорошо понимает и делает читаемыми любые надписи на картинках: заголовки, плакаты, упаковки, инфографику или мемы. Текст там читается ясно и не превращается в беспорядочный набор букв.
Эта модель уже встроена в экосистему Google, поэтому её можно использовать в таких сервисах, как Gemini, Google Ads, а также в инструментах вроде Google AI Studio. В будущем её планируют добавить и в Google Workspace — например, в Google Slides и другие редакторы или видеоинструменты, чтобы у пользователей было больше возможностей для создания и редактирования изображений.
Почему это важно
Эта новая технология помогает дизайнерам и маркетологам не так сильно бояться добавлять текст на картинки. Раньше сгенерированная графика хорошо выглядела для фона и создавала атмосферу, но когда требовалось вставить слова, всё часто ломалось или выглядело плохо. Теперь ИИ может одновременно нарисовать изображение и встроить в него понятные надписи.
Для малого бизнеса это означает, что можно быстро делать постеры, баннеры или упаковки прямо «на коленке»: ИИ сам создаст картинку и добавит текст. А для разработчиков приложений — это возможность сразу показывать пользователю картинку с надписями, без необходимости просить их самим доработать изображение.
Однако у этой модели есть свои минусы. В начале декабря её раскритиковали за то, что она часто создаёт стереотипные изображения, связанные с гуманитарной помощью и Африкой. Например, картинки в стиле «белый спаситель» или с логотипами благотворительных организаций, которых никто не заказывал.
Это напоминание: даже очень продвинутые ИИ-модели нужно использовать с осторожностью. Для серьёзных кампаний важно проверять полученные картинки и не полагаться полностью на автоматическое создание.
Компания ByteDance, владелец TikTok, выпустила новую версию своего инструмента для создания изображений — Seedream 4.5. Проще говоря, это универсальный помощник, который умеет создавать картинки по описанию и редактировать уже готовые изображения. То есть, вы можете придумать всё с нуля или поправить и доработать существующее фото или рисунок.
Основные особенности:
• Хорошо работает с текстом на картинках: надписи остаются разборчивыми и их можно менять, не боясь, что всё расплывётся.
• Может переносить стиль с нескольких картинок: покажите ему несколько примеров с нужной атмосферой — и он создаст новое изображение, аккуратно объединяя эти стили.
• Детализирует изображение: хорошо прорисовывает кожу, ткани и мелкие детали — без того «пластикового» вида, который был у старых генераторов.
Seedream 4.5 может делать картинки до 4 мегапикселей и рассчитана в первую очередь на разработчиков: удобно встроить её в сторонние сервисы, маркетплейсы или приложения через специальные тарифы и API.
Для мирового рынка это ещё один важный игрок в области создания изображений, особенно учитывая, как активно ByteDance развивает и масштабирует свои продукты.
Яндекс B2B Tech открыл компаниям доступ к серии нейросетей Alice AI. Это умные программы, созданные компанией и обученные на её собственных данных, которые можно настроить под конкретные нужды бизнеса.
Главное — они ориентированы для работы в компаниях:
• Можно загрузить внутренние документы, инструкции или базы знаний, чтобы нейросеть могла их использовать.
• Alice AI умеет объяснять сложные вещи простым языком, учитывая специфику вашей отрасли.
Эти нейросети можно запустить через сервисы Яндекса и встроить в свои программы и рабочие процессы.
Что это даёт компаниям
• Чат-боты с памятью: можно загрузить всю внутреннюю документацию и попросить ИИ отвечать сотрудникам на вопросы по правилам или техническим заданиям.
• Работает на русском уже «из коробки»: это удобно для бизнесов, которые не хотят использовать зарубежные API — всё юридически находится в России, поддержка тоже русская, и всё работает в экосистеме Яндекса.
• Просто интегрировать в привычные сервисы: Яндекс уже подключает Alice AI к своим продуктам — поиску, офисным инструментам и другим, — поэтому внедрение для компаний, уже использующих Yandex 360, становится проще.
В итоге у российского бизнеса появляется ещё один удобный вариант собственного ИИ-движка, который хорошо вписывается в уже существующую IT-инфраструктуру.
Сбер представил Kandinsky 5.0 — серию моделей, которые умеют создавать изображения и короткие видео. Это целая линейка: есть более простые модели для быстрых картинок, а есть профессиональная версия, которая может делать короткие видео до 10 секунд в хорошем качестве.
Все эти модели доступны для свободного использования: можно скачать их «весы» (настройки модели), посмотреть примеры команд (промптов) и использовать специальные дополнения (LoRA-адаптеры), например, для управления движением камеры, как будто делаете круг вокруг объекта.
Чем это интересно
• Открытая технология: в отличие от многих западных решений, модель можно загрузить, установить у себя, дообучить и использовать в своих продуктах без необходимости обращаться к внешним сервисам или API.
• Хорошо работает с русским контентом: Kandinsky лучше понимает русские команды, названия, мемы и культурные особенности.
• Фокус на видео: версии Lite и Pro позволяют создавать короткие видео, что делает Kandinsky 5.0 хорошей базой для локальных проектов — например, для рекламных роликов, визуальных концепций или коротких сторис.
Для разработчиков и студий это один из самых удобных открытых вариантов для работы с видеогенерацией: можно создать собственный генератор картинок и видео в уникальном стиле, адаптированный под нужды компании и управляемый с помощью специальных модулей LoRA.
Если подытожить новости этого месяца, то складывается следующая картина:
• В инженерии и науке всё больше используют ИИ для моделирования реальности — например, проект Apollo делает большие шаги к массовому использованию цифровых двойников.
• В медиа и творчестве появляется всё более реалистичная видеофиксация: новая версия Runway Gen-4.5 повышает качество, а открытые решения вроде Kandinsky 5.0 позволяют создавать собственные модели без зависимости от облачных сервисов.
• Генерация изображений развивается от «просто красиво» к инструментам, с которыми реально можно делать постеры и упаковку — как Nano Banana Pro и Seedream 4.5.
• В бизнесе появились более зрелые русскоязычные решения: Alice AI помогает интегрировать ИИ в рабочие процессы, а не только в поиски для обычных пользователей.
Для обычных людей всё это проявляется в большем количестве «магических» функций в привычных приложениях. А для компаний запуск своих ассистентов, генераторов и аналитики становится всё дешевле и проще, практически как обычная разработка, а не дорогостоящий R&D-проект.