Reve 2.0: ставка на лейаут вместо текстового промпта

Команда Reve опубликовала подробный разбор архитектурного решения, на котором построена их новая модель генерации изображений — Reve 2.0. Меня эта концепция зацепила всерьёз, потому что она идёт вразрез с тем, как устроено большинство современных генераторов. Расскажу, в чём суть «ставки на лейаут» и почему это важно для всех, кто работает с AI-генерацией изображений.

Проблема, которую все игнорируют

Практически все современные модели генерации изображений — будь то Midjourney, Flux или что-то на базе открытых диффузионных архитектур — работают по одной схеме: LLM разворачивает текстовый промпт в развёрнутое описание, а диффузионная модель превращает это описание в пиксели. Звучит логично, но у этого подхода есть фундаментальный изъян.

Текст — это выразительно, но неточно. Я неоднократно сталкивался с ситуацией, когда достаточно чуть изменить формулировку промпта — и изображение меняется кардинально. Попросить поставить объект в конкретное место или задать точный оттенок цвета через текст? Практически бесполезно. Это не баг конкретной модели — это ограничение самого текста как промежуточного представления.

Что такое «ставка на лейаут»

Reve решили заменить текстовую прослойку чем-то принципиально другим — структурированным лейаутом. По сути, это иерархическое описание изображения, где у каждого элемента есть:

  • местоположение и размер — точно, без двусмысленности;
  • локальное описание — что именно находится в этой области;
  • опциональные атрибуты — цвет, ссылки на референсные изображения и другие параметры.

Авторы сравнивают лейаут с HTML для веб-страницы или SVG для векторной графики — он отделяет смысловой замысел от рендеринга пикселей. Мне эта аналогия кажется очень точной: когда у тебя есть структура, ты контролируешь результат, а не угадываешь его.

Важно, что лейаут становится общим интерфейсом между человеком и AI-агентом. Можно редактировать его напрямую — или давать инструкции на естественном языке, и модель сама скорректирует структуру.

Как устроена модель под капотом

Для работы с лейаутами команде пришлось создать собственный тип модели — Large Layout Model. Она принимает на вход любую комбинацию лейаутов, инструкций и изображений, строит лейаут в процессе внутреннего «размышления», а затем рендерит финальные пиксели.

В основе — продолжение предобучения open-source LLM (команда благодарит разработчиков Qwen) с упором на пространственное мышление и работу с лейаут-представлением. Данные для обучения собирались из миллиардов изображений с плотной человеческой разметкой.

Что показали результаты

Reve провели масштабный ablation study и зафиксировали несколько любопытных вещей.

Во-первых, качество реконструкции: чистый текстовый промпт не способен точно восстановить исходное изображение — как бы детально ты его ни описывал, расхождение неизбежно. Лейаут-модель ведёт себя иначе: чем больше регионов она описывает, тем точнее воспроизводит детали — и это без единого пикселя на входе. Когда же пиксели всё-таки подаются (режим редактирования), лейаут делает точечные правки ещё более прицельными.

Во-вторых, масштабируемость: на лейаут-моделях работают те же законы масштабирования, что и на языковых — больше модель, лучше результат. Плюс качество растёт с увеличением числа выходных регионов, то есть расширением «визуального контекста мышления».

Итог: Reve 2.0 позиционируется как лучшая модель генерации изображений среди компаний с капитализацией ниже $1 трлн, обученная на в 10 раз меньшем числе GPU по сравнению с сопоставимыми игроками.

Почему это важно для дизайнеров и креаторов

Для меня как человека, который регулярно работает с AI-генерацией в дизайне, идея лейаута — это именно то, чего давно не хватало. Точное позиционирование объектов, предсказуемое редактирование, воспроизводимый результат — всё это боли, с которыми сталкивается каждый, кто пытается встроить генерацию изображений в реальный рабочий процесс, а не просто получать красивые случайности.

Если Reve удастся масштабировать этот подход и сделать его удобным инструментом — а судя по результатам, прогресс реальный — это может серьёзно изменить то, как мы взаимодействуем с генераторами изображений в ближайшие пару лет.

Попробовать https://app.reve.com/

Оставьте комментарий