LTX 2.3 + MSR LoRA: multi-reference видео на 8 ГБ VRAM

Покажу пошаговый workflow для генерации видео в LTX 2.3 с поддержкой сразу нескольких референсных изображений — всё это работает локально на GPU с 8 ГБ VRAM. Ключевой компонент здесь — MSR LoRA, которая позволяет модели одновременно учитывать несколько изображений: персонажей, фоны, визуальные элементы. Результат — заметно лучшая консистентность и контроль над сценой.

Table of Contents

Что нам понадобится

ComfyUI — основной интерфейс для запуска workflow
LTX 2.3 — модели от KJ (ссылки на скачивание организованы в оригинальном репозитории)
MSR LoRA — Lyon multi-reference LoRA с Hugging Face
Lyon node — кастомная нода для ComfyUI, устанавливается вручную
GPU с 8 ГБ VRAM (проверял на практике — работает)

Шаг 1: Установка ComfyUI и нод

Скачиваю ComfyUI под свою систему с официального сайта. После установки открываю предоставленный workflow-файл прямо в интерфейсе. ComfyUI сам покажет, каких нод и моделей не хватает.

Кликаю на логотип в левом верхнем углу → Extensions → Missing Nodes.
Устанавливаю всё необходимое через встроенный менеджер.
Lyon node в менеджере не появится — её нужно скачать вручную с GitHub. Репозиторий скачиваю как ZIP, распаковываю и кладу в папку ComfyUI/custom_nodes/.
Перезапускаю ComfyUI.

Шаг 2: Скачивание моделей

Здесь два ключевых компонента. Сначала скачиваю LTX 2.3 — модели от KJ, которые уже оптимизированы под низкое потребление VRAM. Затем — главный ингредиент сегодняшнего пайплайна:

Lyon multi-reference LoRA (MSR LoRA)
Источник: Hugging Face
Путь для размещения: ComfyUI/models/loras/

Кладу LoRA точно в эту папку — иначе ComfyUI её просто не найдёт.

Шаг 3: Разбор структуры workflow

На первый взгляд workflow выглядит сложно — пять групп нод. Но логика простая: это стандартный LTX 2.3 пайплайн, к которому добавлен MSR LoRA-блок. Три группы слева — основные настройки:

Референсные изображения — загружаю несколько фото персонажей или сцен
Разрешение и FPS — настройки выходного видео
Длительность и промпт — описание сцены и хронометраж

Отдельная группа загружает саму модель LTX 2.3, и последняя — подключает MSR LoRA. Важно понимать разницу: MSR — это не просто image prompting. Модель не «подсказывает» образы, а реально референсирует персонажей и фоны из нескольких картинок одновременно во время генерации.

Шаг 4: Оптимизация под 8 ГБ VRAM

Это то, что меня особенно порадовало. Workflow включает настройки low VRAM, которые позволяют запустить всё на бюджетной карте. Несколько вещей, которые здесь работают:

Использование квантизированных версий моделей LTX 2.3 от KJ
Управление тайлингом и оффлоадингом через Lyon node
Разумное ограничение длины клипа — не гонитесь за 10 секундами сразу

Советы и частые ошибки

Что работает хорошо

Чем чище и разнообразнее референсные фото — тем лучше консистентность
Промпт лучше писать с акцентом на движение и освещение, а не только на внешность
Lyon node обязательна — без неё MSR LoRA не подключится корректно

Типичные ошибки

LoRA не в той папке — только ComfyUI/models/loras/, никаких подпапок
Lyon node установлена через менеджер — там её нет, только ручная установка через ZIP с GitHub
Слишком длинный клип на 8 ГБ — начинайте с 3–4 секунд, потом масштабируйте

Итог

LTX 2.3 с MSR LoRA — один из самых интересных локальных пайплайнов для видеогенерации, который я запускал. Multi-reference подход реально меняет качество консистентности персонажей по сравнению с классическим image prompting. И то, что всё это работает на 8 ГБ VRAM без особых танцев с бубном — приятный бонус для всех, у кого нет топовых карт.

Post Views: 2