Покажу пошаговый workflow для генерации видео в LTX 2.3 с поддержкой сразу нескольких референсных изображений — всё это работает локально на GPU с 8 ГБ VRAM. Ключевой компонент здесь — MSR LoRA, которая позволяет модели одновременно учитывать несколько изображений: персонажей, фоны, визуальные элементы. Результат — заметно лучшая консистентность и контроль над сценой.
Что нам понадобится
- ComfyUI — основной интерфейс для запуска workflow
- LTX 2.3 — модели от KJ (ссылки на скачивание организованы в оригинальном репозитории)
- MSR LoRA — Lyon multi-reference LoRA с Hugging Face
- Lyon node — кастомная нода для ComfyUI, устанавливается вручную
- GPU с 8 ГБ VRAM (проверял на практике — работает)
Шаг 1: Установка ComfyUI и нод
Скачиваю ComfyUI под свою систему с официального сайта. После установки открываю предоставленный workflow-файл прямо в интерфейсе. ComfyUI сам покажет, каких нод и моделей не хватает.
- Кликаю на логотип в левом верхнем углу → Extensions → Missing Nodes.
- Устанавливаю всё необходимое через встроенный менеджер.
- Lyon node в менеджере не появится — её нужно скачать вручную с GitHub. Репозиторий скачиваю как ZIP, распаковываю и кладу в папку
ComfyUI/custom_nodes/. - Перезапускаю ComfyUI.
Шаг 2: Скачивание моделей
Здесь два ключевых компонента. Сначала скачиваю LTX 2.3 — модели от KJ, которые уже оптимизированы под низкое потребление VRAM. Затем — главный ингредиент сегодняшнего пайплайна:
Lyon multi-reference LoRA (MSR LoRA)
Источник: Hugging Face
Путь для размещения: ComfyUI/models/loras/
Кладу LoRA точно в эту папку — иначе ComfyUI её просто не найдёт.
Шаг 3: Разбор структуры workflow
На первый взгляд workflow выглядит сложно — пять групп нод. Но логика простая: это стандартный LTX 2.3 пайплайн, к которому добавлен MSR LoRA-блок. Три группы слева — основные настройки:
- Референсные изображения — загружаю несколько фото персонажей или сцен
- Разрешение и FPS — настройки выходного видео
- Длительность и промпт — описание сцены и хронометраж
Отдельная группа загружает саму модель LTX 2.3, и последняя — подключает MSR LoRA. Важно понимать разницу: MSR — это не просто image prompting. Модель не «подсказывает» образы, а реально референсирует персонажей и фоны из нескольких картинок одновременно во время генерации.
Шаг 4: Оптимизация под 8 ГБ VRAM
Это то, что меня особенно порадовало. Workflow включает настройки low VRAM, которые позволяют запустить всё на бюджетной карте. Несколько вещей, которые здесь работают:
- Использование квантизированных версий моделей LTX 2.3 от KJ
- Управление тайлингом и оффлоадингом через Lyon node
- Разумное ограничение длины клипа — не гонитесь за 10 секундами сразу
Советы и частые ошибки
Что работает хорошо
- Чем чище и разнообразнее референсные фото — тем лучше консистентность
- Промпт лучше писать с акцентом на движение и освещение, а не только на внешность
- Lyon node обязательна — без неё MSR LoRA не подключится корректно
Типичные ошибки
- LoRA не в той папке — только
ComfyUI/models/loras/, никаких подпапок - Lyon node установлена через менеджер — там её нет, только ручная установка через ZIP с GitHub
- Слишком длинный клип на 8 ГБ — начинайте с 3–4 секунд, потом масштабируйте
Итог
LTX 2.3 с MSR LoRA — один из самых интересных локальных пайплайнов для видеогенерации, который я запускал. Multi-reference подход реально меняет качество консистентности персонажей по сравнению с классическим image prompting. И то, что всё это работает на 8 ГБ VRAM без особых танцев с бубном — приятный бонус для всех, у кого нет топовых карт.