آموزش نصب LTX 2.3 در ComfyUI + دانلود مدل و ساخت ویدیو با هوش مصنوعی

فهرست مطالب

آموزش نصب LTX 2.3 این روزها به یکی از داغ‌ترین موضوعات دنیای هوش مصنوعی تبدیل شده است، زیرا این مدل متن‌باز قدرتمند می‌تواند ویدیوهای سینمایی، صدا، دیالوگ و افکت‌های حرفه‌ای تولید کند. اگر تا همین چند ماه قبل ساخت ویدیوهای حرفه‌ای با هوش مصنوعی فقط در اختیار مدل‌های بسته و گران‌قیمت بود، حالا LTX 2.3 آمده تا این معادله را تغییر دهد و امکان ساخت ویدیوهای حرفه‌ای را روی سیستم شخصی فراهم کند.

مدل جدید LTX 2.3 by Lightricks یکی از پیشرفته‌ترین مدل‌های Open Source حوزه AI Video محسوب می‌شود، زیرا قابلیت‌های نوآورانه‌ی آن امکان تولید ویدیوهای با کیفیت بالا را فراهم کرده است. این مدل نه‌تنها قابلیت ساخت ویدیو از متن را دارد، بلکه می‌تواند صدا، افکت‌های محیطی، دیالوگ و هماهنگی تصویر و صوت را نیز به‌صورت همزمان مدیریت کند. به همین دلیل بسیاری از کاربران ComfyUI و فعالان حوزه ساخت ویدیو با هوش مصنوعی، LTX 2.3 را یکی از مهم‌ترین مدل‌های ویدیوساز سال 2026 می‌دانند.

علاوه بر این، برخلاف سرویس‌های ابری و مدل‌های بسته مثل Veo یا Runway، شما می‌توانید LTX 2.3 را به‌صورت کامل روی سیستم شخصی اجرا کنید، Workflow اختصاصی بسازید و بدون محدودیت API پروژه‌های حرفه‌ای تولید محتوا ایجاد کنید.

LTX 2.3 چیست؟

Lightricks اعلام کرده است که مدل LTX 2.3 را به‌عنوان نسل جدید موتور تولید ویدیوی خود معرفی کرده است.این مدل بر پایه معماری diffusion و transformer توسعه یافته و می‌تواند تصویر و صدا را به‌صورت همزمان تولید کند.

برخلاف بسیاری از مدل‌های متن‌باز که فقط ویدیوهای خام و بدون صدا تولید می‌کنند، LTX 2.3 امکانات بسیار گسترده‌ای ارائه می‌دهد:

تولید ویدیو سینمایی
ساخت صدا و موسیقی همزمان
تولید دیالوگ هماهنگ
اجرای Lip Sync
تبدیل تصویر به ویدیو (Image to Video)
تبدیل متن به ویدیو (Text to Video)
تولید ویدیو عمودی 9:16
خروجی 4K و 50FPS
اجرای کامل روی سیستم لوکال

همین ویژگی‌ها باعث شده‌اند که LTX 2.3 به یکی از قدرتمندترین مدل‌های ویدیوساز هوش مصنوعی متن‌باز تبدیل شود و جایگاه ویژه‌ای در میان ابزارهای متن‌باز به‌دست آورد.

چرا LTX 2.3 اهمیت زیادی دارد؟

کاملاً Open Source

یکی از مهم‌ترین مزایای LTX 2.3 متن‌باز بودن آن است. برخلاف مدل‌هایی مثل Sora یا Veo که دسترسی عمومی ندارند، این مدل به‌صورت کامل در دسترس کاربران قرار گرفته است.

مزایای Open Source بودن:

کنترل کامل روی Workflow
امکان Fine-Tune
اجرای آفلاین
ساخت Pipeline اختصاصی
حذف محدودیت‌های API
امکان استفاده در ComfyUI

تولید همزمان ویدیو و صدا

بیشتر مدل‌های AI Video فقط تصویر متحرک تولید می‌کنند، اما LTX 2.3 به‌صورت Native از Audio Generation پشتیبانی می‌کند. به همین دلیل می‌توانید ویدیوهایی با صدای محیط، موسیقی و حتی دیالوگ هماهنگ بسازید.

برای مثال می‌توانید چنین Promptی وارد کنید:

A man walking through rainy Tokyo streets at night, neon reflections on wet asphalt, soft cinematic lighting, rain ambience, distant traffic sounds and emotional soundtrack

درنتیجه مدل:

ویدیو تولید می‌کند
صدای باران می‌سازد
افکت محیطی ایجاد می‌کند
موسیقی هماهنگ تولید می‌کند

کیفیت سینمایی حرفه‌ای

طبق مستندات رسمی، LTX 2.3 نسبت به نسخه‌های قبلی پیشرفت قابل‌توجهی داشته است:

Motion طبیعی‌تر
درک بهتر Prompt
جزئیات بیشتر
Artifact کمتر
نورپردازی بهتر
کیفیت Portrait بالاتر
Text Rendering دقیق‌تر

قابلیت‌های پیشرفته‌ی این مدل، نیازهای پروژه‌های پیچیده را به‌خوبی برآورده می‌کند؛ ازاین‌رو، بسیاری از کاربران حرفه‌ای ComfyUI به سمت استفاده از آن مهاجرت کرده‌اند.

ساخت ویدیو های فارسی با LTX 2.3

با LTX 2.3 می‌تونی خیلی راحت ویدیوهای فارسی بسازی؛ فقط متن فارسی رو وارد می‌کنی، صدا، تصویر و استایل رو انتخاب می‌کنی و ابزار خودش به‌صورت خودکار ویدیو حرفه‌ای و قابل انتشار بهت تحویل می‌ده فقط دقت کنید برای تلفظ صحیح کلمات حتما متن فارسی را اعراب گذاری کنید.

قابلیت‌های اصلی LTX 2.3

Text to Video

یکی از مهم‌ترین ویژگی‌های LTX 2.3، تبدیل متن به ویدیو است، به‌طوری‌که کاربران تنها با نوشتن یک پرامپت سینمایی قادر به تولید ویدیوهای حرفه‌ای خواهند بود.

مثال:

cinematic close-up of a cyberpunk samurai walking through neon rain in Tokyo, shallow depth of field, handheld camera, dramatic lighting

Image to Video

در این حالت فقط کافی است یک تصویر وارد کنید تا مدل:

حرکت طبیعی ایجاد کند
دوربین را متحرک کند
کاراکتر را Animate کند
Scene را زنده کند

علاوه بر این، Motion Consistency در LTX 2.3 نسبت به نسخه‌های قبلی بسیار بهتر شده است.

Talking Avatar

LTX 2.3 قابلیت ساخت شخصیت سخنگو را نیز دارد. بنابراین می‌توانید:

Lip Sync انجام دهید
Facial Animation بسازید
Voice Matching ایجاد کنید
آواتارهای حرفه‌ای تولید کنید

ساخت ویدیو عمودی برای شبکه‌های اجتماعی

این مدل برای تولید محتوای:

TikTok
Instagram Reels
YouTube Shorts

بهینه شده است و درنتیجه خروجی Portrait بسیار طبیعی‌تری تولید می‌کند.

معماری فنی LTX 2.3

طبق Paper رسمی، LTX-2 از معماری Dual-Stream Transformer استفاده می‌کند:

14B Parameter برای Video
5B Parameter برای Audio

این دو بخش از طریق Cross-Attention به هم متصل شده‌اند تا تصویر و صدا کاملاً هماهنگ باقی بمانند.

نتیجه این معماری:

Lip Sync بهتر
Audio Sync دقیق‌تر
Scene Coherence بالاتر
Timing طبیعی‌تر

سیستم موردنیاز برای LTX 2.3

واقعیت این است که مدل LTX 2.3 نسبتاً سنگین است، بنابراین برای اجرای روان آن به سخت‌افزار مناسبی نیاز دارید.

قطعه	حداقل سیستم پیشنهادی
GPU	RTX 3090 / 4090
VRAM	24GB
RAM	32GB
CUDA	12.7+
Python	3.12+

آموزش نصب LTX 2.3 برای کارت گرافیک‌های ضعیف

اگر VRAM کمی دارید باز هم می‌توانید LTX 2.3 را اجرا کنید، اما باید از نسخه‌های سبک‌تر استفاده کنید.

روش‌های اجرای LTX 2.3 روی سیستم ضعیف:

مدل‌های FP8
نسخه‌های Quantized
GGUF
Tiled VAE
CPU Offloading

برخی کاربران حتی موفق شده‌اند این مدل را روی کارت‌های 6GB اجرا کنند، اما طبیعتاً سرعت رندر پایین‌تر خواهد بود.

آموزش نصب LTX 2.3 در ComfyUI

مرحله اول — نصب Python و CUDA

ابتدا باید:

Python را نصب کنید
CUDA را نصب کنید
درایور کارت گرافیک را آپدیت کنید

زیرا ComfyUI برای اجرای صحیح مدل‌های AI Video به CUDA نیاز دارد.

مرحله دوم — نصب ComfyUI

حالا ComfyUI را دانلود و نصب کنید. بهتر است همیشه آخرین نسخه ComfyUI را استفاده کنید، زیرا LTX 2.3 به‌صورت Native داخل نسخه‌های جدید پشتیبانی می‌شود.

همچنین پیشنهاد می‌شود:

ComfyUI Manager را نصب کنید
Custom Nodeها را آپدیت کنید

دانلود فایل‌های آموزش نصب LTX 2.3

برای اجرای کامل مدل باید فایل‌های زیر را دانلود کنید:

Diffusion Model
Text Encoder
VAE
Audio VAE
Workflowهای ComfyUI
LoRAها
مدل‌های FP8

مدل اصلی
مدل ltx-2.3-22b-dev-fp8.safetensors تک پارت	دانلود(27گیگابایت)
مدل ltx-2.3-22b-dev-Q8_0 پارت اول	دانلود(4گیگابایت)
مدل ltx-2.3-22b-dev-Q8_0 پارت دوم	دانلود(4گیگابایت)
مدل ltx-2.3-22b-dev-Q8_0 پارت سوم	دانلود(4گیگابایت)
مدل ltx-2.3-22b-dev-Q8_0 پارت چهارم	دانلود(4گیگابایت)
مدل ltx-2.3-22b-dev-Q8_0 پارت پنجم	دانلود(4گیگابایت)
مدل ltx-2.3-22b-dev-Q8_0 پارت ششم	دانلود(1.5گیگابایت)
مدل ltx-2.3-22b-dev-Q4_K_M.gguf تک پارت	دانلود(13.5گیگابایت)
مدل ltx-2.3-22b-dev-Q۲.gguf	دانلود(8.5گیگابایت)
مدل های انکودر
gemma-3-12b-Q4 پارت اول	دانلود(4گیگابایت)
gemma-3-12b-Q4 پارت دوم	دانلود(3گیگابایت)
ltx-2.3_text_projection_bf16.safetensors	دانلود(2.15گیگابایت)
gemma_3_12B_it_fp4_mixed.safetensors	دانلود(8.8گیگابایت)
ltx-2.3-22b-dev_embeddings_connectors.safetensors	دانلود(1.69گیگابایت)
فایل های لورا
ltx-2.3-22b-distilled-lora-384.safetensors	دانلود(7.1گیگابایت)
gemma-3-12b-it-abliterated_lora_rank64_bf16.safetensors	دانلود(599مگابایت)
ltx-2.3-22b-distilled-1.1_lora-dynamic_fro09_avg_rank_111_bf16.safetensors	دانلود(2.6گیگابایت)
فایل های VAE
ltx-2.3-22b-dev_audio_vae.safetensors	دانلود(348مگابایت)
ltx-2.3-22b-dev_video_vae.safetensors	دانلود(1.4گیگابایت)
taeltx2_3.safetensors	دانلود(22مگابایت)
فایل های ورکفلو
ltx2.3-workflow	دانلود(کیلوبایت)
ltx2.3_gguf	دانلود(کیلوبایت)
فایل upscale
ltx-2.3-spatial-upscaler-x2-1.1.safetensors	دانلود(930مگابایت)

علاوه بر لینک رسمی HuggingFace، می‌توانید فایل‌ها را از سرور دانلود مستقیم سایت نیز دریافت کنید تا با اینترنت داخلی سرعت دانلود بالاتری داشته باشید.

فایل‌های موردنیاز

فایل	کاربرد
LTX 2.3 Full Model	مدل اصلی
FP8 Model	اجرای سبک‌تر
Audio Model	تولید صدا
VAE	پردازش تصویر
Workflow	اجرای آماده در ComfyUI

ساختار پوشه‌های مدل در ComfyUI

بعد از دانلود فایل‌ها باید آن‌ها را در مسیر صحیح قرار دهید:

ComfyUI/
 ├── models/
 │   ├── diffusion_models/
 │   ├── text_encoders/
 │   ├── vae/
 │   ├── loras/
 │   ├── checkpoints/

اگر فایل‌ها در مسیر اشتباه قرار بگیرند، ComfyUI مدل را شناسایی نخواهد کرد.

دانلود Workflow آماده LTX 2.3

بعد از نصب مدل‌ها می‌توانید Workflow رسمی LTX 2.3 را دانلود کنید.

مسیر داخل ComfyUI:

Video → LTX 2.3 Workflow

علاوه بر این، Workflowهای حرفه‌ای زیادی نیز در GitHub منتشر شده‌اند که امکانات پیشرفته‌تری دارند.

بهترین تنظیمات برای خروجی حرفه‌ای

برای گرفتن بهترین کیفیت پیشنهاد می‌شود:

Resolution حداقل 768×512
CFG متوسط
Prompt طولانی
استفاده از زبان سینمایی
Motion واضح
نورپردازی دقیق

بهترین تنظیمات LTX 2.3 برای VRAM پایین

اگر VRAM کمی دارید:

FP8 Models استفاده کنید
GGUF فعال کنید
Tiled VAE استفاده کنید
CPU Offload را روشن کنید

درنتیجه مصرف VRAM کمتر خواهد شد.

مهم‌ترین راز موفقیت در LTX 2.3: Prompt Engineering

یکی از مهم‌ترین بخش‌های آموزش نصب LTX 2.3 یادگیری Prompt Engineering است، زیرا این مدل به Promptهای طولانی و سینمایی واکنش بسیار بهتری نشان می‌دهد.

ساختار Prompt حرفه‌ای در LTX 2.3

یک Prompt حرفه‌ای بهتر است شامل موارد زیر باشد:

شخصیت
محیط
نورپردازی
حرکت دوربین
Motion
Atmosphere
صدا
سبک فیلمبرداری

مثال Prompt حرفه‌ای برای LTX 2.3

A cinematic medium shot of a young cyberpunk woman standing in a rainy Tokyo alley at night, neon reflections on wet pavement, handheld camera slowly pushing in, shallow depth of field, soft fog in the background, dramatic rim lighting, realistic skin texture, subtle blinking and breathing, distant traffic sounds, rain ambience, emotional atmospheric soundtrack

نکات طلایی Prompt نویسی

استفاده از زبان سینمایی

کلمات مهم:

Cinematic
Dolly Shot
Handheld
Shallow DOF
Macro Lens
Tracking Shot
Golden Hour

توصیف حرکت دوربین

مثال:

Slow Zoom In
Orbit Shot
Cinematic Pan
Drone Shot

توصیف نورپردازی

Rim Lighting
Soft Cinematic Light
Volumetric Fog
Neon Reflections

استفاده از صدا

ازآنجایی‌که LTX 2.3 صدا را درک می‌کند، بهتر است جزئیات صوتی را نیز داخل Prompt بنویسید.

مثال:

Rain Ambience
Crowd Cheering
Soft Piano Soundtrack
Footsteps on Concrete

اشتباهات رایج کاربران در آموزش نصب LTX 2.3

استفاده از Prompt کوتاه

بد:

a man walking

خوب:

a tired detective walking through a rainy noir city at night, cinematic lighting, handheld camera

شلوغ کردن بیش از حد Scene

اگر تعداد کاراکترها زیاد باشد، احتمال ایجاد Artifact بیشتر می‌شود.

نورپردازی متناقض

مثلاً:

شب تاریک
نور خورشید شدید

در یک Scene باعث گیج شدن مدل می‌شود.

آیا LTX 2.3 بهترین مدل Open Source دنیاست؟

در حال حاضر LTX 2.3 یکی از قوی‌ترین مدل‌های AI Video متن‌باز محسوب می‌شود.

مزایا:

Open Source
تولید صوت و تصویر همزمان
کیفیت بسیار بالا
اجرای لوکال
Workflowهای گسترده
پشتیبانی ComfyUI
Community فعال

اما:

VRAM بالا نیاز دارد
Setup اولیه زمان‌بر است
Workflowها پیچیده هستند

آینده LTX 2.3

با رشد سریع Community و توسعه Workflowهای جدید، احتمالاً در آینده شاهد:

Motion Realism بهتر
Character Consistency قوی‌تر
کنترل دوربین سه‌بعدی
Real-Time Generation
Editing حرفه‌ای‌تر

خواهیم بود.

به همین دلیل بسیاری از متخصصان حوزه AI Video آینده بسیار قدرتمندی برای این مدل پیش‌بینی می‌کنند.

سوالات متداول درباره آموزش نصب LTX 2.3

آیا LTX 2.3 رایگان است؟

بله، این مدل کاملاً متن‌باز و رایگان منتشر شده است.

آیا LTX 2.3 روی کارت گرافیک 8 گیگ اجرا می‌شود؟

بله، اما بهتر است از نسخه‌های FP8 و Quantized استفاده کنید.

بهترین روش اجرای LTX 2.3 چیست؟

اجرای مدل از طریق ComfyUI حرفه‌ای‌ترین روش محسوب می‌شود.

آیا LTX 2.3 قابلیت تولید صدا دارد؟

بله، این مدل می‌تواند صدا و ویدیو را همزمان تولید کند.

جمع‌بندی

LTX 2.3 فقط یک مدل ویدیوساز دیگر نیست؛ بلکه نشان می‌دهد آینده ساخت ویدیو با هوش مصنوعی قرار نیست فقط در اختیار شرکت‌های بسته و سرویس‌های گران‌قیمت باشد.

حالا هر کسی با یک GPU مناسب می‌تواند:

ویدیو سینمایی تولید کند
Talking Avatar بسازد
موزیک ویدیو ایجاد کند
Workflow اختصاصی توسعه دهد
و پروژه‌های حرفه‌ای AI Video اجرا کند

آن هم کاملاً لوکال، متن‌باز و بدون محدودیت API.

4 دیدگاه

راد
1405/03/09

سلام آموزشتون رو انجام دادم اما جواب نمیده و ارور بخش Clip رو میده دوفایل تسکت انکودر. کاش رفع سوالات هم داشتین

پاسخ

mohtips
1405/03/10

سلام دوست عزیز چه خطایی دریافت کردین؟

پاسخ

راد
1405/03/11

RuntimeError: shape ‘[15360, 1920]’ is invalid for input of size 13841856
ComfyUI Error Report
Error Details
Node ID: 146
Node Type: DualCLIPLoader
Exception Type: RuntimeError
Exception Message: RuntimeError: shape ‘[15360, 1920]’ is invalid for input of size 13841856
Stack Trace
File “E:\comphyui\ComfyUI_windows_portable\ComfyUI\execution.py”, line 535, in execute output_data, output_ui, has_subgraph, has_pending_tasks = await get_output_data(prompt_id, unique_id, obj, input_data_all, execution_block_cb=execution_block_cb, pre_execute_cb=pre_execute_cb, v3_data=v3_data) …………….کلی متن …………….. ~~~~~~~~~~~~~~~~^^^^^^ File “E:\comphyui\ComfyUI_windows_portable\ComfyUI\comfy\utils.py”, line 110, in load_safetensors tensor = torch.frombuffer(mv[start:end], dtype=_TYPES[info[“dtype”]]).view(info[“shape”]) RuntimeError: shape ‘[15360, 1920]’ is invalid for input of size 13841856 2026-05-30T20:17:58.958373 – Prompt executed in 1.69 seconds 2026-05-30T20:18:04.738572 – FETCH ComfyRegistry Data: 25/1492026-05-30T20:18:04.739080 –
Attached Workflow
Please make sure that workflow does not contain any sensitive information such as API keys or passwords.
Workflow too large. Please manually upload the workflow from local file system.
Additional Context
(Please add any additional context or steps to reproduce the error here)

پاسخ

mohtips
1405/03/12

برای قسمت تکست انکودر از دو فایل زیر استفاده میکنید؟
ltx-2.3_text_projection_bf16.safetensors
gemma_3_12B_it_fp4_mixed.safetensors
اگر بله دقت کنید درست دانلود شده باشن حجم های این دوفایل رو بعد از دانلود دقیق بفرمایید

پاسخ

آموزش نصب LTX 2.3 در ComfyUI + دانلود مدل و ساخت ویدیو با هوش مصنوعی

به اشتراک بگذارید

LTX 2.3 چیست؟

چرا LTX 2.3 اهمیت زیادی دارد؟

کاملاً Open Source

تولید همزمان ویدیو و صدا

کیفیت سینمایی حرفه‌ای

ساخت ویدیو های فارسی با LTX 2.3

قابلیت‌های اصلی LTX 2.3

Text to Video

Image to Video

Talking Avatar

ساخت ویدیو عمودی برای شبکه‌های اجتماعی

معماری فنی LTX 2.3

سیستم موردنیاز برای LTX 2.3

آموزش نصب LTX 2.3 برای کارت گرافیک‌های ضعیف

آموزش نصب LTX 2.3 در ComfyUI

مرحله اول — نصب Python و CUDA

مرحله دوم — نصب ComfyUI

دانلود فایل‌های آموزش نصب LTX 2.3

فایل‌های موردنیاز

ساختار پوشه‌های مدل در ComfyUI

دانلود Workflow آماده LTX 2.3

بهترین تنظیمات برای خروجی حرفه‌ای

بهترین تنظیمات LTX 2.3 برای VRAM پایین

مهم‌ترین راز موفقیت در LTX 2.3: Prompt Engineering

ساختار Prompt حرفه‌ای در LTX 2.3

مثال Prompt حرفه‌ای برای LTX 2.3

نکات طلایی Prompt نویسی

استفاده از زبان سینمایی

توصیف حرکت دوربین

توصیف نورپردازی

استفاده از صدا

اشتباهات رایج کاربران در آموزش نصب LTX 2.3

استفاده از Prompt کوتاه

شلوغ کردن بیش از حد Scene

نورپردازی متناقض

آیا LTX 2.3 بهترین مدل Open Source دنیاست؟

آینده LTX 2.3

سوالات متداول درباره آموزش نصب LTX 2.3

آیا LTX 2.3 رایگان است؟

آیا LTX 2.3 روی کارت گرافیک 8 گیگ اجرا می‌شود؟

بهترین روش اجرای LTX 2.3 چیست؟

آیا LTX 2.3 قابلیت تولید صدا دارد؟

جمع‌بندی

mohtips

مقالات مرتبط

معرفی Gemma 4 12B؛ مدل جدید گوگل برای اجرای هوش مصنوعی روی لپ‌تاپ

Ideogram 4.0 منتشر شد؛ قدرتمندترین مدل متن‌به‌تصویر متن‌باز برای طراحی گرافیک؟

تغییر زاویه تصویر با هوش مصنوعی با Qwen Multiple Angles LoRA

4 دیدگاه

راد

mohtips

راد

mohtips

ثبت دیدگاه