آموزش نصب LTX 2.3 این روزها به یکی از داغترین موضوعات دنیای هوش مصنوعی تبدیل شده است، زیرا این مدل متنباز قدرتمند میتواند ویدیوهای سینمایی، صدا، دیالوگ و افکتهای حرفهای تولید کند. اگر تا همین چند ماه قبل ساخت ویدیوهای حرفهای با هوش مصنوعی فقط در اختیار مدلهای بسته و گرانقیمت بود، حالا LTX 2.3 آمده تا این معادله را تغییر دهد و امکان ساخت ویدیوهای حرفهای را روی سیستم شخصی فراهم کند.
مدل جدید LTX 2.3 by Lightricks یکی از پیشرفتهترین مدلهای Open Source حوزه AI Video محسوب میشود، زیرا قابلیتهای نوآورانهی آن امکان تولید ویدیوهای با کیفیت بالا را فراهم کرده است. این مدل نهتنها قابلیت ساخت ویدیو از متن را دارد، بلکه میتواند صدا، افکتهای محیطی، دیالوگ و هماهنگی تصویر و صوت را نیز بهصورت همزمان مدیریت کند. به همین دلیل بسیاری از کاربران ComfyUI و فعالان حوزه ساخت ویدیو با هوش مصنوعی، LTX 2.3 را یکی از مهمترین مدلهای ویدیوساز سال 2026 میدانند.
علاوه بر این، برخلاف سرویسهای ابری و مدلهای بسته مثل Veo یا Runway، شما میتوانید LTX 2.3 را بهصورت کامل روی سیستم شخصی اجرا کنید، Workflow اختصاصی بسازید و بدون محدودیت API پروژههای حرفهای تولید محتوا ایجاد کنید.
LTX 2.3 چیست؟
Lightricks اعلام کرده است که مدل LTX 2.3 را بهعنوان نسل جدید موتور تولید ویدیوی خود معرفی کرده است.این مدل بر پایه معماری diffusion و transformer توسعه یافته و میتواند تصویر و صدا را بهصورت همزمان تولید کند.
برخلاف بسیاری از مدلهای متنباز که فقط ویدیوهای خام و بدون صدا تولید میکنند، LTX 2.3 امکانات بسیار گستردهای ارائه میدهد:
- تولید ویدیو سینمایی
- ساخت صدا و موسیقی همزمان
- تولید دیالوگ هماهنگ
- اجرای Lip Sync
- تبدیل تصویر به ویدیو (Image to Video)
- تبدیل متن به ویدیو (Text to Video)
- تولید ویدیو عمودی 9:16
- خروجی 4K و 50FPS
- اجرای کامل روی سیستم لوکال
همین ویژگیها باعث شدهاند که LTX 2.3 به یکی از قدرتمندترین مدلهای ویدیوساز هوش مصنوعی متنباز تبدیل شود و جایگاه ویژهای در میان ابزارهای متنباز بهدست آورد.
چرا LTX 2.3 اهمیت زیادی دارد؟
کاملاً Open Source
یکی از مهمترین مزایای LTX 2.3 متنباز بودن آن است. برخلاف مدلهایی مثل Sora یا Veo که دسترسی عمومی ندارند، این مدل بهصورت کامل در دسترس کاربران قرار گرفته است.
مزایای Open Source بودن:
- کنترل کامل روی Workflow
- امکان Fine-Tune
- اجرای آفلاین
- ساخت Pipeline اختصاصی
- حذف محدودیتهای API
- امکان استفاده در ComfyUI
تولید همزمان ویدیو و صدا
بیشتر مدلهای AI Video فقط تصویر متحرک تولید میکنند، اما LTX 2.3 بهصورت Native از Audio Generation پشتیبانی میکند. به همین دلیل میتوانید ویدیوهایی با صدای محیط، موسیقی و حتی دیالوگ هماهنگ بسازید.
برای مثال میتوانید چنین Promptی وارد کنید:
A man walking through rainy Tokyo streets at night, neon reflections on wet asphalt, soft cinematic lighting, rain ambience, distant traffic sounds and emotional soundtrack
درنتیجه مدل:
- ویدیو تولید میکند
- صدای باران میسازد
- افکت محیطی ایجاد میکند
- موسیقی هماهنگ تولید میکند
کیفیت سینمایی حرفهای
طبق مستندات رسمی، LTX 2.3 نسبت به نسخههای قبلی پیشرفت قابلتوجهی داشته است:
- Motion طبیعیتر
- درک بهتر Prompt
- جزئیات بیشتر
- Artifact کمتر
- نورپردازی بهتر
- کیفیت Portrait بالاتر
- Text Rendering دقیقتر
قابلیتهای پیشرفتهی این مدل، نیازهای پروژههای پیچیده را بهخوبی برآورده میکند؛ ازاینرو، بسیاری از کاربران حرفهای ComfyUI به سمت استفاده از آن مهاجرت کردهاند.
ساخت ویدیو های فارسی با LTX 2.3
با LTX 2.3 میتونی خیلی راحت ویدیوهای فارسی بسازی؛ فقط متن فارسی رو وارد میکنی، صدا، تصویر و استایل رو انتخاب میکنی و ابزار خودش بهصورت خودکار ویدیو حرفهای و قابل انتشار بهت تحویل میده فقط دقت کنید برای تلفظ صحیح کلمات حتما متن فارسی را اعراب گذاری کنید.
قابلیتهای اصلی LTX 2.3
Text to Video
یکی از مهمترین ویژگیهای LTX 2.3، تبدیل متن به ویدیو است، بهطوریکه کاربران تنها با نوشتن یک پرامپت سینمایی قادر به تولید ویدیوهای حرفهای خواهند بود.
مثال:
cinematic close-up of a cyberpunk samurai walking through neon rain in Tokyo, shallow depth of field, handheld camera, dramatic lighting
Image to Video
در این حالت فقط کافی است یک تصویر وارد کنید تا مدل:
- حرکت طبیعی ایجاد کند
- دوربین را متحرک کند
- کاراکتر را Animate کند
- Scene را زنده کند
علاوه بر این، Motion Consistency در LTX 2.3 نسبت به نسخههای قبلی بسیار بهتر شده است.
Talking Avatar
LTX 2.3 قابلیت ساخت شخصیت سخنگو را نیز دارد. بنابراین میتوانید:
- Lip Sync انجام دهید
- Facial Animation بسازید
- Voice Matching ایجاد کنید
- آواتارهای حرفهای تولید کنید
ساخت ویدیو عمودی برای شبکههای اجتماعی
این مدل برای تولید محتوای:
- TikTok
- Instagram Reels
- YouTube Shorts
بهینه شده است و درنتیجه خروجی Portrait بسیار طبیعیتری تولید میکند.
معماری فنی LTX 2.3
طبق Paper رسمی، LTX-2 از معماری Dual-Stream Transformer استفاده میکند:
- 14B Parameter برای Video
- 5B Parameter برای Audio
این دو بخش از طریق Cross-Attention به هم متصل شدهاند تا تصویر و صدا کاملاً هماهنگ باقی بمانند.
نتیجه این معماری:
- Lip Sync بهتر
- Audio Sync دقیقتر
- Scene Coherence بالاتر
- Timing طبیعیتر
سیستم موردنیاز برای LTX 2.3
واقعیت این است که مدل LTX 2.3 نسبتاً سنگین است، بنابراین برای اجرای روان آن به سختافزار مناسبی نیاز دارید.
قطعه حداقل سیستم پیشنهادی GPU RTX 3090 / 4090 VRAM 24GB RAM 32GB CUDA 12.7+ Python 3.12+
آموزش نصب LTX 2.3 برای کارت گرافیکهای ضعیف
اگر VRAM کمی دارید باز هم میتوانید LTX 2.3 را اجرا کنید، اما باید از نسخههای سبکتر استفاده کنید.
روشهای اجرای LTX 2.3 روی سیستم ضعیف:
- مدلهای FP8
- نسخههای Quantized
- GGUF
- Tiled VAE
- CPU Offloading
برخی کاربران حتی موفق شدهاند این مدل را روی کارتهای 6GB اجرا کنند، اما طبیعتاً سرعت رندر پایینتر خواهد بود.
آموزش نصب LTX 2.3 در ComfyUI
مرحله اول — نصب Python و CUDA
ابتدا باید:
- Python را نصب کنید
- CUDA را نصب کنید
- درایور کارت گرافیک را آپدیت کنید
زیرا ComfyUI برای اجرای صحیح مدلهای AI Video به CUDA نیاز دارد.
مرحله دوم — نصب ComfyUI
حالا ComfyUI را دانلود و نصب کنید. بهتر است همیشه آخرین نسخه ComfyUI را استفاده کنید، زیرا LTX 2.3 بهصورت Native داخل نسخههای جدید پشتیبانی میشود.
همچنین پیشنهاد میشود:
- ComfyUI Manager را نصب کنید
- Custom Nodeها را آپدیت کنید
دانلود فایلهای آموزش نصب LTX 2.3
برای اجرای کامل مدل باید فایلهای زیر را دانلود کنید:
- Diffusion Model
- Text Encoder
- VAE
- Audio VAE
- Workflowهای ComfyUI
- LoRAها
- مدلهای FP8
| مدل اصلی | |
| مدل ltx-2.3-22b-dev-fp8.safetensors تک پارت | دانلود(27گیگابایت) |
| مدل ltx-2.3-22b-dev-Q8_0 پارت اول | دانلود(4گیگابایت) |
| مدل ltx-2.3-22b-dev-Q8_0 پارت دوم | دانلود(4گیگابایت) |
| مدل ltx-2.3-22b-dev-Q8_0 پارت سوم | دانلود(4گیگابایت) |
| مدل ltx-2.3-22b-dev-Q8_0 پارت چهارم | دانلود(4گیگابایت) |
| مدل ltx-2.3-22b-dev-Q8_0 پارت پنجم | دانلود(4گیگابایت) |
| مدل ltx-2.3-22b-dev-Q8_0 پارت ششم | دانلود(1.5گیگابایت) |
| مدل ltx-2.3-22b-dev-Q4_K_M.gguf تک پارت | دانلود(13.5گیگابایت) |
| مدل ltx-2.3-22b-dev-Q۲.gguf | دانلود(8.5گیگابایت) |
| مدل های انکودر | |
| gemma-3-12b-Q4 پارت اول | دانلود(4گیگابایت) |
| gemma-3-12b-Q4 پارت دوم | دانلود(3گیگابایت) |
| ltx-2.3_text_projection_bf16.safetensors | دانلود(2.15گیگابایت) |
| gemma_3_12B_it_fp4_mixed.safetensors | دانلود(8.8گیگابایت) |
| ltx-2.3-22b-dev_embeddings_connectors.safetensors | دانلود(1.69گیگابایت) |
| فایل های لورا | |
| ltx-2.3-22b-distilled-lora-384.safetensors | دانلود(7.1گیگابایت) |
| gemma-3-12b-it-abliterated_lora_rank64_bf16.safetensors | دانلود(599مگابایت) |
| ltx-2.3-22b-distilled-1.1_lora-dynamic_fro09_avg_rank_111_bf16.safetensors | دانلود(2.6گیگابایت) |
| فایل های VAE | |
| ltx-2.3-22b-dev_audio_vae.safetensors | دانلود(348مگابایت) |
| ltx-2.3-22b-dev_video_vae.safetensors | دانلود(1.4گیگابایت) |
| taeltx2_3.safetensors | دانلود(22مگابایت) |
| فایل های ورکفلو | |
| ltx2.3-workflow | دانلود(کیلوبایت) |
| ltx2.3_gguf | دانلود(کیلوبایت) |
| فایل upscale | |
| ltx-2.3-spatial-upscaler-x2-1.1.safetensors | دانلود(930مگابایت) |
علاوه بر لینک رسمی HuggingFace، میتوانید فایلها را از سرور دانلود مستقیم سایت نیز دریافت کنید تا با اینترنت داخلی سرعت دانلود بالاتری داشته باشید.
فایلهای موردنیاز
| فایل | کاربرد |
|---|---|
| LTX 2.3 Full Model | مدل اصلی |
| FP8 Model | اجرای سبکتر |
| Audio Model | تولید صدا |
| VAE | پردازش تصویر |
| Workflow | اجرای آماده در ComfyUI |
ساختار پوشههای مدل در ComfyUI
بعد از دانلود فایلها باید آنها را در مسیر صحیح قرار دهید:
ComfyUI/
├── models/
│ ├── diffusion_models/
│ ├── text_encoders/
│ ├── vae/
│ ├── loras/
│ ├── checkpoints/
اگر فایلها در مسیر اشتباه قرار بگیرند، ComfyUI مدل را شناسایی نخواهد کرد.
دانلود Workflow آماده LTX 2.3
بعد از نصب مدلها میتوانید Workflow رسمی LTX 2.3 را دانلود کنید.
مسیر داخل ComfyUI:
Video → LTX 2.3 Workflow
علاوه بر این، Workflowهای حرفهای زیادی نیز در GitHub منتشر شدهاند که امکانات پیشرفتهتری دارند.
بهترین تنظیمات برای خروجی حرفهای
برای گرفتن بهترین کیفیت پیشنهاد میشود:
- Resolution حداقل 768×512
- CFG متوسط
- Prompt طولانی
- استفاده از زبان سینمایی
- Motion واضح
- نورپردازی دقیق
بهترین تنظیمات LTX 2.3 برای VRAM پایین
اگر VRAM کمی دارید:
- FP8 Models استفاده کنید
- GGUF فعال کنید
- Tiled VAE استفاده کنید
- CPU Offload را روشن کنید
درنتیجه مصرف VRAM کمتر خواهد شد.
مهمترین راز موفقیت در LTX 2.3: Prompt Engineering
یکی از مهمترین بخشهای آموزش نصب LTX 2.3 یادگیری Prompt Engineering است، زیرا این مدل به Promptهای طولانی و سینمایی واکنش بسیار بهتری نشان میدهد.
ساختار Prompt حرفهای در LTX 2.3
یک Prompt حرفهای بهتر است شامل موارد زیر باشد:
- شخصیت
- محیط
- نورپردازی
- حرکت دوربین
- Motion
- Atmosphere
- صدا
- سبک فیلمبرداری
مثال Prompt حرفهای برای LTX 2.3
A cinematic medium shot of a young cyberpunk woman standing in a rainy Tokyo alley at night, neon reflections on wet pavement, handheld camera slowly pushing in, shallow depth of field, soft fog in the background, dramatic rim lighting, realistic skin texture, subtle blinking and breathing, distant traffic sounds, rain ambience, emotional atmospheric soundtrack
نکات طلایی Prompt نویسی
استفاده از زبان سینمایی
کلمات مهم:
- Cinematic
- Dolly Shot
- Handheld
- Shallow DOF
- Macro Lens
- Tracking Shot
- Golden Hour
توصیف حرکت دوربین
مثال:
- Slow Zoom In
- Orbit Shot
- Cinematic Pan
- Drone Shot
توصیف نورپردازی
- Rim Lighting
- Soft Cinematic Light
- Volumetric Fog
- Neon Reflections
استفاده از صدا
ازآنجاییکه LTX 2.3 صدا را درک میکند، بهتر است جزئیات صوتی را نیز داخل Prompt بنویسید.
مثال:
- Rain Ambience
- Crowd Cheering
- Soft Piano Soundtrack
- Footsteps on Concrete
اشتباهات رایج کاربران در آموزش نصب LTX 2.3
استفاده از Prompt کوتاه
بد:
a man walking
خوب:
a tired detective walking through a rainy noir city at night, cinematic lighting, handheld camera
شلوغ کردن بیش از حد Scene
اگر تعداد کاراکترها زیاد باشد، احتمال ایجاد Artifact بیشتر میشود.
نورپردازی متناقض
مثلاً:
- شب تاریک
- نور خورشید شدید
در یک Scene باعث گیج شدن مدل میشود.
آیا LTX 2.3 بهترین مدل Open Source دنیاست؟
در حال حاضر LTX 2.3 یکی از قویترین مدلهای AI Video متنباز محسوب میشود.
مزایا:
- Open Source
- تولید صوت و تصویر همزمان
- کیفیت بسیار بالا
- اجرای لوکال
- Workflowهای گسترده
- پشتیبانی ComfyUI
- Community فعال
اما:
- VRAM بالا نیاز دارد
- Setup اولیه زمانبر است
- Workflowها پیچیده هستند
آینده LTX 2.3
با رشد سریع Community و توسعه Workflowهای جدید، احتمالاً در آینده شاهد:
- Motion Realism بهتر
- Character Consistency قویتر
- کنترل دوربین سهبعدی
- Real-Time Generation
- Editing حرفهایتر
خواهیم بود.
به همین دلیل بسیاری از متخصصان حوزه AI Video آینده بسیار قدرتمندی برای این مدل پیشبینی میکنند.
سوالات متداول درباره آموزش نصب LTX 2.3
آیا LTX 2.3 رایگان است؟
بله، این مدل کاملاً متنباز و رایگان منتشر شده است.
آیا LTX 2.3 روی کارت گرافیک 8 گیگ اجرا میشود؟
بله، اما بهتر است از نسخههای FP8 و Quantized استفاده کنید.
بهترین روش اجرای LTX 2.3 چیست؟
اجرای مدل از طریق ComfyUI حرفهایترین روش محسوب میشود.
آیا LTX 2.3 قابلیت تولید صدا دارد؟
بله، این مدل میتواند صدا و ویدیو را همزمان تولید کند.
جمعبندی
LTX 2.3 فقط یک مدل ویدیوساز دیگر نیست؛ بلکه نشان میدهد آینده ساخت ویدیو با هوش مصنوعی قرار نیست فقط در اختیار شرکتهای بسته و سرویسهای گرانقیمت باشد.
حالا هر کسی با یک GPU مناسب میتواند:
- ویدیو سینمایی تولید کند
- Talking Avatar بسازد
- موزیک ویدیو ایجاد کند
- Workflow اختصاصی توسعه دهد
- و پروژههای حرفهای AI Video اجرا کند
آن هم کاملاً لوکال، متنباز و بدون محدودیت API.
راد
1405/03/09سلام آموزشتون رو انجام دادم اما جواب نمیده و ارور بخش Clip رو میده دوفایل تسکت انکودر. کاش رفع سوالات هم داشتین
mohtips
1405/03/10سلام دوست عزیز چه خطایی دریافت کردین؟
راد
1405/03/11RuntimeError: shape ‘[15360, 1920]’ is invalid for input of size 13841856
ComfyUI Error Report
Error Details
Node ID: 146
Node Type: DualCLIPLoader
Exception Type: RuntimeError
Exception Message: RuntimeError: shape ‘[15360, 1920]’ is invalid for input of size 13841856
Stack Trace
File “E:\comphyui\ComfyUI_windows_portable\ComfyUI\execution.py”, line 535, in execute output_data, output_ui, has_subgraph, has_pending_tasks = await get_output_data(prompt_id, unique_id, obj, input_data_all, execution_block_cb=execution_block_cb, pre_execute_cb=pre_execute_cb, v3_data=v3_data) …………….کلی متن …………….. ~~~~~~~~~~~~~~~~^^^^^^ File “E:\comphyui\ComfyUI_windows_portable\ComfyUI\comfy\utils.py”, line 110, in load_safetensors tensor = torch.frombuffer(mv[start:end], dtype=_TYPES[info[“dtype”]]).view(info[“shape”]) RuntimeError: shape ‘[15360, 1920]’ is invalid for input of size 13841856 2026-05-30T20:17:58.958373 – Prompt executed in 1.69 seconds 2026-05-30T20:18:04.738572 – FETCH ComfyRegistry Data: 25/1492026-05-30T20:18:04.739080 –
Attached Workflow
Please make sure that workflow does not contain any sensitive information such as API keys or passwords.
Workflow too large. Please manually upload the workflow from local file system.
Additional Context
(Please add any additional context or steps to reproduce the error here)
mohtips
1405/03/12برای قسمت تکست انکودر از دو فایل زیر استفاده میکنید؟
ltx-2.3_text_projection_bf16.safetensors
gemma_3_12B_it_fp4_mixed.safetensors
اگر بله دقت کنید درست دانلود شده باشن حجم های این دوفایل رو بعد از دانلود دقیق بفرمایید