• ابزار هوش مصنوعی
  • آموزش نصب
  • ابزار اوپن سورس
  • ارتباط با ما
  • آموزش نصب LTX 2.3 در ComfyUI + دانلود مدل و ساخت ویدیو با هوش مصنوعی

    آموزش نصب LTX 2.3 این روزها به یکی از داغ‌ترین موضوعات دنیای هوش مصنوعی تبدیل شده است، زیرا این مدل متن‌باز قدرتمند می‌تواند ویدیوهای سینمایی، صدا، دیالوگ و افکت‌های حرفه‌ای تولید کند. اگر تا همین چند ماه قبل ساخت ویدیوهای حرفه‌ای با هوش مصنوعی فقط در اختیار مدل‌های بسته و گران‌قیمت بود، حالا LTX 2.3 آمده تا این معادله را تغییر دهد و امکان ساخت ویدیوهای حرفه‌ای را روی سیستم شخصی فراهم کند.

    مدل جدید LTX 2.3 by Lightricks یکی از پیشرفته‌ترین مدل‌های Open Source حوزه AI Video محسوب می‌شود، زیرا قابلیت‌های نوآورانه‌ی آن امکان تولید ویدیوهای با کیفیت بالا را فراهم کرده است. این مدل نه‌تنها قابلیت ساخت ویدیو از متن را دارد، بلکه می‌تواند صدا، افکت‌های محیطی، دیالوگ و هماهنگی تصویر و صوت را نیز به‌صورت همزمان مدیریت کند. به همین دلیل بسیاری از کاربران ComfyUI و فعالان حوزه ساخت ویدیو با هوش مصنوعی، LTX 2.3 را یکی از مهم‌ترین مدل‌های ویدیوساز سال 2026 می‌دانند.

    علاوه بر این، برخلاف سرویس‌های ابری و مدل‌های بسته مثل Veo یا Runway، شما می‌توانید LTX 2.3 را به‌صورت کامل روی سیستم شخصی اجرا کنید، Workflow اختصاصی بسازید و بدون محدودیت API پروژه‌های حرفه‌ای تولید محتوا ایجاد کنید.

    LTX 2.3 چیست؟

    Lightricks اعلام کرده است که مدل LTX 2.3 را به‌عنوان نسل جدید موتور تولید ویدیوی خود معرفی کرده است.این مدل بر پایه معماری diffusion و transformer توسعه یافته و می‌تواند تصویر و صدا را به‌صورت همزمان تولید کند.

    برخلاف بسیاری از مدل‌های متن‌باز که فقط ویدیوهای خام و بدون صدا تولید می‌کنند، LTX 2.3 امکانات بسیار گسترده‌ای ارائه می‌دهد:

    • تولید ویدیو سینمایی
    • ساخت صدا و موسیقی همزمان
    • تولید دیالوگ هماهنگ
    • اجرای Lip Sync
    • تبدیل تصویر به ویدیو (Image to Video)
    • تبدیل متن به ویدیو (Text to Video)
    • تولید ویدیو عمودی 9:16
    • خروجی 4K و 50FPS
    • اجرای کامل روی سیستم لوکال

    همین ویژگی‌ها باعث شده‌اند که LTX 2.3 به یکی از قدرتمندترین مدل‌های ویدیوساز هوش مصنوعی متن‌باز تبدیل شود و جایگاه ویژه‌ای در میان ابزارهای متن‌باز به‌دست آورد.

    چرا LTX 2.3 اهمیت زیادی دارد؟

    کاملاً Open Source

    یکی از مهم‌ترین مزایای LTX 2.3 متن‌باز بودن آن است. برخلاف مدل‌هایی مثل Sora یا Veo که دسترسی عمومی ندارند، این مدل به‌صورت کامل در دسترس کاربران قرار گرفته است.

    مزایای Open Source بودن:

    • کنترل کامل روی Workflow
    • امکان Fine-Tune
    • اجرای آفلاین
    • ساخت Pipeline اختصاصی
    • حذف محدودیت‌های API
    • امکان استفاده در ComfyUI

    تولید همزمان ویدیو و صدا

    بیشتر مدل‌های AI Video فقط تصویر متحرک تولید می‌کنند، اما LTX 2.3 به‌صورت Native از Audio Generation پشتیبانی می‌کند. به همین دلیل می‌توانید ویدیوهایی با صدای محیط، موسیقی و حتی دیالوگ هماهنگ بسازید.

    برای مثال می‌توانید چنین Promptی وارد کنید:

    A man walking through rainy Tokyo streets at night, neon reflections on wet asphalt, soft cinematic lighting, rain ambience, distant traffic sounds and emotional soundtrack
    

    درنتیجه مدل:

    • ویدیو تولید می‌کند
    • صدای باران می‌سازد
    • افکت محیطی ایجاد می‌کند
    • موسیقی هماهنگ تولید می‌کند

    کیفیت سینمایی حرفه‌ای

    طبق مستندات رسمی، LTX 2.3 نسبت به نسخه‌های قبلی پیشرفت قابل‌توجهی داشته است:

    • Motion طبیعی‌تر
    • درک بهتر Prompt
    • جزئیات بیشتر
    • Artifact کمتر
    • نورپردازی بهتر
    • کیفیت Portrait بالاتر
    • Text Rendering دقیق‌تر

    قابلیت‌های پیشرفته‌ی این مدل، نیازهای پروژه‌های پیچیده را به‌خوبی برآورده می‌کند؛ ازاین‌رو، بسیاری از کاربران حرفه‌ای ComfyUI به سمت استفاده از آن مهاجرت کرده‌اند.

    ساخت ویدیو های فارسی با LTX 2.3

    با LTX 2.3 می‌تونی خیلی راحت ویدیوهای فارسی بسازی؛ فقط متن فارسی رو وارد می‌کنی، صدا، تصویر و استایل رو انتخاب می‌کنی و ابزار خودش به‌صورت خودکار ویدیو حرفه‌ای و قابل انتشار بهت تحویل می‌ده فقط دقت کنید برای تلفظ صحیح کلمات حتما متن فارسی را اعراب گذاری کنید.

    قابلیت‌های اصلی LTX 2.3

    Text to Video

    یکی از مهم‌ترین ویژگی‌های LTX 2.3، تبدیل متن به ویدیو است، به‌طوری‌که کاربران تنها با نوشتن یک پرامپت سینمایی قادر به تولید ویدیوهای حرفه‌ای خواهند بود.

    مثال:

    cinematic close-up of a cyberpunk samurai walking through neon rain in Tokyo, shallow depth of field, handheld camera, dramatic lighting
    

    Image to Video

    در این حالت فقط کافی است یک تصویر وارد کنید تا مدل:

    • حرکت طبیعی ایجاد کند
    • دوربین را متحرک کند
    • کاراکتر را Animate کند
    • Scene را زنده کند

    علاوه بر این، Motion Consistency در LTX 2.3 نسبت به نسخه‌های قبلی بسیار بهتر شده است.

    Talking Avatar

    LTX 2.3 قابلیت ساخت شخصیت سخنگو را نیز دارد. بنابراین می‌توانید:

    • Lip Sync انجام دهید
    • Facial Animation بسازید
    • Voice Matching ایجاد کنید
    • آواتارهای حرفه‌ای تولید کنید

    ساخت ویدیو عمودی برای شبکه‌های اجتماعی

    این مدل برای تولید محتوای:

    • TikTok
    • Instagram Reels
    • YouTube Shorts

    بهینه شده است و درنتیجه خروجی Portrait بسیار طبیعی‌تری تولید می‌کند.

    معماری فنی LTX 2.3

    طبق Paper رسمی، LTX-2 از معماری Dual-Stream Transformer استفاده می‌کند:

    • 14B Parameter برای Video
    • 5B Parameter برای Audio

    این دو بخش از طریق Cross-Attention به هم متصل شده‌اند تا تصویر و صدا کاملاً هماهنگ باقی بمانند.

    نتیجه این معماری:

    • Lip Sync بهتر
    • Audio Sync دقیق‌تر
    • Scene Coherence بالاتر
    • Timing طبیعی‌تر

    سیستم موردنیاز برای LTX 2.3

    واقعیت این است که مدل LTX 2.3 نسبتاً سنگین است، بنابراین برای اجرای روان آن به سخت‌افزار مناسبی نیاز دارید.

    قطعهحداقل سیستم پیشنهادی
    GPURTX 3090 / 4090
    VRAM24GB
    RAM32GB
    CUDA12.7+
    Python3.12+

    آموزش نصب LTX 2.3 برای کارت گرافیک‌های ضعیف

    اگر VRAM کمی دارید باز هم می‌توانید LTX 2.3 را اجرا کنید، اما باید از نسخه‌های سبک‌تر استفاده کنید.

    روش‌های اجرای LTX 2.3 روی سیستم ضعیف:

    • مدل‌های FP8
    • نسخه‌های Quantized
    • GGUF
    • Tiled VAE
    • CPU Offloading

    برخی کاربران حتی موفق شده‌اند این مدل را روی کارت‌های 6GB اجرا کنند، اما طبیعتاً سرعت رندر پایین‌تر خواهد بود.

    آموزش نصب LTX 2.3 در ComfyUI

    مرحله اول — نصب Python و CUDA

    ابتدا باید:

    • Python را نصب کنید
    • CUDA را نصب کنید
    • درایور کارت گرافیک را آپدیت کنید

    زیرا ComfyUI برای اجرای صحیح مدل‌های AI Video به CUDA نیاز دارد.

    مرحله دوم — نصب ComfyUI

    حالا ComfyUI را دانلود و نصب کنید. بهتر است همیشه آخرین نسخه ComfyUI را استفاده کنید، زیرا LTX 2.3 به‌صورت Native داخل نسخه‌های جدید پشتیبانی می‌شود.

    همچنین پیشنهاد می‌شود:

    • ComfyUI Manager را نصب کنید
    • Custom Nodeها را آپدیت کنید

    دانلود فایل‌های آموزش نصب LTX 2.3

    برای اجرای کامل مدل باید فایل‌های زیر را دانلود کنید:

    • Diffusion Model
    • Text Encoder
    • VAE
    • Audio VAE
    • Workflowهای ComfyUI
    • LoRAها
    • مدل‌های FP8
    مدل اصلی
    مدل ltx-2.3-22b-dev-fp8.safetensors تک پارتدانلود(27گیگابایت)
    مدل ltx-2.3-22b-dev-Q8_0 پارت اولدانلود(4گیگابایت)
    مدل ltx-2.3-22b-dev-Q8_0 پارت دومدانلود(4گیگابایت)
    مدل ltx-2.3-22b-dev-Q8_0 پارت سومدانلود(4گیگابایت)
    مدل ltx-2.3-22b-dev-Q8_0 پارت چهارمدانلود(4گیگابایت)
    مدل ltx-2.3-22b-dev-Q8_0 پارت پنجمدانلود(4گیگابایت)
    مدل ltx-2.3-22b-dev-Q8_0 پارت ششمدانلود(1.5گیگابایت)
    مدل ltx-2.3-22b-dev-Q4_K_M.gguf تک پارتدانلود(13.5گیگابایت)
    مدل ltx-2.3-22b-dev-Q۲.ggufدانلود(8.5گیگابایت)
    مدل های انکودر
    gemma-3-12b-Q4 پارت اولدانلود(4گیگابایت)
    gemma-3-12b-Q4 پارت دومدانلود(3گیگابایت)
    ltx-2.3_text_projection_bf16.safetensorsدانلود(2.15گیگابایت)
    gemma_3_12B_it_fp4_mixed.safetensorsدانلود(8.8گیگابایت)
    ltx-2.3-22b-dev_embeddings_connectors.safetensorsدانلود(1.69گیگابایت)
    فایل های لورا
    ltx-2.3-22b-distilled-lora-384.safetensorsدانلود(7.1گیگابایت)
    gemma-3-12b-it-abliterated_lora_rank64_bf16.safetensorsدانلود(599مگابایت)
    ltx-2.3-22b-distilled-1.1_lora-dynamic_fro09_avg_rank_111_bf16.safetensorsدانلود(2.6گیگابایت)
    فایل های VAE
    ltx-2.3-22b-dev_audio_vae.safetensorsدانلود(348مگابایت)
    ltx-2.3-22b-dev_video_vae.safetensorsدانلود(1.4گیگابایت)
    taeltx2_3.safetensorsدانلود(22مگابایت)
    فایل های ورکفلو
    ltx2.3-workflowدانلود(کیلوبایت)
    ltx2.3_ggufدانلود(کیلوبایت)
    فایل upscale
    ltx-2.3-spatial-upscaler-x2-1.1.safetensorsدانلود(930مگابایت)

    علاوه بر لینک رسمی HuggingFace، می‌توانید فایل‌ها را از سرور دانلود مستقیم سایت نیز دریافت کنید تا با اینترنت داخلی سرعت دانلود بالاتری داشته باشید.

    فایل‌های موردنیاز

    فایلکاربرد
    LTX 2.3 Full Modelمدل اصلی
    FP8 Modelاجرای سبک‌تر
    Audio Modelتولید صدا
    VAEپردازش تصویر
    Workflowاجرای آماده در ComfyUI

    ساختار پوشه‌های مدل در ComfyUI

    بعد از دانلود فایل‌ها باید آن‌ها را در مسیر صحیح قرار دهید:

    ComfyUI/
     ├── models/
     │   ├── diffusion_models/
     │   ├── text_encoders/
     │   ├── vae/
     │   ├── loras/
     │   ├── checkpoints/
    

    اگر فایل‌ها در مسیر اشتباه قرار بگیرند، ComfyUI مدل را شناسایی نخواهد کرد.

    دانلود Workflow آماده LTX 2.3

    بعد از نصب مدل‌ها می‌توانید Workflow رسمی LTX 2.3 را دانلود کنید.

    مسیر داخل ComfyUI:

    Video → LTX 2.3 Workflow
    

    علاوه بر این، Workflowهای حرفه‌ای زیادی نیز در GitHub منتشر شده‌اند که امکانات پیشرفته‌تری دارند.

    بهترین تنظیمات برای خروجی حرفه‌ای

    برای گرفتن بهترین کیفیت پیشنهاد می‌شود:

    • Resolution حداقل 768×512
    • CFG متوسط
    • Prompt طولانی
    • استفاده از زبان سینمایی
    • Motion واضح
    • نورپردازی دقیق

    بهترین تنظیمات LTX 2.3 برای VRAM پایین

    اگر VRAM کمی دارید:

    • FP8 Models استفاده کنید
    • GGUF فعال کنید
    • Tiled VAE استفاده کنید
    • CPU Offload را روشن کنید

    درنتیجه مصرف VRAM کمتر خواهد شد.

    مهم‌ترین راز موفقیت در LTX 2.3: Prompt Engineering

    یکی از مهم‌ترین بخش‌های آموزش نصب LTX 2.3 یادگیری Prompt Engineering است، زیرا این مدل به Promptهای طولانی و سینمایی واکنش بسیار بهتری نشان می‌دهد.

    ساختار Prompt حرفه‌ای در LTX 2.3

    یک Prompt حرفه‌ای بهتر است شامل موارد زیر باشد:

    • شخصیت
    • محیط
    • نورپردازی
    • حرکت دوربین
    • Motion
    • Atmosphere
    • صدا
    • سبک فیلمبرداری

    مثال Prompt حرفه‌ای برای LTX 2.3

    A cinematic medium shot of a young cyberpunk woman standing in a rainy Tokyo alley at night, neon reflections on wet pavement, handheld camera slowly pushing in, shallow depth of field, soft fog in the background, dramatic rim lighting, realistic skin texture, subtle blinking and breathing, distant traffic sounds, rain ambience, emotional atmospheric soundtrack
    

    نکات طلایی Prompt نویسی

    استفاده از زبان سینمایی

    کلمات مهم:

    • Cinematic
    • Dolly Shot
    • Handheld
    • Shallow DOF
    • Macro Lens
    • Tracking Shot
    • Golden Hour

    توصیف حرکت دوربین

    مثال:

    • Slow Zoom In
    • Orbit Shot
    • Cinematic Pan
    • Drone Shot

    توصیف نورپردازی

    • Rim Lighting
    • Soft Cinematic Light
    • Volumetric Fog
    • Neon Reflections

    استفاده از صدا

    ازآنجایی‌که LTX 2.3 صدا را درک می‌کند، بهتر است جزئیات صوتی را نیز داخل Prompt بنویسید.

    مثال:

    • Rain Ambience
    • Crowd Cheering
    • Soft Piano Soundtrack
    • Footsteps on Concrete

    اشتباهات رایج کاربران در آموزش نصب LTX 2.3

    استفاده از Prompt کوتاه

    بد:

    a man walking
    

    خوب:

    a tired detective walking through a rainy noir city at night, cinematic lighting, handheld camera
    

    شلوغ کردن بیش از حد Scene

    اگر تعداد کاراکترها زیاد باشد، احتمال ایجاد Artifact بیشتر می‌شود.

    نورپردازی متناقض

    مثلاً:

    • شب تاریک
    • نور خورشید شدید

    در یک Scene باعث گیج شدن مدل می‌شود.

    آیا LTX 2.3 بهترین مدل Open Source دنیاست؟

    در حال حاضر LTX 2.3 یکی از قوی‌ترین مدل‌های AI Video متن‌باز محسوب می‌شود.

    مزایا:

    • Open Source
    • تولید صوت و تصویر همزمان
    • کیفیت بسیار بالا
    • اجرای لوکال
    • Workflowهای گسترده
    • پشتیبانی ComfyUI
    • Community فعال

    اما:

    • VRAM بالا نیاز دارد
    • Setup اولیه زمان‌بر است
    • Workflowها پیچیده هستند

    آینده LTX 2.3

    با رشد سریع Community و توسعه Workflowهای جدید، احتمالاً در آینده شاهد:

    • Motion Realism بهتر
    • Character Consistency قوی‌تر
    • کنترل دوربین سه‌بعدی
    • Real-Time Generation
    • Editing حرفه‌ای‌تر

    خواهیم بود.

    به همین دلیل بسیاری از متخصصان حوزه AI Video آینده بسیار قدرتمندی برای این مدل پیش‌بینی می‌کنند.

    سوالات متداول درباره آموزش نصب LTX 2.3

    آیا LTX 2.3 رایگان است؟

    بله، این مدل کاملاً متن‌باز و رایگان منتشر شده است.

    آیا LTX 2.3 روی کارت گرافیک 8 گیگ اجرا می‌شود؟

    بله، اما بهتر است از نسخه‌های FP8 و Quantized استفاده کنید.

    بهترین روش اجرای LTX 2.3 چیست؟

    اجرای مدل از طریق ComfyUI حرفه‌ای‌ترین روش محسوب می‌شود.

    آیا LTX 2.3 قابلیت تولید صدا دارد؟

    بله، این مدل می‌تواند صدا و ویدیو را همزمان تولید کند.

    جمع‌بندی

    LTX 2.3 فقط یک مدل ویدیوساز دیگر نیست؛ بلکه نشان می‌دهد آینده ساخت ویدیو با هوش مصنوعی قرار نیست فقط در اختیار شرکت‌های بسته و سرویس‌های گران‌قیمت باشد.

    حالا هر کسی با یک GPU مناسب می‌تواند:

    • ویدیو سینمایی تولید کند
    • Talking Avatar بسازد
    • موزیک ویدیو ایجاد کند
    • Workflow اختصاصی توسعه دهد
    • و پروژه‌های حرفه‌ای AI Video اجرا کند

    آن هم کاملاً لوکال، متن‌باز و بدون محدودیت API.

    mohtips

    موهتیپس(Mohtips) رسانه‌ایه که برای به اشتراک گذاشتن تجربه‌ها و چیزهایی که درباره هوش مصنوعی یاد می‌گیرم ساختم. کارم رو اول از یوتیوب شروع کردم؛ جایی که اخبار AI رو پوشش می‌دادم و ابزارهای رایگان و اوپن‌سورس هوش مصنوعی رو معرفی و نحوه نصب و استفاده ازشون رو توضیح می‌دادم. حالا با راه‌اندازی این سایت، سعی می‌کنم همه این محتواها و چیزهای جدیدی که در دنیای هوش مصنوعی پیدا می‌کنم رو ساده و کاربردی با بقیه به اشتراک بذارم.

    4 دیدگاه

    • راد
      1405/03/09

      سلام آموزشتون رو انجام دادم اما جواب نمیده و ارور بخش Clip رو میده دوفایل تسکت انکودر. کاش رفع سوالات هم داشتین

      • mohtips
        1405/03/10

        سلام دوست عزیز چه خطایی دریافت کردین؟

    • راد
      1405/03/11

      RuntimeError: shape ‘[15360, 1920]’ is invalid for input of size 13841856
      ComfyUI Error Report
      Error Details
      Node ID: 146
      Node Type: DualCLIPLoader
      Exception Type: RuntimeError
      Exception Message: RuntimeError: shape ‘[15360, 1920]’ is invalid for input of size 13841856
      Stack Trace
      File “E:\comphyui\ComfyUI_windows_portable\ComfyUI\execution.py”, line 535, in execute output_data, output_ui, has_subgraph, has_pending_tasks = await get_output_data(prompt_id, unique_id, obj, input_data_all, execution_block_cb=execution_block_cb, pre_execute_cb=pre_execute_cb, v3_data=v3_data) …………….کلی متن …………….. ~~~~~~~~~~~~~~~~^^^^^^ File “E:\comphyui\ComfyUI_windows_portable\ComfyUI\comfy\utils.py”, line 110, in load_safetensors tensor = torch.frombuffer(mv[start:end], dtype=_TYPES[info[“dtype”]]).view(info[“shape”]) RuntimeError: shape ‘[15360, 1920]’ is invalid for input of size 13841856 2026-05-30T20:17:58.958373 – Prompt executed in 1.69 seconds 2026-05-30T20:18:04.738572 – FETCH ComfyRegistry Data: 25/1492026-05-30T20:18:04.739080 –
      Attached Workflow
      Please make sure that workflow does not contain any sensitive information such as API keys or passwords.
      Workflow too large. Please manually upload the workflow from local file system.
      Additional Context
      (Please add any additional context or steps to reproduce the error here)

      • mohtips
        1405/03/12

        برای قسمت تکست انکودر از دو فایل زیر استفاده میکنید؟
        ltx-2.3_text_projection_bf16.safetensors
        gemma_3_12B_it_fp4_mixed.safetensors
        اگر بله دقت کنید درست دانلود شده باشن حجم های این دوفایل رو بعد از دانلود دقیق بفرمایید

    ثبت دیدگاه

    نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *