هوش مصنوعی تبدیل متن به ویدیو Vidu معرفی شد؛ رقیب چینی Sora

شرکت فناوری چینی ShengShu-AI به همراه محققان دانشگاه چینهوا، اولین مدل هوش مصنوعی تبدیل متن به ویدیو در چین را با نام Vidu معرفی کردند. این مدل، که نشان‌دهنده پیشرفت سریع این کشور در زمینه توسعه هوش مصنوعی است، با مدل Sora از OpenAI رقابت خواهد کرد. Vidu که در انجمن Zhongguancun پکن معرفی شد،

Vidu که در انجمن Zhongguancun پکن معرفی شد، با یک کلیک و دستور متنی ساده، می‌تواند کلیپ ویدیویی 16 ثانیه‌ای با وضوح 1080p را تولید کند. این مدل هوش مصنوعی بر اساس یک معماری تبدیل بصری با نام Universal Vision Transformer (U-ViT) طراحی شده است که دو مدل هوش مصنوعی متن به ویدیو Diffusion و Transformer را با یکدیگر ترکیب می‌کند.

Vidu قادر است محیط و اشیاء واقعی را به طور واقعی شبیه‌سازی کند و صحنه‌های پیچیده و با جزئیات، همراه با افکت‌های نور و سایه را با رعایت قوانین فیزیک، ایجاد کند. علاوه بر این، این مدل در نمایش حالات چهره نیز ماهر است و می‌تواند ویدیوهایی از موجودات منحصر به فردی مانند پاندای غول‌پیکر و اژدهای چینی را تولید کند.

مدل هوش مصنوعی تبدیل متن به ویدیوی چینی Vidu، تنها دو ماه پس از معرفی مدل Sora توسط استارتاپ آمریکایی OpenAI، که با سروصدای زیادی در سراسر جهان همراه بود، معرفی شده است. «ژو جون»، معاون انستیتوی هوش مصنوعی دانشگاه چینهوا و دانشمند ارشد ShengShu-AI، در زمان معرفی مدل Vidu گفت: “پس از انتشار Sora، متوجه شدیم که این مدل با نقشه راه فنی ما مطابقت دارد و ما را ترغیب کرد تا تحقیقات خود را با قاطعیت پیش ببریم.”