به گزارش پلاتو هنر، شرکت چینی علی‌بابا از جدیدترین سیستم هوش مصنوعی خود به نام EMO رونمایی کرد.

این مدل را که با مجموعه داده‌ای متشکل از 250 ساعت ویدئوهای مربوط به فیلم‌ها، نمایش‌های تلویزیونی، سخنرانی‌ها و اجراهای آواز آموزش داده‌اند، می‌تواند عکس‌های پرتره را به ویدئو تبدیل کند.

EMO عکس‌های پرتره و فایل‌ صوتی شما را می‌تواند به ویدئوهایی تبدیل کند که در آنها در حال صحبت کردن یا آواز خواندن هستید. نقطه قوت این مدل این است که حرکات اجزای صورت و حالت‌های سر کاربران را به طبیعی‌‌ترین شکل ممکن (در مقایسه با مدل‌های دیگر) نمایش می‌دهد.

یکی از ویدئوهایی که در شبکه‌های مجازی دست‌به‌دست می‌شود، ویدئو زیر است که در آن، خروجی نهایی از عکس پرتره و صوتی‌ که در اختیار EMO قرار داده شده است را می‌توانید ببینید.

 

به نظر می‌رسد که امسال شاهد پیشرفت‌های چشمگیرتری در حوزه فناوری هوش مصنوعی خواهیم بود. در سال جدید میلادی، کمپانی‌های زیادی از جدیدترین مدل‌های هوش مصنوعی خود رونمایی کرده‌اند. یکی از جدیدترین و بحث‌برانگیزترین مدل‌های امسال، هوش مصنوعی Sora بود که می‌تواند پرامپت‌های متنی را به ویدئوهای یک دقیقه‌ای تبدیل کند. چیزی که باعث نگرانی بسیاری از هنرمندان عرصه سینما شده، توانایی خوب Sora در  واقع‌نمایی و پرداختن به جزئیات است. البته، ویدئوهای Sora صامت هستند اما شرکت ElevenLabs از فرصت استفاده کرد و با جدیدترین مدل هوش مصنوعی خود، ویدئوهای Sora را صداگذاری کرد.