ایتنافناوری

گوگل دیپ‌مایند و گامی بزرگ به سوی آینده: ادغام جمینای و Veo

در یکی از قسمت‌های اخیر پادکست «Possible» که توسط رید هافمن، یکی از بنیان‌گذاران لینکدین، اجرا می‌شود، دمیس هاسابیس، مدیرعامل گوگل دیپ‌مایند، اعلام کرد که این شرکت قصد دارد مدل‌های هوش مصنوعی جمینای (Gemini) را با فناوری تولید ویدیو Veo ترکیب کند. هدف از این کار، افزایش درک مدل‌های جمینای از جهان فیزیکی است.

هاسابیس تأکید کرد: «ما از ابتدا مدل پایه جمینای را به صورت چندوجهی (multimodal) طراحی کردیم. این طراحی بر اساس چشم‌انداز ما برای خلق یک دستیار دیجیتال جهانی است که بتواند واقعاً در دنیای واقعی به کاربران کمک کند.»

با رشد تدریجی صنعت هوش مصنوعی، تمرکز به سمت توسعه مدل‌های «همه‌جانبه» (Omni) حرکت کرده است؛ مدل‌هایی که توانایی درک و تولید انواع مختلف رسانه‌ها را دارند.

 

جدیدترین مدل‌های جمینای گوگل قادر به تولید صدا، تصویر و متن هستند، درحالی که مدل پیش‌فرض اوپن اِی‌آی (OpenAI) در چت‌جی‌پی‌تی (ChatGPT) اکنون می‌تواند تصاویر (از جمله آثار به سبک استودیو جیبلی) ایجاد کند. آمازون نیز برنامه‌هایی برای راه‌اندازی یک مدل «هرچیزی به هرچیزی (any-to-any)» تا پایان سال جاری اعلام کرده است.

برای آموزش مدل‌های همه‌جانبه، نیاز به حجم زیادی از داده‌های آموزشی شامل تصاویر، ویدیوها، صدا و متن وجود دارد. هاسابیس اشاره کرد که داده‌های ویدیویی مورد استفاده در آموزش Veo عمدتاً از یوتیوب، که متعلق به گوگل است، تأمین شده‌اند. وی توضیح داد: «Veo 2 از طریق مشاهده تعداد زیادی ویدیو در یوتیوب، توانسته به درک بهتری از فیزیک جهان دست یابد.»

گوگل پیش‌تر به TechCrunch اعلام کرده بود که مدل‌هایش «ممکن است» با استفاده از «برخی» محتوای یوتیوب و مطابق با توافق با خالقان محتوا آموزش داده شوند. گزارش‌ها حاکی از آن است که این شرکت سال گذشته شرایط خدمات خود را گسترش داد تا دسترسی به داده‌های بیشتر برای آموزش مدل‌های هوش مصنوعی خود را فراهم کند.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اخبار مشابه

دکمه بازگشت به بالا