ایتنافناوری

جنجال جدید در دنیای هوش مصنوعی: ردپای Gemini در مدل جدید DeepSeek

در هفته گذشته، آزمایشگاه چینی DeepSeek نسخه‌ای به‌روزرسانی‌شده از مدل استدلالی مبتنی بر هوش مصنوعی خود با نام R1 را منتشر کرد؛ مدلی که در ارزیابی‌های ریاضی و برنامه‌نویسی عملکرد قابل قبولی از خود نشان داده است.

اگرچه این شرکت هنوز اطلاعات دقیقی درباره منابع داده‌ مورد استفاده در آموزش این مدل ارائه نکرده است، اما برخی پژوهشگران حوزه هوش مصنوعی گمان می‌برند که بخشی از این داده‌ها ممکن است از خانواده مدل‌های جمینای (Gemini) شرکت گوگل گرفته شده باشد.

سم پیچ (Sam Paeach)، توسعه‌دهنده‌ای ساکن ملبورن که به ارزیابی «هوش هیجانی» مدل‌های هوش مصنوعی می‌پردازد، اسنادی را منتشر کرده است که به‌ادعای او نشانه‌هایی از استفاده DeepSeek از خروجی‌های Gemini در آموزش مدل خود را ارائه می‌دهد. پیچ در پستی در شبکه اجتماعی ایکس بیان کرده است که مدل جدید دیپ‌سیک با نام R1-0528، گرایش آشکاری به استفاده از واژگان و عبارات موردعلاقه مدل Gemini 2.5 Pro دارد.

البته این شواهد، قطعیت لازم را ندارند. با این حال، توسعه‌دهنده‌ای دیگر که به‌صورت مستعار پروژه‌ای با نام SpeechMap را برای ارزیابی آزادی بیان در هوش مصنوعی هدایت می‌کند، اشاره کرده است که ردپای تصمیم‌گیری‌های مدل دیپ‌سیک — یعنی همان فرآیندهای درونی که مدل هنگام رسیدن به یک نتیجه طی می‌کند — بسیار شبیه به مدل‌های جمینای است.
 

شایان ذکر است که دیپ‌سیک پیش‌تر نیز به استفاده از داده‌های مدل‌های رقیب متهم شده بود. در آذرماه، برخی توسعه‌دهندگان گزارش دادند که مدل V3 این شرکت، گاهی خود را با نام چت جی‌پی‌تی معرفی می‌کند؛ پلتفرمی که مبتنی بر هوش مصنوعی شرکت OpenAI است. این موضوع احتمال آموزش مدل بر اساس داده‌های خروجی ChatGPT را مطرح کرده است.

در ابتدای سال جاری میلادی، شرکت OpenAI در گفت‌وگو با فایننشال تایمز اعلام کرد که شواهدی دال بر استفاده دیپ‌سیک از روش تقطیر (Distillation) برای آموزش مدل‌های خود یافته است؛ روشی که طی آن، داده‌های استخراج‌شده از مدل‌های بزرگ‌تر و پیشرفته‌تر، برای آموزش مدل‌های جدید مورد استفاده قرار می‌گیرند.

طبق گزارشی از بلومبرگ، شرکت مایکروسافت — که از سرمایه‌گذاران و همکاران نزدیک OpenAI محسوب می‌شود — دریافته است که در اواخر سال ۲۰۲۴ میلادی، حجم قابل توجهی از داده‌ها از طریق حساب‌های توسعه‌دهندگان OpenAI استخراج شده است؛ حساب‌هایی که این شرکت آن‌ها را وابسته به دیپ‌سیک می‌داند.

اگرچه تقطیر یک روش رایج در صنعت هوش مصنوعی محسوب می‌شود، اما شرایط خدمات OpenAI استفاده از خروجی‌های مدل‌های این شرکت برای ساخت محصولات رقیب را ممنوع اعلام کرده است.

به‌علاوه، بسیاری از مدل‌های هوش مصنوعی به دلیل استفاده از داده‌های مشترک موجود در فضای وب، به طور طبیعی شباهت‌هایی در واژگان و عبارات به‌کاررفته دارند. در حال حاضر، بخش زیادی از اینترنت توسط محتوای تولیدشده توسط هوش مصنوعی اشباع شده است.

 

شبکه‌های تولید انبوه محتوا با تولید مطالب اغواکننده مبتنی بر هوش مصنوعی، به جذب کلیک مشغول‌اند و ربات‌ها نیز در پلتفرم‌هایی نظیر ردیت و ایکس (توییتر سابق) حضوری چشمگیر دارند. این «آلودگی داده‌ای» باعث شده است که حذف کامل خروجی‌های مدل‌های هوش مصنوعی از مجموعه داده‌های آموزشی کاری بسیار دشوار و چالش‌برانگیز باشد.

با این حال، کارشناسانی همچون ناتان لمبرت، پژوهشگر مؤسسه تحقیقاتی غیرانتفاعی AI2، استفاده دیپ‌سیک از داده‌های مربوط به مدل‌های گوگل را بعید نمی‌دانند. او در پستی در ایکس نوشت: «اگر من جای دیپ‌سیک بودم، حتماً حجم زیادی از داده‌های مصنوعی را از طریق بهترین APIهای موجود تولید می‌کردم. این شرکت از نظر منابع پردازشی دچار محدودیت است و هزینه زیادی را متحمل می‌شود. در چنین شرایطی، راهکار آن‌ها منطقی به‌نظر می‌رسد.»

برخی شرکت‌های پیشرو در حوزه هوش مصنوعی در پاسخ به نگرانی‌ها پیرامون تقطیر، اقداماتی را برای ارتقای امنیت داده‌های خود انجام داده‌اند.

در فروردین‌ماه، شرکت OpenAI دسترسی به برخی از مدل‌های پیشرفته خود را منوط به احراز هویت کرد. این فرایند نیازمند ارائه شناسه رسمی دولتی از کشورهای مورد تأیید OpenAI است؛ در این فهرست، کشور چین حضور ندارد.

در سوی دیگر، گوگل اخیراً با آغاز روند «خلاصه‌سازی» ردپاهای مدل‌های خود در پلتفرم توسعه‌دهنده AI Studio، سعی کرده از آموزش مدل‌های رقیب با استفاده از این ردپاها جلوگیری کند. همچنین شرکت Anthropic در اردیبهشت‌ماه اعلام کرد که قصد دارد خلاصه‌سازی ردپاهای مدل خود را آغاز کند تا از «مزیت‌های رقابتی» خود محافظت نماید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اخبار مشابه

دکمه بازگشت به بالا