
اگرچه این شرکت هنوز اطلاعات دقیقی درباره منابع داده مورد استفاده در آموزش این مدل ارائه نکرده است، اما برخی پژوهشگران حوزه هوش مصنوعی گمان میبرند که بخشی از این دادهها ممکن است از خانواده مدلهای جمینای (Gemini) شرکت گوگل گرفته شده باشد.
سم پیچ (Sam Paeach)، توسعهدهندهای ساکن ملبورن که به ارزیابی «هوش هیجانی» مدلهای هوش مصنوعی میپردازد، اسنادی را منتشر کرده است که بهادعای او نشانههایی از استفاده DeepSeek از خروجیهای Gemini در آموزش مدل خود را ارائه میدهد. پیچ در پستی در شبکه اجتماعی ایکس بیان کرده است که مدل جدید دیپسیک با نام R1-0528، گرایش آشکاری به استفاده از واژگان و عبارات موردعلاقه مدل Gemini 2.5 Pro دارد.
البته این شواهد، قطعیت لازم را ندارند. با این حال، توسعهدهندهای دیگر که بهصورت مستعار پروژهای با نام SpeechMap را برای ارزیابی آزادی بیان در هوش مصنوعی هدایت میکند، اشاره کرده است که ردپای تصمیمگیریهای مدل دیپسیک — یعنی همان فرآیندهای درونی که مدل هنگام رسیدن به یک نتیجه طی میکند — بسیار شبیه به مدلهای جمینای است.

شایان ذکر است که دیپسیک پیشتر نیز به استفاده از دادههای مدلهای رقیب متهم شده بود. در آذرماه، برخی توسعهدهندگان گزارش دادند که مدل V3 این شرکت، گاهی خود را با نام چت جیپیتی معرفی میکند؛ پلتفرمی که مبتنی بر هوش مصنوعی شرکت OpenAI است. این موضوع احتمال آموزش مدل بر اساس دادههای خروجی ChatGPT را مطرح کرده است.
در ابتدای سال جاری میلادی، شرکت OpenAI در گفتوگو با فایننشال تایمز اعلام کرد که شواهدی دال بر استفاده دیپسیک از روش تقطیر (Distillation) برای آموزش مدلهای خود یافته است؛ روشی که طی آن، دادههای استخراجشده از مدلهای بزرگتر و پیشرفتهتر، برای آموزش مدلهای جدید مورد استفاده قرار میگیرند.
طبق گزارشی از بلومبرگ، شرکت مایکروسافت — که از سرمایهگذاران و همکاران نزدیک OpenAI محسوب میشود — دریافته است که در اواخر سال ۲۰۲۴ میلادی، حجم قابل توجهی از دادهها از طریق حسابهای توسعهدهندگان OpenAI استخراج شده است؛ حسابهایی که این شرکت آنها را وابسته به دیپسیک میداند.
اگرچه تقطیر یک روش رایج در صنعت هوش مصنوعی محسوب میشود، اما شرایط خدمات OpenAI استفاده از خروجیهای مدلهای این شرکت برای ساخت محصولات رقیب را ممنوع اعلام کرده است.
بهعلاوه، بسیاری از مدلهای هوش مصنوعی به دلیل استفاده از دادههای مشترک موجود در فضای وب، به طور طبیعی شباهتهایی در واژگان و عبارات بهکاررفته دارند. در حال حاضر، بخش زیادی از اینترنت توسط محتوای تولیدشده توسط هوش مصنوعی اشباع شده است.

شبکههای تولید انبوه محتوا با تولید مطالب اغواکننده مبتنی بر هوش مصنوعی، به جذب کلیک مشغولاند و رباتها نیز در پلتفرمهایی نظیر ردیت و ایکس (توییتر سابق) حضوری چشمگیر دارند. این «آلودگی دادهای» باعث شده است که حذف کامل خروجیهای مدلهای هوش مصنوعی از مجموعه دادههای آموزشی کاری بسیار دشوار و چالشبرانگیز باشد.
با این حال، کارشناسانی همچون ناتان لمبرت، پژوهشگر مؤسسه تحقیقاتی غیرانتفاعی AI2، استفاده دیپسیک از دادههای مربوط به مدلهای گوگل را بعید نمیدانند. او در پستی در ایکس نوشت: «اگر من جای دیپسیک بودم، حتماً حجم زیادی از دادههای مصنوعی را از طریق بهترین APIهای موجود تولید میکردم. این شرکت از نظر منابع پردازشی دچار محدودیت است و هزینه زیادی را متحمل میشود. در چنین شرایطی، راهکار آنها منطقی بهنظر میرسد.»
برخی شرکتهای پیشرو در حوزه هوش مصنوعی در پاسخ به نگرانیها پیرامون تقطیر، اقداماتی را برای ارتقای امنیت دادههای خود انجام دادهاند.
در فروردینماه، شرکت OpenAI دسترسی به برخی از مدلهای پیشرفته خود را منوط به احراز هویت کرد. این فرایند نیازمند ارائه شناسه رسمی دولتی از کشورهای مورد تأیید OpenAI است؛ در این فهرست، کشور چین حضور ندارد.
در سوی دیگر، گوگل اخیراً با آغاز روند «خلاصهسازی» ردپاهای مدلهای خود در پلتفرم توسعهدهنده AI Studio، سعی کرده از آموزش مدلهای رقیب با استفاده از این ردپاها جلوگیری کند. همچنین شرکت Anthropic در اردیبهشتماه اعلام کرد که قصد دارد خلاصهسازی ردپاهای مدل خود را آغاز کند تا از «مزیتهای رقابتی» خود محافظت نماید.