
به گزارش ایتنا و به نقل از تککرانچ، در گذشته، هر نسل جدید از مدلهای هوش مصنوعی معمولاً بهبودهایی در کاهش توهم داشت. اما در مدلهای جدید OpenAI نهتنها این روند متوقف شده، بلکه وضعیت بدتر نیز شده است. برای مثال، مدل o3 در آزمون PersonQA، که دقت اطلاعات درباره افراد را میسنجد، در ۳۳٪ موارد پاسخ نادرست داده است؛ در حالی که مدلهای o1 و o3-mini به ترتیب ۱۶٪ و ۱۴/۸٪ توهم داشتند. مدل o4-mini حتی عملکرد بدتری داشته و در ۴۸٪ موارد دچار خطا شده است.
OpenAI اذعان کرده که علت این افزایش هنوز مشخص نیست و نیاز به تحقیقات بیشتر دارد. تئوری این است که روش یادگیری تقویتی خاص در این مدلها ممکن است مشکلاتی را تقویت کند که قبلاً با مراحل پایانی آموزش تا حدی کنترل میشدند.

اگرچه برخی ویژگیهای این مدلها برای شرکتها جذاب است، اما میزان بالای توهم، استفاده آنها را در حوزههایی که به دقت بالا نیاز دارند — مانند حقوق یا سلامت — با مشکل روبهرو میکند. یکی از راهحلهای پیشنهادی، افزودن توانایی جستوجو در وب است که میتواند به کاهش توهم کمک کند.
با تمرکز روزافزون صنعت هوش مصنوعی بر مدلهای استدلالی، حل مشکل توهم به یک اولویت اساسی تبدیل شده است.