
به گزارش ایتنا و به نقل از تکاسپات، این تحقیق که بر روی مدلهای مطرحی از جمله GPT-4o، جمینای ۲.۰، کلاود ۳.۵ Sonnet و لاما a 3.2-11B-Vision-Instruct انجام شده، نشان داد که این سیستمها کمتر از ۲۵٪ مواقع زمان را به درستی تشخیص میدهند.
محققان این سیستمها را با انواع مختلف ساعتها آزمایش کردند؛ از جمله ساعتهایی با اعداد رومی، عقربههای ثانیهشمار و صفحههای رنگی. نتایج نشان داد که این مدلها در خواندن ساعتهایی با اعداد رومی و عقربههای طراحیشده خاص دچار مشکل بیشتری هستند. حتی حذف عقربه ثانیهشمار نیز باعث بهبود عملکرد مدلها نشد، که نشان میدهد مشکل اصلی در شناسایی زاویه عقربهها و تفسیر کلی صفحه ساعت است.
در بخش دوم تحقیق، این مدلها با تصاویر ۱۰ سال از تقویمها آزمایش شدند. محققان سوالاتی مانند «روز اول سال نو چه روزی از هفته است؟» و «۱۵۳مین روز سال چه روزی است؟» مطرح کردند. حتی بهترین مدلها نیز ۲۰٪ مواقع پاسخهای اشتباه ارائه دادند. در این میان، Gemini 2.0 در تست ساعتها عملکرد بهتری داشت، درحالیکه GPT-01 در پاسخهای تقویمی ۸۰٪ موفقیت داشت.

این پژوهش در یک مقاله علمی بررسیشده منتشر شده و در کارگاه استدلال و برنامهریزی برای مدلهای زبانی بزرگ در کنفرانس ICLR 2024 در سنگاپور ارائه خواهد شد.
جالب اینجاست که این تنها مطالعه اخیر در مورد ضعفهای هوش مصنوعی نیست. بررسی Tow Center for Digital Journalism نشان داده است که ۸ موتور جستجوی هوش مصنوعی بهطور متوسط ۶۰٪ مواقع پاسخهای نادرست میدهند. بدترین عملکرد مربوط به Grok-3 بود که ۹۴٪ مواقع خطا داشت.