
به گزارش ایتنا و به نقل از لایوساینس، این ضعفهای غیرمنتظره در قالب یک ارائه در کنفرانس بینالمللی بازنماییهای یادگیری ۲۰۲۵ (ICLR) معرفی شد و همزمان در تاریخ ۱۸ مارس روی سرور پیشچاپ arXiv منتشر گردید؛ هرچند این مقاله هنوز فرایند داوری علمی را پشت سر نگذاشته است.
رهبر این مطالعه، روهیت ساکسنا (پژوهشگر دانشگاه ادینبرو)، در بیانیهای میگوید: «اغلب انسانها از همان سنین پایین میتوانند ساعت را بخوانند و از تقویم استفاده کنند. یافتههای ما نشان میدهد که هوش مصنوعی در انجام مهارتهایی بسیار ابتدایی برای انسان، دچار کمبود جدی است.»
وی تأکید میکند که اگر قرار باشد هوش مصنوعی در کاربردهای زمانمحور مانند زمانبندی، خودکارسازی یا فناوریهای کمکی موفق عمل کند، این نقصها باید برطرف شوند.
پژوهشگران برای بررسی توانایی درک زمان توسط مدلهای هوش مصنوعی، مجموعهدادهای ویژه از تصاویر ساعت و تقویم را به مدلهای بزرگ چندحالته (MLLM) خوراندند؛ مدلهایی که میتوانند هم دادههای تصویری و هم متنی را پردازش کنند.
مدلهای بررسیشده شامل Llama 3.2-Vision متعلق به شرکت متا، Claude-3.5 Sonnet از شرکت آنتروپیک، Gemini 2.0 از گوگل و GPT-4o از OpenAI بودند.

گفتنی است نتایج ناامیدکننده بود؛ این مدلها در بیش از نیمی از موارد قادر به تشخیص صحیح ساعت یا روز هفته مربوط به یک تاریخ نمونه نبودند.
ساکسنا در توضیح این ناتوانی شگفتانگیز میگوید: «سامانههای اولیه معمولاً با مثالهای برچسبخورده آموزش میدیدند. اما خواندن ساعت به توانایی دیگری نیاز دارد؛ یعنی استدلال فضایی.
مدل باید بتواند عقربههای رویهمافتاده را تشخیص دهد، زوایا را محاسبه کند و طراحیهای متنوعی مثل اعداد رومی یا صفحههای تزئینی را درک کند. تشخیص اینکه «این تصویر ساعت است» آسانتر از خواندن واقعی آن است.»
تاریخ نیز برای این مدلها دردسرساز بود. برای نمونه، در مواجهه با سؤالی مثل «روز ۱۵۳اُم سال به چه روزی از هفته میافتد؟»، نرخ خطا همچنان بالا بود. مدلها تنها در ۳۸.۷٪ مواقع ساعت را درست میخواندند و در ۲۶.۳٪ مواقع تاریخها را درست تشخیص میدادند.
این نقصها از آن جهت تعجببرانگیزند که محاسبات عددی اساس رایانش محسوب میشود؛ اما ساکسنا میگوید که هوش مصنوعی روش دیگری بهکار میگیرد: «برای رایانههای سنتی، محاسبهٔ عددی کاری ساده است؛ اما برای مدلهای زبانی بزرگ چنین نیست.
این مدلها الگوریتمهای ریاضی اجرا نمیکنند؛ بلکه براساس الگوهای موجود در دادههای آموزشی، خروجی را پیشبینی میکنند. پس هرچند گاهی پاسخ درست میدهند، اما استدلالشان قاعدهمند نیست و این تحقیق همین شکاف را نشان میدهد.»
گفته میشود این پروژه به مجموعهای روبهرشد از مطالعات میپیوندد که تفاوت میان «درک» انسان و هوش مصنوعی را آشکار میسازد. مدلهای زبانی از طریق تشخیص الگو پاسخ میدهند و در مواردی که دادهٔ آموزشی کافی داشته باشند، عملکرد خوبی دارند؛ اما در تعمیمدادن یا استدلال انتزاعی، دچار ضعف میشوند.
ساکسنا میافزاید: «کاری که برای ما بسیار ساده است، مانند خواندن ساعت، ممکن است برای هوش مصنوعی دشوار باشد ـ و برعکس.»
این پژوهش همچنین به مشکلی اشاره دارد که در هنگام آموزش مدلها با دادههای محدود پدید میآید؛ مانند پدیدههای نادر تقویمی نظیر سالهای کبیسه. حتی اگر یک مدل زبانی بارها در مورد مفهوم سال کبیسه آموزش دیده باشد، دلیل نمیشود که بتواند این دانش را در یک وظیفهٔ دیداری بهکار بگیرد.
پژوهشگران بر این باورند که این یافتهها ضرورت استفاده از نمونههای هدفمندتر در دادههای آموزشی را نشان میدهد و همچنین نیاز به بازاندیشی در شیوهٔ ترکیب منطق و استدلال فضایی در هوش مصنوعی را یادآور میشود؛ بهویژه در وظایفی که مدلها کمتر با آن مواجه میشوند.
در نهایت، این مطالعه بار دیگر روشن میکند که تکیهٔ بیشازحد بر خروجیهای هوش مصنوعی، میتواند خطرناک باشد.