ایتنافناوری

هوش مصنوعی و چالش‌های مبتدیانه: ناتوانی در خواندن ساعت و تقویم

مطالعه‌ای جدید از دانشگاه ادینبرو نشان داده است که بسیاری از مدل‌های پیشرفته هوش مصنوعی مولد همچنان در انجام وظایف ساده‌ای مانند خواندن ساعت‌های آنالوگ و تفسیر تقویم‌ها دچار مشکل هستند.

به گزارش ایتنا و به نقل از تک‌اسپات، این تحقیق که بر روی مدل‌های مطرحی از جمله GPT-4o، جمینای ۲.۰، کلاود ۳.۵ Sonnet و لاما a 3.2-11B-Vision-Instruct انجام شده، نشان داد که این سیستم‌ها کمتر از ۲۵٪ مواقع زمان را به درستی تشخیص می‌دهند.

محققان این سیستم‌ها را با انواع مختلف ساعت‌ها آزمایش کردند؛ از جمله ساعت‌هایی با اعداد رومی، عقربه‌های ثانیه‌شمار و صفحه‌های رنگی. نتایج نشان داد که این مدل‌ها در خواندن ساعت‌هایی با اعداد رومی و عقربه‌های طراحی‌شده خاص دچار مشکل بیشتری هستند. حتی حذف عقربه ثانیه‌شمار نیز باعث بهبود عملکرد مدل‌ها نشد، که نشان می‌دهد مشکل اصلی در شناسایی زاویه عقربه‌ها و تفسیر کلی صفحه ساعت است.

در بخش دوم تحقیق، این مدل‌ها با تصاویر ۱۰ سال از تقویم‌ها آزمایش شدند. محققان سوالاتی مانند «روز اول سال نو چه روزی از هفته است؟» و «۱۵۳مین روز سال چه روزی است؟» مطرح کردند. حتی بهترین مدل‌ها نیز ۲۰٪ مواقع پاسخ‌های اشتباه ارائه دادند. در این میان، Gemini 2.0 در تست ساعت‌ها عملکرد بهتری داشت، درحالی‌که GPT-01 در پاسخ‌های تقویمی ۸۰٪ موفقیت داشت.
 

روهیت ساکسنا، نویسنده ارشد این مطالعه، معتقد است که این یافته‌ها نشان‌دهنده ضعف هوش مصنوعی در انجام وظایف ساده‌ای است که برای انسان‌ها کاملاً بدیهی هستند. او تأکید کرد که این مشکلات باید برطرف شوند تا سیستم‌های هوش مصنوعی بتوانند در کاربردهای حساس به زمان مانند برنامه‌ریزی و فناوری‌های کمکی به کار گرفته شوند. آریو گما، دیگر محقق این پروژه، نیز بیان کرد که تحقیقات هوش مصنوعی امروزه بر وظایف استدلالی پیچیده تمرکز دارد، اما هنوز بسیاری از سیستم‌ها در انجام کارهای روزمره و ساده ناتوان هستند.

این پژوهش در یک مقاله علمی بررسی‌شده منتشر شده و در کارگاه استدلال و برنامه‌ریزی برای مدل‌های زبانی بزرگ در کنفرانس ICLR 2024 در سنگاپور ارائه خواهد شد.

جالب اینجاست که این تنها مطالعه اخیر در مورد ضعف‌های هوش مصنوعی نیست. بررسی Tow Center for Digital Journalism نشان داده است که ۸ موتور جستجوی هوش مصنوعی به‌طور متوسط ۶۰٪ مواقع پاسخ‌های نادرست می‌دهند. بدترین عملکرد مربوط به Grok-3 بود که ۹۴٪ مواقع خطا داشت.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اخبار مشابه

دکمه بازگشت به بالا