نتیجه‌گیری یک پژوهش: هوش مصنوعی در تاریخ ضعیف عمل می‌کند.

نتیجه‌گیری یک پژوهش: هوش مصنوعی در تاریخ ضعیف عمل می‌کند.

ذکاوت هوش مصنوعی در برنامه‌نویسی و تولید پادکست خوب است، اما در امتحانات تاریخ پیشرفته شکست می‌خورد.

مطالعه جدید: هوش مصنوعی در تاریخ‌نگاری ضعیف عمل می‌کند

AI isn’t very good at history, new paper finds

براساس یک مطالعه جدید، هوش مصنوعی ممکن است در انجام تسک‌هایی مانند برنامه‌نویسی یا تولید پادکست موفق باشد، اما در آزمون‌های تاریخ سطح بالا عملکرد ضعیفی از خود نشان می‌دهد. تیمی از محققان یک معیار جدید به نام Hist-LLM طراحی کرده‌اند تا سه مدل زبان بزرگ برتر شامل GPT-4 OpenAI، Llama متا و Gemini گوگل را در زمینه سوالات تاریخی مورد آزمایش قرار دهد. این معیار به بررسی صحت پاسخ‌ها بر اساس پایگاه داده جهانی تاریخ Seshat می‌پردازد که یک پایگاه داده وسیع از دانش تاریخی است و به نام الهه خرد مصر باستان نامگذاری شده است.
نتایج ارائه شده در کنفرانس معتبر AI NeurIPS ماه گذشته، ناامیدکننده بوده و بر اساس گفته محققان وابسته به مرکز علوم پیچیدگی (CSH) در اتریش، بهترین عملکرد مربوط به GPT-4 Turbo با حدود ۴۶ درصد دقت بود که تنها کمی بالاتر از حد تصادفی است. مارتیا دل ریو-چانونا، یکی از نویسندگان این مقاله و استاد دانشگاه کالج لندن، اعلام کرد: "پیام اصلی این مطالعه این است که مدل‌های زبان بزرگ، با وجود قابلیت‌های چشمگیرشان، هنوز عمق درک لازم برای تحلیل‌های پیشرفته تاریخی را ندارند. آنها در ارائه اطلاعات پایه خوب عمل می‌کنند، اما در مورد پرسش‌های تاریخی پیچیده و علمی، هنوز نمی‌توانند کافی باشند."
محققان سوالات تاریخی نمونه‌ای به TechCrunch ارائه کردند که LLM‌ها به اشتباه پاسخ داده بودند. به‌عنوان مثال، از GPT-4 Turbo پرسیده شد آیا زره‌های مقیاس‌دار در دوره خاصی در مصر باستان وجود داشتند. پاسخ LLM مثبت بود، در حالی که این فناوری ۱۵۰۰ سال بعد در مصر ظهور کرد.
سوال این است که چرا LLM‌ها در پاسخ به سوالات تاریخی فنی ضعیف عمل می‌کنند، در حالی که می‌توانند به بهترین شکل به سوالات پیچیده‌ای مانند برنامه‌نویسی پاسخ دهند؟ دل ریو-چانونا به TechCrunch گفت که این احتمالاً به این دلیل است که LLM‌ها تمایل دارند از داده‌های تاریخی برجسته استنتاج کنند و در بازیابی اطلاعات تاریخی کمتر شناخته شده مشکل دارند. مثلاً وقتی از GPT-4 پرسیده شد که آیا مصر باستان در یک دوره خاص دارای ارتش حرفه‌ای بوده یا نه، در حالی که پاسخ صحیح "خیر" بود، LLM به‌اشتباه "بله" جواب داد. این موضوع احتمالاً به دلیل اطلاعات عمومی زیاد در مورد امپراتوری‌هایی چون پارس است که ارتش‌های دائمی داشته‌اند.
محققان همچنین الگوهای دیگری را شناسایی کردند، از جمله اینکه مدل‌های OpenAI و Llama در بعضی از مناطق مثل آفریقای زیر صحرا عملکرد بدتری داشته‌اند که نشان‌دهنده تعصب‌های بالقوه در داده‌های آموزشی آنهاست. نتایج نشان می‌دهد که LLM‌ها هنوز نمی‌توانند جایگزینی برای انسان‌ها در برخی حوزه‌ها باشند. پیتر توچین، که هدایت این مطالعه را بر عهده داشت، اظهار داشت که این یافته‌ها امیدوارکننده است و می‌توانند در آینده به تاریخ‌نگاران کمک کنند. محققان در حال کار بر روی اصلاح معیار خود با افزودن داده‌های بیشتر از مناطق کم‌نمایش و پرسش‌های پیچیده‌تر هستند. در کل، یافته‌های ما حوزه‌هایی را که LLM‌ها نیاز به بهبود دارند، مورد تأکید قرار می‌دهد، و همچنین پتانسیل این مدل‌ها برای کمک به تحقیقات تاریخی را برجسته می‌کند. برای اطلاعات بیشتر می‌توانید به وب‌سایت ما 'iwl.ir' مراجعه کنید.