مطالعه جدید: هوش مصنوعی در تاریخنگاری ضعیف عمل میکند
AI isn’t very good at history, new paper finds
براساس یک مطالعه جدید، هوش مصنوعی ممکن است در انجام تسکهایی مانند برنامهنویسی یا تولید پادکست موفق باشد، اما در آزمونهای تاریخ سطح بالا عملکرد ضعیفی از خود نشان میدهد. تیمی از محققان یک معیار جدید به نام Hist-LLM طراحی کردهاند تا سه مدل زبان بزرگ برتر شامل GPT-4 OpenAI، Llama متا و Gemini گوگل را در زمینه سوالات تاریخی مورد آزمایش قرار دهد. این معیار به بررسی صحت پاسخها بر اساس پایگاه داده جهانی تاریخ Seshat میپردازد که یک پایگاه داده وسیع از دانش تاریخی است و به نام الهه خرد مصر باستان نامگذاری شده است.
نتایج ارائه شده در کنفرانس معتبر AI NeurIPS ماه گذشته، ناامیدکننده بوده و بر اساس گفته محققان وابسته به مرکز علوم پیچیدگی (CSH) در اتریش، بهترین عملکرد مربوط به GPT-4 Turbo با حدود ۴۶ درصد دقت بود که تنها کمی بالاتر از حد تصادفی است. مارتیا دل ریو-چانونا، یکی از نویسندگان این مقاله و استاد دانشگاه کالج لندن، اعلام کرد: "پیام اصلی این مطالعه این است که مدلهای زبان بزرگ، با وجود قابلیتهای چشمگیرشان، هنوز عمق درک لازم برای تحلیلهای پیشرفته تاریخی را ندارند. آنها در ارائه اطلاعات پایه خوب عمل میکنند، اما در مورد پرسشهای تاریخی پیچیده و علمی، هنوز نمیتوانند کافی باشند."
محققان سوالات تاریخی نمونهای به TechCrunch ارائه کردند که LLMها به اشتباه پاسخ داده بودند. بهعنوان مثال، از GPT-4 Turbo پرسیده شد آیا زرههای مقیاسدار در دوره خاصی در مصر باستان وجود داشتند. پاسخ LLM مثبت بود، در حالی که این فناوری ۱۵۰۰ سال بعد در مصر ظهور کرد.
سوال این است که چرا LLMها در پاسخ به سوالات تاریخی فنی ضعیف عمل میکنند، در حالی که میتوانند به بهترین شکل به سوالات پیچیدهای مانند برنامهنویسی پاسخ دهند؟ دل ریو-چانونا به TechCrunch گفت که این احتمالاً به این دلیل است که LLMها تمایل دارند از دادههای تاریخی برجسته استنتاج کنند و در بازیابی اطلاعات تاریخی کمتر شناخته شده مشکل دارند. مثلاً وقتی از GPT-4 پرسیده شد که آیا مصر باستان در یک دوره خاص دارای ارتش حرفهای بوده یا نه، در حالی که پاسخ صحیح "خیر" بود، LLM بهاشتباه "بله" جواب داد. این موضوع احتمالاً به دلیل اطلاعات عمومی زیاد در مورد امپراتوریهایی چون پارس است که ارتشهای دائمی داشتهاند.
محققان همچنین الگوهای دیگری را شناسایی کردند، از جمله اینکه مدلهای OpenAI و Llama در بعضی از مناطق مثل آفریقای زیر صحرا عملکرد بدتری داشتهاند که نشاندهنده تعصبهای بالقوه در دادههای آموزشی آنهاست. نتایج نشان میدهد که LLMها هنوز نمیتوانند جایگزینی برای انسانها در برخی حوزهها باشند. پیتر توچین، که هدایت این مطالعه را بر عهده داشت، اظهار داشت که این یافتهها امیدوارکننده است و میتوانند در آینده به تاریخنگاران کمک کنند. محققان در حال کار بر روی اصلاح معیار خود با افزودن دادههای بیشتر از مناطق کمنمایش و پرسشهای پیچیدهتر هستند. در کل، یافتههای ما حوزههایی را که LLMها نیاز به بهبود دارند، مورد تأکید قرار میدهد، و همچنین پتانسیل این مدلها برای کمک به تحقیقات تاریخی را برجسته میکند. برای اطلاعات بیشتر میتوانید به وبسایت ما 'iwl.ir' مراجعه کنید.
- AI
- AI
- benchmarks
- hallucinations
- LLMs
- research
- TC