آزمایش هوش مصنوعی با ایجاد پرش توپ‌ها در اشکال چرخشی

آزمایش هوش مصنوعی با ایجاد پرش توپ‌ها در اشکال چرخشی

فهرست معیارهای غیررسمی و عجیب هوش مصنوعی همچنان در حال گسترش است.

سنجش هوش مصنوعی با ایجاد پرش توپ در اشکال چرخان

People are benchmarking AI by having it make balls bounce in rotating shapes

فهرست معیارهای غیررسمی و عجیب برای ارزیابی هوش مصنوعی همچنان در حال گسترش است. در روزهای اخیر، برخی از اعضای جامعه هوش مصنوعی در شبکه اجتماعی X به شدت به آزمایشی علاقه‌مند شده‌اند که نشان می‌دهد مدل‌های مختلف هوش مصنوعی، به ویژه مدل‌های استدلالی، چگونه با درخواست‌هایی مانند «یک اسکریپت پایتون برای یک توپ زرد در حال جست‌وخیز درون یک شکل بنویسید. مطمئن شوید که شکل به آرامی می‌چرخد و توپ درون شکل باقی بماند» برخورد می‌کنند. برخی مدل‌ها در این معیار «توپ درون شکل در حال چرخش» عملکرد بهتری نسبت به دیگران داشتند. بر اساس گفته یکی از کاربران در X، مدل R1 آزمایشگاه هوش مصنوعی چینی DeepSeek بسرعت از حالت پرو o1 شرکت OpenAI – که به مبلغ ۲۰۰ دلار در ماه به عنوان بخشی از برنامه ChatGPT Pro عرضه می‌شود – پیشی گرفت.
از سوی دیگر، طبق گزارشی از کاربر دیگری در X، مدل‌های Claude 3.5 Sonnet شرکت Anthropic و Gemini 1.5 Pro شرکت گوگل دچار اشتباه در ارزیابی فیزیک شدند و توپ از شکل خارج شد. همچنین، کاربران دیگری اعلام کردند که مدل تجربی Gemini 2.0 Flash Thinking شرکت گوگل و حتی نسخه قدیمی‌تر GPT-4o شرکت OpenAI، این ارزیابی را به خوبی انجام دادند. در یک آزمایش بر روی ۹ مدل هوش مصنوعی در یک کار شبیه‌سازی فیزیک که شامل مثلث در حال چرخش و توپ در حال جست‌وخیز بود، نتایج زیر به دست آمد:
🥇 R1 DeepSeek 🥈 Sonar Huge 🥉 GPT-4o
بدترین نتیجه مربوط به OpenAI o1 بود که به‌طور کامل وظیفه را اشتباه فهمید.
تست‌هایی از این دست چه چیزی را ثابت می‌کند؟ شبیه‌سازی یک توپ در حال جست‌وخیز یک چالش کلاسیک برنامه‌نویسی است. شبیه‌سازی‌های دقیق شامل الگوریتم‌های شناسایی برخورد هستند که سعی می‌کنند تعیین کنند چه زمانی دو جسم (مثلاً توپ و لبه یک شکل) با یکدیگر برخورد می‌کنند. الگوریتم‌های نادرست نوشته شده می‌توانند بر عملکرد شبیه‌سازی تأثیر بگذارند یا منجر به اشتباهات فیزیکی قابل توجهی شوند. N8 Programs، یک محقق مقیم در استارتاپ هوش مصنوعی Nous Research، اعلام کرد که صرفاً دو ساعت طول کشیده تا او یک توپ در حال جست‌وخیز در یک هفت‌ضلعی در حال چرخش را از ابتدا برنامه‌نویسی کند. او در یک پست نوشت: «باید چندین سیستم مختصات را پیگیری کنید، نحوه برخوردها را در هر سیستم شناسایی کنید و کد را از ابتدا به گونه‌ای طراحی کنید که قوی و پایدار باشد.»
اگرچه شبیه‌سازی توپ‌ها و اشکال چرخان می‌تواند آزمون معقولی از مهارت‌های برنامه‌نویسی باشد، اما به عنوان یک معیار تجربی برای هوش مصنوعی چندان معتبر نیست. حتی تغییرات جزئی در درخواست می‌تواند منجر به نتایج متفاوتی شود. به همین دلیل، برخی کاربران در X گزارش داده‌اند که در استفاده از o1 موفقیت بیشتری داشته‌اند، در حالی که دیگران می‌گویند که R1 عملکرد مطلوبی ندارد. اگر چه این آزمایش‌های ویروسی به مشکل غیرقابل حل ایجاد سیستم‌های خوبی برای اندازه‌گیری مدل‌های هوش مصنوعی اشاره می‌کند، اما در حال حاضر تلاش‌های زیادی در حال انجام است تا آزمون‌های بهتری مانند معیار ARC-AGI و آخرین آزمون بشریت ایجاد شود. باید دید این تلاش‌ها به کجا می‌انجامد و در عین حال، می‌توانیم ویدیوهای جالبی از توپ‌هایی که در اشکال چرخان جست‌وخیز می‌کنند تماشا کنیم. برای اطلاعات بیشتر درباره معیارهای هوش مصنوعی، به سایت iwl.ir مراجعه کنید.