تیم Qwen علی‌بابا مدل‌های هوش مصنوعی منتشر کرد که کنترل کامپیوتر و تلفن همراه را امکان‌پذیر می‌سازد.

تیم Qwen علی‌بابا مدل‌های هوش مصنوعی منتشر کرد که کنترل کامپیوتر و تلفن همراه را امکان‌پذیر می‌سازد.

آزمایشگاه هوش مصنوعی چینی DeepSeek این هفته توجه زیادی را جلب کرده است، اما رقیب بزرگ آن، علی‌بابا، دست روی دست نمی‌گذارد.

تیم Qwen علی‌بابا، مدل‌های هوش مصنوعی برای کنترل رایانه و تلفن همراه منتشر کرد.

Alibaba’s Qwen team releases AI models that can control PCs and phones

تیم Qwen علی‌بابا، مدل‌های هوش مصنوعی برای کنترل رایانه و تلفن همراه منتشر کرد. - Alibaba’s Qwen team releases AI models that can control PCs and phones

این هفته، آزمایشگاه هوش مصنوعی چینی دیپ‌سیک (DeepSeek) توجه زیادی از صنعت فناوری را به خود جلب کرده است، اما یکی از رقبای داخلی برجسته آن، علی‌بابا، بی‌کار ننشسته است. تیم هوش مصنوعی Qwen این شرکت، روز دوشنبه یک خانواده جدید از مدل‌های هوش مصنوعی به نام Qwen2.5-VL را معرفی کرد که قادر به انجام وظایف متعددی از جمله تحلیل متن و تصویر است. این مدل‌ها می‌توانند فایل‌ها را پردازش کنند، ویدیوها را درک کنند و اشیاء موجود در تصاویر را شمارش کنند؛ همچنین توانایی کنترل کامپیوتر را دارند که شبیه به مدل نیروی کارگر هوش مصنوعی OpenAI است.
بر اساس سنجش‌های تیم Qwen، بهترین مدل Qwen2.5-VL از نظر قابلیت‌های درک ویدیو، ریاضیات، تحلیل اسناد و ارزیابی سوال و جواب، از مدل‌های GPT-4o OpenAI، Claude 3.5 Sonnet از Anthropic و Gemini 2.0 Flash از گوگل پیشی گرفته است. Qwen2.5-VL که در اپلیکیشن چت Qwen علی‌بابا و همچنین از پلتفرم توسعه هوش مصنوعی Hugging Face قابل دانلود است، می‌تواند نمودارها و گرافیک‌ها را تحلیل کرده، داده‌ها را از اسکن فاکتورها و فرم‌ها استخراج کند و همچنین قادر به "فهم" ویدیوهای چند ساعته است.
علاوه بر این، این مدل می‌تواند شخصیت‌های معروف از فیلم‌ها و سریال‌ها و همچنین انواع مختلف محصولات را شناسایی کند، که نشان می‌دهد این مدل‌ها تا حدی بر روی آثار دارای حق کپی‌رایت آموزش دیده‌اند. با این حال، در طراحی Qwen2.5-VL، که توسط یک شرکت چینی توسعه یافته، محدودیت‌هایی در مورد موضوعاتی که می‌تواند بحث کند وجود دارد—حداقل در اپلیکیشن Qwen Chat. زمانی که از قدرتمندترین مدل Qwen2.5-VL، یعنی Qwen2.5-VL-72B، خواستم درباره "اشتباهات شی جین‌پینگ" صحبت کند، اپلیکیشن پیغام خطا نشان داد.
نهاد تنظیم‌کننده اینترنت چین بسیاری از مدل‌های توسعه یافته در این کشور را ارزیابی می‌کند تا اطمینان یابد پاسخ‌های آن‌ها "مفاهیم کلیدی ارزش‌های سوسیالیستی" را در خود دارند. بسیاری از سیستم‌های هوش مصنوعی چینی از پاسخ دادن به موضوعاتی که ممکن است موجب عصبانیت تنظیم‌کنندگان شوند، مانند خودمختاری تایوان، خودداری می‌کنند.
یکی از ویژگی‌های جالب Qwen2.5-VL، قابلیت تعامل با نرم‌افزارها است—چه در کامپیوترها و چه در دستگاه‌های همراه. یک ویدیویی که توسط فیلیپ اشمید، یکی از متخصصان تیم Hugging Face، منتشر شده، نشان می‌دهد که Qwen2.5-VL برنامه Booking.com را برای اندروید باز کرده و بلیط پرواز از چونگ‌کینگ به پکن را رزرو کرده است. با این وجود، سنجش‌های Qwen نشان می‌دهد که این مدل در محیط‌های دریافتی با عملکرد ضعیفی در OSWorld، معیاری که سعی می‌کند یک محیط کامپیوتر واقعی را شبیه‌سازی کند، عمل کرده است.
مدل‌های کوچکتر و کمتر پیشرفته‌تر در سری Qwen2.5-VL، یعنی Qwen2.5-VL-3B و Qwen2.5-VL-7B، تحت مجوزی آزاد در دسترس هستند. اما مدل پرچمدار Qwen2.5-VL-72B تحت مجوز سفارشی علی‌بابا قرار دارد و شرکت‌ها و توسعه‌دهندگانی که بیش از 100 میلیون کاربر فعال ماهانه دارند، پیش از استفاده تجاری از این مدل باید مجوزی از Qwen یا علی‌بابا درخواست کنند. برای اطلاعات بیشتر در این زمینه می‌توانید به وب‌سایت iwl.ir مراجعه کنید.