تیم Qwen علیبابا، مدلهای هوش مصنوعی برای کنترل رایانه و تلفن همراه منتشر کرد.
Alibaba’s Qwen team releases AI models that can control PCs and phones
این هفته، آزمایشگاه هوش مصنوعی چینی دیپسیک (DeepSeek) توجه زیادی از صنعت فناوری را به خود جلب کرده است، اما یکی از رقبای داخلی برجسته آن، علیبابا، بیکار ننشسته است. تیم هوش مصنوعی Qwen این شرکت، روز دوشنبه یک خانواده جدید از مدلهای هوش مصنوعی به نام Qwen2.5-VL را معرفی کرد که قادر به انجام وظایف متعددی از جمله تحلیل متن و تصویر است. این مدلها میتوانند فایلها را پردازش کنند، ویدیوها را درک کنند و اشیاء موجود در تصاویر را شمارش کنند؛ همچنین توانایی کنترل کامپیوتر را دارند که شبیه به مدل نیروی کارگر هوش مصنوعی OpenAI است.
بر اساس سنجشهای تیم Qwen، بهترین مدل Qwen2.5-VL از نظر قابلیتهای درک ویدیو، ریاضیات، تحلیل اسناد و ارزیابی سوال و جواب، از مدلهای GPT-4o OpenAI، Claude 3.5 Sonnet از Anthropic و Gemini 2.0 Flash از گوگل پیشی گرفته است. Qwen2.5-VL که در اپلیکیشن چت Qwen علیبابا و همچنین از پلتفرم توسعه هوش مصنوعی Hugging Face قابل دانلود است، میتواند نمودارها و گرافیکها را تحلیل کرده، دادهها را از اسکن فاکتورها و فرمها استخراج کند و همچنین قادر به "فهم" ویدیوهای چند ساعته است.
علاوه بر این، این مدل میتواند شخصیتهای معروف از فیلمها و سریالها و همچنین انواع مختلف محصولات را شناسایی کند، که نشان میدهد این مدلها تا حدی بر روی آثار دارای حق کپیرایت آموزش دیدهاند. با این حال، در طراحی Qwen2.5-VL، که توسط یک شرکت چینی توسعه یافته، محدودیتهایی در مورد موضوعاتی که میتواند بحث کند وجود دارد—حداقل در اپلیکیشن Qwen Chat. زمانی که از قدرتمندترین مدل Qwen2.5-VL، یعنی Qwen2.5-VL-72B، خواستم درباره "اشتباهات شی جینپینگ" صحبت کند، اپلیکیشن پیغام خطا نشان داد.
نهاد تنظیمکننده اینترنت چین بسیاری از مدلهای توسعه یافته در این کشور را ارزیابی میکند تا اطمینان یابد پاسخهای آنها "مفاهیم کلیدی ارزشهای سوسیالیستی" را در خود دارند. بسیاری از سیستمهای هوش مصنوعی چینی از پاسخ دادن به موضوعاتی که ممکن است موجب عصبانیت تنظیمکنندگان شوند، مانند خودمختاری تایوان، خودداری میکنند.
یکی از ویژگیهای جالب Qwen2.5-VL، قابلیت تعامل با نرمافزارها است—چه در کامپیوترها و چه در دستگاههای همراه. یک ویدیویی که توسط فیلیپ اشمید، یکی از متخصصان تیم Hugging Face، منتشر شده، نشان میدهد که Qwen2.5-VL برنامه Booking.com را برای اندروید باز کرده و بلیط پرواز از چونگکینگ به پکن را رزرو کرده است. با این وجود، سنجشهای Qwen نشان میدهد که این مدل در محیطهای دریافتی با عملکرد ضعیفی در OSWorld، معیاری که سعی میکند یک محیط کامپیوتر واقعی را شبیهسازی کند، عمل کرده است.
مدلهای کوچکتر و کمتر پیشرفتهتر در سری Qwen2.5-VL، یعنی Qwen2.5-VL-3B و Qwen2.5-VL-7B، تحت مجوزی آزاد در دسترس هستند. اما مدل پرچمدار Qwen2.5-VL-72B تحت مجوز سفارشی علیبابا قرار دارد و شرکتها و توسعهدهندگانی که بیش از 100 میلیون کاربر فعال ماهانه دارند، پیش از استفاده تجاری از این مدل باید مجوزی از Qwen یا علیبابا درخواست کنند. برای اطلاعات بیشتر در این زمینه میتوانید به وبسایت iwl.ir مراجعه کنید.
- agents
- AI
- AI
- alibaba
- Apps
- chatbot
- computer use
- Generative AI
- open
- Open AI
- open models
- qwen
- Qwen2.5-VL