تیم MLCommons و Hugging Face همکاری کردند تا دیتاست گسترده‌ای از گفتار برای تحقیقات هوش مصنوعی را منتشر کنند.

تیم MLCommons و Hugging Face همکاری کردند تا دیتاست گسترده‌ای از گفتار برای تحقیقات هوش مصنوعی را منتشر کنند.

گروه غیرانتفاعی MLCommons با پلتفرم توسعه‌دهنده هوش مصنوعی Hugging Face همکاری کرده تا یکی از بزرگ‌ترین مجموعه‌های ضبط‌صوت‌های عمومی را برای تحقیقات هوش مصنوعی منتشر کند.

همکاری MLCommons و Hugging Face برای ارائه دیتاست بزرگ گفتار در پژوهش‌های هوش مصنوعی

MLCommons and Hugging Face team up to release massive speech dataset for AI research

MLCommons، یک گروه غیرانتفاعی فعال در زمینه ایمنی هوش مصنوعی، به همراه پلتفرم توسعه هوش مصنوعی Hugging Face یکی از بزرگ‌ترین مجموعه‌های جهانی ضبط‌های صوتی در دامنه عمومی را برای تحقیق در زمینه هوش مصنوعی منتشر کرده است. این مجموعه داده‌ای که Unsupervised People’s Speech نام دارد، شامل بیش از یک میلیون ساعت صوتی به حداقل 89 زبان مختلف است. MLCommons به منظور حمایت از تحقیقات و توسعه در "حوزه‌های مختلف فناوری گفتار" تصمیم به ایجاد این مجموعه داده گرفته است. این سازمان در یک پست وبلاگی اعلام کرده است: "حمایت از تحقیق در زمینه پردازش زبان طبیعی برای زبان‌های غیرانگلیسی به ارتقای فن‌آوری‌های ارتباطی برای مردم بیشتر در سطح جهانی کمک می‌کند."
این هدف قابل تحسینی است، اما مجموعه داده‌های هوش مصنوعی مانند Unsupervised People’s Speech می‌توانند مخاطراتی برای پژوهشگرانی که تصمیم به استفاده از آن‌ها دارند، به همراه داشته باشند. یکی از این خطرات، داده‌های متعصب است. ضبط‌های موجود در Unsupervised People’s Speech از Archive.org گرفته شده‌اند، که یک نهاد غیرانتفاعی شناخته شده به خاطر ابزار آرشیوی Wayback Machine است. به دلیل اینکه بسیاری از مشارکت‌کنندگان Archive.org به زبان انگلیسی صحبت می‌کنند و آمریکایی هستند، تقریباً تمامی ضبط‌های موجود در Unsupervised People’s Speech به زبان انگلیسی با لهجه آمریکایی است. به این ترتیب، بدون فیلتر کردن دقیق، سامانه‌های هوش مصنوعی نظیر مدل‌های شناسایی گفتار و صداهای مصنوعی که بر مبنای Unsupervised People’s Speech آموزش می‌بینند، ممکن است برخی از همان تعصبات را نشان دهند. به عنوان مثال، آنها ممکن است در نوشتن گفتار زبان انگلیسی توسط یک غیر بومی یا در تولید صدای مصنوعی به زبان‌های غیر از انگلیسی با مشکل مواجه شوند.
علاوه بر این، ممکن است Unsupervised People’s Speech شامل ضبط‌هایی باشد که افراد در مورد استفاده صدای خود برای اهداف تحقیقاتی هوش مصنوعی، از جمله کاربردهای تجاری، آگاهی نداشته‌اند. در حالی که MLCommons اعلام کرده که تمام ضبط‌های موجود در این مجموعه داده عمومی هستند یا تحت مجوز Creative Commons قرار دارند، اما احتمال اشتباه در این مورد وجود دارد. بر اساس تحلیلی که در MIT صورت گرفته، صدها مجموعه داده آموزشی AI عمومی فاقد اطلاعات مجوز و شامل خطا هستند.
برخی از حامیان خالقین مانند اد نیوتون-رکس، مدیرعامل نهاد غیرانتفاعی Fairly Trained که به بررسی اخلاق در هوش مصنوعی می‌پردازد، بر این باورند که خالقین نباید ملزم به "خروج از" مجموعه‌های داده هوش مصنوعی باشند، چرا که این کار بار سنگینی بر دوش خالقین می‌گذارد. نیوتون-رکس در یک پست در X در ژوئن گذشته نوشت: "بسیاری از خالقین (به عنوان مثال، کاربران Squarespace) هیچ راه قابل اجرا برای خروج ندارند."
MLCommons تأکید کرده که متعهد به به‌روزرسانی، نگهداری و ارتقای کیفیت Unsupervised People’s Speech است. اما با توجه به نقص‌های احتمالی، به نظر می‌رسد که توسعه‌دهندگان باید با احتیاط بسیاری عمل کنند. در این راستا وب‌سایت iwl.ir نیز می‌تواند منابع مفید و اطلاعات بیشتری برای پژوهشگران ارائه دهد.