همکاری MLCommons و Hugging Face برای ارائه دیتاست بزرگ گفتار در پژوهشهای هوش مصنوعی
MLCommons and Hugging Face team up to release massive speech dataset for AI research
MLCommons، یک گروه غیرانتفاعی فعال در زمینه ایمنی هوش مصنوعی، به همراه پلتفرم توسعه هوش مصنوعی Hugging Face یکی از بزرگترین مجموعههای جهانی ضبطهای صوتی در دامنه عمومی را برای تحقیق در زمینه هوش مصنوعی منتشر کرده است. این مجموعه دادهای که Unsupervised People’s Speech نام دارد، شامل بیش از یک میلیون ساعت صوتی به حداقل 89 زبان مختلف است. MLCommons به منظور حمایت از تحقیقات و توسعه در "حوزههای مختلف فناوری گفتار" تصمیم به ایجاد این مجموعه داده گرفته است. این سازمان در یک پست وبلاگی اعلام کرده است: "حمایت از تحقیق در زمینه پردازش زبان طبیعی برای زبانهای غیرانگلیسی به ارتقای فنآوریهای ارتباطی برای مردم بیشتر در سطح جهانی کمک میکند."
این هدف قابل تحسینی است، اما مجموعه دادههای هوش مصنوعی مانند Unsupervised People’s Speech میتوانند مخاطراتی برای پژوهشگرانی که تصمیم به استفاده از آنها دارند، به همراه داشته باشند. یکی از این خطرات، دادههای متعصب است. ضبطهای موجود در Unsupervised People’s Speech از Archive.org گرفته شدهاند، که یک نهاد غیرانتفاعی شناخته شده به خاطر ابزار آرشیوی Wayback Machine است. به دلیل اینکه بسیاری از مشارکتکنندگان Archive.org به زبان انگلیسی صحبت میکنند و آمریکایی هستند، تقریباً تمامی ضبطهای موجود در Unsupervised People’s Speech به زبان انگلیسی با لهجه آمریکایی است. به این ترتیب، بدون فیلتر کردن دقیق، سامانههای هوش مصنوعی نظیر مدلهای شناسایی گفتار و صداهای مصنوعی که بر مبنای Unsupervised People’s Speech آموزش میبینند، ممکن است برخی از همان تعصبات را نشان دهند. به عنوان مثال، آنها ممکن است در نوشتن گفتار زبان انگلیسی توسط یک غیر بومی یا در تولید صدای مصنوعی به زبانهای غیر از انگلیسی با مشکل مواجه شوند.
علاوه بر این، ممکن است Unsupervised People’s Speech شامل ضبطهایی باشد که افراد در مورد استفاده صدای خود برای اهداف تحقیقاتی هوش مصنوعی، از جمله کاربردهای تجاری، آگاهی نداشتهاند. در حالی که MLCommons اعلام کرده که تمام ضبطهای موجود در این مجموعه داده عمومی هستند یا تحت مجوز Creative Commons قرار دارند، اما احتمال اشتباه در این مورد وجود دارد. بر اساس تحلیلی که در MIT صورت گرفته، صدها مجموعه داده آموزشی AI عمومی فاقد اطلاعات مجوز و شامل خطا هستند.
برخی از حامیان خالقین مانند اد نیوتون-رکس، مدیرعامل نهاد غیرانتفاعی Fairly Trained که به بررسی اخلاق در هوش مصنوعی میپردازد، بر این باورند که خالقین نباید ملزم به "خروج از" مجموعههای داده هوش مصنوعی باشند، چرا که این کار بار سنگینی بر دوش خالقین میگذارد. نیوتون-رکس در یک پست در X در ژوئن گذشته نوشت: "بسیاری از خالقین (به عنوان مثال، کاربران Squarespace) هیچ راه قابل اجرا برای خروج ندارند."
MLCommons تأکید کرده که متعهد به بهروزرسانی، نگهداری و ارتقای کیفیت Unsupervised People’s Speech است. اما با توجه به نقصهای احتمالی، به نظر میرسد که توسعهدهندگان باید با احتیاط بسیاری عمل کنند. در این راستا وبسایت iwl.ir نیز میتواند منابع مفید و اطلاعات بیشتری برای پژوهشگران ارائه دهد.
- AI
- AI
- bias
- data set
- Generative AI
- Hugging Face
- mlcommons
- open source
- public domain
- speech