[ad_1]

از جمله ، گبرو ، میچل و پنج دانشمند دیگر در گزارش خود ، که آنها LLM را “طوطی تصادفی” می نامند ، در این باره هشدار دادند. امیلی بندر ، استاد زبانشناسی دانشگاه واشنگتن و از نویسندگان مقاله ، گفت: “فناوری زبان می تواند بسیار مناسب باشد ، درصورتی که به درستی پوشانده شود ، در آن قرار گرفته و از قاب استفاده شود.” اما ماهیت LLM های عمومی – و اقناع تقلید آنها – شرکت ها را به استفاده از آنها در مناطقی که لزوماً مجهز نیستند فریب می دهد.

در یک سخنرانی اخیر در یکی از بزرگترین کنفرانس های هوش مصنوعی ، گبرو این اجرای شتابزانه LLM را با عواقبی که در زندگی خودش تجربه کرده مرتبط کرد. گبرو در اتیوپی به دنیا آمد و بزرگ شد ، جایی که جنگی شدیدتر ، شمالی ترین منطقه دجله را ویران کرد. اتیوپی همچنین کشوری است که 86 زبان در آن صحبت می شود ، تقریباً همه آنها در فن آوری زبان انبوه ناشناخته هستند.

هنگامی که جنگ در Tigrei برای اولین بار در ماه نوامبر آغاز شد ، Gebru دید که سکو برای مقابله با موج اطلاعات غلط دور شده است. این نمونه از الگویی سازگار است که محققان در محتوای متوسط ​​مشاهده کرده اند ، منطقه ای که فیس بوک به شدت به LLM متکی است. جوامع غیر اولویت دار سیلیکون ولی ، از خصمانه ترین محیط دیجیتالی رنج می برند.

گبرو خاطرنشان کرد که خسارت در اینجا نیز پایان نمی یابد. وقتی اخبار جعلی ، سخنان نفرت انگیز و حتی تهدیدهای مرگ تعدیل نشوند ، آنها به عنوان داده های آموزشی برای ساخت نسل بعدی LLM حذف می شوند. و مدل های طوطی ، برخلاف آنچه که آموزش دیده اند ، سرانجام این الگوهای سمی زبان را در اینترنت استفراغ می کنند.

در بسیاری از موارد ، محققان به اندازه کافی عمیق مطالعه نکرده اند تا بدانند که چگونه این سمیت می تواند در کاربردهای پایین دستی خود را نشان دهد. اما برخی از بورس های تحصیلی وجود دارد. در کتاب او از سال 2018 الگوریتم های سرکوب، Safiya Noble ، دانشیار اطلاعات و مطالعات آفریقایی-آمریکایی در دانشگاه کالیفرنیا ، لس آنجلس ، مستند می کند که چگونه تعصب جاسازی شده در جستجوی گوگل نژادپرستی را تداوم می بخشد و در نهایت حتی می تواند انگیزه خشونت نژادی باشد.

وی گفت: “عواقب آن کاملاً شدید و قابل توجه است.” Google فقط درگاه اصلی دانش برای شهروندان عادی نیست. همچنین زیرساخت های اطلاعاتی را برای موسسات ، دانشگاه ها و دولت های ایالتی و فدرال فراهم می کند.

Google قبلاً از LLM برای بهینه سازی برخی از نتایج جستجوی خود استفاده کرده است. این شرکت با جدیدترین اعلامیه LaMDA و پیشنهادی که اخیراً در مقاله پیش چاپ منتشر شده است ، به صراحت اعلام کرده است که تنها وابستگی خود را به فناوری افزایش می دهد. نگرانی های نجیب می تواند باعث تشدید مشکلاتی شود که وی کشف کرده است: “این واقعیت که تیم اخلاقی هوش مصنوعی گوگل به دلیل طرح موضوعات بسیار مهم درباره الگوهای تبعیض نژادپرستانه و جنسیتی که در مدل های اصلی زبان گنجانده شده ، اخراج شده است ، باید بیدار شدن را نشان دهد.”

علم بزرگ

پروژه BigScience در پاسخ مستقیم به نیاز روزافزون به کنترل علمی LLM آغاز شد. با مشاهده گسترش سریع فن آوری و تلاش گوگل برای سانسور گبرو و میچل ، ولف و چندین همکار دریافتند که زمان آن رسیده است که جامعه تحقیق امور را به دست خود بگیرد.

آنها با الهام از همکاری علمی باز مانند CERN در فیزیک ذرات ، ایده یک منبع آزاد LLM را یافتند که می تواند برای انجام تحقیقات مهم مستقل از هر شرکت استفاده شود. در آوریل امسال ، این گروه کمک هزینه ساخت آن را با کمک ابر رایانه دولت فرانسه دریافت کرد.

شرکت های فناوری LLM غالباً تنها از نیم نفر تشکیل شده اند که بیشتر تجربه فنی دارند. BigScience می خواست صدها محقق از طیف گسترده ای از کشورها و رشته ها را برای شرکت در یک فرایند مدل سازی کاملاً مشترک جذب کند. ولف که فرانسوی است ابتدا به جامعه NLP فرانسه نزدیک شد. از آن پس ، این ابتکار عمل در یک عملیات جهانی با بیش از 500 نفر فیلمبرداری شد.

این همکاری اکنون بصورت آزادانه در دوازده گروه کاری و تعداد مختلف سازماندهی شده است ، که هر یک از آنها با جنبه های مختلف توسعه و تحقیق مدل سروکار دارند. یک گروه تأثیر مدل را بر محیط زیست ، از جمله اثر کربن آموزش و مدیریت LLM و فاکتورهای هزینه های چرخه عمر ابر رایانه اندازه گیری می کند. بخش دیگری به ایجاد روشهای مسئول برای بازیابی داده های آموزشی – جستجوی گزینه هایی برای ساده تراشیدن داده ها از وب ، مانند کپی کردن بایگانی های رادیویی یا پادکست ها – متمرکز است. هدف در اینجا جلوگیری از زبان سمی و جمع آوری بی پروای اطلاعات شخصی است.

[ad_2]

منبع: unbox-khabar.ir

ایندکسر