[ad_1]

بسیاری از جزئیات مربوط به توالی دقیق وقایع منجر به عزیمت گبرو هنوز روشن نیست. او و گوگل هر دو از اظهار نظر به جز پست های خود در شبکه های اجتماعی خودداری کردند. اما MIT Technology Review نسخه ای از مقاله تحقیقاتی را از یکی از نویسندگان مشترک ، امیلی ام. بندر ، استاد زبانشناسی محاسبات در دانشگاه واشنگتن دریافت کرد. اگرچه بندر از ما خواست که خود سند را منتشر نکنیم ، زیرا نویسندگان نمی خواستند چنین پروژه اولیه به صورت آنلاین توزیع شود ، اما در مورد موضوعاتی که گبرو و همکارانش در مورد هوش مصنوعی مطرح کرده اند که ممکن است نگران کننده گوگل باشد ، بینشی را ارائه می دهد.

این مقاله با عنوان “در مورد خطرات طوطی های تصادفی: آیا مدل های زبانی می توانند خیلی زیاد باشند؟” خطرات مدل های بزرگ زبانی – هوش مصنوعی ، آموزش داده شده در مورد میزان شگفت آور داده های متنی را در معرض دید قرار می دهد. آنها در سه سال اخیر محبوب تر شده اند – و بزرگتر شده اند. اکنون ، آنها تحت شرایط مناسب ، برای ایجاد مطلبی متقاعد کننده و معنی دار جدید – و گاهی نیز برای درک معنای زبان ، بسیار خوب هستند. اما در مقدمه مقاله آمده است: “ما س askال می کنیم که آیا خطرات بالقوه مرتبط با توسعه آنها و راهکارهای کاهش این خطرات به اندازه کافی در نظر گرفته شده اند؟”

کاغذ

این گزارش که بر اساس کار سایر محققان بنا شده است ، تاریخچه پردازش زبان طبیعی ، مروری بر چهار خطر اصلی مدل های بزرگ زبان و پیشنهاداتی برای تحقیقات بیشتر را ارائه می دهد. از آنجا که به نظر می رسد درگیری با Google خطراتی را در بر داشته باشد ، ما بر روی جمع بندی این موارد در اینجا تمرکز کردیم.

هزینه های زیست محیطی و مالی

آموزش مدل های بزرگ هوش مصنوعی ، مقدار زیادی از قدرت پردازش رایانه و از این رو برق زیادی را مصرف می کند. گبرو و همكارانش به مقاله ای برای سال 2019 توسط اما استروبل و همكارانش در مورد انتشار كربن و هزینه های مالی مدل های اصلی زبان مراجعه می كنند. وی دریافت که مصرف انرژی و اثر کربن آنها از سال 2017 در حال انفجار است زیرا مدل ها داده های بیشتری دریافت می کنند.

مطالعه استروبل نشان داد که یک مدل زبانی با نوع خاصی از روش جستجوی معماری عصبی (NAS) معادل 286 تن دی اکسید کربن تولید می کند – تقریباً عمر پنج اتومبیل متوسط ​​آمریکایی. نسخه اصلی مدل زبان Google ، BERT طبق گفته استروبل ، موتور جستجوی این شرکت 1438 پوند معادل CO2 تولید کرد که تقریباً همان پرواز برگشت بین نیویورک و سانفرانسیسکو است.

در پیش نویس سند گبرو آمده است که منابع عظیم مورد نیاز برای ساخت و نگهداری چنین مدلهای بزرگی از هوش مصنوعی به معنای سودآوری آنها برای سازمانهای ثروتمند است ، در حالی که تغییر اقلیم بر حاشیه نشین ترین جوامع تأثیر می گذارد. آنها نوشتند: “زمان آن رسیده است كه محققان بهره وری انرژی و هزینه های كاهش تأثیر منفی بر محیط زیست و دسترسی ناعادلانه به منابع را در اولویت قرار دهند.”

داده های عظیم ، مدل های دست نیافتنی

مدلهای زبان بزرگ همچنین مقادیر فزاینده متن را آموزش می دهند. این بدان معناست که محققان سعی کرده اند تمام داده های موجود در اینترنت را جمع آوری کنند ، بنابراین این خطر وجود دارد که زبان های نژادپرست ، جنسیت طلب یا توهین آمیز به داده های آموزشی ختم شود.

الگویی از هوش مصنوعی ، آموخته شده است که به زبان نژادپرستانه به صورت عادی نگاه کند ، بد است. با این حال ، محققان به چندین مشکل ظریف دیگر اشاره می کنند. یکی این که تغییرات زبان نقش مهمی در تغییرات اجتماعی دارند. به عنوان مثال جنبش MeToo و Black Lives Matter ، سعی در ایجاد یک واژگان ضد ضد نژادپرستی و نژادپرستی داشتند. مدل هوش مصنوعی آموزش دیده در مناطق وسیعی از اینترنت با تفاوت های ظریف این واژگان مطابقت ندارد و مطابق با این هنجارهای جدید فرهنگی تولید یا تفسیر نمی کند.

همچنین نمی تواند زبان و هنجارهای کشورها و مردمی را که دسترسی کمتری به اینترنت دارند و در نتیجه رد پای زبان به صورت آنلاین کمتر است پوشش دهد. نتیجه این است که زبان تولید شده توسط هوش مصنوعی همگن می شود و عملکرد ثروتمندترین کشورها و جوامع را منعکس می کند.

همچنین ، از آنجا که مجموعه داده های آموزش بسیار زیاد هستند ، بررسی آنها برای بررسی این سوگیری های داخلی دشوار است. محققان نتیجه گیری کردند: “بنابراین ، یک روش متکی به مجموعه داده هایی که بیش از حد مجاز برای اثبات نیست ، ذاتاً خطرناک است.” “در حالی که اسناد امکان پاسخگویی بالقوه را فراهم می کند ، […] داده های آموزشی بدون سند بدون مراجعه به آسیب همچنان ادامه دارد. “

هزینه های تحقیق جایگزین

محققان سومین چالش را به عنوان خطر “تلاشهای تحقیقاتی سوd استفاده” خلاصه می کنند. اگرچه بیشتر محققان هوش مصنوعی اذعان می کنند که مدل های بزرگ زبان در واقع چنین کاری نمی کنند من میفهمم زبان هستند و فقط در عالی هستند دستکاری – اعمال نفوذ این ، Big Tech می تواند از مدل هایی که به طور دقیق تر زبان را دستکاری می کنند ، درآمد کسب کند ، بنابراین همچنان به سرمایه گذاری در آنها ادامه می دهد. گبرو و همکارانش نوشتند: “این تلاش تحقیقاتی هزینه های فرصتی را به همراه دارد.” تلاش زیادی برای کار بر روی مدلهای هوش مصنوعی صورت نمی گیرد که بتوانند درک کنند یا با مجموعه داده های کوچکتر و با دقت بیشتری انتخاب شوند (و در نتیجه انرژی کمتری نیز مصرف می کنند).

توهمات معنی

محققان می گویند آخرین مشکل در مورد مدل های بزرگ زبان این است که از آنجا که آنها در تقلید از زبان واقعی انسان بسیار ماهر هستند ، استفاده از آنها برای گول زدن مردم آسان است. چندین مورد شناخته شده وجود دارد ، مانند دانش آموزی که نکات خودیاری و بهره وری تولید شده توسط هوش مصنوعی را در وبلاگی منتشر کرده است که ویروسی شده است.

خطرات واضح است: به عنوان مثال می توان از مدل های هوش مصنوعی برای تولید اطلاعات غلط در انتخابات یا بیماری همه گیر covid-19 استفاده کرد. وقتی برای ترجمه ماشینی استفاده می شود ممکن است سهواً اشتباه گرفته شوند. محققان به یک مثال اشاره می کنند: در سال 2017 ، فیس بوک ترجمه فلسطینی را با غلط ترجمه “صبح بخیر” به زبان عربی با “حمله به آنها” به عبری ، منجر به دستگیری وی کرد.

چرا مهم است

مقاله Gebru و Bender شش نویسنده همکار دارد که چهار نفر از آنها محقق Google هستند. بندر از ترس عواقب ناشی از آن خواست که از افشای نام آنها خودداری کند. (در مقابل ، بندر از نظر شغلی استاد است: “من فکر می کنم که ارزش آزادی علمی را تأکید می کند.”)

هدف این مقاله ، می گوید ، بندر ، بررسی چشم انداز تحقیقات فعلی در پردازش زبان طبیعی است. وی گفت: “ما در مقیاسی کار می کنیم که افرادی که چیزها را می سازند در واقع نمی توانند از داده ها استفاده کنند.” “و از آنجا که نکات مثبت بسیار واضح است ، مهم است که به عقب برگردیم و از خود بپرسیم ، معایب احتمالی چیست؟ … چگونه می توان ضمن کاهش خطر از مزایای آن بهره برد؟ “

در یک ایمیل داخلی ، دین ، ​​رئیس Google AI ، گفت که یکی از دلایلی که روزنامه “نیازهای ما را برآورده نمی کند” این است که “تحقیقات بیش از حد مرتبط را نادیده می گیرد”. به طور خاص ، او گفت که هیچ اشاره ای به کارهای اخیر در مورد چگونگی کارآیی بیشتر مدل های زبان بزرگ و کاهش مشکلات تعصب نشده است.

با این حال ، این شش همکار از گستردگی علمی گسترده ای برخوردار بودند. لیست مقالات ذکر شده با 128 منبع به خصوص طولانی است. بندر گفت: “این نوعی کار است که هیچ شخص یا حتی چند نویسنده نمی توانند انجام دهند.” “این واقعاً به این همکاری نیاز داشت.”

نسخه مقاله ای که ما شاهد آن بودیم ، به چندین تلاش تحقیقاتی برای کاهش اندازه و هزینه های محاسباتی مدل های بزرگ زبان و اندازه گیری تعصب داخلی مدل ها اشاره می کند. با این حال ، او ادعا می کند که این تلاش ها کافی نبوده است. بندر گفت: “من بسیار باز هستم تا ببینم چه منابع دیگری را باید وارد کنیم.”

Nicholas Le Roux ، بعداً محقق هوش مصنوعی Google در دفتر مونترال در توییتر اشاره کرد که استدلال در ایمیل دین غیر معمول بود. وی گفت: “اظهارات من همیشه برای تشخیص مواد حساس بررسی شده است ، هرگز از نظر كیفیت بررسی ادبیات.”



[ad_2]

منبع: unbox-khabar.ir