چگونه داده های ما نژادپرستی سیستماتیک را رمزگذاری می کند


یک روز ، GPT-2 ، یک نسخه قبلی که در دسترس عموم مدل تولید زبان خودکار است و توسط شرکت تحقیقاتی OpenAI تهیه شده ، شروع به صحبت صریح با من در مورد “حقوق سفیدها” کرد. با استفاده از دستورالعمل های ساده مانند “این یک مرد سفیدپوست است” یا “یک زن سیاه پوست است” ، متن تولید شده توسط مدل در بحث در مورد “ملت های سفید آریایی” و “مهاجمان خارجی و غیر سفیدپوست” قرار خواهد گرفت.

نه تنها شامل این توهین های هولناک مانند “عوضی” ، “شلخته” ، “سیاه” ، “پچ پچ” و “چشم کج” بود ، بلکه متن تولید شده شامل لفاظی های خاص ناسیونالیستی سفیدپوست آمریکایی در توصیف “تهدیدهای جمعیتی” و انجام حملات ضد یهودی است. “یهودیان” و “کمونیست ها”.

GPT-2 خود فکر نمی کند – با تولید مثل مدل های زبانی مشاهده شده در داده های مورد استفاده برای توسعه مدل ، پاسخ هایی ایجاد می کند. این مجموعه داده ، تحت عنوان WebText ، حاوی “بیش از 8 میلیون سند برای کل 40 گیگابایت متن” است که از پیوندها به دست آمده است. این پیوندها خود از میان پست هایی با بیشترین صدای وب سایت Reddit در رسانه های اجتماعی انتخاب شده اند ، به عنوان “شاخص ابتکاری در مورد اینکه کاربران دیگر پیوند را جالب ، آموزشی یا سرگرم کننده می دانند”.

کاربران Reddit – از جمله کسانی که بارگذاری می کنند و رأی می دهند – معروف هستند که شامل رنگ سفید عالی هستند. برای سالها ، این پلت فرم پر از زبان نژادپرستانه بود و اجازه پیوند به محتوای بیانگر ایدئولوژی نژادپرستانه را می داد. و در حالی که فرصتهای عملی برای محدود کردن این رفتار در سیستم عامل وجود دارد ، اولین تلاشهای جدی برای اقدام ، توسط الن پائو ، مدیر عامل وقت ، در سال 2015 ، مورد استقبال ضعیف جامعه قرار گرفت و منجر به آزار و اذیت و واکنش شدید شد.

این که آیا با پلیس بی طرف و چه با کاربر بی سر و صدا کار می کنند ، تکنسین ها تصمیم می گیرند که این جهان بینی دلگیر خاص بتواند در مجموعه داده ها جامد شود و ماهیت مدل های توسعه یافته را تعیین کند. OpenAI خود با تأیید محدودیت های منبع داده از Reddit ، خاطرنشان کرد که “بسیاری از گروه های مخرب از این مجالس بحث برای سازماندهی استفاده می کنند.” با این وجود ، سازمان همچنان به استفاده از مجموعه داده های استخراج شده از Reddit حتی در نسخه های بعدی مدل زبان خود ادامه می دهد. ماهیت خطرناک معیوب منابع داده ، علی رغم عواقب ، به راحتی برای راحتی کنار گذاشته شده است. قصد سوicious برای این اتفاق ضروری نیست ، اگرچه انفعال و غفلت غیرقابل تصور خاصی وجود دارد.

یک مقدار دروغ مصلحتی

برتری سفیدپوستان این باور غلط است که افراد سفیدپوست از نژادهای دیگر برتر هستند. این فقط یک تصور غلط نیست ، بلکه یک ایدئولوژی ریشه در فریب است. نژاد اولین افسانه است ، برتری بعدی. طرفداران این ایدئولوژی سرسختانه به اختراعی پایبند هستند که امتیاز آنها را به خود اختصاص می دهد.

من می شنوم که این دروغ زبان را از یک “جنگ مواد مخدر” به یک “اپیدمی افیونی” نرم می کند و “سلامت روان” یا “بازی های ویدیویی” را مسئول اقدامات مهاجمان سفیدپوست می داند ، حتی اگر “تنبلی” و “جنایت” را به قربانیان غیر سفید پوست نسبت دهد. من متوجه می شوم که کسانی را که شبیه من هستند پاک می کند و بازی او را در یک رژه بی پایان از چهره های رنگ پریده که به نظر نمی رسد از آنها فرار کنم – در فیلم ها ، جلد مجلات و جوایز تماشا می کنم.

مجموعه داده ها ، به ویژه برای فضاهای سفید تعبیه شده ، واقعیت ساخته شده را نشان می دهند نه واقعیت طبیعی.

این سایه هر حرکتی مرا دنبال می کند ، لرز ناخوشایند پشت سرم. وقتی “قتل” را می شنوم ، پلیس را فقط با زانو به گلو یا نگهبان متوهم با اسلحه در کنار خود نمی بینم – این اقتصاد است که ما را خفه می کند ، بیماری است که ما را ضعیف می کند و دولت است که ما را خفه می کند.

به من بگو – تفاوت بین سیاست بیش از حد در محله های اقلیت و تعصب الگوریتمی که کارمندان را به آنجا اعزام کرده چیست؟ چه تفاوتی بین یک سیستم مدرسه تفکیک شده و یک الگوریتم ارزیابی تبعیض آمیز وجود دارد؟ بین پزشکی که گوش نمی دهد و الگوریتمی که شما را از تخت بیمارستان محروم کند؟ هیچ نژاد پرستی سیستماتیک جدا از سهم الگوریتمی ما ، از شبکه پنهان استقرار الگوریتمی وجود ندارد که به طور منظم بر روی افرادی که قبلاً بیشتر آسیب پذیر هستند خراب می شود.

مقابله با جبرگرایی فناوری

فناوری مستقل از ما نیست ؛ توسط ما ایجاد شده است و ما کنترل کاملی بر آن داریم. داده ها فقط خودسرانه “سیاسی” نیستند – یک سیاست خاص سمی و نادرست وجود دارد که دانشمندان داده با بی دقتی اجازه می دهند به مجموعه داده های ما نفوذ کنند. برتری رنگ سفید یکی از آنهاست.

ما قبلاً خود و تصمیمات خود را در نتیجه گنجانده ایم – هیچ رویکرد بی طرفی وجود ندارد. هیچ نسخه داده ای در آینده وجود ندارد که به طرز جادویی بی طرف باشد. داده ها همیشه یک تفسیر ذهنی از واقعیت کسی ، ارائه ای مشخص از اهداف و چشم اندازهایی است که ما در این زمان اولویت را انتخاب کرده ایم. این قدرت افرادی است که مسئول منبع ، انتخاب و طراحی این داده ها و توسعه مدل هایی هستند که اطلاعات را تفسیر می کنند. در اصل ، هیچ “عدالت” با “دقت” عوض نمی شود – این یک فداکاری اسطوره ای است ، بهانه ای برای پذیرفتن نقش ما در تعیین عملکرد ، به استثنای دیگران در وهله اول.


منبع: unbox-khabar.ir

Leave a reply

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>