[ad_1]

زمانی که داده ها کمتر از داده های واقعی مطلوب نبودند ، اکنون داده های مصنوعی توسط برخی به عنوان یک دارو شناخته می شوند. داده های واقعی کثیف و پر از سوگیری است. مقررات جدید حریم خصوصی داده ها جمع آوری آن را دشوار می کند. در مقابل ، داده های مصنوعی بکر هستند و می توانند برای ساخت مجموعه های متنوع تری از داده ها مورد استفاده قرار گیرند. شما می توانید برای ایجاد یک سیستم تشخیص چهره که در بین جمعیت ها کار می کند ، چهره هایی کاملاً برچسب دار تولید کنید ، مثلاً از سنین ، شکل ها و قومیت های مختلف.

اما داده های مصنوعی محدودیت هایی دارند. اگر نتواند واقعیت را منعکس کند ، می تواند حتی از هوش مصنوعی بدتر از داده های بی نظم و مغرضانه در دنیای واقعی تولید کند – یا به سادگی می تواند همان مشکلات را به ارث برساند. کتی اونیل ، دانشمند داده و بنیانگذار شرکت حسابرسی الگوریتمی ORCAA ، می گوید: “آنچه که من نمی خواهم انجام دهم این است که انگشت شست را به این الگوی ارائه دهم و بگویم ،” اوه ، این همه مشکلات را حل می کند “. “زیرا همچنین بسیاری از موارد را نادیده می گیرد.”

واقع بینانه ، واقعی نیست

یادگیری عمیق همیشه در مورد داده ها بوده است. اما در چند سال گذشته ، جامعه هوش مصنوعی این موضوع را آموخته است خوب داده مهمتر از است بزرگ داده ها. حتی مقدار کمی از داده های درست و دارای برچسب تمیز ، می توانند بیش از 10 برابر مقدار داده های غیر اشباع یا حتی الگوریتم پیشرفته تری ، عملکرد سیستم AI را بهبود بخشند.

مدیر عامل و بنیانگذار Datagen ، Ofir Chakon ، می گوید که این روش ، رویکرد شرکت ها برای توسعه مدل های هوش مصنوعی خود را تغییر می دهد. امروز ، آنها با به دست آوردن هر چه بیشتر داده ها شروع می کنند و سپس الگوریتم های خود را برای عملکرد بهتر تغییر داده و تنظیم می کنند. درعوض ، آنها باید برعکس عمل کنند: از الگوریتم مشابه استفاده کنند در حالی که ترکیب داده های خود را بهبود می بخشند.

Datagen همچنین مبلمان جعلی و محیط های داخلی تولید می کند تا انسانهای جعلی خود را در متن قرار دهد.

DATAGEN

اما جمع آوری داده های دنیای واقعی برای انجام این نوع آزمایش های تکراری بسیار پرهزینه و زمان بر است. اینجاست که Datagen وارد می شود. با استفاده از یک مولد داده مصنوعی ، تیم ها می توانند روزانه ده ها مجموعه داده جدید ایجاد و آزمایش کنند تا مشخص شود کدام یک عملکرد مدل را به حداکثر می رساند.

Datagen برای اطمینان از واقع بینی بودن داده های خود ، به فروشندگان خود دستورالعمل های دقیق در مورد تعداد افراد را برای اسکن در هر گروه سنی ، دامنه BMI و قومیت ، و همچنین یک لیست مشخص از اقدامات برای انجام آنها ، مانند قدم زدن در یک اتاق یا نوشابه نوشیدن فروشندگان هم تصاویر ساکن با کیفیت بالا و هم داده های ضبط حرکت از این اقدامات را به عقب می فرستند. سپس الگوریتم های Datagen این داده ها را به صدها هزار ترکیب گسترش می دهند. داده های ساخته شده گاهی دوباره بررسی می شوند. برای مثال چهره های جعلی علیه چهره های واقعی ترسیم شده اند تا ببینند واقع بینانه به نظر می رسند یا نه.

دیتاژن اکنون برای کنترل هوشیاری راننده در اتومبیل های هوشمند ، حرکات بدن برای ردیابی مشتری در فروشگاه های بدون صندوقدار ، و زنبق و حرکات دستی برای بهبود قابلیت ردیابی چشم و دستی هدست های VR حالات صورت را تولید می کند. این شرکت می گوید داده های آن قبلاً برای توسعه سیستم های بینایی رایانه ای مورد استفاده ده ها میلیون کاربر استفاده شده است.

این فقط انسانهای مصنوعی نیستند که به صورت انبوه تولید می شوند. Click-Ins استارتاپی است که از AI مصنوعی برای انجام بازرسی های خودکار خودرو استفاده می کند. با استفاده از نرم افزار طراحی ، همه مدل ها و مدل های اتومبیل را که هوش مصنوعی آنها نیاز به شناسایی دارد ، دوباره ایجاد می کند و سپس آنها را با رنگ ها ، آسیب ها و تغییر شکل های مختلف تحت شرایط نوری متفاوت ، در پس زمینه های مختلف ارائه می دهد. این اجازه می دهد تا شرکت هنگام تولید مدل های جدید ، هوش مصنوعی خود را به روز کند و به آن کمک می کند تا از نقض حریم خصوصی داده ها در کشورهایی که پلاک ها اطلاعات خصوصی در نظر گرفته می شوند جلوگیری کند و بنابراین نمی تواند در عکس های مورد استفاده برای آموزش هوش مصنوعی وجود داشته باشد.

Click-Ins اتومبیل هایی با مارک ها و مدل های مختلف را در پس زمینه های مختلف ارائه می دهد.

کلیک کنید

Mostly.ai با شرکت های مالی ، مخابراتی و بیمه همکاری می کند تا صفحه گسترده ای از اطلاعات جعلی مشتری را ارائه دهد که به شرکت ها اجازه می دهد بانک اطلاعاتی مشتریان خود را با روشی سازگار با قانون با فروشندگان خارجی به اشتراک بگذارند. ناشناس ماندن می تواند از غنای مجموعه داده ها بکاهد اما هنوز هم نمی تواند به اندازه کافی از حریم خصوصی افراد محافظت کند. اما از داده های مصنوعی می توان برای تولید مجموعه داده های جعلی دقیق استفاده کرد که دارای خصوصیات آماری مشابه داده های واقعی یک شرکت هستند. همچنین می تواند برای شبیه سازی داده هایی که شرکت هنوز در اختیار ندارد استفاده شود ، از جمله جمعیت مشتری متنوع تر یا سناریوهایی مانند فعالیت های کلاهبرداری.

طرفداران داده های مصنوعی می گویند که این اطلاعات همچنین می تواند به ارزیابی AI کمک کند. در مقاله اخیر منتشر شده در یک کنفرانس هوش مصنوعی ، سوچی ساریا ، دانشیار یادگیری ماشین و مراقبت های بهداشتی در دانشگاه جان هاپکینز ، و محققان وی نشان دادند که چگونه می توان از تکنیک های تولید داده برای استخراج جمعیت های مختلف بیمار از یک مجموعه واحد استفاده کرد . این می تواند مفید باشد اگر به عنوان مثال ، یک شرکت فقط اطلاعاتی از جمعیت جوان تر شهر نیویورک داشته باشد اما بخواهد درک کند که عملکرد هوش مصنوعی آن در مورد جمعیت پیر با شیوع بیشتر دیابت چگونه است. او اکنون شرکت خود را به نام Bayesian Health تاسیس کرده است که از این روش برای کمک به آزمایش سیستم های هوش مصنوعی پزشکی استفاده خواهد کرد.

محدودیت ساختگی آن

اما آیا داده های مصنوعی بیش از حد مورد استفاده قرار می گیرند؟

آرون روت ، استاد علوم کامپیوتر و اطلاعات ، می گوید: “وقتی صحبت از حریم خصوصی می شود ،” فقط به این دلیل که داده ها “مصنوعی” هستند و مستقیماً با داده های کاربر واقعی مطابقت ندارند ، به معنای رمزگذاری نکردن اطلاعات حساس درباره افراد واقعی نیست. در دانشگاه پنسیلوانیا نشان داده شده است كه بعضي از تكنيك هاي توليد داده براي بازتوليد تصاوير يا متني كه در داده هاي آموزشي وجود دارد از نزديك است ، در حالي كه برخي ديگر در معرض حملاتي هستند كه آنها را وادار به كاهش مجدد اين داده ها مي كند.

این ممکن است برای شرکتی مانند Datagen خوب باشد ، که داده های ترکیبی آن به معنای پنهان کردن هویت افرادی نیست که رضایت می دهند اسکن شوند. اما خبر خوبی برای شرکت هایی است که راه حل خود را به عنوان راهی برای محافظت از اطلاعات حساس مالی یا بیمار ارائه می دهند.

برناز هرمان ، دانشمند داده در موسسه eScience دانشگاه واشنگتن ، می گوید: تحقیقات نشان می دهد که ترکیب دو تکنیک داده های مصنوعی به ویژه – حریم خصوصی افتراقی و شبکه های خصمانه تولیدی – می تواند قوی ترین محافظت از حریم خصوصی را ایجاد کند. اما افراد مشکوک نگرانند که این نکات مهم در بازاریابی فروشندگان داده های مصنوعی از بین برود ، که همیشه در مورد تکنیک هایی که آنها استفاده می کنند وجود نخواهد داشت.

[ad_2]

منبع: unbox-khabar.ir

ایندکسر