این صندلی آووکادو ممکن است آینده هوش مصنوعی باشد


با وجود همه استعدادهای GPT-3 ، ممکن است خروجی آن از واقعیت باز شود ، گویی که نمی داند در مورد چه چیزی صحبت می کند. این به این دلیل است که نیست. با اثبات متن در تصاویر ، محققان از OpenAI و سایر کشورها در تلاشند تا مدل های زبانی را درک بهتری از مفاهیم روزمره ارائه دهند که مردم از آنها برای درک امور استفاده می کنند.

DALL · E و CLIP از جهات مختلف به این مشکل می رسند. در نگاه اول ، CLIP (Contrastive Language-Image Pre-Training) یکی دیگر از سیستم های شناسایی تصویر است. علاوه بر این ، او یاد گرفت که تصاویر را نه از نمونه های برچسب دار در مجموعه داده های انتخاب شده ، همانطور که بیشتر مدل های موجود انجام می دهند ، بلکه از تصاویر و زیرنویس های آنها از اینترنت تشخیص دهد. او آنچه در تصویر است را از یک توصیف می آموزد ، نه از روی برچسب دارای کلمه ای مانند “گربه” یا “موز”.

CLIP آموزش داده شده است تا بتواند پیش بینی کند که 32768 انتخاب تصادفی برای تصویر انتخاب شده است. برای مقابله با این موضوع ، CLIP می آموزد که طیف گسترده ای از اشیا with را با نام و کلمات توصیف کننده آنها مرتبط کند. سپس این امر به او امکان می دهد اشیا in موجود در تصاویر خارج از مجموعه آموزش خود را شناسایی کند. اکثر سیستم های تشخیص تصویر برای شناسایی انواع خاصی از اشیا trained مانند افراد در دوربین مداربسته یا ساختمانهای دارای تصاویر ماهواره ای آموزش دیده اند. مانند GPT-3 ، CLIP می تواند کارهای مختلف را بدون آموزش اضافی خلاصه کند. همچنین کمتر از سایر مدلهای مدرن تشخیص تصویر گمراه می شوند که توسط مثالهای مسابقه ای که به طرز ماهرانه ای به روشهایی تغییر داده می شوند که الگوریتم ها را اشتباه می گیرند ، اگرچه ممکن است افراد تفاوت را متوجه نشوند.

به جای تشخیص تصاویر ، DALL · E (که حدس می زنم WALL · E / Dali جناس باشد) آنها را نقاشی می کند. این مدل نسخه کوچکتری از GPT-3 است که در جفت تصاویر متنی گرفته شده از اینترنت نیز آموزش داده می شود. DALL · E با یک عنوان کوتاه به زبان طبیعی ، مانند “یک عکس کاپیبارا نشسته در یک مزارع هنگام طلوع آفتاب” یا “یک نمای مقطعی از یک گردو” ، تصاویر بسیاری ایجاد می کند که با آن مطابقت دارند: ده ها کاپیره از هر شکل و اندازه در مقابل پس زمینه نارنجی و زرد ؛ ردیف به ردیف گردو (البته همه مقطع آن نیست).

آن را سورئال بگیرید

نتایج حیرت انگیز است ، البته هنوز یک کیسه مخلوط است. کتیبه “پنجره شیشه ای رنگی با تصویر توت فرنگی آبی” ، نتایج بسیار صحیحی را به همراه دارد ، با کسانی که دارای پنجره های آبی و توت فرنگی قرمز هستند. بعضی دیگر حاوی چیزی نیستند که شبیه پنجره یا توت فرنگی باشد. نتایج ارائه شده توسط تیم OpenAI در یک پست وبلاگ انتخاب نشده است ، اما توسط CLIP رتبه بندی شده است ، که 32 تصویر DALL · E را برای هر عنوان که فکر می کند با توصیف مطابقت دارد انتخاب کرده است.

مارک ریدل ، که در زمینه NLP و محاسبات در انستیتوی فناوری جورجیا در آتلانتا کار می کند ، گفت: “ترجمه متن به تصویر برای مدتی یک چالش تحقیقاتی بوده است.” “اما این یک نمونه قابل توجه است.”

تصاویر ایجاد شده توسط DALL · E برای عنوان “تربچه کودک دایکون در یک بسته در حال راه رفتن سگ”

برای آزمایش توانایی DALL · E در کار با مفاهیم جدید ، محققان عنوان هایی را توصیف کردند که فکر می کردند قبلاً آنها را نمی دیدند ، مانند “یک صندلی آووکادو” و “یک تصویر از تربچه بچه دایکون در یک بسته که در حال راه رفتن یک سگ است”. . “در هر دو مورد ، هوش مصنوعی تصاویری تولید می کند که این مفاهیم را به روش های قابل قبولی ترکیب می کند.

به طور خاص ، صندلی های راحتی شبیه صندلی و آووکادو هستند. آدیتیا رامش ، که در زمینه DALL · E. کار کرده است ، گفت: “آنچه بیشتر از همه من را شگفت زده کرد این بود که این مدل می تواند دو مفهوم غیر مرتبط را در خود بگیرد و آنها را به گونه ای کنار هم بگذارد که منجر به چیزی مانند قابلیت شود.” بنابراین از آنجا که آووکادوی نصف شده کمی شبیه صندلی راحتی با پشت است ، با یک گودال مانند یک بالش. برای کتیبه های دیگر ، مانند “حلزون ساخته شده از چنگ” ، نتایج کمتری دارند ، با تصاویری که حلزون ها و چنگ ها را به روش های عجیب و غریب ترکیب می کنند.

DALL · E سیستمی است که ریدل در معرض آزمایش Lovelace 2.0 قرار دارد ، آزمایش فکری که او در سال 2014 ابداع کرد. این آزمون باید جایگزین آزمون تورینگ به عنوان معیار سنجش هوش مصنوعی شود. اعتقاد بر این است که ویژگی بارز هوش توانایی مخلوط کردن مفاهیم به روشهای خلاقانه است. ریدل پیشنهاد می کند که درخواست از کامپیوتر برای رسم تصویری از مردی که یک پنگوئن را در دست دارد ، آزمایش بهتر هوشی است تا اینکه از یک چت بات بخواهید که شخص را در مکالمه گول بزند زیرا فریب آن ساده تر است.

ریدل می گوید: “آزمایش واقعی این است که ببینید هوش مصنوعی تا چه حدی می تواند از منطقه راحتی خارج شود.”

تصاویر توسط DALL · E برای ‘حلزون چنگ’

آنی کمباوی از م Instituteسسه هوش مصنوعی آلن (AI2) ، که همچنین سیستمی را تولید کرده است که تصاویر را از متن تولید می کند ، گفت: “توانایی این مدل در تولید تصاویر مصنوعی از متن نسبتاً عجیب و غریب بسیار جالب به نظر می رسد.” “به نظر می رسد نتایج از معناشناسی مطلوب پیروی می کند ، که به نظر من کاملاً چشمگیر است.” Jaemin Cho ، یکی از همکارانش در Kembhavi’s ، نیز تحت تأثیر قرار گرفته است: “مولدهای موجود متن به تصویر با ترسیم چندین چیز یا توانایی ، این سطح از کنترل را نشان نداده اند. برای DALL · استدلال فضایی E ، “او می گوید.

هنوز ، DALL · E در حال حاضر علائم تنش را نشان می دهد. قرار دادن بیش از حد اشیا in در یک کتیبه ، توانایی وی را در پیگیری نقاشی ها گسترش می دهد. و استعاره کتیبه با کلماتی که معنی یکسانی دارند گاهی نتایج متفاوتی می دهد. همچنین نشانه هایی وجود دارد که DALL · E به جای ایجاد تصاویر جدید ، از تصاویری که بصورت آنلاین مشاهده کرده است تقلید می کند.

ریدل گفت: “من به مثال دایكون مشكوك هستم ، كه از نظر سبكی نشان می دهد كه او ممكن است برخی از هنرها را از اینترنت حفظ كرده باشد.” وی خاطرنشان کرد که با یک جستجوی سریع ، تصاویر کارتونی بسیاری از دایکون انسان شناس بدست می آید. وی می گوید: “GPT-3 ، كه DALL · E بر اساس آن بنا شده است ، به خاطر سپاری شناخته شده است.”

با این حال ، بیشتر محققان هوش مصنوعی موافقند که زبان زیربنایی در درک بصری روش خوبی برای هوشمند سازی هوش مصنوعی است.

ساتزكور گفت: “آینده متشكل از سیستمهایی از این قبیل خواهد بود.” “هر دو مدل گامی به سوی این سیستم هستند.”


منبع: unbox-khabar.ir

Leave a reply

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>