[ad_1]

در اواخر سال 2012 ، دانشمندان هوش مصنوعی ابتدا یاد گرفتند که چگونه شبکه های عصبی را “ببینند”. آنها ثابت کردند که نرم افزار طراحی شده برای تقلید از مغز انسان می تواند سیستم های بینایی رایانه موجود را به طرز چشمگیری بهبود بخشد. از آن زمان ، این حوزه آموخته است که چگونه شبکه های عصبی را وادار به تقلید از روش تفکر ، شنیدن ، صحبت کردن و نوشتن می کنند.

اما در حالی که هوش مصنوعی به عنوان یک انسان – حتی یک ابرمرد – در انجام یک کار خاص رشد چشمگیری داشته است ، اما هنوز انعطاف پذیری مغز انسان را جذب نمی کند. ما می توانیم مهارت ها را در یک زمینه یاد بگیریم و آنها را در زمینه ای دیگر به کار بگیریم. در مقابل ، اگرچه الگوریتم گیم پلی DeepMind AlphaGo می تواند بهترین استادان Go جهان را شکست دهد ، اما نمی تواند این استراتژی را خارج از کشور گسترش دهد. به عبارت دیگر ، الگوریتم های یادگیری عمیق در انتخاب مدل ها استاد هستند ، اما آنها نمی توانند دنیای در حال تغییر را درک و سازگار کنند.

محققان فرضیه های زیادی در مورد چگونگی غلبه بر این مشکل دارند ، اما به ویژه یکی از آنها قوت گرفته است. کودکان با احساس و گفتگو در مورد جهان می آموزند. این ترکیب کلیدی به نظر می رسد. هنگامی که کودکان شروع به ارتباط کلمات با مناظر ، اصوات و سایر اطلاعات حسی می کنند ، آنها قادر به توصیف پدیده ها و پویایی های پیچیده تر ، تحریک آنچه که علت است از آنچه فقط در ارتباط است ، و ساختن یک مدل پیچیده از جهان هستند. سپس این مدل به آنها کمک می کند تا در یک محیط ناآشنا جهت یابی کنند و دانش و تجربه جدیدی را در متن قرار دهند.

از طرف دیگر سیستم های هوش مصنوعی ساخته شده اند تا هر بار فقط یکی از این کارها را انجام دهند. الگوریتم های دید رایانه و تشخیص صدا می توانند موارد را حس کنند ، اما نمی توانند از زبان برای توصیف آنها استفاده کنند. مدل زبان طبیعی می تواند کلمات را دستکاری کند ، اما کلمات از هر واقعیت حسی جدا هستند. اگر حواس و زبان با هم تلفیق شود و به AI راهی انسانی مانند بیشتر برای جمع آوری و پردازش اطلاعات جدید بدهد ، آیا در نهایت می تواند چیزی مانند درک از جهان ایجاد کند؟

امید است که این سیستمهای “چند حالته” که به “حالتهای” حسی و زبانی هوش انسان دسترسی دارند ، باید به یک نوع پایدارتر از هوش مصنوعی منجر شوند که می تواند راحتتر با شرایط یا مشکلات جدید سازگار شود. سپس چنین الگوریتم هایی می توانند به ما کمک کنند تا با مشکلات پیچیده تری کنار بیاییم یا به روباتی منتقل شوند که می توانند در زندگی روزمره ما با ما ارتباط برقرار کرده و همکاری کنند.

پیشرفت های جدید در الگوریتم های پردازش زبان مانند OpenAI GPT-3 کمک کرده است. محققان اکنون می دانند که چگونه می توان دستکاری زبان را به اندازه کافی بازتولید کرد تا ترکیب آن با قابلیت مشاهده بالقوه پاداش آور باشد. برای شروع ، آنها از اولین توانایی مشاهده به دست آمده در این زمینه استفاده کردند: دید کامپیوتر. نتایج به دست آمده مدل های ساده دو حالته یا هوش مصنوعی به زبان تصویری است.

طی یک سال گذشته چندین نتیجه جالب در این زمینه حاصل شده است. در ماه سپتامبر ، محققان موسسه هوش مصنوعی آلن ، AI2 ، مدلی را ایجاد کردند که می تواند از زیرنویس متن تصویری تولید کند و توانایی الگوریتم را در ارتباط کلمات با اطلاعات تصویری نشان دهد. در ماه نوامبر ، محققان دانشگاه کارولینای شمالی ، چاپل هیل ، روشی را توسعه دادند که تصاویر را در مدل های زبان موجود ادغام می کند ، که درک مطلب را افزایش می دهد.

OpenAI سپس از این ایده ها برای گسترش GPT-3 استفاده کرد. در اوایل سال 2021 ، آزمایشگاه دو مدل به زبان تصویری منتشر کرد. یکی اشیا in موجود در تصویر را با کلماتی که آنها را در یک کتیبه توصیف می کند متصل می کند. تصویر دیگر بر اساس ترکیبی از مفاهیم آموخته شده تولید می کند. به عنوان مثال می توانید از او دعوت کنید تا “تصویری از کاپیبارا که در طلوع آفتاب در مزرعه ای نشسته است” ایجاد کند. اگرچه ممکن است او قبلاً چنین چیزی را ندیده باشد ، اما می تواند آنچه را که درباره نقاشی ها ، کاپیبارا ، مزارع و طلوع آفتاب می داند با هم مخلوط و مطابقت دهد تا ده ها مثال بیاورد.

دستیابی به هوش انعطاف پذیرتر ، نه تنها برنامه های جدید هوش مصنوعی را باز می کند بلکه باعث ایمنی بیشتر آنها می شود.

سیستم های پیشرفته چند حالته همچنین دستیاران پیشرفته رباتیک را ممکن می سازد (نمادهای ربات را در نظر بگیرید ، نه فقط الکسا). نسل فعلی ربات های مجهز به هوش مصنوعی بیشتر از داده های بصری برای پیمایش و تعامل با محیط اطراف خود استفاده می کنند. این برای انجام کارهای ساده در یک محیط محدود مانند اجرای سفارشات در یک انبار خوب است. اما آزمایشگاه هایی مانند AI2 در حال کار برای افزودن زبان هستند و شامل ورودی های حسگر بیشتری هستند ، مانند داده های صوتی و لمسی ، به طوری که ماشین ها می توانند دستورات را درک کنند و کارهای پیچیده تری را انجام دهند ، مانند باز کردن درب در هنگام کوبیدن.

در دراز مدت ، دستیابی به موفقیت چند حالته می تواند به رفع بزرگترین محدودیت های هوش مصنوعی کمک کند. به عنوان مثال کارشناسان می گویند عدم توانایی وی در درک جهان دلیل شکست یا فریب آسان او است. (تصویر را می توان به روشی تغییر داد که برای انسان قابل مشاهده نباشد ، اما باعث می شود هوش مصنوعی آن را به عنوان چیزی کاملاً متفاوت تشخیص دهد.) دستیابی به هوش انعطاف پذیر تر ، نه تنها باعث باز شدن برنامه های جدید هوش مصنوعی می شود بلکه باعث ایمن تر شدن آنها می شود. الگوریتم هایی که خلاصه ها را نمایش می دهند ، با ویژگی های نامناسب مانند جنسیت و نژاد به عنوان نشانه ای از توانایی رفتار نخواهند کرد. اتومبیل های خودران در یک محیط ناشناخته جهت خود را از دست نخواهند داد و در تاریکی یا برف تصادف نمی کنند. سیستم های چند مد می توانند به اولین هوش مصنوعی تبدیل شوند که واقعاً می توانیم در زندگی خود به آن اعتماد کنیم.

[ad_2]

منبع: unbox-khabar.ir