[ad_1]

اخبار: اکنون یک مدل جدید هوش مصنوعی برای جمع بندی ادبیات علمی می تواند به محققان کمک کند تا جدیدترین و جدیدترین مقالاتی را که می خواهند بخوانند ، یاد بگیرند و شناسایی کنند. در 16 نوامبر ، م Instituteسسه هوش مصنوعی آلن (AI2) مدلی برای محصول شاخص خود ، Semantic Scholar ، یک موتور تحقیقاتی مجهز به هوش مصنوعی ، منتشر کرد. این خلاصه ای از tl را ارائه می دهد. dr (خیلی طولانی ؛ نمی خواند) خلاصه ای از هر مقاله علمی (در حال حاضر) هنگام استفاده کاربران از تابع جستجو یا رفتن به صفحه نویسنده. این کار همچنین در کنفرانس “روشهای تجربی برای پردازش زبان طبیعی” این هفته پذیرفته شد.

عکس صفحه از عملکرد TLDR در Semantic Scholar.
عکس از عملکرد tl ؛ دکتر در Semantic Scholar.

AI2

زمینه: در عصر بیش از حد اطلاعات ، استفاده از هوش مصنوعی برای خلاصه کردن متن یک مشکل محبوب پردازش زبان طبیعی (NLP) است. دو روش اصلی برای این کار وجود دارد. یکی از آنها “استخراجی” نامیده می شود ، که به دنبال یافتن جمله یا مجموعه ای از جملات از متن به معنای کلمه کلمه است که جوهر آن را به دست می آورد. دیگری “انتزاعی” نام دارد که شامل تولید جملات جدید است. در حالی که در گذشته به دلیل محدودیت های سیستم های NLP ، تکنیک های بازیابی از محبوبیت بیشتری برخوردار بودند ، پیشرفت های ایجاد شده در زبان های طبیعی در سال های اخیر ، به طور قابل توجهی انتزاع را بهبود بخشیده است.

چطور انجامش دادی: مدل انتزاعی AI2 از آنچه به عنوان ترانسفورماتور شناخته می شود استفاده می کند – نوعی از معماری شبکه عصبی ، که برای اولین بار در سال 2017 اختراع شد و از آن زمان به بعد همه جهش های بزرگ در NLP ، از جمله GPT-3 OpenAI را ایجاد کرده است. محققان ابتدا ترانسفورماتور را بر روی متن متنی رایج آموزش می دهند تا دانش پایه ای از زبان انگلیسی را ایجاد کنند. این فرایند به عنوان “پیش آموزش” شناخته می شود و بخشی از آن است که ترانسفورماتورها را بسیار قدرتمند می کند. آنها سپس این مدل را اصلاح کردند – به عبارت دیگر ، آن را بیشتر آموزش دادند – در مورد کار تعمیم خاص.

تنظیم دقیق اطلاعات: محققان ابتدا مجموعه داده ای به نام SciTldr ایجاد کردند که تقریباً شامل 4400 جفت مقاله علمی و خلاصه های یک جمله ای مربوط است. برای یافتن این خلاصه مقالات با کیفیت بالا ، آنها ابتدا در OpenReview ، بستری برای ارائه عمومی مقاله کنفرانس ، که محققان اغلب خلاصه مقالات خود را در یک جمله منتشر می کنند ، به دنبال آنها می روند. این چندین هزار جفت فراهم کرد. محققان سپس مفسران را استخدام می کنند تا مقالات بیشتری را با خواندن و کوتاه کردن خلاصه مقالات قبلی نوشته شده توسط شرکا خلاصه کنند.

محققان برای تکمیل بیشتر این 5400 جفت ، مجموعه دوم 20000 جفت مقاله علمی و عناوین آنها را تهیه کردند. محققان پیشنهاد می کنند از آنجا که عناوین خود نوعی خلاصه نویسی هستند ، به مدل کمک می کند تا نتایج خود را بهبود بخشد. این با آزمایشات تایید شد.

عملکرد TLDR Semantic Scholar برای دستگاه های تلفن همراه.
عملکرد tl ؛ dr به ویژه برای پردازش اسناد در دستگاه های تلفن همراه بسیار مفید است.

AI2

خلاصه افراطی: در حالی که بسیاری از تلاش های تحقیقاتی دیگر با وظیفه تعمیم مقابله کرده اند ، این با سطح فشرده سازی قابل دستیابی برجسته است. مقالات علمی موجود در مجموعه داده های SciTldr به طور متوسط ​​5000 کلمه هستند. خلاصه های یک جمله آنها متوسط ​​21 است. این بدان معنی است که هر مقاله به طور متوسط ​​238 برابر اندازه خود فشرده می شود. بهترین روش انتزاعی بعدی برای فشرده سازی مقالات علمی به طور متوسط ​​فقط 36.5 بار آموزش داده شده است. در حین آزمایش ، بازرسان انسانی نیز خلاصه های مدل را بیشتر آموزنده و دقیق تر از روش های قبلی ارزیابی کردند.

مراحل بعدی: Daniel Weld ، استاد دانشگاه واشنگتن و مدیر گروه تحقیقاتی Semantic Scholar ، می گوید: در حال حاضر روش های مختلفی وجود دارد که AI2 در حال کار برای بهبود مدل خود در کوتاه مدت است. از یک طرف ، آنها قصد دارند این مدل را آموزش دهند تا نه تنها با اسناد علوم کامپیوتر سروکار داشته باشد. برای دیگری ، شاید تا حدودی به دلیل روند آموزش ، آنها دریافتند که خلاصه های tl؛ دکتر گاهی اوقات بیش از حد با عنوان گزارش همپوشانی دارد ، و از سودمندی کلی آنها می کاهد. آنها قصد دارند فرآیند آموزش مدل را برای مجازات چنین هم پوشانی به روز کنند تا او یاد بگیرد از تکرار به مرور جلوگیری کند.

در طولانی مدت ، تیم همچنین روی خلاصه کردن چندین اسناد همزمان کار خواهد کرد ، که می تواند برای محققانی که وارد یک زمینه جدید می شوند یا حتی حتی برای سیاستمداران که می خواهند کار خود را سریع انجام دهند ، مفید باشد. ولد می گوید: “آنچه ما واقعاً از انجام آن هیجان زده ایم ، ایجاد جلسات تحقیقاتی شخصی است ، كه در آن می توانیم نه تنها یك مقاله ، بلكه مجموعه ای از شش دستاورد اخیر را در یك منطقه خاص خاص خلاصه كنیم.”

[ad_2]

منبع: unbox-khabar.ir