[ad_1]

توسعه ظرفیت برای حاشیه نویسی حجم عظیمی از داده ها با حفظ کیفیت تابعی از چرخه عمر مدل است که شرکت ها اغلب دست کم می گیرند. این امر به منابع زیادی نیاز دارد و نیاز به تخصص تخصصی دارد.

در قلب هر ابتکار موفق یادگیری ماشین / هوش مصنوعی (ML / AI) تعهدی اثبات شده و کاملاً مشخص برای داده های آموزش با کیفیت بالا و راهی به سمت داده های با کیفیت وجود دارد. بدون این خط لوله داده با کیفیت ، ابتکار عمل محکوم به شکست است.

دیدگاه رایانه ای یا تیم های علوم داده اغلب برای ایجاد خط آموزش آموزش داده های خود به شرکای خارجی مراجعه می کنند و این مشارکت ها عملکرد مدل را تحریک می کنند.

هیچ تعریف واحدی از کیفیت وجود ندارد: “داده های کیفیت” کاملاً به دید خاص رایانه یا پروژه یادگیری ماشین بستگی دارد. با این حال ، یک فرایند مشترک وجود دارد که همه تیم ها می توانند هنگام کار با یک شریک خارجی دنبال کنند و این بار داده های با کیفیت را می توان به چهار مرحله اولویت بندی کرد.

معیارهای حاشیه نویسی و الزامات کیفیت

کیفیت داده های آموزشی ، ارزیابی مناسب بودن یک مجموعه داده برای تأمین هدف خود در استفاده معین از ML / AI است.

تیم بینایی رایانه ای باید مجموعه ای بدون ابهام از قوانین را تعیین کند که معنی کیفیت را در متن پروژه خود بیان کند. معیارهای حاشیه نویسی مجموعه قوانینی است که تعیین می کند درباره کدام اشیا باید اظهار نظر کرد ، چگونه به درستی اظهار نظر کرد و اهداف کیفی چیست.

اهداف دقت یا کیفیت ، کمترین امتیاز قابل قبول را برای شاخص های ارزیابی مانند دقت ، بازیابی ، دقت ، نمره F1 و غیره تعیین می کند. به طور معمول ، تیم بینایی رایانه اهداف كیفی را برای چگونگی دقیق طبقه بندی اشیا how مورد علاقه ، قرارگیری دقیق اشیا how و شناسایی دقیق ارتباطات بین اشیا خواهد داشت.

آموزش نیروی کار و پیکربندی سیستم عاملn

پیکربندی سیستم عامل طراحی کار و تنظیم گردش کار به زمان و تجربه نیاز دارد و حاشیه نویسی دقیق به ابزارهای خاص کار احتیاج دارد. در این مرحله ، تیم های علوم داده به یک شریک باتجربه نیاز دارند تا به آنها کمک کند تا نحوه تنظیمات برچسب گذاری ، طبقه بندی طبقه بندی ها و رابط های حاشیه نویسی را برای دقت و عملکرد تعیین کنند.

آزمایش و ارزیابی کارگر. برای علامت گذاری دقیق داده ها ، حاشیه نویسان به یک برنامه درسی خوب طراحی شده نیاز دارند تا بتوانند معیارهای حاشیه نویسی و زمینه دامنه را کاملاً بشناسند. سکوی حاشیه نویسی یا شریک خارجی باید با ردیابی فعالانه تسلط حاوی حاشیه بر وظایف داده های طلا یا هنگامی که قضاوت توسط کارگر یا مدیر ماهرتر تغییر یافته است ، از صحت اطمینان حاصل کنند.

داده های حقیقت یا طلا. داده های حقیقت اساسی در این مرحله از فرآیند به عنوان یک پایه برای ارزیابی کارگران و اندازه گیری کیفیت محصول بسیار مهم است. بسیاری از تیم های بینایی رایانه در حال حاضر با مجموعه ای اساسی از داده های حقیقت کار می کنند.

منابع اقتدار و تضمین کیفیت

هیچ رویکرد تضمین کیفیت متناسب با همه کیفیت ها (QA) وجود ندارد که مطابق با استانداردهای کیفیت همه موارد استفاده از ML باشد. اهداف خاص تجاری و همچنین ریسک مرتبط با یک مدل ناکارآمد ، منجر به الزامات کیفیت می شود. برخی از پروژه ها با کمک حاشیه نویسان متعدد به کیفیت هدف می رسند. برخی دیگر با بررسی تخصصی به بررسی پیچیده داده های حقیقت اساسی یا تشدید گردش کار نیاز دارند.

دو منبع اصلی اقتدار وجود دارد که می تواند برای اندازه گیری کیفیت حاشیه نویسی مورد استفاده قرار گیرد و برای ارزیابی کارگران استفاده می شود: داده های طلا و بررسی همسالان.

  • داده های طلایی: داده های طلایی یا مجموعه حقایق روی زمین می توانند به عنوان یک ابزار صلاحیت برای آزمایش و ارزیابی کارگران در ابتدای فرآیند و همچنین به عنوان اندازه گیری کیفیت محصول مورد استفاده قرار گیرند. وقتی از داده های اندازه گیری کیفیت طلا استفاده می کنید ، حاشیه نویسی های کار را با حاشیه نویسی متخصص خود برای همان مجموعه داده مقایسه می کنید و می توان از تفاوت بین این دو پاسخ مستقل و کور برای بدست آوردن اندازه گیری های کمی مانند دقت ، بازیابی ، دقت و نتایج استفاده کرد. F1
  • بررسی تخصصی: این روش تضمین کیفیت متکی به بررسی تخصصی یک کارگر ، مدیر یا یک متخصص از طرف مشتری ، گاهی اوقات هر سه است. می تواند همراه با QA برای داده های طلا استفاده شود. کارشناس باید جواب داده شده توسط کارگر ماهر را بررسی کند ، یا آن را تأیید کند ، یا در صورت لزوم ، با صدور جواب صحیح جدید اصلاحاتی را انجام دهد. در ابتدا ، ممکن است یک بررسی تخصصی به صورت مورد به مورد برای داده های دارای برچسب انجام شود ، اما با گذشت زمان ، با افزایش کیفیت کارگر ، در بررسی تخصصی ممکن است از هر نمونه برای کنترل کیفیت مداوم استفاده شود.

تکرار موفقیت در داده ها

هنگامی که تیم بینایی رایانه خط لوله داده آموزش با کیفیت بالا را با موفقیت راه اندازی کرد ، می تواند سرعت پیشرفت در یک مدل آماده تولید را تسریع کند. از طریق نگهداری مداوم ، بهینه سازی و کنترل کیفیت ، یک شریک خارجی می تواند به آنها کمک کند:

  • ردیابی سرعت: برای مقیاس گذاری موثر ، اندازه گیری پهنای باند حاشیه نویسی خوب است. چه مدت طول می کشد تا داده ها فرآیند را طی کنند؟ آیا روند کار سریعتر می شود؟
  • آموزش ملودی برای کارگران: با مقیاس پروژه ، برچسب گذاری و الزامات کیفیت می تواند تکامل یابد. این امر به آموزش مداوم و امتیازدهی نیروی کار نیاز دارد.
  • آموزش روی لبه های لبه دار: با گذشت زمان ، داده های آموزش باید پوشش های بیشتر و بیشتری داشته باشند تا مدل شما تا حد ممکن دقیق و مقاوم باشد.

بدون داده های آموزشی با کیفیت بالا ، حتی بهترین پروژه های ML / AI با بودجه و بودجه نیز نمی توانند موفق شوند. تیم های بینایی رایانه ای برای ارائه کیفیت داده های مورد نیاز و هدایت مدل های ML / AI که باعث تغییر زندگی می شوند ، به شرکا و سیستم عامل های معتمد نیاز دارند.

Alegion شریک اثبات شده برای ساخت خط لوله داده های آموزشی است که مدل شما را در طول چرخه زندگی خود تغذیه می کند. با آلگیون در تماس بگیرید Solutions@alegion.com.

این محتوا توسط Alegion ایجاد شده است. توسط MIT Technology Review نوشته نشده است.

[ad_2]

منبع: unbox-khabar.ir