منوهای نصب در پنل مدیریت

  • ورود
  • سبد خرید شما خالی است.

Reinforcement learning چیست؟

Reinforcement learning چیست؟

reinforcement learning یا یادگیری تقویتی در زمینه هوش مصنوعی ، نوعی برنامه نویسی پویاست که الگوریتم ها را با استفاده از سیستم پاداش و مجازات آموزش می دهد. یک الگوریتم تقویتی با تعامل با محیط اطراف خود train می شود.

تفاوت Reinforcement learning با Supervised learning در این است که در یادگیری نظارت شده داده های آموزش دهنده دارای همراه با خود دارای جواب نیز هستند، بنابر این مدل با پاسخ های صحیح آموزش می یابد، اما در در یادگیری تقویتی ، هیچ جوابی وجود ندارد اما عامل تقویت کننده تصمیم می گیرد چه کاری برای انجام وظیفه معین شده خود انجام دهد و در صورت عدم وجود مجموعه آموزشی ، مجبور است از تجزیه خود بیاموزد.

بیایید با یک مثال این قضیه را باز تر کنیم:

مشکلی که اینجا مطرح است به شرح زیر است: ما یک نماینده و یک پاداش با تعدادی موانع داریم، نماینده قرار است بهترین مسیر ممکن را برای رسیدن به پاداش پیدا کند!

Reinforcement learning

عکس بالا یک ربات ، یک الماس و آتش رانشان می دهد. هدف ربات این است که به پاداش برسد ، و آن پاداش الماس است که ربات باید از برخورد به موانع که آتش هست جلوگیری کند، این ربات ابتدا تمام مسیر های ممکن را شناسایی می کند و سپس مسیری که با کمترین موانع موجه می شود را انتخاب می کند. هر قدم درست ربات به او یک پاداش می دهد و هر قدم اشتباه او باعث می شود آن پاداش از ربات گرفته شود در نهایت پاداش کل با رسیدن ربات به الماس که پاداش نهایی است محاسبه می شود.

نکات اصلی در یادگیری تقویتی

  • ورودی : ورودی باید یک حالت اولیه باشد که مدل از آن شروع می شود.
  • خروجی : به اندازه راه حل های مختلفی که وجود خروجی های بسیاری نیز می توان وجود داشته باشد.
  • آموزش : آموزش براساس ورودی است، مدل ممکن است حالتی را برگرداند و در آن لحظه کاربر تصمیم می گیرد که بر اساس خروجی مدل را مجازات کند یا به آن پاداش بدهد.
  • یادگیری این مدل ادامه دار است
  • بهترین راه حل براساس بیشترین پاداش انتخاب می شود.

تفاوت های Reinforcement learning و Supervised learning

SUPERVISED LEARNING REINFORCEMENT LEARNING
در یادگیری همراه با نظارت ، تصمیم در رابطه با ورودی اولیه یا ورودی داده شده در ابتدا گرفته می شودیادگیری تقویتی در رابطه با تصمیم گیری متوالی است. به طور ساده تر می توان گفت که خروجی به وضعیت ورودی فعلی و ورودی بعدی به خروجی ورودی قبلی بستگی دارد.
در یادگیری همراه با نظارت تصمیمات مستقل از یک دیگر هستند بنابراین هر تصمیم برچسب مخصوص به خود را دارد.در یادگیری تقویتی تصمیم ها وابسته هستند، به همین دلیل ما به توالیی از تصمیمات وابسته برچسب می زنیم.
مثال : تشخیص شیءمثال : بازی شطرنج

انواع تقویت (Reinforcement): به طور کلی دو مدل تقویت وجود دارد:

  1. مثبت (Positive):

تقویت مثبت زمانی رخ می دهد که یک رویداد، به دلیل یک رفتار خاص رخ می دهد و قدرت رفتار را افزایش می دهد. این طور می توان گفت که این مدل تاثیر مثبتی بر رفتار دارد.

مزایای این نوع یادگیری :

  • بیشترین بازدهی
  • تغییرات پایدار برای مدت طولانی

مشکلات این نوع یاد گیری :

تقویت بیش از حد می تواند باعث اضافه بار شود که می تواند نتایج را کاهش دهد.

2.منفی(Negative):

تقویت منفی به عنوان تقویت یک رفتار تعریف می شود، به این دلیل که یک وضعیت منفی متوقف می شود.

مزایای این نوع یادگیری:

  • باعث بهتر شدن رفتار می شود
  • از به حداقل رسیدن استاندارد عملکرد جلو گیری می کند.

ژوئن 27, 2020

۱ پاسخ به "Reinforcement learning چیست؟"

ارسال یک پیام

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

X