021-71053903 [email protected] پشتیبانی از شنبه تا چهارشنبه ساعت 9 الی 16

مرور کلی بر الگوریتم های (RL)!

در این مقاله به بررسی کلی محیط کاربری و معرفی الگوریتم های Reinforcement learning می پردازیم.

هدف از این مقاله با صرف نظر از شیرجه رفتن عمیق به داخل مدل های ریاضیاتی پشت پرده الگوریتم ها ، میخواهیم مروری بصری برالگوریتم های (RL) است.

زمانی که صحبت در رابطه با machine learning برای کسانی که به آن علاقه ای ندارند آغاز می شود. RL بهترین روش برای جذاب تر نشان دادن آن است. (Reinforcement Learning (RL همانند آموزش دادن یک گربه و یا یک سگ است.

اگر حیوان خانگی شما کاری که شما مد نظر دارید را انجام دهد به آن یک پاداش میدهید در غیر این صورت او را مجازات می کنید

به طور کلی RL روشی پیچیده تر و چالش بر انگیز تر است، ولی اساسا از طریق تعامل و بازخورد ، با یادگیری سر و کار دارد، یا به عبارتی دیگر یادگیری برای حل کردن یک مشکل با آزمایش و خطا.

اصطلاحات

در این قسمت به اصطلاحات استفاده شده در زمینه RL می پردازیم:

RL
  • agent : یادگیرنده و تصمیم گیرنده.
  • Environment(محیط) : جایی که agent یاد می گیرد و تصمیم می گیرد چه تقداماتی انجام دهد.
  • Action : مجموعه ای از اقدامات که agent می تواند انجام دهد.
  • State : وضعیت agent در محیط
  • Reward : برای هر عملی که توسط agent انتخاب شده باشد یک پاداش محیط در نظر می گیرد. و این معمولا یک مقدار عددی است.
  • Policy: تابع تصمیم گیری agent، یک نقشه از موقعیت ها تا تبدیل شدن به عملکرد را نشان می دهد.
  • Value Function :به نوعی آن را می توان نشان دهنده وضعیت های پادش های بلند مدت نشان داد.
  • Function approximator: به مسائلی که به القای عملکرد ها به یک نمونه آموزشی اشاره دارد می گویند
  • MDP : مدلی احتمالی از مسائل تصمیم گیری متوالی، جایی که وضعیت درک شده است و حالت فعلی و کنش های انتخاب شده احتمالی در کنش های بعدی قرار می گیرد. به طور اساسی این مدل نتیجه هر عمل را با سنجیدن عمل فعلی محاسبه می کند.
  • Dynamic Programming : کلاسی از روشها و راه حل های حل کردن مسائل پی در پی .
  • Monte Carlo Method: کلاسی از متود ها برای یادگیری مقادیر هر تابع، که ارزش یک حالت را با اجرای بسیاری از آزمایش ها پیش بینی کی کند. سپس میانگین پاداش های دریافت شده را به طور متوسط بر می گرداند.
  • Temporal Difference (TD) algorithms: کلاسی از متود ها، بر پایه سنجش پیش بینی های موفق و موقت.
  • Model: نمایی از agent در محیط که عملکرد هر حالت را با بخش های احتمالی همگام می کند.
RL

مقاله های بیشتر : Q-Learning

ویکی پدیا

محمدرضا حسنی

224 مطلب منتشر شده

دانش آموخته رشته فناوری اطلاعات / موسس پایتونی ها

درباره این مطلب نظر دهید !

مطالب پرمخاطب پایتونی ها

Logistic regression

Logistic Regression چیست؟

3
دقیـقه مطالعه
ادامه ...
PyTorch

کتابخانه PyTorch

3
دقیـقه مطالعه
ادامه ...

محصولات فروش پایتونی ها

%60
تخفیف

آموزش فیگما (Figma)

30,000 تومان
3
%69
تخفیف

آموزش برنامه نویسی پایتون

35,000 تومان
2