• هیچ محصولی در سبد خرید نیست.

مرور کلی بر الگوریتم های (RL)!

در این مقاله به بررسی کلی محیط کاربری و معرفی الگوریتم های Reinforcement learning می پردازیم.

هدف از این مقاله با صرف نظر از شیرجه رفتن عمیق به داخل مدل های ریاضیاتی پشت پرده الگوریتم ها ، میخواهیم مروری بصری برالگوریتم های (RL) است.

زمانی که صحبت در رابطه با machine learning برای کسانی که به آن علاقه ای ندارند آغاز می شود. RL بهترین روش برای جذاب تر نشان دادن آن است. (Reinforcement Learning (RL همانند آموزش دادن یک گربه و یا یک سگ است.

اگر حیوان خانگی شما کاری که شما مد نظر دارید را انجام دهد به آن یک پاداش میدهید در غیر این صورت او را مجازات می کنید

به طور کلی RL روشی پیچیده تر و چالش بر انگیز تر است، ولی اساسا از طریق تعامل و بازخورد ، با یادگیری سر و کار دارد، یا به عبارتی دیگر یادگیری برای حل کردن یک مشکل با آزمایش و خطا.

اصطلاحات

در این قسمت به اصطلاحات استفاده شده در زمینه RL می پردازیم:

RL
  • agent : یادگیرنده و تصمیم گیرنده.
  • Environment(محیط) : جایی که agent یاد می گیرد و تصمیم می گیرد چه تقداماتی انجام دهد.
  • Action : مجموعه ای از اقدامات که agent می تواند انجام دهد.
  • State : وضعیت agent در محیط
  • Reward : برای هر عملی که توسط agent انتخاب شده باشد یک پاداش محیط در نظر می گیرد. و این معمولا یک مقدار عددی است.
  • Policy: تابع تصمیم گیری agent، یک نقشه از موقعیت ها تا تبدیل شدن به عملکرد را نشان می دهد.
  • Value Function :به نوعی آن را می توان نشان دهنده وضعیت های پادش های بلند مدت نشان داد.
  • Function approximator: به مسائلی که به القای عملکرد ها به یک نمونه آموزشی اشاره دارد می گویند
  • MDP : مدلی احتمالی از مسائل تصمیم گیری متوالی، جایی که وضعیت درک شده است و حالت فعلی و کنش های انتخاب شده احتمالی در کنش های بعدی قرار می گیرد. به طور اساسی این مدل نتیجه هر عمل را با سنجیدن عمل فعلی محاسبه می کند.
  • Dynamic Programming : کلاسی از روشها و راه حل های حل کردن مسائل پی در پی .
  • Monte Carlo Method: کلاسی از متود ها برای یادگیری مقادیر هر تابع، که ارزش یک حالت را با اجرای بسیاری از آزمایش ها پیش بینی کی کند. سپس میانگین پاداش های دریافت شده را به طور متوسط بر می گرداند.
  • Temporal Difference (TD) algorithms: کلاسی از متود ها، بر پایه سنجش پیش بینی های موفق و موقت.
  • Model: نمایی از agent در محیط که عملکرد هر حالت را با بخش های احتمالی همگام می کند.
RL

مقاله های بیشتر : Q-Learning

ویکی پدیا

0 0 votes
Article Rating
Subscribe
Notify of
guest
0 Comments
Inline Feedbacks
View all comments

درباره ما

پایتونی/تیم توسعه زبان برنامه نویسی پایتون ، اولین ارایه دهنده خدمات هوش مصنوعی بر بستری ابری ایران می باشد . هدف اصلی پایتونی ها ساخت یک جامعه از توسعه دهندگان به روز ترین و کاربردی ترین زبان برنامه نویسی دنیا در ایران است .

 

logo-samandehi

[form to=”[email protected]” subject=”Subject”] [form_element type=”text” validate=”email” options=”” placeholder=”ایمیل”] [form_element type=”submit” validate=”” options=”” placeholder=”ارسال”] [/form]

 

 

X