• هیچ محصولی در سبد خرید نیست.

Q-Learning چیست؟

تا بحال شده که حیوان خانگیتان را بخاطر یک کار اشتباه تنبیه کرده باشید؟ یا برای آموزش دادن حیوان خانگیتان برای هر کاری که مطابق میل شماست به آن یک پاداش بدهید؟ اگر شما یک حیوان خانگی دارید قطعا پاسختان بله است و میدانید که حیوان خانگیتان روز به روز کار های اشتباهش کم تر می شود و همچنین از اشتباهاتش یاد میگیرد و خودش را به خوبی آموزش می دهد.

به عنوان یک انسان نیز همه ما این موضوع رو تجربه کردیم. مانند ستاره هایی که در دوران ابتدایی مدرسه معلمان ما برای تشویق کار های خوبمان به ما میدادند.

و این دقیقا اتفاقی است که در Reinforcement learning رخ می دهد.

Reinforcement learning یکی از زیبا ترین شاخه ها در هوش مصنوعی است.

هدف اصلی Reinforcement learning این است که پاداش هایی که به agent داده می شود را به حداکثر ممکن با گرفتن تعدادی از اقدامات واکنش در یک محیط پویا برساند.

Q-Learning
Reinforcement learning چهار بخش پایه ای داره: agent، environment ، reward ، action

Reinforcement learning به نوعی علم گرفتن تصمیمات بهینه با استفاده از تجربیات است. مراحل فرایند Reinforcement learning به صورت زیر است:

  1. رصد کردن محیط.
  2. تصمیم گرفتن در مورد نحوه عمل با استفاده از برخی استراتژی ها.
  3. شروع به کار می کند.
  4. پاداش یا جریمه دریافت می کند.
  5. از تجربه بدست آمده یاد می گیرد و استراتژی را تصحیح می کند.
  6. تا زمانی که یک استراتژی درست بدست نیامده است تکرار می کند.

Reinforcement Learning دو نوع الگوریتم اصلی دارد. یک نوع model-based و دیگری model-free است.

الگوریتم model-free الگوریتمی است که سیاست بهینه شده را بدون استفاده یا درنظر گرفتن داینامیک(توابع انتقال و پاداش) محیط پیش بینی می کند.درحالیکه، یک الگوریتم model-based از تابع انتقال و پاداش به منظور برآورد بهینه ترین سیاست استفاده می کند.

حال بر میگردیم به بحث Q-Learning:

Q-Learning یک الگوریتم model-free در RL است.

Q-Learning الگوریتمی مبتنی بر مقدار(Value-based) است. الگوریتم Value based ، ارزش یک تابع را بر پایه یک معادله بروزرسانی می کنند( به خصوص معادله Bellman) در حالی که نوع دیگر آن، الگوریتم مبتنی بر سیاست(policy-based) ارزش یک تابع را با یک سیاست حریصانه که از سیاست قبلی به دست امده است بهبود می بخشد.

Q-Learning یک یادگیرنده بدون سیاست است. به این معنا که ارزش های سیاست بهینه شده را سوا از عملهای agent یاد می گیرد. به طوری که، یک یادگیرنده با سیاست ، ارزش های سیاست گذاری شده را با کمک agent می آموزد.

‘Q’ به چه معناست؟

حرف ‘Q’ در Q-Learning به معنای quality یا همان کیفیت است. کیفیت در اینجا بیانگر این است که یک اقدام معین در بدست آوردن برخی از پاداش های آینده مفید است.

تعریف Q-Learning

  • (Q*(s,a مقدار مورد انتظار ماست (cumulative discounted reward) که a را درحالت (s (state محاسبه می کند و سپس از سیاست بهینه شده پیروی می کند.
  • Q-Learning از (Temporal Differences(TD برای پیش بینی مقدار (Q*(s,a استفاده می کند. Temporal Difference یک agent یادگیری است که ازمحیط از طریق قسمت هایی که از آنها اطلاع قبلی ندارد می آموزد.
  • agent جدول [Q[S,A را نگه می دارد. به طوری که A به معنای حرکت و S به معنای حالت است.
  • [Q[s,a تخمین خود را از (Q*(s,a نشان می دهد.
تیر ۲۸, ۱۳۹۹
0 0 votes
Article Rating
Subscribe
Notify of
guest
0 Comments
Inline Feedbacks
View all comments

درباره ما

پایتونی/تیم توسعه زبان برنامه نویسی پایتون ، اولین ارایه دهنده خدمات هوش مصنوعی بر بستری ابری ایران می باشد . هدف اصلی پایتونی ها ساخت یک جامعه از توسعه دهندگان به روز ترین و کاربردی ترین زبان برنامه نویسی دنیا در ایران است .

 

logo-samandehi

[form to=”[email protected]” subject=”Subject”] [form_element type=”text” validate=”email” options=”” placeholder=”ایمیل”] [form_element type=”submit” validate=”” options=”” placeholder=”ارسال”] [/form]

 

 

X