• هیچ محصولی در سبد خرید نیست.

Agent در RL دقیقا چه کاری انجام می دهد؟

agent یا عامل در Reinforcement learning بخشی است که تصمیم می گیرد چه کاری با استفاده از یادگیری از محیط یا environmentانجام بدهد .

به منظور تصمیم گیری، agent مجاز به استفاده از هرگونه مشاهدات و هر گونه قوانین داخلی که در محیط وجود دارد است. این اطلاعات داخلی می تواند هر چیزی باشد ولی اساسا در RL انتظار می رود که وضعیت آن توسط محیط فراهم شود که از خاصیت مارکوف(markov property) پیروی کند و سپس آن حالت را با استفاده از یک تابع خطای (π (a | s که تصمیم می گیرد چه کاری انجام دهد، پردازش می کند.

agent

علاوه بر این ، کنترل کردن سیگنال های پاداش در RL بسیاربرای ما با اهمیت است(دریافت شده توسط محیط) و باعث بهینه شدن agent در جهت به حداکثر رساندن پاداش های مورد انتظار در آینده می شود. برای انجام این کار ، agent برخی از داده ها را که در گذشته دریافت کرده است حفظ می کند و از آن برای ایجاد یک سیاست جدید استفاده می کند.

نکته جالب درباره تعریف یک agent این است که مرز agent/محیط معمولا بسیار نزدیک به واحد تصمیم گیری انتزاعی است. به طور مثال، برای یک ربات، agent معمولا یک ربات نیست، بلکه برنامه خاصی که روی CPU ربات اجرا می شود و تصمیم گیری ها را در عمل انجام می دهد. تمام رله ها / موتور ها و سایر قسمت های بدنی روبات به اصطلاح در RL قسمت هایی از محیط اند. زمانی که دست رباتی حرکت می کند ما ممکن است بگوییم که “ربات دستش رو برای انجام کاری تکان داد” ولی در اصطلاحات RL باید بگوییم” Agent در حال در حال اجرا بر روی CPU در حال راهنمایی کردن دست ربات برای تکان دادن آن در جهت انجام کاری است”.

تیر ۲۷, ۱۳۹۹
0 0 votes
Article Rating
Subscribe
Notify of
guest
0 Comments
Inline Feedbacks
View all comments

درباره ما

پایتونی/تیم توسعه زبان برنامه نویسی پایتون ، اولین ارایه دهنده خدمات هوش مصنوعی بر بستری ابری ایران می باشد . هدف اصلی پایتونی ها ساخت یک جامعه از توسعه دهندگان به روز ترین و کاربردی ترین زبان برنامه نویسی دنیا در ایران است .

 

logo-samandehi

[form to=”[email protected]” subject=”Subject”] [form_element type=”text” validate=”email” options=”” placeholder=”ایمیل”] [form_element type=”submit” validate=”” options=”” placeholder=”ارسال”] [/form]

 

 

X