تبیین و پیاده سازی 4 روش یادگیری تقویتی هوش مصنوعی (برنامه ریزی پویا، مونت کارلو، تفاضلات زمانی (سارسا و یادگیری Q)) برای مسیریابی یک کوادروتور در حضور موانع در صفحه با فرض گسسته سازی |
کد مقاله : 1341-AERO2024 |
نویسندگان |
جعفر روشنی یان1، فاطمه خواجه محمدی *2 1دانشگاه صنعتی خواجه نصیرالدین طوسی دانشکده مهندسی هوافضا 2دانشجوی دانشگاه خواجه نصیرالدین طوسی |
چکیده مقاله |
یادگیری تقویتی یکی از انواع روش های یادگیری ماشین هوش مصنوعی است که به یک عامل این امکان را می دهد تا از تعامل با محیط و از طریق ازمون و خطا یاد بگیرد. می دانیم یادگیری فرآیندی سیستماتیک برای تنظیم پارامترهای سیاست یه منظور رسیدن به سیاست بهینه است، از طرفی یادگیری تقویتی به روز رسانی پارامترهای سیاست از نتیجه پاداش و جریمه می باشد. در فرآیندهای تصمیم گیری مارکوف محدود، مسائل با فرض شناخت کامل از دینامیک محیط در حالت گسسته و محدود حل می شوند؛ در برنامه ریزی پویا مجموعه ای از روش ها برای تعیین سیاست بهینه با داشتن مدل مارکوف محدود تبین می شود؛ روش مونت کارلو بدون نیاز به دینامیک و فقط از طریق تعامل و تجربه با محیط یادگیری تحقق بخشیده می شود؛ در یادگیری با تفاضلات مکانی بر اساس پاداش در همان لحظه سیاست به روزرسانی می شود و منتظر اتمام دوره نخواهیم ماند؛ در الگوریتم سارسا ارزیابی و بهبود سیاست به صورت همزمان انجام شده و وابسته به سیاست رفتاری است و در نهایت در یادگیری Q ارزش های بهینه مستقل از سیاست رفتاری تخمین زده می شوند و وابسته به مدل دینامیکی هم نمی باشند که با پیاده سازی تمامی این روش های برای یک کوادروتور با فرض گسسته سازی در حضور موانع عملکرد آن ها بررسی شده و نقاط قوت و ضعف هر کدام تبیین گردید که یادگیری Q بهترین عملکرد را بدون داشتن مدل تبیین کرد. |
کلیدواژه ها |
یادگیری تقویتی، برنامه ریزی پویا، تصمیم گیری مارکوف محدود، تفاضلات مکانی، مونت کارلو، الگوریتم سارسا، یادگیری Q ، اجتناب از برخورد با موانع، کوادروتور |
وضعیت: پذیرفته شده برای ارسال فایل های ارائه پوستر |