فرمت فایل: doc
حجم فایل: 151 کیلوبایت
تعداد صفحات فایل: 36
دانلود پروژه مطالعاتی درس یادگیری ماشین رشته مهندسی نرم افزار
اتوماتای یادگیر تصادفی و الگوریتمهای یادگیر
مقدمه
فرآیند یادگیری موجودات زنده یکی از موضوعات تحقیقاتی جدید بشمار میآید. این تحقیقات به دو دسته کلی تقسیم میشوند. دسته نخست به شناخت اصول یادگیری موجودات زنده و مراحل آن میپردازند و دسته دوم بدنبال ارائه یک متدولوژی برای قرار دادن این اصول در یک ماشین میباشند. یادگیری بصورت تغییرات ایجادشده در کارایی یک سیستم بر اساس تجربههای گذشته تعریف میشود. یک ویژگی مهم سیستمهای یادگیر، توانایی بهبود کارایی خود با گذشت زمان است. به بیان ریاضی میتوان اینطور عنوان کرد که هدف یک سیستم یادگیر بهینهسازی وظیفهای است که کاملا شناخته شده نیست. بنابراین یک رویکرد به این مساله، کاهش اهداف سیستم یادگیر به یک مساله بهینهسازی است که بر روی مجموعهای از پارامترها تعریف میشود و هدف آن پیدا کردن مجموعه پارامترهای بهینه میباشد.
در بسیاری از مسائل مطرح شده، اطلاعی از پاسخهای صحیح مساله ( که یادگیری با نظارت به آنها نیاز دارد) در دست نیست. بهمین علت استفاده از یک روش یادگیری بنام یادگیری تقویتی مورد توجه قرار گرفته است. یادگیری تقویتی نه زیر مجموعه شبکههای عصبی است و نه انتخابی بجای آنها محسوب میشود. بلکه رویکردی متعامد برای حل مسائل متفاوت و مشکلتر بشمار میرود. یادگیری تقویتی، از ترکیب برنامهنویسی پویا و یادگیری نظارتی برای دستیابی به یک سیستم قدرتمند یادگیری ماشین استفاده میکند. در یادگیری تقویتی هدفی برای عامل یادگیر مشخص میشود تا به آن دست یابد. آنگاه عامل مذکور یاد میگیرد که چگونه با آزمایشهای صحیح و خطا با محیط خود، به هدف تعیین شده برسد.
در یادگیری تقویتی یک عامل یادگیرنده در طی یادگیری با فعل و انفعالات مکرر با محیط، به یک سیاست کنترل بهینه میرسد. کارایی این فعل و انفعالات با محیط بوسیله بیشینه(کمینه) بودن پاداش (جریمه) عددی که از محیط گرفته میشود، ارزیابی میگردد. علاوه بر این در روشهای یادگیری تقویتی، اولا استفاده از یادگیری روش ساده، سیستماتیک و واقعی برای رسیدن به یک جواب تقریبا بهینه را بیان میکند.(پیدا کردن این جواب بهینه با استفاده از روشهای سنتی بسیار مشکل است.) ثانیا، دانشی که در طی فرایند یادگیری بدست میآید، در یک مکانیزم نمایش دانش مانند شبکه عصبی یا جدول مراجعه ذخیره میشود که از طریق آن میتوان با محاسبات اندک و با کارایی بالایی عمل تخصیص کانال را انجام داد. ثالثا، از آنجاییکه این روش یادگیری در محیطی بلادرنگ در حال انجام است، میتوان آنرا همزمان با فعالیت محیط (مانند شبکه سلولی) انجام داد. که در این حالت با تمام رخدادهای پیشبینی نشده بصورت یک تجربه جدید برخورد میشود که میتوان از آنها برای بهبود کیفیت یادگیری استفاده کرد.
مزیت اصلی یادگیری تقویتی نسبت به سایر روشهای یادگیری عدم نیاز به هیچگونه اطلاعاتی از محیط (بجز سیگنال تقویتی) است. یکی از روشهای یادگیری تقویتی، اتوماتای یادگیر تصادفی است. اتوماتای تصادفی بدون هیچگونه اطلاعاتی درباره اقدام بهینه (یعنی با در نظر گرفتن احتمال یکسان برای تمامی اقدامهای خود در آغاز کار) سعی در یافتن پاسخ مساله دارد. یک اقدام اتوماتا بصورت تصادفی انتخاب میشود، در محیط اِعمال میگردد. سپس پاسخ محیط دریافت شده و احتمال اقدامها بر طبق الگوریتم یادگیری بِروز میشوند و روال فوق تکرار میگردد. اتوماتای تصادفی که بصورت فوق در جهت افزایش کارایی خود عمل کند، یک اتوماتای یادگیر تصادفی گفته میشود. در ادامه این مقاله به معرفی اتوماتای یادگیر تصادفی پرداخته می شود.
کلمات کلیدی:
آتاماتای یادگیر
یادگیری ماشین
یادگیری تقویتی
سیستمهای یادگیر
فهرست مطالب
1. مقدمه 3
1.1. تاریخچه اتوماتای یادگیر 5
2. اتوماتای یادگیر 6
2.1. اتوماتای تصادفی 7
2.2. محیط 8
2.3. معیارهای رفتار اتوماتای یادگیر 10
2.4. الگوریتمهای یادگیر 12
2.4.1. الگوریتمهای یادگیر استاندارد 12
2.4.2. الگوریتمهای یادگیری مدل-S 14
2.5. اتوماتای یادگیر با اقدامهای متغیر 16
2.6. اتوماتای یادگیر توزیع شده 17
3. اتوماتای یادگیر واکنشی 18
3.1. اتوماتای یادگیر واکنشی توزیع شده 20
4. کوتاهترین مسیر در گراف های تصادفی با اتوماتای یادگیر توزیع شده 21
5. حل مساله فروشنده دورهگرد احتمالی با اتوماتای یادگیر توزیع شده 24
5.1. تابع هدف مساله فروشنده دورهگرد احتمالی 24
5.2. الگوریتم پیشنهادی[4] 27
6. مراجع 36
قیمت فایل فقط 29,000
برچسب