سایت در حال بارگذاری است ...

از این پس ورود به وبسایت پایتونی ها فقط از طریق آدرس IP ایران امکان پذیر است ! لطفا برای هرگونه دسترسی به وبسایت پایتونی ها از فیلتر شکن استفاده نکنید ! این شرکت هیچگونه فعالیتی و در فضای مجازی هیچ کدام از پلت فرم های اجتماعی ندارد و تنها منبع اصلی اصلی شرکت پایتونی های خود وبسایت پایتونی ها می باشد.

021-71053903 [email protected] تهران‌ ٬ صادقیه ٬ پاساژ گلدیس

Linear Regression(رگرسیون خطی) چیست؟

رگرسیون خطی چیست؟

Linear Regression یک ماشین یادگیرنده الگوریتم بر پایه Supervised Learning است که کار رگرسیون را انجام می دهد. مدل های این رگرسیون یک مقدار را بر اساس متغیر های مستقل پیش بینی می کند. این بیشتر برای پیدا کردن ارتباط بین متغیر ها و پیشبینی ها استفاده می شود. مدل های مختلف این رگرسیون بر اساس نوع رابطه بین متغیرهای وابسته و مستقل ، متفاوت هستند.

از Liner Regression چه استفاده ای می شود؟

رگرسیون خطی یک روش متداول، برای تجزیه و تحلیل داده های آماری است که برای تعیین این موضوع که چه رابطه خطی میان متغیر های وابسته و یک یا چند متغیر مستقل وجود دارد؟ همچنین رگرسیون های خطی به دو دسته رگرسیون های خطی ساده(simple regression) و رگرسیون خطی چندگانه(multiple linear regression) تبدیل می شود.

در رگرسیون خطی ساده، از متغیر مستقل برای پیش بینی متغیر های وابسته استفاده می شود.

در رگرسیون خطی چندگانه ،از دو یا چند متغیر مستقل برای پیش بینی مقدار متغیر های وابسته استفاده می شود. تفاوت بین این دو تعداد متغیر های مستقلی است که گرفته می شود و در هردو از یک متغیر وابسته استفاده می شود.

یک مثال برای Simple Linear regression :

درجدول زیر داده های اولیه شرکت پوشاک بنتون ایتالیا وجود دارد. هر سطر در جدول ، فروش شرکت را در یک سال و میزان هزینه برای تبلیغات آن را نشان می دهد.در این مورد خروجی که ما می خواهیم فروش است – این چیزیست که ما می خواهیم پیش بینی کنیم. اگر بخواهیم از تبلیغات برای پیش بینی استفاده کنیم رگرسیون خطی تخمین میزند که ، فروش = 168 + 23 که تبلیغات است این نتیجه را می دهد ، به این معنا که اگر هزینه تبلیغات یک یورو افزایش یابد در نتیجه انتظار می رود میزان فروش 23 میلیون یورو افزایش پیدا کند. و اگر هیچ تبلیغی وجود نداشت انتظار فروش 168 میلیون یورویی را داشتیم.

مثال برای Multiple Liner Regression :

رگرسیون خطی با یک متغیر پیش بینی کننده واحد به عنوان رگرسیون ساده شناخته می شود اما در اپلیکیشن هایی که نوشته میشوند عموما بیشتر از یک متغیر پیش بینی کننده وجود دارد. به این نوع رگرسیون ها multiple regression یا رگرسیون های چند گانه گفته می شود.

بر می گردیم به مثال فروشگاه بنتون، ما می توانیم متغیر سال را در این رگرسیون قرار دهیم که نتیجه ای که به ما می دهد این است که فروش = 323 + 14 (تبلیغات) + 47 (سال) نتیجه می دهد. توضیح این معادله این گونه است که که هر میلیون یورو از هزینه ای که برای تبلیغات صرف می شود به 14 میلیون یورو دیگر منجر می شود و این فروش ها بدون محاسبه عواملی به جز تبلیغ ، در هر سال 47 ملیون یورو دیگر را کسب می کند.

بررسی کیفیت مدلهای رگرسیون:

تخمین زدن یک رگرسیون یک موضوع نسبتا ساده است. سختی استفاده از رگرسیون زمانی است که می خواهیم از اشتباه تخمین زدن آن جلو گیری کنیم. در زیر به عیب یابی رگرسیون استاندارد برای رگرسیون قبلی می پردازیم.

ستون های مشخص شده، مقادیر استفاده شده در معادلات قبلی را نشان می دهد. این براورد ها نیز به عنوان ضرایب و پارامتر ها شناخته می شوند که ستون Standard Error عدم قطعیت تخمین ها را تعیین می کند. Standard Error برای تبلیغات نسبت به تخمین مقدار نسبتا ناچیزی است. که به ما دقیق بودن تخمین را نشان می دهد. همانطور که توسط t (تخمین / Standard) و مقدار p نشان داده شده است. علاوه بر این آمار R-Squared، بیشتر از 0.98 است که نشان می دهد این یک مدل خوب است.

یک فرض مهم در رگرسیون خطی این است که تمام متغیر های مربوطه در تجزیه و تحلیل گنجانده شده اند. ما می توانیم اهمیت این فرض را با بررسی آنچه در هنگام قرار دادن سال در لیست اتفاق می افتد ببینیم. نه تنها تبلیغات ارزش خودش را از دست داده ( ضریب آن از 23 به 14 کاهش پیدا کرده) بلکه standard error از بین رفته و ضریب دیگر از لحاظ آماری معنی دار نیست. این به این معنی است که اگر چه تخمین اثر گذاری تبلیغات 14 است ولی نمی توانیم مطمئن باشیم که اثر واقعی صفر نباشد.

علاوه بر بررسی آماری که در جدول بالا نشان داده شده است ، یک سری عیب یابی فنی بیشتر وجود دارد که هنگام بررسی مدل های رگرسیون باید مورد بازبینی قرار گیرند از جمله چک کردن عوامل بیرونی که در این مقال نمی گنجد.

منابع : geeksforgeeks.org , displayr.com

Logistic Regression چیست؟

محمدرضا حسنی

151 مطلب منتشر شده

دانش آموخته رشته فناوری اطلاعات / موسس پایتونی ها

درباره این مطلب نظر دهید !

مطالب زیرا حتما بخوانید ...

NumPy

کتابخانه NumPy

2
دقیـقه مطالعه
ادامه ...