رگرسیون خطی یک روش محاسبه یک خط مستقیم است که یک رابطه ریاضی بین دو متغیر را مشخص می کند.
رگرسیون خطی به عنوان الگوریتمی تعریف می شود که یک رابطه خطی بین یک متغیر مستقل و یک متغیر وابسته برای پیش بینی نتیجه رویدادهای بعدی فراهم می کند. این مقاله توضیح می دهد که اصول رگرسیون خطی, معادله ریاضی, انواع, و بهترین شیوه برای 2022.
فهرست مطالب
رگرسیون خطی است?
رگرسیون خطی الگوریتمی است که یک رابطه خطی بین یک متغیر مستقل و یک متغیر وابسته برای پیش بینی نتیجه رویدادهای بعدی فراهم می کند. این یک روش است که در علم داده و یادگیری ماشین برای تجزیه و تحلیل پیش بینی استفاده می شود.
متغیر مستقل نیز متغیر پیش بینی کننده یا توضیحی است که به دلیل تغییر در سایر متغیرها بدون تغییر باقی می ماند. اما متغیر وابسته با نوسانات متغیر مستقل تغییر می کند. مدل رگرسیون مقدار متغیر وابسته را پیش بینی می کند که متغیر پاسخ یا نتیجه در حال تجزیه و تحلیل یا مطالعه است.
بدین ترتیب, رگرسیون خطی یک الگوریتم یادگیری تحت نظارت است که شبیه سازی یک رابطه ریاضی بین متغیرها و باعث می شود پیش بینی برای متغیرهای مداوم و یا عددی مانند فروش است, حقوق, سن, قیمت محصول, و غیره.
این روش تجزیه و تحلیل سودمند است که حداقل دو متغیر در داده ها در دسترس هستند, همانطور که در پیش بینی بازار سهام مشاهده, مدیریت نمونه کارها, تجزیه و تحلیل علمی, و غیره.
یک خط مستقیم شیب دار نشان دهنده مدل رگرسیون خطی است.
بهترین خط مناسب برای مدل رگرسیون خطی
در شکل بالا,
ایکس محور = متغیر مستقل
ی-محور = متغیر خروجی / وابسته
خط رگرسیون = بهترین خط مناسب برای یک مدل
در اینجا یک خط برای نقاط داده داده شده ترسیم می شود که به طور مناسب با همه موضوعات مطابقت دارد. از این رو بهترین خط مناسب نامیده می شود.'هدف الگوریتم رگرسیون خطی یافتن این خط مناسب است که در شکل بالا دیده می شود.
مزایای کلیدی رگرسیون خطی
رگرسیون خطی به دلیل مزایای متعددی که در علم داده به کار می رود یک ابزار محبوب است:
1. سهولت اجرا
اجرای مدل رگرسیون خطی از نظر محاسباتی ساده است زیرا نه قبل از راه اندازی مدل و نه در حین نگهداری هزینه های مهندسی زیادی را نمی طلبد.
2. تفسیر پذیری
برخلاف سایر مدلهای یادگیری عمیق (شبکههای عصبی) رگرسیون خطی نسبتا ساده است. در نتیجه این الگوریتم جلوتر از مدل های جعبه سیاه است که در توجیه اینکه کدام متغیر ورودی باعث تغییر متغیر خروجی می شود کوتاهی می کند.
3. مقیاس پذیری
رگرسیون خطی از نظر محاسباتی سنگین نیست و بنابراین در مواردی که مقیاس بندی ضروری است به خوبی متناسب است. به عنوان مثال این مدل می تواند در مورد افزایش حجم داده ها (داده های بزرگ) مقیاس خوبی داشته باشد.
4. بهینه برای تنظیمات اینترنتی
سهولت محاسبه این الگوریتم ها امکان استفاده در تنظیمات اینترنتی را فراهم می کند. این مدل را می توان با هر مثال جدید تربیت کرد تا پیش بینی ها را در زمان واقعی ایجاد کند برخلاف شبکه های عصبی یا ماشین های بردار پشتیبانی که از نظر محاسباتی سنگین هستند و به منابع محاسباتی فراوان و زمان انتظار قابل توجهی برای بازگرداندن یک مجموعه داده جدید نیاز دارند. همه این عوامل چنین مدلهای فشرده محاسباتی را برای کاربردهای بلادرنگ گران و نامناسب می کند.
ویژگی های فوق نشان می دهد که چرا رگرسیون خطی یک مدل محبوب برای حل مشکلات یادگیری ماشین در زندگی واقعی است.
معادله رگرسیون خطی
بیایید یک مجموعه داده را در نظر بگیریم که اندازه رم و هزینه های مربوطه را پوشش می دهد.
در این حالت مجموعه داده شامل دو ویژگی متمایز است: حافظه (ظرفیت) و هزینه. رم بیشتر, بیشتر هزینه خرید از قوچ.
مجموعه داده: ظرفیت رم در مقابل هزینه
یک خط از گوشه پایین سمت چپ نمودار به سمت راست بالا نشان دهنده رابطه بین ایکس و بله در رسم این نقاط داده بر روی یک نمودار پراکنده نمودار زیر را دریافت می کنیم:
طرح پراکنده: ظرفیت پم در مقابل هزینه
نسبت حافظه به هزینه ممکن است با توجه به تولید کنندگان مختلف و نسخه های رم متفاوت است, اما روند داده نشان می دهد یک الگوی. داده های سمت چپ پایین قوچ های ارزان تر با حافظه کوچکتر را نشان می دهد و خط به گوشه سمت راست بالای نمودار ادامه می یابد که قوچ ها از ظرفیت بالاتری برخوردار هستند و هزینه بر هستند).
مدل رگرسیون یک تابع خطی بین تعریف می کند ایکس و بله متغیرها که رابطه بین این دو را به بهترین وجه نشان می دهد. با خط شیب دیده شده در شکل بالا نشان داده می شود که هدف تعیین یک خط رگرسیون بهینه است که به بهترین وجه با تمام نقاط داده منفرد مطابقت داشته باشد.
از نظر ریاضی این خطوط شیب از معادله زیر پیروی می کنند,
جایی که ایکس = متغیر وابسته (هدف)
بله = متغیر مستقل
متر = شیب خط (شیب به عنوان 'افزایش' بیش از 'اجرا' تعریف شده است)
با این حال, کارشناسان یادگیری ماشین یک نماد های مختلف به معادله خط شیب بالا,
بله (ایکس) = پ 0 + پ 1 * ایکس
- بله = متغیر خروجی. متغیر بله مقدار پیوسته ای را نشان می دهد که مدل سعی در پیش بینی دارد.
- ایکس = متغیر ورودی. که در یادگیری ماشین, ایکس ویژگی است, در حالی که در متغیر مستقل نامیده می شود. متغیر ایکس اطلاعات ورودی داده شده به مدل را در هر زمان مشخص نشان می دهد.
- پ 0 = بله-رهگیری محور (یا اصطلاح تعصب).
- پ 1 = ضریب رگرسیون یا ضریب مقیاس. در ارقام کلاسیک پ 1 معادل شیب خط مستقیم با بهترین تناسب مدل رگرسیون خطی است.
- پ من = وزن (به طور کلی).
بدین ترتیب, مدل سازی رگرسیون همه چیز در مورد پیدا کردن مقادیر برای پارامترهای ناشناخته معادله, به عنوان مثال, ارزش برای پ 0 و پ 1 (وزن).
معادله رگرسیون خطی چندگانه
فرایند فوق در مورد رگرسیون خطی ساده با داشتن یک ویژگی واحد یا متغیر مستقل اعمال می شود. با این حال, یک مدل رگرسیون را می توان برای ویژگی های متعدد با گسترش معادله برای تعداد متغیرهای موجود در مجموعه داده استفاده.
معادله رگرسیون خطی چندگانه مشابه معادله یک معادله خطی ساده است, یعنی, بله (ایکس) = پ 0 + پ 1 ایکس 1 به علاوه وزن ها و ورودی های اضافی برای ویژگی های مختلف که توسط نشان داده می شوند پ (ن) ایکس (ن). فرمول رگرسیون خطی چندگانه به نظر می رسد,
ی(ایکس) = ص 0 + ص 1 ایکس 1 + ص 2 ایکس 2 + ... + پ (ن) ایکس (ن)
مدل یادگیری ماشین از فرمول فوق و مقادیر مختلف وزن برای ترسیم خطوط متناسب استفاده می کند. علاوه بر این, برای تعیین خط بهترین متناسب با داده ها, مدل ارزیابی ترکیبات وزن های مختلف که به بهترین وجه متناسب با داده ها و ایجاد یک رابطه قوی بین متغیرهای.
همچنین مدل رگرسیون در کنار تابع پیشبینی از یک تابع هزینه برای بهینهسازی وزنها استفاده میکند. تابع هزینه رگرسیون خطی خطای میانگین مربع ریشه یا خطای میانگین مربع است.
اساسا میانگین اختلاف مربع بین مقادیر واقعی و پیش بینی شده مشاهده را اندازه گیری می کند. خروجی هزینه یا نمره مرتبط با مجموعه فعلی وزن است و به طور کلی یک عدد است. هدف در اینجا این است که به حداقل رساندن مس برای افزایش دقت مدل رگرسیون.
با توجه به معادله خطی ساده بله=میلی ایکس+ب, ما می توانیم مقادیر مس را محاسبه کنیم:
معادله برای محاسبه مقادیر مس
- ن = تعداد کل مشاهدات (نقاط داده)
- 1 / ن∑نیکل=1 = میانگین
- بله من = ارزش واقعی یک مشاهده
- مکس من +ب = پیش بینی
در کنار تابع هزینه از یک الگوریتم نزول گرادیان برای به حداقل رساندن خط دادههای معین در تکرارهای کمتر استفاده میشود و در نتیجه کارایی کلی مدل رگرسیون بهبود مییابد.
معادله رگرسیون خطی را می توان به صورت زیر تجسم کرد:
تجسم معادله برای رگرسیون خطی
انواع رگرسیون خطی با مثال
رگرسیون خطی یک نیروی محرکه مهم در پشت بسیاری از کاربردهای هوش مصنوعی و علوم داده بوده است. این تکنیک برای کسب و کارها مفید است زیرا یک روش ساده و قابل تفسیر و موثر برای ارزیابی روندها و پیش بینی های بعدی است.
انواع مدل های رگرسیون خطی عبارتند از:
1. رگرسیون خطی ساده
رگرسیون خطی ساده ارتباط بین یک متغیر وابسته (ورودی) و یک متغیر مستقل (خروجی) را نشان می دهد. در درجه اول این نوع رگرسیون موارد زیر را توصیف می کند:
- قدرت رابطه بین متغیرهای داده شده.
مثال: رابطه بین افزایش دما و افزایش سطح دما.
- مقدار متغیر وابسته بر اساس مقدار متغیر مستقل است.
به عنوان مثال: مقدار درجه حرارت در یک درجه حرارت خاص.
2. رگرسیون خطی چندگانه
رگرسیون خطی چندگانه رابطه بین متغیرهای مستقل (دو یا چند) و متغیر وابسته مربوطه را برقرار می کند. در اینجا متغیرهای مستقل می توانند پیوسته یا طبقه ای باشند. این نوع رگرسیون کمک می کند تا پیش بینی روند, تعیین ارزش های بعدی, و پیش بینی اثرات تغییرات.
مثال: وظیفه محاسبه فشار خون را در نظر بگیرید. در این حالت می توان متغیرهای مستقل قد و وزن و میزان ورزش را در نظر گرفت. در اینجا می توانیم از رگرسیون خطی چندگانه برای تجزیه و تحلیل رابطه بین سه متغیر مستقل و یک متغیر وابسته استفاده کنیم زیرا همه متغیرهای در نظر گرفته شده کمی هستند.
3. رگرسیون لجستیک
رگرسیون لجستیک - همچنین به عنوان مدل لاجیت نامیده می شود-در مواردی که یک متغیر وابسته و متغیرهای مستقل تر وجود دارد قابل اجرا است. تفاوت اساسی بین رگرسیون چندگانه و لجستیک این است که متغیر هدف در رویکرد لجستیک گسسته است (باینری یا یک مقدار ترتیبی). متغیر وابسته متناهی یا دسته ای است-یا پ یا س (رگرسیون باینری) یا طیف وسیعی از گزینه های محدود پ, س, ر, یا س.
مقدار متغیر فقط به دو نتیجه ممکن در رگرسیون خطی محدود می شود. با این حال رگرسیون لجستیک به این موضوع می پردازد زیرا می تواند نمره احتمالی را نشان دهد که شانس هر رویداد خاص را نشان می دهد.
مثال: می توان احتمال انتخاب پیشنهاد در وب سایت خود را تعیین کرد (متغیر وابسته). برای اهداف تجزیه و تحلیل, شما می توانید در ویژگی های مختلف بازدید کننده از جمله سایت های که از نگاه, تعداد بازدیدکننده داشته است به سایت شما, و فعالیت در سایت شما (متغیرهای مستقل). این می تواند به تعیین احتمال بازدید کنندگان خاصی که احتمال پذیرش پیشنهاد را دارند کمک کند. در نتیجه به شما امکان می دهد تصمیمات بهتری در مورد تبلیغ پیشنهاد در سایت خود بگیرید یا خیر.
علاوه بر این, رگرسیون لجستیک به طور گسترده در الگوریتم های یادگیری ماشین در مواردی مانند تشخیص ایمیل هرزنامه استفاده می شود, پیش بینی مبلغ وام برای مشتری, و بیشتر.
4. رگرسیون ترتیبی
رگرسیون ترتیبی شامل یک متغیر دوگانه وابسته و یک متغیر مستقل است که می تواند ترتیبی یا اسمی باشد. این تعامل بین متغیرهای وابسته با چندین سطح مرتب با یک یا چند متغیر مستقل را تسهیل می کند.
برای یک متغیر وابسته با متر دسته ها, (مت ر-1) معادلات ایجاد خواهد شد. هر معادله رهگیری متفاوتی دارد اما ضرایب شیب یکسانی برای متغیرهای پیش بینی کننده دارد. بنابراین رگرسیون ترتیبی معادلات پیش بینی چندگانه را برای دسته های مختلف ایجاد می کند. که در یادگیری ماشین, رگرسیون ترتیبی به یادگیری رتبه بندی یا تحلیل رتبه بندی محاسبه شده با استفاده از یک مدل خطی تعمیم یافته اشاره دارد.
مثال: نظرسنجی را در نظر بگیرید که قرار است پاسخ دهندگان به عنوان موافق یا مخالف پاسخ دهند.'در برخی موارد چنین پاسخ از هیچ کمک به عنوان یکی نمی تواند استخراج قطعی نتیجه گیری پیچیده تعمیم نتایج. با این حال, شما می توانید یک نظم طبیعی در دسته با اضافه کردن سطوح به پاسخ مشاهده, مانند موافق, به شدت موافق, مخالف, و به شدت مخالف. بنابراین رگرسیون ترتیبی به پیش بینی متغیر وابسته کمک می کند که چندین دسته را با استفاده از متغیرهای مستقل مرتب کرده باشد.
5. رگرسیون لجستیک چند جمله ای
رگرسیون لجستیک چندجملهای زمانی انجام میشود که متغیر وابسته اسمی با بیش از دو سطح باشد. این رابطه بین یک متغیر اسمی وابسته و یک یا چند متغیر مستقل سطح پیوسته (فاصله, نسبت, یا دوگانه) را مشخص می کند. در اینجا متغیر اسمی به متغیری بدون ترتیب ذاتی اشاره دارد.
مثال: از لوجیت چند جمله ای می توان برای مدل سازی انتخاب برنامه های دانشجویان مدرسه استفاده کرد. انتخاب برنامه, در این مورد, به یک برنامه حرفه ای مراجعه کنید, برنامه ورزشی, و برنامه دانشگاهی. انتخاب نوع برنامه را می توان با در نظر گرفتن ویژگی های گوناگون از جمله میزان خواندن و نوشتن دانشجویان در موضوعات اعطا شده و جنسیت و جوایز دریافت شده پیش بینی کرد.
در اینجا متغیر وابسته انتخاب برنامه هایی با سطوح مختلف (نامرتب) است. از تکنیک رگرسیون لجستیک چند جمله ای برای پیش بینی در چنین حالتی استفاده می شود.
رگرسیون خطی بهترین روش ها برای سال 2022
امروزه مدل های رگرسیون خطی به طور گسترده ای توسط دانشمندان داده در سراسر صنایع برای انجام مشاهدات مختلف استفاده می شود. این مدل کمک به ارزیابی روند, تخمین فروش, تجزیه و تحلیل کشش قیمت گذاری, و ارزیابی خطرات به شرکت. کارشناسان می توانند بهترین شیوه های خاص را برای اطمینان از اجرای صحیح و عملکرد مدل های رگرسیون خطی اتخاذ کنند.
بهترین روش ها برای رگرسیون خطی
در اینجا بهترین روش های رگرسیون خطی برای سال 2022 را لیست می کنیم.
1. پنج فرضیه کلیدی در مورد داده ها را در نظر بگیرید
تجزیه و تحلیل رگرسیون خطی می تواند عملی باشد و زمانی انجام شود که داده ها از مجموعه ای از قوانین پیروی کنند. اینها به عنوان فرضیات کلیدی در مورد داده ها شناخته می شوند.
اولین فرض مهم رگرسیون خطی این است که متغیرهای وابسته و مستقل باید به صورت خطی مرتبط باشند. رابطه را می توان با کمک نقشه های پراکنده که به تجسم کمک می کنند تعیین کرد. همچنین باید پرت ها را بررسی کرد زیرا رگرسیون خطی به این موارد حساس است.
- توزیع نرمال باقیمانده ها
فرض دوم مربوط به توزیع نرمال باقیمانده یا اصطلاحات خطا است, یعنی اگر باقیمانده به طور معمول توزیع نشود, تخمین مبتنی بر مدل ممکن است خیلی گسترده یا باریک شود. توزیع غیر نرمال همچنین نشان می دهد که برای ایجاد یک مدل خوب باید برخی از نقاط داده غیرمعمول را از نزدیک مشاهده کنید.
فرض سوم مربوط به چند خطی بودن است که چندین متغیر مستقل در یک مدل بسیار با هم ارتباط دارند. متغیرهای همبسته بیشتر تعیین اینکه کدام متغیر در پیش بینی متغیر هدف نقش دارد را دشوار می کند. همچنین خطاهای استاندارد به دلیل متغیرهای همبسته ناگزیر افزایش می یابد.
ضمن اینکه با چنین همبستگی متغیری استوار ضریب رگرسیون پیشبینی شده یک متغیر همبسته بیشتر به سایر متغیرهای موجود در مدل بستگی دارد که منجر به نتیجهگیری اشتباه و عملکرد ضعیف میشود. بنابراین هدف داشتن چند خطی حداقل یا کمتر است.
یک فرض اساسی رگرسیون خطی مشخص می کند که مجموعه داده داده شده نباید به طور خودکار مرتبط باشد. این بیشتر زمانی اتفاق می افتد که باقیمانده ها یا اصطلاحات خطا مستقل از یکدیگر نباشند.
به عبارت دیگر وضعیت زمانی ایجاد می شود که مقدار اف(1+) مستقل از مقدار اف(الف) نباشد. مثلا در مورد قیمت سهام قیمت یک سهم به هزینه سهام قبلی بستگی دارد.
فرض دیگر تجزیه و تحلیل رگرسیون خطی به عنوان همجنس گرایی نامیده می شود. همجنسگرایی مربوط به مواردی است که باقیمانده (اصطلاحات خطا) بین متغیرهای مستقل و وابسته برای همه مقادیر متغیر مستقل یکسان باقی می ماند.
به عبارت ساده, باقی مانده و یا شرایط خطا باید ' واریانس ثابت. در غیر این صورت منجر به پراکندگی نامتعادل باقیمانده می شود که به عنوان هتروسداستیسیته شناخته می شود. با هتروسکداستیسیته نمی توانید به نتایج تحلیل رگرسیون اعتماد کنید.
2. از یک مدل ساده استفاده کنید که متناسب با بسیاری از مدل ها باشد
تصور غلط رایج این است که مشکلات پیچیده به مدل های رگرسیون پیچیده نیاز دارند. با این حال تحقیقات نشان داده است که مدل های ساده تر پیش بینی های دقیقی را انجام می دهند زیرا به طور موثر نشان می دهند که داده ها چقدر با مدل ها مطابقت دارند.
بعلاوه, به عنوان بسیاری از مدل توانایی توضیحی مشابه, مدل رگرسیون خطی ساده به احتمال زیاد بهترین انتخاب. با یک مدل رگرسیون ساده شروع کنید و طبق نیاز پیچیده کنید. این پیامدهای خود را, به عنوان پیچیده تر از مدل است, بیشتر متناسب با مدل خواهد بود به مجموعه داده های خاص. در نتیجه تعمیم پذیری رنج می برد.
یکی باید بررسی, اعتبار, و اطمینان حاصل شود که پیچیدگی اضافه شده تولید فواصل پیش بینی باریک. همچنین, نگه داشتن چک کردن ارزش ر مربع پیش بینی شده به جای تعقیب محدوده ر مربع بالا. ر مربع یک معیار اندازه گیری است که ضریب تعیین نیز نامیده می شود و ارزیابی می کند که داده ها (نقاط داده) چقدر به خط رگرسیون نصب شده نزدیک هستند.
3. سرعت محاسبات خود را افزایش دهید و قابل اطمینان تر شوید
این روش باعث بهبود سرعت پردازش داده ها در سیستم های محاسباتی هنگام استفاده از مدل رگرسیون خطی می شود. شما ممکن است هزینه های راه اندازی اضافی در ارتباط با تهیه داده ها و یا پیچیدگی مدل با سرعت بخشیدن به محاسبات و ساخت مدل اجرای سریع تر متحمل می شوند. برخی از روش های افزایش سرعت مدل عبارتند از:
زیر مجموعه اجازه می دهد تا شما را به کشف داده ها با مدل های به طور بالقوه بیشتر, .و تجزیه و تحلیل جداگانه تغییرات در این زیر مجموعه ها را نشان می دهد.
- شبیه سازی پیش بینی (داده های جعلی)
با استفاده از شبیه سازی پیش بینی می توانید اشکالات موجود در کد یا مدل مناسب را برطرف کنید. این امر می تواند با استفاده از مدل های خطی تعمیم یافته بیزی حاصل شود که به پیش بینی های احتمالی از طریق شبیه سازی کمک می کند. همچنین شبیهسازی پیشبینی به مقایسه دادهها با پیشبینی مدل برازش یافته کمک میکند.
شبیه سازی جعلی داده شما را قادر به بررسی صحت کد.
- نمودار مربوطه و نه بی ربط
نموداری یک ابزار حیاتی مورد استفاده برای تجسم در حالی که انجام تجزیه و تحلیل رگرسیون است. هدف این نمودارها انتقال اطلاعات به خود یا مخاطبان گسترده تر است. نمایش داده های خام (تجزیه و تحلیل داده های اکتشافی [ادا]) اولین مرحله نموداری است.
نمودارهای مدل نصب شده نمایش زیر را دارند:
- پوشش نمودارهای داده تناسب مدل را نشان می دهد.
- مجموعه ای از پارامترهای تخمین زده شده.
- داده های پیش بینی شده را با داده های واقعی مقایسه کنید.
- داده ها را نمودار کنید
داده های دنیای واقعی پیچیده است زیرا دارای ابعاد متعددی است. از این رو ساخت نمودارهای مختلف و رعایت مدل از برتری های مختلف ضروری است. به عبارت دیگر, استفاده از یک سری از نمودار برای تجسم داده بهتر به جای بسته به یک تصویر واحد.
- از ترسیم داده های نامربوط خودداری کنید
کارشناسان در این زمینه اهمیت رسم داده های خام و تشخیص رگرسیون (واریانس باقیمانده) را می دانند. اگر چه چنین قطعه کمک به تعیین قابلیت استفاده از مدل در پیش بینی نقاط داده های فردی, قطعه انجام مفروضات خطی راضی نیست, نرمال, و غیره., در رگرسیون که قبلا بیان شد.
ضمنی, تمرکز بر رسم نمودار است که شما قادر به توضیح به جای نموداری داده های بی ربط است که غیر قابل توضیح هستند.
4. تحولات متغیر را در نظر بگیرید
تبدیل هر متغیر مورد بررسی در مدل رگرسیون را در نظر بگیرید. راه های تحول شناخته شده عبارتند از:
- تحولات ورود به سیستم: لگاریتم متغیرهای مثبت را استخراج کنید که به شما امکان می دهد مدل های ضرب را در نظر بگیرید.
- استاندارد: استاندارد اجازه می دهد تا تفسیر ساده و پوسته پوسته شدن از تمام امار و یا ضرایب در یک مدل. این تضمین می کند که داده های مدل در محدوده یا مقیاس خاصی قرار دارند.
- تبدیل اول, مدل بعد (مدل سازی چند سطحی): این عمل باعث می شود ضرایب مدل قابل مقایسه, و مدل را حس می کند بهتر.
علاوه بر این, در نظر گرفتن رسم داده های خام و باقی مانده در حالی که انجام تحولات.
تحولات فوق تک متغیره است. با این حال, فعل و انفعالات و پیش بینی تشکیل شده توسط ترکیب ورودی را می توان بیش از حد تبدیل; مثلا, ترکیب تمام پاسخ های نظر سنجی ایجاد یک نمره کل. هدف تحولات ایجاد مدلهای متناسب است که شامل اطلاعات مربوطه باشد و بتواند با داده ها مقایسه شود.
5. ضرایب رگرسیون را به عنوان مقایسه تفسیر کنید
تفسیر ضرایب رگرسیون برای درک مدل بسیار مهم است. بیایید یک نمونه را در نظر بگیریم معادله رگرسیون خطی,
دستمزد ماهانه = – 20 + 0.7 * ارتفاع + خطا
(جایی که دستمزد = به ازای هر 1 هزار دلار و ارتفاع = اینچ)
این مدل به ما می گوید که افراد بلندتر در این نمونه به طور متوسط بیشتر کسب می کنند. به عبارت دیگر مدل میانگین اختلاف سود بین دو نفر که اختلاف قد دارند را نشان می دهد.
تفسیر رگرسیون در زمینه مقایسه دارای مزایای زیر است:
- تفسیر به عنوان مقایسه : مقایسه ها مدل را بدون نیاز به هیچ گونه فرض علی توضیح می دهند.
- رگرسیون های پیچیده را می توان با استفاده از مدل های ساده تر ساخت : برای رگرسیون های پیچیده با مدل های ساده تر شروع کنید و تنظیمات را در صورت نیاز انجام دهید/اضافه کنید.
- مقایسه در استنباط علی کمک می کند: استخراج تاثیر علی بر نتیجه (استنباط علی) با تفسیر مقایسه ای امکان پذیر می شود.
6. روشهای رگرسیون را از طریق مثالهای زنده بیاموزید
رگرسیون خطی بهتر است زمانی یاد گرفته شود که روشهای پیچیده ای را برای مشکلات زندگی واقعی که برایتان مهم است اعمال کنید.
این فرایند با روش های مناسب مجموعه داده های مربوط به جمعیت مورد علاقه شروع می شود. سپس, شما نیاز به تعیین هدف از مجموعه داده ها و تجزیه و تحلیل. این به معنای شناسایی چیزی است که می خواهید به دست بیاورید و با داده های موجود قابل دستیابی است. در نهایت درک کاملی از داده های خود را از طریق شبیه سازی و تجسم کسب کنید.
بیرونبر
مدل های رگرسیون خطی بر اساس یک فرمول ریاضی ساده و قابل تفسیر است که به تولید پیش بینی های دقیق کمک می کند. برنامه های کاربردی در سراسر مناطق کسب و کار و زمینه های دانشگاهی مانند علوم اجتماعی و مدیریت و محیط زیست و علوم محاسباتی پیدا می کنند.
رگرسیون خطی با پایه علمی ثابت کرده است که روندهای بعدی را به طور قابل اعتماد پیش بینی می کند. به طور گسترده ای پذیرفته شده است زیرا این مدل ها به راحتی قابل تفسیر و درک هستند و می توانند به سرعت تربیت شوند.
این مقاله به شما در درک دقیق رگرسیون خطی کمک کرد? نظر زیر و یا به ما اطلاع دهید در ارتباط با let , توییتر , یا فیس بوک . ما دوست داریم از شما بشنویم!