رگرسیون چیست؟ (تاریخچه و مفهوم رگرسیون به زبان ساده)

0
1145
رگرسیون چیست؟

رگرسیون چیست؟

رگرسیون چیست؟ این سوالی است که اکثر دانشجویانی که با علم آمار سر و کار دارند با آن روبرو هستند. شاید در ابتدا، این واژه کمی نامانوس به نظر برسد، اما دارای مفهومی بسیار ساده است. واژه رگرسیون برای اولین بار توسط فرانسیس گالتون در سال ۱۸۷۷ مورد استفاده قرار گرفت. او در مطالعه خود نشان داد که قد کودکان متولد شده از والدین بلندقامت گرایش به برگشت به متوسط قد افراد دارد.

وی در مقالۀ مشهور خود اظهار داشت: اگرچه تمایل برای والدین بلندقد به داشتن فرزندان بلند قد و نیز والدین کوتاه قد به داشتن فرزندان کوتاه قد وجود دارد اما متوسط قد بچه‌های والدین متعلق به هر طبقه قدی معین به طرف متوسط قد در کل جامعه برگشت یا گرایش (Regress) دارد.  برای مطالعه بیشتر در خصوص مقاله گالتون، به این لینک مراجعه نمایید.

تعبیر جدید رگرسیون کاملاً متفاوت از حالت قبل است به طور کلی می‌توان گفت:

تحلیل‌های رگرسیون به مطالعۀ وابستگی یک متغیر (متغیر وابسته) به یک یا چند متغیر دیگر (متغیر توضیحی) می‌پردازد که با تخمین یا پیش‌بینی مقدار متوسط یا میانگین مقادیر متغیر نوع اول در حالتی که مقادیر متغیر نوع دوم معلوم یا معین شده باشند (در نمونه‌گیری تکراری) صورت می‌پذیرد.

رگرسیون چیست؟ باز هم پاسخ سوالتان را دریافت نکردید؟ پس اجازه دهید تا کمی بیشتر توضیح دهم. اصولا علم برای این به وجود آمده است که انسان همیشه به دنبال کشف حقیقت بوده است (البته باید توجه داشت که در هر مقطعی از زمان، علم بشر متفاوت بوده است و ممکن است منطبق بر حقیقت نبوده باشد). در واقع، اگر بخواهیم تعریفی از علم ارائه دهیم، علم دانشی است که مبتنی بر داده های قابل اثبات و تجدید پذیر است (البته تعاریف بهتر و جدیدتری از علم وجود دارد اما برای درک بهتر، از این تعریف استفاده شده است). در واقع، علم از طریق آزمایش و تجزیه و تحلیل داده ها قصد دارد تا به نتایج قابل اندازه گیری دست یافته و به کشف حقیقت بپردازد. آمار یکی از ابزارهایی است که تقریبا در تمامی علوم برای تجزیه و تحلیل داده ها از آن استفاده می شود. یکی از روش های آماری که به جرات می توان گفت، دارای بیشترین کاربرد، خصوصا در علوم اجتماعی، اقتصاد و … است، روش رگرسیونی است.

فرض کنید شما یک محقق علوم اقتصادی هستید و قصد دارید تا عوامل موثر بر پدیده ای اقتصادی مانند تورم را شناسایی کنید. اینجاست که رگرسیون می تواند برای شما راهگشا باشد. بر اساس تئوری شما می دانید که عواملی مانند حجم پول، نرخ ارز و … بر سطح قیمت ها اثرگذار هستند. اما نمی دانید که در واقعیت هم آیا چنین رابطه ای بین متغیرهای مذکور برقرار است یا خیر؟ پس اگر بر اساس داده های مربوط به متغیرهای مذکور (که توسط بانک مرکزی یا مرکز آمار جمع آوری می شوند) بتوانیم یک رابطه بین متغیرها کشف کنیم، می توانیم صحت تئوری را در عمل نیز مورد آزمون قرار دهیم.

خط رگرسیون چیست؟

به نمودار زیر دقت کنید. در این نمودار محور افقی نشان دهنده مقادیر متغیر x (مثلا رشد حجم پول) و محور عمودی، نشان دهنده مقادیر متغیر y (مثلا تورم) است. با مشاهده نمودار زیر، آیا می توانید استنباطی در خصوص رابطه دو متغیر x و y، بکنید؟ بر اساس نمودار زیر، به نظر می رسد که با افزایش مقادیر x، مقدار متغیر y نیز افزایش می یابد.

گرچه در این مثال، بسیار واضح است که یک رابطه مثبت بین x و y وجود دارد، اما آیا چنین روش بصری می توانید همواره دارای کاربرد باشد، طبیعتا پاسخ منفی است. اما اگر بتوانیم یک خط از میان نمودار پراکنش متغیرهای x و y عبور دهیم به نحوی که بهترین نماینده برای رابطه متغیر های x و y باشد چطور؟ یا به عبارت دیگر، خطی مانند خط زیر در نمودار پراکنش رسم کنیم.

خط رگرسیونی

در واقع، در رگرسیون ما به دنبال رسم خطی مانند خط فوق هستیم که بهترین نماینده برای رابطه بین متغیر x (متغیر توضیحی) و متغیر y (متغیر وابسته یا متغیری که می خواهیم عوامل موثر بر آن را شناسایی کنیم) باشد.

ممکن است چند سوال در ذهن شما شکل گرفته باشد. اول اینکه خطی که در نمودار فوق رسم شده است، منطبق بر همه داده ها (که با نقاط آبی نشان داده شده اند) نیست. در پاسخ باید گفت که اقتصاد، یا اصولا جهانی که در آن زندگی می کنیم، پیچیده تر و تصادفی تر از آن است که بتوان آن را با یک خط راست نمایش دهیم. روشی که در رگرسیون از آن استفاده می کنیم، نه توضیح کاملا دقیق واقعیت ها، بلکه به دست آوردن تقریبی از واقعیات موجود است. چند دلیل اصلی وجود دارد که باعث می شوند، هیچ گاه خط رگرسیونی نتواند منطبق بر همه داده ها باشد، که در ادامه در قسمت مربوط به جزء اخلال آن را توضیح خواهیم داد. سوال دومی که ممکن است به ذهنتان خطور کرده باشد، این است که خطی که بهترین نماینده برای رابطه بین متغیرهای مورد بررسی باشد را چگونه پیدا کنیم. پاسخ واضح است: خطی که در مجموع، کمترین فاصله را از همه نقاط (کمترین خطا) داشته باشد، خط رگرسیونی ما خواهد بود. نحوه پیدا کردن خط رگرسیونی مبحثی است که در پست بعدی (حداقل مربعات معمولی-روش OLS) به آن پرداخته خواهد شد.

تعریف ریاضی رگرسیون

اگر وابستگی متغیری تنها بر روی یک متغیر توضیحی بررسی شود، چنین بررسی‌ به عنوان تحلیل رگرسیون ساده یا دو متغیره معروف است. اما اگر وابستگی یک متغیر بر روی بیش از یک متغیر توضیحی بررسی گردد، تحت عنوان رگرسیون مرکب معرفی می‌گردد.

یک مدل رگرسیونی خطی ساده را میتوان به شکل زیر بیان نمود:

۱)                                                                                                            C:\Users\BIG_BUG\Desktop\2222_files\image001.png

 

که در آن C:\Users\BIG_BUG\Desktop\2222_files\image002.png  نشاندهنده متغیر توضیحی، C:\Users\BIG_BUG\Desktop\2222_files\image003.png  نشان دهنده متغیر وابسته و C:\Users\BIG_BUG\Desktop\2222_files\image004.png  نمایانگر جزء اخلال مربوط به جامعه میباشد. در واقع جزء تصادفی جامعه ( C:\Users\BIG_BUG\Desktop\2222_files\image004.png ) نماینده یا جانشینی است برای تمامی متغیرهای حذف شده یا فراموش‌شده که بر متغیر وابسته اثر می‌گذارند ولی در مدل رگرسیون وجود ندارند (یا به دلایل گوناگون نمی‌توانند در مدل گنجانده شوند).

همانطور که گفته شد جزء استوکاستیک[۱](جزء اخلال) نماینده‌ای برای تمامی متغیرهائی است که از مدل حذف شده اما مجموعاً بر y اثر می‌گذارد حال سؤال این است که چرا این متغیرها صریحاً در مدل معرفی نمی‌شوند؟ به بیان دیگر چرا یک مدل رگرسیونی مرکب با تمام متغیرهای ممکن بسط داده نمی‌شوند.

دلایل فراوانی وجود دارد:

۱-ممکن است تئوری ناقص باشد یعنی از تأثیرگذاری بعضی از متغیرها بر متغیر وابسته بی‌اطلاع باشیم.

۲-ممکن است راجع به بعضی از متغیرها داده‌های اندکی داشته باشیم.

۳-هزینه جمع‌آوری داده در مورد بعضی از متغیرها به نسبت تأثیر آنها در مدل ممکن است بسیار زیاد باشد.

۴-به دلیل ماهیت تصادفی بودن متغیر وابسته، توضیح کامل آن ممکن نیست و جزء اخلال می‌تواند آنرا منعکس کند.

۵-ممکن است در اندازه‌گیری خطا صورت گرفته باشد.

۶-با تأسی به قاعدۀ اُکام[۲] (توصیف راجع به پدیده‌ها حتی الامکان ساده در نظر گرفته شود، و اینکه خلاف آن ثابت نشده است) مطلوب است مدل رگرسیون را تا حد ممکن ساده‌تر بگیریم.

رگرسیون چیست؟ باز هم پاسخ سوالتان را دریافت نکردید؟ در بخش کامنت ها سوالتان را مطرح کنید تا به آن پاسخ دهیم.


[۱] .Stochastic

[۲] .Occam’s razor


[list icon=”momizat-icon-pencil2″ icon_color=”#1e73be” icon_color_hover=”#dd3333″ icon_bg=”circle” ]مقاله بعدی[/list]

[box type=”info” radius=”5″]

حداقل مربعات معمولی (روش OLS) – تخیمن پارامترهای رگرسیون

[/box]


ارسال یک پاسخ

لطفا دیدگاه خود را وارد کنید!
لطفا نام خود را در اینجا وارد کنید