رگرسیون چیست؟
رگرسیون چیست؟ این سوالی است که اکثر دانشجویانی که با علم آمار سر و کار دارند با آن روبرو هستند. شاید در ابتدا، این واژه کمی نامانوس به نظر برسد، اما دارای مفهومی بسیار ساده است. واژه رگرسیون برای اولین بار توسط فرانسیس گالتون در سال 1877 مورد استفاده قرار گرفت. او در مطالعه خود نشان داد که قد کودکان متولد شده از والدین بلندقامت گرایش به برگشت به متوسط قد افراد دارد.
وی در مقالۀ مشهور خود اظهار داشت: اگرچه تمایل برای والدین بلندقد به داشتن فرزندان بلند قد و نیز والدین کوتاه قد به داشتن فرزندان کوتاه قد وجود دارد اما متوسط قد بچههای والدین متعلق به هر طبقة قدی معین به طرف متوسط قد در کل جامعه برگشت یا گرایش (Regress) دارد. برای مطالعه بیشتر در خصوص مقاله گالتون، به این لینک مراجعه نمایید.
تعبیر جدید رگرسیون کاملاً متفاوت از حالت قبل است به طور کلی میتوان گفت:
تحلیلهای رگرسیون به مطالعۀ وابستگی یک متغیر (متغیر وابسته) به یک یا چند متغیر دیگر (متغیر توضیحی) میپردازد که با تخمین یا پیشبینی مقدار متوسط یا میانگین مقادیر متغیر نوع اول در حالتی که مقادیر متغیر نوع دوم معلوم یا معین شده باشند (در نمونهگیری تکراری) صورت میپذیرد.
رگرسیون چیست؟ باز هم پاسخ سوالتان را دریافت نکردید؟ پس اجازه دهید تا کمی بیشتر توضیح دهم. اصولا علم برای این به وجود آمده است که انسان همیشه به دنبال کشف حقیقت بوده است (البته باید توجه داشت که در هر مقطعی از زمان، علم بشر متفاوت بوده است و ممکن است منطبق بر حقیقت نبوده باشد). در واقع، اگر بخواهیم تعریفی از علم ارائه دهیم، علم دانشی است که مبتنی بر داده های قابل اثبات و تجدید پذیر است (البته تعاریف بهتر و جدیدتری از علم وجود دارد اما برای درک بهتر، از این تعریف استفاده شده است). در واقع، علم از طریق آزمایش و تجزیه و تحلیل داده ها قصد دارد تا به نتایج قابل اندازه گیری دست یافته و به کشف حقیقت بپردازد. آمار یکی از ابزارهایی است که تقریبا در تمامی علوم برای تجزیه و تحلیل داده ها از آن استفاده می شود. یکی از روش های آماری که به جرات می توان گفت، دارای بیشترین کاربرد، خصوصا در علوم اجتماعی، اقتصاد و … است، روش رگرسیونی است.
فرض کنید شما یک محقق علوم اقتصادی هستید و قصد دارید تا عوامل موثر بر پدیده ای اقتصادی مانند تورم را شناسایی کنید. اینجاست که رگرسیون می تواند برای شما راهگشا باشد. بر اساس تئوری شما می دانید که عواملی مانند حجم پول، نرخ ارز و … بر سطح قیمت ها اثرگذار هستند. اما نمی دانید که در واقعیت هم آیا چنین رابطه ای بین متغیرهای مذکور برقرار است یا خیر؟ پس اگر بر اساس داده های مربوط به متغیرهای مذکور (که توسط بانک مرکزی یا مرکز آمار جمع آوری می شوند) بتوانیم یک رابطه بین متغیرها کشف کنیم، می توانیم صحت تئوری را در عمل نیز مورد آزمون قرار دهیم.
خط رگرسیون چیست؟
به نمودار زیر دقت کنید. در این نمودار محور افقی نشان دهنده مقادیر متغیر x (مثلا رشد حجم پول) و محور عمودی، نشان دهنده مقادیر متغیر y (مثلا تورم) است. با مشاهده نمودار زیر، آیا می توانید استنباطی در خصوص رابطه دو متغیر x و y، بکنید؟ بر اساس نمودار زیر، به نظر می رسد که با افزایش مقادیر x، مقدار متغیر y نیز افزایش می یابد.
گرچه در این مثال، بسیار واضح است که یک رابطه مثبت بین x و y وجود دارد، اما آیا چنین روش بصری می توانید همواره دارای کاربرد باشد، طبیعتا پاسخ منفی است. اما اگر بتوانیم یک خط از میان نمودار پراکنش متغیرهای x و y عبور دهیم به نحوی که بهترین نماینده برای رابطه متغیر های x و y باشد چطور؟ یا به عبارت دیگر، خطی مانند خط زیر در نمودار پراکنش رسم کنیم.
در واقع، در رگرسیون ما به دنبال رسم خطی مانند خط فوق هستیم که بهترین نماینده برای رابطه بین متغیر x (متغیر توضیحی) و متغیر y (متغیر وابسته یا متغیری که می خواهیم عوامل موثر بر آن را شناسایی کنیم) باشد.
ممکن است چند سوال در ذهن شما شکل گرفته باشد. اول اینکه خطی که در نمودار فوق رسم شده است، منطبق بر همه داده ها (که با نقاط آبی نشان داده شده اند) نیست. در پاسخ باید گفت که اقتصاد، یا اصولا جهانی که در آن زندگی می کنیم، پیچیده تر و تصادفی تر از آن است که بتوان آن را با یک خط راست نمایش دهیم. روشی که در رگرسیون از آن استفاده می کنیم، نه توضیح کاملا دقیق واقعیت ها، بلکه به دست آوردن تقریبی از واقعیات موجود است. چند دلیل اصلی وجود دارد که باعث می شوند، هیچ گاه خط رگرسیونی نتواند منطبق بر همه داده ها باشد، که در ادامه در قسمت مربوط به جزء اخلال آن را توضیح خواهیم داد. سوال دومی که ممکن است به ذهنتان خطور کرده باشد، این است که خطی که بهترین نماینده برای رابطه بین متغیرهای مورد بررسی باشد را چگونه پیدا کنیم. پاسخ واضح است: خطی که در مجموع، کمترین فاصله را از همه نقاط (کمترین خطا) داشته باشد، خط رگرسیونی ما خواهد بود. نحوه پیدا کردن خط رگرسیونی مبحثی است که در پست بعدی (حداقل مربعات معمولی-روش OLS) به آن پرداخته خواهد شد.
تعریف ریاضی رگرسیون
اگر وابستگی متغیری تنها بر روی یک متغیر توضیحی بررسی شود، چنین بررسی به عنوان تحلیل رگرسیون ساده یا دو متغیره معروف است. اما اگر وابستگی یک متغیر بر روی بیش از یک متغیر توضیحی بررسی گردد، تحت عنوان رگرسیون مرکب معرفی میگردد.
یک مدل رگرسیونی خطی ساده را میتوان به شکل زیر بیان نمود:
1)
که در آن نشاندهنده متغیر توضیحی، نشان دهنده متغیر وابسته و نمایانگر جزء اخلال مربوط به جامعه میباشد. در واقع جزء تصادفی جامعه ( ) نماینده یا جانشینی است برای تمامی متغیرهای حذف شده یا فراموششده که بر متغیر وابسته اثر میگذارند ولی در مدل رگرسیون وجود ندارند (یا به دلایل گوناگون نمیتوانند در مدل گنجانده شوند).
همانطور که گفته شد جزء استوکاستیک[1](جزء اخلال) نمایندهای برای تمامی متغیرهائی است که از مدل حذف شده اما مجموعاً بر y اثر میگذارد حال سؤال این است که چرا این متغیرها صریحاً در مدل معرفی نمیشوند؟ به بیان دیگر چرا یک مدل رگرسیونی مرکب با تمام متغیرهای ممکن بسط داده نمیشوند.
دلایل فراوانی وجود دارد:
1-ممکن است تئوری ناقص باشد یعنی از تأثیرگذاری بعضی از متغیرها بر متغیر وابسته بیاطلاع باشیم.
2-ممکن است راجع به بعضی از متغیرها دادههای اندکی داشته باشیم.
3-هزینه جمعآوری داده در مورد بعضی از متغیرها به نسبت تأثیر آنها در مدل ممکن است بسیار زیاد باشد.
4-به دلیل ماهیت تصادفی بودن متغیر وابسته، توضیح کامل آن ممکن نیست و جزء اخلال میتواند آنرا منعکس کند.
5-ممکن است در اندازهگیری خطا صورت گرفته باشد.
6-با تأسی به قاعدۀ اُکام[2] (توصیف راجع به پدیدهها حتی الامکان ساده در نظر گرفته شود، و اینکه خلاف آن ثابت نشده است) مطلوب است مدل رگرسیون را تا حد ممکن سادهتر بگیریم.
رگرسیون چیست؟ باز هم پاسخ سوالتان را دریافت نکردید؟ در بخش کامنت ها سوالتان را مطرح کنید تا به آن پاسخ دهیم.
[1] .Stochastic
[2] .Occam’s razor
[list icon=”momizat-icon-pencil2″ icon_color=”#1e73be” icon_color_hover=”#dd3333″ icon_bg=”circle” ]مقاله بعدی[/list]
[box type=”info” radius=”5″]
حداقل مربعات معمولی (روش OLS) – تخیمن پارامترهای رگرسیون
[/box]