تناقض سیمپسون (Simpson’s Paradox)
به گزارش اقتصادنیوز، در مثال رستورانها هر نفر، نسبت تعداد کاربران راضی نسبت به کل کاربران را محاسبه کرده، در رستوران خورشید، مردانی که نظرشان مورد بررسی قرار گرفته نسبت به زنان خیلی بیشتر است و در رستوران ماه، عکس این حالت اتفاق افتاده است.
جودا پرل: استاد دانشگاه یوسیالایگ
رایشکاری: اقتصادسنجی، علوم کامپیوتر و آمار
مکتب فکری: مستقل
از آنجا که تعداد زنانی که در نظرسنجی رستوران خورشید مورد پرسش قرار گرفتهاند کمتر از مردان است، رضایتشان سهم کمتری نسبت به مردان در محاسبه درصد کل دارد. در نتیجه میانگین کل اندکی نسبت به میانگین درصد رضایت مردان افزایش یافته است. در مقابل تعداد زنانی که در نظرسنجی رستوران ماه شرکت کردهاند بیشتر از مردان است. درنتیجه سهم آنها در محاسبه درصد کل، بیشتر از مردان است. این یک نمونه از پارادوکس سیمپسون است. برخلاف دیدگاه متون آماری مرسوم و برخی از اشکال تجزیه و تحلیل اقتصادسنجی (مدلهای VAR)، ما نمیتوانیم بدون دانستن منبع دادهها، تجزیه و تحلیل را به درستی انجام دهیم. مشاغل کارشناس میدانی و مشاور آماری نمیتوانند از هم جدا شوند. برای نشان دادن این نکته، بازی بهعنوان میانگین ضرب و شتم را در نظر بگیرید؛ دو نبرد مختلف در برابر اهداف چپ و راست را در نظر میگیریم. سپس پارادوکس Simpson به این صورت بروز میکند: فرانک نسبت به تام در برابر اهداف چپ آمار بهتری دارد و او همچنین دارای ضربات متوسط بالاتر از تام در برابر اهداف دست چپ است. با این حال، میانگین ضرب و شتم کلی تام بالاتر از فرانک است.
بهعنوان سرمربی تیم، برای گرفتن یک ضربه اضافی یا دو ضربه، کدام یک از دو نفر را باید به مبارزه بفرستید؟ اگر اهداف دست چپ و راست را بهطور جداگانه در نظر بگیریم، فرانک برای هر دو بهتر از تام است و از اینرو باید فرانک را بفرستیم. با این حال، میانگین کلی ضرب و شتم تام بهتر است که نشان میدهد باید تام انتخاب شود. پاسخ به ساختار علّی بستگی دارد. اگر انتخاب اهداف یکسان است، پس فرانک انتخاب بهتری است. در چنین مواقعی بهتر است تصمیم بگیریم که با توجه به چه جمعیت یا نمونهای میخواهیم درصدها را محاسبه کنیم، به تفکیک جنسیت یا بر حسب کل افراد. به هر حال شاید لازم باشد که دادهها را به نحوی با یکدیگر ترکیب کنیم ولی باید به نحوه و شیوه جمعآوری آنها (که مدل علّی، Causal Model نامیده میشود) نیز توجه داشته باشیم. در این صورت دیگر دچار پارادوکس سیمپسون نمیشویم.همانطور که مشخص است، با اینکه رستوران خورشید در بین زنان و مردان از درصد رضایت بیشتری برخوردار است؛ اما در حالتی که همه افراد را بدون تفکیک از لحاظ جنسیتشان، در نظر میگیریم، میزان رضایت آن از رستوران ماه کمتر خواهد بود. چگونه چنین چیزی ممکن است؟ این تناقض از چه چیزی ناشی میشود؟
تشریح پارادوکس سیمپسون را دنبال کنید: