New Approaches to Psychometrics
Part Two : The Basics and Concepts of Item Response Theory (IRT)
قسمت دوم : مباني و مفاهيم نظريه سؤال پاسخ

علي عسگري
دانشجوي دکتري
دانشگاه تهران
نظریه سؤال پاسخ1 یکی از پیشرفتهترین نظریههای اندازهگیری و نقطه مقابل نظریه کلاسیک است. زیرا برخلاف این نظریه بر نمره سؤالها و نه نمره کل تست بنا شده است (بیکر، 1381/2002). در IRT برای تحلیل دادههای به دست آمده از مقیاسها و پرسشنامهها از مدلهای ریاضی استفاده میشود. به مدلهای IRT اغلب مدلهای خصیصه مکنون2 نیز گفته میشود. اصطلاح مکنون برای تأکید بر پاسخهای پیوسته سؤالی به کار میرود که در واقع نشانگر مشاهدهپذیر خصائص یا رگههایی است که فرض میشود وجود دارد و باید از پاسخها استخراج شود.
مدلهای IRT توابع ریاضی هستند که احتمال یک برونشد3 پیوسته، مانند پاسخ درست به یک سؤال را بر اساس پارامترهای آزمودنی (توانایی، ) و پارامترهای سؤال (دشواری، قدرت تشخیص و حدس) مشخص میکند. به بیاندیگر، مدلهای IRT مبنایی برای برآورد آماری پارامترهایی است که بیانگر جایگاه آزمودنیها بر روی پیوستار مکنون، یا به گونه دقیقتر، اندازه خصیصه مکنونی است که به آزمودنیها و سؤالها نسبت داده میشود. وقتی برآورد پارامترهای مربوط به دست آمد، برای تعیین اندازه و قدرت پیشبینی پاسخهای سؤال، بر اساس یک مدل معین، از آزمونهای آماری استفاده میشود. آزمونهای آماری برای تعیین این مطلب به کار میروند که مدل مورد نظر برای برآورد پارامترها تا چه حد میتواند ساختار الگوهای آماری موجود در دادهها را، یا به گونه کلی، و یا با در نظر گرفتن زیر مجموعه خاصی از دادهها مانند بردار پاسخ مربوط به سؤالها و آزمودنیهای منفرد اندازهگیری کند (امبرتسون و رایس، 2000).
مفروضههای اساسی IRT
1) نخستین مفروضه IRT اشاره به این مطلب دارد که یک عامل مشترک4، همه کوورایانسهای سؤال را توجیه میکند. این عامل مشترک در واقع خصیصه مکنون مورد نظر است که در ادبیات روانسنجی معمولاًبه دو گونه بیان میشود:
الف) تکبعدی بودن5 : یعنی یک و فقط یک عامل مشترک یا خصیصه مکنون وجود دارد که همبستگیهای درونی سؤال را توجیه میکند، ب) استقلال مکانی6 : یعنی اگر عامل مشترک تا اندازهای از دو سؤال خارج شود، کوواریانس پسماند7 آنها برابر با صفر خواهد بود. به بیان دیگر، پس از کنترل یک یا چند عامل مشترک، پاسخهای سؤال، ناهمبسته یا مستقل از یکدیگر هستند (امبرستون، 1996؛ هامبلتون، سوامینتان و راجرز، 1991).
2) بر پایه مفروضه دوم، مدلهای پارامتریکIRT توابعی هستند که به گونه تکنوا8 افزایش مییابند (یعنی احتمال پاسخ درست به سؤال با افزایش سطح خصیصه مکنون بیشتر میشود). این مفروضه را میتوان از طریق نمودار نمرههای میانگین سؤال بر روی نمرههای باقیمانده9 بررسی کرد (امبرستون و رایس، 2000؛ مولنار و سیجتسما، 2000).
3) رابطه بین خصیصه مکنون و پاسخ مشاهده شده شکل معینی دارد (لرد، 1980؛ امبرستون، 1996). خطی که خصیصه مکنون و احتمال پاسخ را به یکدیگر مربوط میسازد خم ویژه سؤال1 نام دارد. مدل استاندارد ریاضی که برای خم ویژه سؤال به کار میرود شکل تراکمی تابع منطقی2 است. این تابع، خانوادهای از خمها را تعریف میکند که به سبب سادگی کار با آن بر سایر مدلها ترجیح داده شد (بیکر، 1381/2003).
مفاهیم نظریه سؤالپاسخ
الف) خم ویژه سؤال: بر پایه نظریه سؤال پاسخ براى هر سطح از توانايى، احتمال معينى وجود دارد كه بهدست آوردن پاسخ درست به سؤال توسط امتحانشونده را در آن سطح مشخص مىسازد. اين احتمال كه با نماد نشان داده مىشود. چنانچه مقادير به عنوان تابع توانايى رسم شود، نتيجه یک خم هموار خواهد بود (نمودارهای شکل 1). احتمال پاسخ درست در پايينترين سطوح توانايى نزديك به صفر است، و بعد از آن افزايش مىيابد تا وقتى كه سطح توانايى به بالاترين حد خود مىرسد. در اين هنگام احتمال پاسخ درست نزديك به 1/0 خواهد بود. هر يك از سؤالهاى منفرد سازنده تست داراى يك خم ويژه خاص آن سؤال است.
ب) پارامترهای سؤال: خم ويژه سؤال دارای سه پارامتر است كه براى توصيف آن بهكار مىرود. 1) پارامتر دشوارى سؤال (b) جايگاه سؤال را در مقياس توانايى توصيف مىكند و متناظر با نقطهاى است كه براى آن باشد. وقتى سؤال آسان باشد اين مقدار در سطح پايين توانايى، و زمانى كه سؤال دشوار باشد اين مقدار در سطح بالاى توانايى قرار دارد مقادیر درجه دشواری سه سؤال مختلف در نمودار الف شکل 1 نشان داده شده است، 2) قدرت تشخيص سؤال(a) نشان مىدهد سؤال تا چه اندازه مىتواند بين امتحانشوندگانى كه توانايى آنها پايينتر از جايگاه سؤال است با امتحانشوندگانى كه توانايى آنها بالاتر از اين جايگاه قرار دارد، تمايز ايجاد كند. اين ويژگى اساساً منعكسكننده شيب خم ويژه سؤال در بخش ميانى آن است. هر چه شيب خم زيادتر باشد، قدرت تشخيص سؤال بيشتر است و مقادیر قدرت تشخیص سه سؤال مختلف در نمودار ب شکل 1 نشان داده شده است و 3) پارامتر حدس (c) بيانگر به دست آوردن پاسخ درست سؤال از طريق حدس محض و در واقع مجانب پایین خم یا نقطه پایینی آن وقتی است که به سمت اعداد منفی در محور توانایی حرکت میکند. مقدار (c) به عنوان تابعى از سطح توانايى تغيير نمىكند. از اين رو، احتمال به دست آوردن پاسخ درست از طريق حدس براى آزمودنيهايى كه داراى بالاترين و پايينترين سطح توانايى باشند، يكسان است. مقادیر حدس سه سؤال مختلف در نمودار پ شکل 1 نشان داده شده است.
پ) پارامتر آزمودنی: پارامتر آزمودنی بیانگر مقدار خصیصه مکنون در فرد یا جایگاه وی در مقیاس توانایی است. برآورد پارامتر آزمودنی براساس نمره کل فرد در اندازهگیری به دست میآید. این نمره در واقع نمره وزندار فرد بر پایه مدلی است که شامل پارامترهای تشخیص باشد (هامبلتون و دیگران، 1991). معمولاً در دو مورد نمىتوان توانايى آزمودنی را برآورد كرد. نخست زمانى كه آزمودنى به هيچ يك از سؤالها پاسخ درست ندهد كه برآورد توانايى متناظر با آن بىنهايت منفى است. دوم زمانى كه آزمودنى به همه سؤالها پاسخ درست دهد كه برآورد توانايى متناظر با آن بىنهايت مثبت است (بیکر، 1381/2002).
ت) نامتغیر بودن3 پارامترها: بنا بر نظریه سؤال پاسخ، پارامترهای سؤال در بین گروههای مختلف نامتغیر است. به بیاندیگر، اگر این پارامترها در گروههای نمونه مختلف برآورد شود، باید مقادیر یکسانی داشته باشند. زیرا بنا بر تعریف، چنانچه قسمتی از خم در اختیار باشد، میتوان بقیه آن (یعنی مقادیر مورد انتظار) را به دست آورد (هالین و دیگران، 1983). بدین ترتیب پارامترهاى سؤال وابسته به سطح توانايى امتحانشوندگان نيست. از اين رو، رها از گروه نمونه4 و در واقع ويژگى خاص خود سؤال و نه ويژگى گروهى است كه به آن پاسخ دادهاند (بیکر، 1381/2002). چنانكه لرد (1980) نيز بيان مىكند ثبات و عدم تغيير پارامترهاى سؤال در بين گروههاى مختلف يكى از مهمترين ويژگيهاى نظریه سؤال پاسخ است. زيرا اين انتظار وجود دارد كه پارامترها يا مشخصههاى سؤال توصيفكننده سؤال و تست باشد، و گروه مورد سنجش از طريق پارامترهاى توانائى توصيف و تبيين شوند. این اصل امکان بررسی سهم هر سؤال را به گونه انفرادی و نیز تصمیمگیری در بار حذف یا اضافه نمودن آن را در تست فراهم میآورد.
افزون بر این، توانایی آزمودنی نیز نسبت به سؤالهايى كه براى برآورد آن بهكار مىرود، نامتغير است. در اينجا براى روشنشدن مطلب بهتر است به مطالعه لرد (1980) اشاره شود. لرد دو آزمون سنجش خزانه واژگان را روى 1830 نفر اجرا و مشاهده كرد كه رابطه بين نمرههاى توانائيهاى حاصل از اين دو تقريباً يك خط راست است. اگر دو تست براى هر فرد توانائى يكسانى برآورد كند، قاعدتاً نتيجه يك خط راست با رابطه كامل را به نمايش مىگذارند. يعنى توانائى آزمودنيها كه براساس نظریه سؤال پاسخ به دست آمده است، تأثير چندانى از ويژگيهاى سؤالهاى دو تست نمىپذيرد.
ث) آگاهی1: یکی از ویژگیهای برجسته IRT مفهوم اعتبار است. به گونه سنتی، اعتبار به دقت اندازهگیری (میزانی از اندازهگیری که رها از خطاست) اشاره دارد. اما بر پایه IRT، دقت در بین دامنه نمرههای تست یکسان نیست. برای نمونه، نمرهها در دامنههای کناری تست نسبت به نمرههایی که به دامنه میانی نزدیکتر است، به گونه کلی خطای بیشتری دارد. آگاهی از لحاظ آماری به معنای مفهوم مقابل میزان دقت در برآورد یک پارامتر است. از این رو، IRT، مفهوم آگاهی (به معنای کاهش عدم حتمیّت2) سؤال و تست را توسعه داده و جایگزین اعتبار کرده است (امبرستون و رایس، 2000؛ هامبلتون و دیگران، 1991؛ رایت، 1992). چون در این نظریه هر يك از سؤالهاى تست، صفت مكنون زيربنايى را اندازه مىگيرد، در نتيجه مقدار آگاهى مبتنى بر يك سؤال منفرد است و مىتوان آن را براى هر يك از سطوح توانايى محاسبه كرد. چون هر تست به منظور برآورد توانایی آزمودنی به کار میرود، مقدار آگاهى را که آن تست در هر یک از سطوح توانایی به دست میدهد نیز میتوان محاسبه کرد. افزون بر این، چون هر تست شامل يك مجموعه سؤال است، بنابراين آگاهى تست در هر سطح معينى از توانايى برابر با جمع ساده آگاهيهاى سؤال در آن سطح خواهد بود.
مزایا و کاربرد IRT
1) IRT خطای استاندارد اندازهگیری را بر مبنای تابع آگاهی تست، و نه متوسط خطای استاندارد برای همه سطوح توانایی در نظریه کلاسیک اندازهگیری، برآورد میکند. این مطلب به متخصصان اجازه میدهد تا سؤالهایی را برگزینند که در دامنه خاصی از توانایی یا خصیصه را با بیشترین دقت اندازهگیری کنند.
2) بر پایه IRT ین امکان وجود دارد که آزمونهای دقیقی برای اندازهگیری همارزی3 گروههای مختلف تجربی به عمل آید. این امکان، به ویژه در پژوهشهای بین فرهنگی که انتظار میرود خصیصه مورد اندازهگیری در گروههای مختلف، میانگین متفاوتی داشته باشند از اهمیت زیادی برخوردار است.
3) روشهای IRT میتواند تورش1 سؤال را از تفاوتهای حقیقی در خصیصه اندازهگیری شده متمایز سازد. اگر خم ویژه سؤال برای دو جامعه یکسان باشد، سؤال تورشدار نخواهد بود. اما اگر خم ویژه سؤال یکسان نباشد، به معنای آن است که رفتار و کارکرد سؤال در گروههای مختلف متفاوت است (کیم، کوهن و پارک، 1995).
4) IRT امکان سنجش برازشیافته2 را فراهم میآورد که در آن برآورد نمره حقیقی بر مبنای تعداد پاسخهای درست قرار ندارد. این مطلب به پژوهشگران اجازه میدهد تا به افراد مختلف، سؤالهای متفاوتی بدهند اما جایگاه آنان کماکان در یک مقیاس قرار داشته باشد.
5) IRT سنجش انطباقی3 رایانهای را تسهیل میسازد. بدین ترتیب، سؤالهایی انتخاب میشوند که برای هر آزمودنی بیشینه آگاهی را به دست میدهد. این امکان میتواند به گونه چشمگیری هزینه و زمان اجرای تست را کاهش دهد (هالین و دیگران، 1983).
6) نمرههاى حقيقى در نظریه کلاسیک اندازهگیری دامنه محدودى دارد و محصور به تعداد سؤالهاى تست است. در حالى كه در IRT ، خصیصه مكنون (θ) دامنهاى از بینهایت منفی تا بینهایت مثبت را مىپذيرد.
7) در IRT امكان وزندهى دقيق و اصولى به سؤالها وجود دارد. در نتيجه به همه سؤالها نمره يكسانى داده نمیشود.
8) پارامترهای سؤال و آزمودنی در یک مقیاس مشترک و واحد بیان میشود، و در نتیجه تطبیق دشواری و تناسب هر سؤال با توانایی افراد آسانتر خواهد بود.
9) در نظریه کلاسیک مقیاس اندازهگیری حداکثر فاصلهای و حتی احتمالاً در مواردی رتبهای است. در حالی که روشهای IRT ممکن است حتی مقیاس نسبتی ایجاد کنند.
منابع
بیکر، اف. بی. (1381). پایههای اساسی تئوری سؤالپاسخ (نظریههای جدید روانسنجی). ترجمه: حیدرعلی هومن و علی عسگری. تهران: نشر پارسا (تاریخ انتشار اثر اصلی، 2002).
Emberston, S. E. (1996). Item response theory models and spurious interaction effects in factorial ANOVA designs. Applied Psychological Measurement, 20, 201-
212.
Emberston, S. E., & Reise, S. P. (2000). Item response theory for psychologists.
Mahwah, NJ: Laurence Erlbaum Associates, INC.
Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of item response theory. Newbury Park, CA: Sage Press.
Hulin, C. L., Drasgow, F., & Parsons, C. K. (1983). Item response theory: Applications to psychological measurement. Homewood IL: Dow Jones-Irwin.
Kim, S.H., Cohen, A.S., & Park, T.H. (1993). Comparison of item parameters in multiple groups. Paper presented at the annual meeting of the American Educational Research Association, Atlanta, GA.
Lord, F.M. (1980). Applications of item response theory to practical testing problems. New Jersey: Lawrence Erlbaum Associates, Inc.
Molenaar, I. W., & Sijtsma, K. (2000). MIP5 for windows. A program for Mokken scale analysis for polytomous item[computer software]. Groningen The Netherlands: iec ProGramma.
Wright, B. D. (1992). IRT in the 1990s: Which models work best? Rasch measurement transactions, 6 (1), 196-200.
|