No Image No Image

اعضای خبرنامه

با عضویت در خبرنامه از آخرین اخبار مطلع شوید!
نام

آدرس ايميل
پیوست
انصراف
No Image
صفحه اصلی arrow شماره یازدهم
No Image
No Image
روي‌آوردهاي نوين در روان‌سنجي PDF چاپ ايميل
نوشته شده توسط Administrator   
01 دي 1386,ساعت 22:52:35
New Approaches to Psychometrics
Part Two : The Basics and Concepts of Item Response Theory (IRT)
قسمت دوم : مباني و مفاهيم نظريه سؤال پاسخ

علي عسگري
دانشجوي دکتري
دانشگاه تهران


نظریه سؤال پاسخ1 یکی از پیشرفته‌ترین نظریه‌های اندازه‌گیری و نقطه مقابل نظریه کلاسیک است. زیرا برخلاف این نظریه بر نمره سؤالها و نه نمره کل تست بنا شده است (بیکر، 1381/2002). در IRT برای تحلیل داده‌های به دست آمده از مقیاسها و پرسشنامه‌ها از مدلهای ریاضی استفاده می‌شود. به مدلهای IRT اغلب مدلهای خصیصه مکنون2 نیز گفته می‌شود. اصطلاح مکنون برای تأکید بر پاسخهای پیوسته سؤالی به کار می‌رود که در واقع نشانگر مشاهده‌پذیر خصائص یا رگه‌هایی است که فرض می‌شود وجود دارد و باید از پاسخها استخراج شود.
مدلهای IRT توابع ریاضی هستند که احتمال یک برونشد3 پیوسته، مانند پاسخ درست به یک سؤال را بر اساس پارامترهای آزمودنی (توانایی، ) و پارامترهای سؤال (دشواری، قدرت تشخیص و حدس) مشخص می‎کند. به بیان‎دیگر، مدلهای IRT مبنایی برای برآورد آماری پارامترهایی است که بیانگر جایگاه آزمودنیها بر روی پیوستار مکنون، یا به گونه دقیقتر، اندازه خصیصه مکنونی است که به آزمودنیها و سؤالها نسبت داده می‎شود. وقتی برآورد پارامترهای مربوط به دست آمد، برای تعیین اندازه و قدرت پیش‎بینی پاسخهای سؤال، بر اساس یک مدل معین، از آزمونهای آماری استفاده می‎شود. آزمونهای آماری برای تعیین این مطلب به کار می‎روند که مدل مورد نظر برای برآورد پارامترها تا چه حد می‎تواند ساختار الگوهای آماری موجود در داده‎ها را، یا به گونه کلی، و یا با در نظر گرفتن زیر مجموعه‎ خاصی از داده‎ها مانند بردار پاسخ مربوط به سؤالها و آزمودنیهای منفرد اندازه‎گیری کند (امبرتسون و رایس، 2000).

مفروضه‌های اساسی IRT

1) نخستین مفروضه IRT اشاره به این مطلب دارد که یک عامل مشترک4، همه کوورایانسهای سؤال را توجیه می‎کند. این عامل مشترک در واقع خصیصه مکنون مورد نظر است که در ادبیات روان‎سنجی معمولاًبه دو گونه بیان می‎شود:
الف) تک‎بعدی بودن5 : یعنی یک و فقط یک عامل مشترک یا خصیصه مکنون وجود دارد که همبستگیهای درونی سؤال را توجیه می‎کند، ب) استقلال مکانی6 : یعنی اگر عامل مشترک تا اندازه‎ای از دو سؤال خارج شود، کوواریانس پسماند7 آنها برابر با صفر خواهد بود. به بیان دیگر، پس از کنترل یک یا چند عامل مشترک، پاسخهای سؤال، ناهمبسته یا مستقل از یکدیگر هستند (امبرستون، 1996؛ هامبلتون، سوامینتان و راجرز، 1991).
2) بر پایه مفروضه دوم، مدلهای پارامتریکIRT توابعی هستند که به گونه تکنوا8 افزایش می‎یابند (یعنی احتمال پاسخ درست به سؤال با افزایش سطح خصیصه مکنون بیشتر می‎شود). این مفروضه را می‎توان از طریق نمودار نمره‎های میانگین سؤال بر روی نمره‎های باقی‎مانده9 بررسی کرد (امبرستون و رایس، 2000؛ مولنار و سیجتسما، 2000).
3) رابطه بین خصیصه مکنون و پاسخ مشاهده شده شکل معینی دارد (لرد، 1980؛ امبرستون، 1996). خطی که خصیصه مکنون و احتمال پاسخ را به یکدیگر مربوط می‎سازد خم ویژه سؤال1 نام دارد. مدل استاندارد ریاضی که برای خم ویژه سؤال به کار می‌رود شکل تراکمی تابع منطقی2 است. این تابع، خانواده‌ای از خمها را تعریف می‌کند که به سبب سادگی کار با آن بر سایر مدلها ترجیح داده شد (بیکر، 1381/2003).

مفاهیم نظریه سؤال‎پاسخ

الف) خم ویژه سؤال: بر پایه نظریه سؤال ‎پاسخ براى هر سطح از توانايى، احتمال معينى وجود دارد كه به‏دست آوردن پاسخ درست به سؤال توسط امتحان‏شونده را در آن سطح مشخص مى‏سازد. اين احتمال كه با نماد نشان داده مى‏شود. چنانچه مقادير به ‏عنوان تابع توانايى رسم شود، نتيجه یک خم هموار خواهد بود (نمودارهای شکل 1). احتمال پاسخ درست در پايين‏ترين سطوح توانايى نزديك به صفر است، و بعد از آن افزايش مى‏يابد تا وقتى كه سطح توانايى به بالاترين حد خود مى‏رسد. در اين هنگام احتمال پاسخ درست نزديك به 1/0 خواهد بود. هر يك از سؤالهاى منفرد سازنده تست داراى يك خم ويژه خاص آن سؤال است.
ب) پارامترهای سؤال: خم ويژه سؤال دارای سه پارامتر است كه براى توصيف آن به‏كار مى‏رود. 1) پارامتر دشوارى سؤال (b) جايگاه سؤال را در مقياس توانايى توصيف مى‏كند و متناظر با نقطه‏اى است كه براى آن باشد. وقتى سؤال آسان باشد اين مقدار در سطح پايين توانايى، و زمانى كه سؤال دشوار باشد اين مقدار در سطح بالاى توانايى قرار دارد مقادیر درجه دشواری سه سؤال مختلف در نمودار الف شکل 1 نشان داده شده است، 2) قدرت تشخيص سؤال(a) نشان مى‏دهد سؤال تا چه اندازه مى‏تواند بين امتحان‏شوندگانى كه توانايى آنها پايين‏تر از جايگاه سؤال است با امتحان‏شوندگانى كه توانايى آنها بالاتر از اين جايگاه قرار دارد، تمايز ايجاد كند. اين ويژگى اساساً منعكس‏كننده شيب خم ويژه سؤال در بخش ميانى آن است. هر چه شيب خم زيادتر باشد، قدرت تشخيص سؤال بيشتر است و مقادیر قدرت تشخیص سه سؤال مختلف در نمودار ب شکل 1 نشان داده شده است و 3) پارامتر حدس (c) بيانگر به دست آوردن پاسخ درست سؤال از طريق حدس محض و در واقع مجانب پایین خم یا نقطه پایینی آن وقتی است که به سمت اعداد منفی در محور توانایی حرکت می‎کند. مقدار (c) به ‏عنوان تابعى از سطح توانايى تغيير نمى‏كند. از اين ‏رو، احتمال به دست آوردن پاسخ درست از طريق حدس براى آزمودنيهايى كه داراى بالاترين و پايين‏ترين سطح توانايى باشند، يكسان است. مقادیر حدس سه سؤال مختلف در نمودار پ شکل 1 نشان داده شده است.
پ) پارامتر آزمودنی: پارامتر آزمودنی بیانگر مقدار خصیصه مکنون در فرد یا جایگاه وی در مقیاس توانایی است. برآورد پارامتر آزمودنی براساس نمره کل فرد در اندازه‎گیری به دست می‎آید. این نمره در واقع نمره وزن‎دار فرد بر پایه مدلی است که شامل پارامترهای تشخیص باشد (هامبلتون و دیگران، 1991). معمولاً در دو مورد نمى‏توان توانايى آزمودنی را برآورد كرد. نخست زمانى كه آزمودنى به هيچ يك از سؤالها پاسخ درست ندهد كه برآورد توانايى متناظر با آن بى‏نهايت منفى است. دوم زمانى كه آزمودنى به همه سؤالها پاسخ درست دهد كه برآورد توانايى متناظر با آن بى‏نهايت مثبت است (بیکر، 1381/2002).
ت) نامتغیر بودن3 پارامترها: بنا بر نظریه سؤال‎ پاسخ، پارامترهای سؤال در بین گروههای مختلف نامتغیر است. به بیان‎دیگر، اگر این پارامترها در گروههای نمونه مختلف برآورد شود، باید مقادیر یکسانی داشته باشند. زیرا بنا بر تعریف، چنانچه قسمتی از خم در اختیار باشد، می‎توان بقیه آن (یعنی مقادیر مورد انتظار) را به دست آورد (هالین و دیگران، 1983). بدین ترتیب پارامترهاى سؤال وابسته به سطح توانايى امتحان‌شوندگان نيست. از اين ‏رو، رها از گروه نمونه4 و در واقع ويژگى خاص خود سؤال و نه ويژگى گروهى است كه به آن پاسخ داده‏اند (بیکر، 1381/2002). چنانكه لرد (1980) نيز بيان مى‏كند ثبات و عدم تغيير پارامترهاى سؤال در بين گروههاى مختلف يكى از مهمترين ويژگيهاى نظریه سؤال ‎پاسخ است. زيرا اين انتظار وجود دارد كه پارامترها يا مشخصه‏هاى سؤال توصيف‏كننده سؤال و تست باشد، و گروه مورد سنجش از طريق پارامترهاى توانائى توصيف و تبيين شوند. این اصل امکان بررسی سهم هر سؤال را به گونه انفرادی و نیز تصمیم‌گیری در بار حذف یا اضافه نمودن آن را در تست فراهم می‌آورد.

افزون بر این، توانایی آزمودنی نیز نسبت به سؤالهايى كه براى برآورد آن به‏كار مى‏رود، نامتغير است. در اينجا براى روشن‏شدن مطلب بهتر است به مطالعه لرد (1980) اشاره ‏شود. لرد دو آزمون سنجش خزانه واژگان را روى 1830 نفر اجرا و مشاهده ‏كرد كه رابطه بين نمره‏هاى توانائيهاى حاصل از اين دو تقريباً يك خط راست است. اگر دو تست براى هر فرد توانائى يكسانى برآورد كند، قاعدتاً نتيجه يك خط راست با رابطه كامل را به نمايش مى‏گذارند. يعنى توانائى آزمودنيها كه براساس نظریه سؤال ‎پاسخ به ‏دست آمده است، تأثير چندانى از ويژگيهاى سؤالهاى دو تست نمى‏پذيرد.
ث) آگاهی1: یکی از ویژگیهای برجسته IRT مفهوم اعتبار است. به گونه سنتی، اعتبار به دقت اندازه‎گیری (میزانی از اندازه‎گیری که رها از خطاست) اشاره دارد. اما بر پایه IRT، دقت در بین دامنه نمره‎های تست یکسان نیست. برای نمونه، نمره‎ها در دامنه‎های کناری تست نسبت به نمره‎هایی که به دامنه میانی نزدیکتر است، به گونه کلی خطای بیشتری دارد. آگاهی از لحاظ آماری به معنای مفهوم مقابل میزان دقت در برآورد یک پارامتر است. از این رو، IRT، مفهوم آگاهی (به معنای کاهش عدم حتمیّت2) سؤال و تست را توسعه داده و جایگزین اعتبار کرده است (امبرستون و رایس، 2000؛ هامبلتون و دیگران، 1991؛ رایت، 1992). چون در این نظریه هر يك از سؤالهاى تست، صفت مكنون زيربنايى را اندازه مى‏گيرد، در نتيجه مقدار آگاهى مبتنى بر يك سؤال منفرد است و مى‏توان آن را براى هر يك از سطوح توانايى محاسبه كرد. چون هر تست به منظور برآورد توانایی آزمودنی به کار می‌رود، مقدار آگاهى را که آن تست در هر یک از سطوح توانایی به دست می‌دهد نیز می‌توان محاسبه کرد. افزون ‎بر این، چون هر تست شامل يك مجموعه سؤال ‏است، بنابراين آگاهى تست در هر سطح معينى از توانايى برابر با جمع ساده آگاهيهاى سؤال در آن سطح خواهد بود.

مزایا و کاربرد IRT

1) IRT خطای استاندارد اندازه‌گیری را بر مبنای تابع آگاهی تست، و نه متوسط خطای استاندارد برای همه سطوح توانایی در نظریه کلاسیک اندازه‌گیری، برآورد می‌کند. این مطلب به متخصصان اجازه می‌دهد تا سؤالهایی را برگزینند که در دامنه خاصی از توانایی یا خصیصه را با بیشترین دقت اندازه‌گیری کنند.
2) بر پایه IRT ین امکان وجود دارد که آزمونهای دقیقی برای اندازه‎گیری هم‎ارزی3 گروههای مختلف تجربی به عمل آید. این امکان، به ویژه در پژوهشهای بین ‎فرهنگی که انتظار می‎رود خصیصه مورد اندازه‎گیری در گروههای مختلف، میانگین متفاوتی داشته باشند از اهمیت زیادی برخوردار است.
3) روشهای IRT می‎تواند تورش1 سؤال را از تفاوتهای حقیقی در خصیصه اندازه‎گیری شده متمایز سازد. اگر خم ویژه سؤال برای دو جامعه یکسان باشد، سؤال تورش‎دار نخواهد بود. اما اگر خم ویژه سؤال یکسان نباشد، به معنای آن است که رفتار و کارکرد سؤال در گروههای مختلف متفاوت است (کیم، کوهن و پارک، 1995).
4) IRT امکان سنجش برازش‎یافته2 را فراهم می‎آورد که در آن برآورد نمره حقیقی بر مبنای تعداد پاسخهای درست قرار ندارد. این مطلب به پژوهشگران اجازه می‎دهد تا به افراد مختلف، سؤالهای متفاوتی بدهند اما جایگاه آنان کماکان در یک مقیاس قرار داشته باشد.
5) IRT سنجش انطباقی3 رایانه‎ای را تسهیل می‎سازد. بدین ترتیب، سؤالهایی انتخاب می‎شوند که برای هر آزمودنی بیشینه آگاهی را به دست می‎دهد. این امکان می‎تواند به گونه چشمگیری هزینه و زمان اجرای تست را کاهش دهد (هالین و دیگران، 1983).
6) نمره‏هاى حقيقى در نظریه کلاسیک اندازه‎گیری دامنه محدودى دارد و محصور به تعداد سؤالهاى تست است. در حالى كه در IRT ، خصیصه مكنون (θ) دامنه‏اى از بی‎نهایت منفی تا بی‎نهایت مثبت را مى‏پذيرد.
7) در IRT امكان وزن‏دهى دقيق و اصولى به سؤالها وجود دارد. در نتيجه به همه سؤالها نمره يكسانى داده نمی‎شود.
8) پارامترهای سؤال و آزمودنی در یک مقیاس مشترک و واحد بیان می‌شود، و در نتیجه تطبیق دشواری و تناسب هر سؤال با توانایی افراد آسان‌تر خواهد بود.
9) در نظریه کلاسیک مقیاس اندازه‌گیری حداکثر فاصله‌ای و حتی احتمالاً در مواردی رتبه‌ای است. در حالی که روشهای IRT ممکن است حتی مقیاس نسبتی ایجاد کنند.

منابع
بیکر، اف. بی. (1381). پایه‎های اساسی تئوری سؤال‎پاسخ (نظریه‎های جدید روان‎سنجی). ترجمه: حیدرعلی هومن و علی عسگری. تهران: نشر پارسا (تاریخ انتشار اثر اصلی، 2002).


Emberston, S. E. (1996). Item response theory models and spurious interaction effects in factorial ANOVA designs. Applied Psychological Measurement, 20, 201-
212.
Emberston, S. E., & Reise, S. P. (2000). Item response theory for psychologists.
Mahwah, NJ: Laurence Erlbaum Associates, INC.
Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of item response theory. Newbury Park, CA: Sage Press.
Hulin, C. L., Drasgow, F., & Parsons, C. K. (1983). Item response theory: Applications to psychological measurement. Homewood IL: Dow Jones-Irwin.
Kim, S.H., Cohen, A.S., & Park, T.H. (1993). Comparison of item parameters in multiple groups. Paper presented at the annual meeting of the American Educational Research Association, Atlanta, GA.
Lord, F.M. (1980). Applications of item response theory to practical testing problems. New Jersey: Lawrence Erlbaum Associates, Inc.
Molenaar, I. W., & Sijtsma, K. (2000). MIP5 for windows. A program for Mokken scale analysis for polytomous item[computer software]. Groningen The Netherlands: iec ProGramma.
Wright, B. D. (1992). IRT in the 1990s: Which models work best? Rasch measurement transactions, 6 (1), 196-200.

تاريخ بروز رساني ( 02 دي 1386,ساعت 11:09:14 )
 
< بعد   قبل >
No Image
No Image No Image No Image

جستجو

اخبار علمی

سایتهای مرتبط

APA
IUPsyS
PsycINFO
No Image Persian Gulf Copyright (C) 2007 by PishroPars Information Technologists Co No Image