منابع پایان نامه درمورد و

(تبعیض) که آزمودنی‌های متفاوتی، آزمون‌های متفاوتی را دریافت می‌کنند و دشواری اجرای انواع معینی از آزمون‌ها به شکل CAT (لیناکر، 2000؛ 1999).
تاریخچه سنجش انطباقی کامپیوتری
به‌طور‌کلی، همیشه آزمون‌ها به‌منظور برآورده کردن نیازمندی‌های آزمون‌دهندگان و سنجش سطوح عملکرد مورد انتظار داوطلبان آزمون به عنوان یک گروه، ساخته ‌می‌شوند. در‌ واقع، اگر به یک آزمودنی، آزمونی که از سؤالات بسیار آسان تشکیل شده‌است ارائه شود، پاسخ به چنین آزمونی تنها زمان را به هدر می‌دهد و معمولاً رفتارهای ناخواسته‌ی آزمودنی از قبیل اشتباهاتی که از روی بی‌دقتی صورت می‌گیرد را ایجاد می‌کند. معمولاً آزمودنی به‌صورت عمدی پاسخ نادرست در برابر «سؤالات فریبنده» می‌دهد. همچنین، نتایج آزمونی که از سؤالات بسیار دشوار تشکیل شده ‌باشد نیز حاوی اطلاعاتی نمی‌باشد، زیرا داوطلب از تلاش جدی خود برای پاسخ به سؤالات دست بر می‌دارد، و با استفاده از حدس به سؤالات پاسخ می‌دهد، و یا انواع دیگری از رفتارهای ناخواسته از او سر می‌زند (لیناکر، 2000).
آلفرد بینه (1905)، با آزمون هوش خود به پیشرفته‌های عمده‌ای در این حوزه رسید. از آنجایی که علاقه‌ی او تشخیص هوش هر یک از آزمودنی‌ها به‌صورت مجزا بود، بحثی در مورد منصفانه بودن آزمون مطرح نمی‌شد، بحثی که این ضرورت را ایجاد کند که هر فردی آزمون یکسانی دریافت کند. او متوجه شد که می‌تواند آزمون را با هر فرد از طریق طرح ساده‌ی مرتب ‌سازی سؤالات برحسب سطح دشواری‌شان، متناسب کند. او سپس با زیرمجموعه‌ای از سؤالات که فرض می‌کرد با سطح توانایی آزمودنی مطابق است، شروع می‌کرد. اگر آزمودنی در آن زیر مجموعه موفق می‌شد، بینه با زیرمجموعه‌هایی از سؤالات دشوارتری به ‌پیش می‌رفت، تاجایی‌که آزمودنی مکرراً شکست بخورد. اگر آزمودنی در زیرمجموعه اول سؤال شکست می‌خورد، او زیرمجموعه‌هایی از سؤالات آسان‌تر را اجرا می‌کرد، تاجایی که آزمودنی مکرراً موفق شود. از این اطلاعات، بینه سطح توانایی آزمودنی را برآورد می‌کرد (لیناکر، 2000؛ 1998؛ وندر لیندن و گلاس،). شیوه‌ی سنجش انعطاف‌پذیر لرد (1980)، و انواع دیگر آن از قبیل شیوه‌ی مرحله‌ای هنینگ (1987)، و مجموعه تست لوئیسو شین (1990)، روش‌های بهبود یافته‌ای از شیوه‌ی بینه هستند. این شیوه‌ها به‌راحتی می‌توانند به‌وسیله‌ی اجرای شخصی یا بوسیله‌ی کامپیوتر، اجرا شوند. سؤالات در این روش‌ها بر اساس سطح دشواری‌شان طبقه‌بندی می‌شوند، و زیر مجموعه‌های متعددی از سؤالات در هر سطح ایجاد می‌شود. آزمون با اجرای زیرمجموعه‌هایی از سؤالات پیش می‌رود، و برطبق نسبت موفقیت در هر خرده آزمون به طرف بالا یا پایین حرکت می‌کند. بعد از اجرای زیرمجموعه‌های متعدد، برآورد توانایی پایانی آزمودنی بدست می‌آید. هرچند این رویکرد خام است، ولی این روش‌ها می‌توانند به‌طور‌مفیدی نتایج یکسانی مانند تکنیک‌های پیچیده‌تر CAT، ایجاد کنند (یاو، 1991).
استفاده از کامپیوترها، پیشرفت‌های بیشتری در سنجش انطباقی را میسر کرد. اجرای راحت و انتخاب سؤالات به‌سهولت بهتری انجام گرفت. ریکیسی (1974)، نمونه‌ی اولیه‌ی سنجش انطباقی کامپیوتری را ایجاد کرد. در ابتدا، کمیابی، گران‌بودن و دشوار بودن استفاده از نرم‌افزارها و سخت‌افزارهای کامپیوتری، اجرای CAT را محدود می‌کرد. امّا از سال 2000 به بعد CAT جایگاه مناسبی را در سیستم‌های سنجشی پیدا کرد (لیناکر، 2000).
سنجش انطباقی کامپیوتری چگونه کار می کند؟
در سنجش انطباقی کامپیوتری (CAT)، سؤالات به صورت متغیر و چرخشی، بر اساس سطح توانایی آزمودنی انتخاب می‌شوند. برای انتخاب سؤالاتی با مشخصات بهینه‌ی اندازه‌گیری در سطح توانایی برآورد شده‌ی آزمودنی، روش‌های انطباقی به‌کار می‌رود. CAT دارای مزیت‌های مشابهی همانند آزمون‌های دیگری که مبتنی بر کامپیوتر هستند، می‌باشد. این مزیت‌ها عبارتند از؛ افزایش انعطاف و ارتباط با سیستم‌های اجرایی آزمون. علاوه براین، دو مزیت دیگری وجود دارد که تنها مختص CAT می‌باشند، یکی از این مزیت‌ها این است که طول تست می‌تواند تا تقریباً 40 درصد کم شود، بدون آن‌‌که دقت اندازه‌گیری کاهش یابد، همچنین، مزیت دیگر این است که، آزمودنی‌ها با دریافت کردن سؤالاتی که برای آن‌ها خیلی آسان یا خیلی سخت است، نا امید نمی‌شوند (واینر، دورانس، ایگنور، فلاگر، گرین، میسلوی، استنبرگ و تیسن، 1990؛ وندر لیندن و گلاس، 2000).
سیستم‌های CAT، از نظر تئوریکی، روی خصوصیات تئوری سؤال پاسخ (IRT) مبتنی می‌باشد. در IRT پارامترهای توانایی و سؤال جدا از یکدیگرند. فرض بر این است که پارامترهای سؤال، برای مقادیر متفاوت پارامترهای توانایی نامتغیر می‌باشند. بنابراین، سؤالات می‌توانند مدرج شوند و پارامترهای سؤال نیز می‌توانند در خزانه‌ی سؤال مدرج شوند. از داخل همین خزانه‌ها، سؤالاتی که حداکثر آگاهی در پارامتر توانایی برآورد شده فراهم می‌کنند، انتخاب می‌شوند (ولدکمپ، ورشور و ایگن، 2007).
سنجش انطباقی در مورد آزمون‌هایی که دارای سؤالات دو ارزشی هستند، تا حدودی متفاوت با آزمون‌های چند ارزشی (مانند، مقیاس مدرج و اعتبار جزئی) کار می‌کند (لیناکر، 2000). شرح کامل نحوه‌ی کار CAT در این فصل خارج از حوصله می‌باشد. از این‌رو، در این فصل به منظور شرح نحوه‌ی کار آنها، از نمونه‌ای از CAT که در مطالعات مربوط به لیناکر (1990، 1995، 1996، 1998 و 1999) طراحی شده و فلوچارت آنها در نمودار2-1 و 2-2 آورده شده است، استفاده می‌شود در فلوچارتی که برای این دو آزمون آورده شده است (هم CAT که دارای سؤالات دو ارزشی است و هم CAT که دارای سؤالات چند ارزشی است)، دشواری سؤالات در دامنه‌ی 0 تا 100 مدرج شده است. نحوه‌ی شروع آزمون به این نحو است که، الگوریتم انتخاب سؤال اولین سؤال را با توجه به سطح توانایی برآورد شده‌ی آغازین، که به صورت تخمینی برای آزمودنی توسط آزمون گیرنده تنظیم می‌شود، انتخاب می‌کند و یا خود کامپیوتر یک سؤال را به صورت تصادفی انتخاب و اجرا می‌کند، اغلب سیستم طراحی CAT به این صورت است که دشواری سؤال اول را متوسط انتخاب می‌کند. انتخاب سؤال اول برای دقت اندازه‌گیری مهم نیست، ولی برای حالت روانشناختی آزمودنی مهم است (لیناکر، 2000، لیناکر و رایت، 1988). گرشون (1992)، پیشنهاد می‌کند که سؤال اول و حتی همه‌ی سؤالات باید کمی آسان‌تر از سطح توانایی آزمودنی باشند تا به آزمودنی احساس موفقیت دهند، امّا در عین حال، موقعیتی چالش برانگیز را ایجاد کنند. یک قاعده‌ی مهم برای شروع آزمون‌هایی که ملاک مرجع هستند و سطح قبول و رد دارند، این است که، آزمون از سؤالی شروع کند که دشواری‌اش اندکی زیر ملاک قبولی باشد. در هر دو مثال اجرای CAT، فرض بر این است که دشواری سؤال اول 30 واحد است. امّا آزمودنی توانایی معادل با 50 واحد دارد. در مورد CAT چند ارزشی نیز نحوه‌ی شروع به همین صورت است، امّا، تفاوت در این است که شیوه‌ی نمره‌دهی به برخی از گزینه‌های انحرافی که به پاسخ صحیح نسبت به برخی گزینه‌های دیگر نزدیک‌ترند، متفاوت است. این نحوه‌ی اجرا در مورد آزمون‌های نگرش و شخصیت هم صدق می‌کند، به گونه‌ای که نمره‌دهی به طبقات مقیاس مدرج هماهنگ با متغیر زیربنایی است که توسط طراح مشخص می‌شود. فلوچارت‌های زیر اجرای کامل CAT را شرح می‌دهند (لیناکر، ، 2000). همچنین، در نمودار 2-3 فلوچارتی از اجرای کامل CAT آورده شده، که بر اساس مطالعه‌ی هالتیکس، 1993 می‌باشد.
نمودار 2-1: اجرای CAT برای آزمونی با سؤالات دو ارزشی

 

اینجا فقط تکه های از پایان نامه به صورت رندم (تصادفی) درج می شود که هنگام انتقال از فایل ورد ممکن است باعث به هم ریختگی شود و یا عکس ها ، نمودار ها و جداول درج نشوند.

برای دانلود متن کامل پایان نامه ، مقاله ، تحقیق ، پروژه ، پروپوزال ،سمینار مقطع کارشناسی ، ارشد و دکتری در موضوعات مختلف با فرمت ورد می توانید به سایت  77u.ir  مراجعه نمایید

رشته روانشناسی و علوم تربیتی همه موضوعات و گرایش ها :روانشناسی بالینی ، تربیتی ، صنعتی سازمانی ،آموزش‌ و پرورش‌، کودکاناستثنائی‌،روانسنجی، تکنولوژی آموزشی ، مدیریت آموزشی ، برنامه ریزی درسی ، زیست روانشناسی ، روانشناسی رشد

در این سایت مجموعه بسیار بزرگی از مقالات و پایان نامه ها با منابع و ماخذ کامل درج شده که قسمتی از آنها به صورت رایگان و بقیه برای فروش و دانلود درج شده اند

نمودار 2-2: اجرای CAT برای آزمونی با سؤالات چند ارزشی
نمودار2-3: نمونه‌ای از الگوریتم اجرای CAT برای آزمون دارو‌شناسی، بر اساس مطالعه‌ی هالتیکس، 1993
اجرای برنامه‌های سنجش در مقیاس بزرگ از طریق CAT
در بسیاری از برنامه‌های سنجش در مقیاس بزرگ، آزمون‌های مداد-کاغذی با CAT جایگزین شدند. برای مثال، نسخه‌ی CAT آزمون GRE و آزمون استعداد شغلی نیروهای مسلح (ASVAB)، هم اکنون در دسترس می‌باشد. موسسه‌ی ملّی اندازه‌گیری آموزشی (CITO) در هلند، چندین CAT تا به حال اجرا کرده ‌است؛ مانند، MATCAT، (CITO، 1999)، TURCAT، (CITO، 2008)، DSLCAT، (CITO، 2002) و kindergartenCAT. MATCAT، برای تشخیص نقص‌های ریاضی در دانشجویان ایجاد شده‌است (ورشور و استریتمن، 2000). TURCAT، مهارت زبان ترکی را به عنوان زبان دوم سنجش می‌کند، DLSCAT، نیز زبان هلندی را به عنوان زبان دوم سنجش می‌کند، و kindergartenCAT شامل آزمون‌هایی برای اندازه‌گیری ترتیب، زبان، توانایی جهت یابی زمانی و مکانی کودکان می‌باشد (ایگن، 2004). این CATها تقریباً همانند همه‌ی سیستم‌های CAT عملیاتی با کاربرد سؤالاتی در خزانه سروکار دارد که به‌طور متنوعی توزیع می‌شوند (ولدکمپ، ورشور و ایگن، 2007).
مولفههای تعیین‌کننده در طراحی الگوریتم‌های اجرایی CAT
ریکیسی(1989)، چهار مولفه‌ی عمده‌ی CAT را شیوه‌ی انتخاب سؤال اول و به دنبال آن شیوه‌ی انتخاب سؤالات بعدی و نمره‌دهی آزمون در طول اجرای آزمون، قاعده‌ی اتمام آزمون، برآورد توانایی و خزانه‌ی سؤال بیان کرد. در سال‌های اخیر دو مولفه‌ی دیگر به آن اضافه شدند و به‌طور وسیعی وارد مطالعه شده‌اند، این دو مولفه عبارت‌اند از کنترل مواجهه سؤال و تعادل محتوایی. این دو مولفه در انتخاب سؤال محدودیت‌هایی وارد می‌کنند، به‌طوری‌که سؤالاتی انتخاب شوند که نه تنها ویژگی‌های آماری‌شان بلکه ویژگی‌های محتوایی و امنیت آنها نیز مدنظر باشد (برگستروم و لانز، 1999).
الگوریتمهای انتخاب سؤال اول و انتخاب سؤالات بعدی، قواعد اتمام آزمون

دو مولفه‌ی اول CAT به دلیل این‌که به هم مرتبط هستند در این بخش شرح داده می‌شود. الگوریتم‌های انتخاب سؤال برای CAT از قواعدی تبعیت می‌کنند که عبارتند از؛ 1). چه سؤالی باید برای شروع آزمون انتخاب شود، 2). آزمون به چه صورتی ادامه یابد و آزمون به چه صورت نمره داده شود و 3). چه موقع آزمون متوقف شود. پس از اینکه این مراحل انجام شد، برآورد توانایی پایانی و یا نمره پایانی آزمودنی محاسبه می‌شود (پارشال، اسپری، کالن و دیوی، 2002).
شیوه‌ی انتخاب سؤال اولیه
نقطه شروع در CAT به سطح دشواری سؤال آغازین و یا سؤالاتی که برای یک آزمودنی اجرا شده، وابسته است. سه رویکرد برای انتخاب سؤال آغازین وجود دارد:
1). رویکرد بهترین حدس؛ رویکرد اول بیان می‌کند که، سؤالی با دشواری متوسط به عنوان سؤال آغازین اجرا شود. به عبارتی “اگر هیچ اطلاعی در مورد سطح توانایی آزمودنی نداشته باشیم، بهترین حدس ما این است که او همانند اکثریت آزمودنی‌های دیگر عمل می‌کند”.
2). رویکرد تخمین از روی نمرات تست دیگر و یا اطلاعات تست دیگر؛ این رویکرد بیان می‌کند که، برای تصحیح برآورد اولیه‌ی توانایی آزمودنی از آزمون‌های دیگر استفاده کنیم و سپس مناسب‌ترین سطح دشواری را برای سؤال اول انتخاب کنیم.

3). رویکرد شروع آسان؛ تاکید این رویکرد بر این است که، تست را با سؤال آسانی شروع کنیم تا آزمودنی در ابتدا دل‌گرم شود و با امیدواری تست را ادامه دهد (پارشال، اسپری، کالن و دیوی، 2002).
عوامل تاثیرگذار بر انتخاب سؤالات بعدی و شیوه‌ی نمره‌دهی
در CAT، انتخاب سؤال بهینه بر این اساس است که، علاوه بر این‌که کارایی آزمون را به حداکثر می‌رساند، آزمونی با طول کوتاه و در عین حال آگاهی‌دهنده به هر آزمودنی ارائه شود. در حالی‌که، سنجش انطباقی با انتخاب متوالی سؤالاتی که اندازه‌گیری بهینه‌ای در هر سطح توانایی برآورد شده‌ی آزمودنی ایجاد می‌کنند، به کارایی می‌رسد، در برنامه‌های سنجش انطباقی عملیاتی، به‌طور نوعی در انتخاب سؤال باید به عوامل دیگری هم توجه کرد. به‌طور کلی، سؤالات با توجه به حداقل سه هدف اغلب متضاد انتخاب می‌شوند: (1). کارایی آزمون را از طریق اندازه‌گیری سریع و دقیق توانایی آزمودنی افزایش دهد؛ (2). این اطمینان را ایجاد کند که آزمون از لحاظ محتوایی تعادل مناسبی دارد؛ (3). از امنیت خزانه‌ی سؤال، از طریق کنترل نرخی که سؤالات بهینه اجرا می‌شوند، محافظت کند (پارشال، اسپری، کالن و دیوی، 2002؛ پارشال، دیوی و نرینگ، 1998). در این قسمت تنها هدف اول مورد بررسی قرار می‌گیرد، و دو هدف دیگر، به عنوان مولفه‌های دیگر CAT در قسمت‌های مجزایی بررسی می‌شود.
شیوه‌های انتخاب سؤال به منظور افزایش کارایی آزمون و نمره دهی آزمون
در CAT ، سؤالات جدید به‌طور انطباقی با توجه به برآورد موقت سطح توانایی آزمودنی، براساس پاسخ به سؤالات که قبلاً اجرا شده، انتخاب می‌شوند (دیوی، پارشال، 1995). سؤالات برای افزایش کارایی آزمون از طریق سه رویکرد متفاوت انتخاب می‌شوند درحال حاضر، سه روشی که به طور ‌وسیع‌تری برای انتخاب سؤال در سنجش انطباقی به کار‌می‌رود عبارتند از بیشینه آگاهی (MI) (براون و ویس، 1977) و بیشینه‌ی دقت پسین (MPP) (اوون، 1975) و آگاهی وزن‌دار (WI) (پارشال، اسپری، کالن و دیوی، 2002).
1). شیوه‌ی بیشینه‌ی آگاهی انتخاب سؤال
آگاهی سؤال یا آگاهی فیشر معیار متداولی است که از طریق آن سهمی که هر سؤال، سطح توانایی آزمودنی را اندازه‌گیری می‌کند را مشخص می‌کند. به دلیل این‌که، آگاهی سؤال رابطه‌ی معکوسی با واریانس برآورد توانایی دارد، هدف اغلب شیوه‌های انتخاب سؤال این است که تا جایی که امکان دارد میزان آگاهی بیشتری جمع آوری کنند. در مدل سه پارامتری لوجستیک، مقدار آگاهی هر سؤال در هر سطح توانایی بیشتر به پارامتر a سؤال بستگی دارد. تحت ساده‌ترین شیوه‌های انتخاب سؤال CAT، سؤالی که بیشترین میزان آگاهی را در برآورد توانایی دارد، برای اجرا انتخاب می‌شود (براون و وایس، 1977). از همین‌رو روش بیشینه‌ی اطلاعات (MI)، سؤالی را انتخاب می‌کند که مقدار آگاهی فیشر را در برآورد توانایی جدید آزمودنی بیشینه کند. فرض کنید ، تابع پاسخ سؤال را برای سؤال نشان می‌دهد و می‌باشد. بنابراین، برای سؤالی که به صورت دوارزشی نمره داده شده‌ است، آگاهی فیشر بر اساس معادله‌ی (2-1) عبارت است از (لرد، 1980):
(2-1)
؛ احتمال پاسخ درست با معین می‌باشد.
؛ احتمال پاسخ نادرست با معین می‌باشد.
با جایگزین کردن مشخصات مدل معادله‌ی (2-1)، برای مدل سه پارامتری لوجستیک دو ارزشی، معادله به صورت معادله‌ی (2-2) ساده می‌شود (همبلتون، سوامیناتان و راجرز، 1991؛ لرد، 1980):
(2-2)
در معادله‌ی (2-2)، ، ، و ؛ پارامتر ضریب تشخیص سؤال می‌باشد، ؛ پارامتر سطح دشواری سؤال می‌باشد و ؛ پارامتر حدس سؤال ( یعنی احتمال اینکه آزمودنی با خیلی پایین به سؤال پاسخ صحیحی بدهد)، می‌باشد. معادله‌ی (2-2) نشان می‌دهد چنانچه به نزدیک شود و نیز افزایش یابد و به صفر نزدیک شود، آگاهی سؤال افزایش می‌یابد (هملتون و همکاران،

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *