منابع پایان نامه درمورد ارزیابی عملکرد

می‌شود. همچنین این روش می‌تواند زمانی که کنترل مواجهه‌ی سؤال و سیستم امنیتی آزمون از اهمیت به‌سزایی برخوردار است نیز به‌کار رود. همچنین، تعادل محتوایی متنوع یکی از مهمترین مولفه‌ها در سنجش انطباقی می‌باشد که می‌توان آن را در الگوریتم‌های انتخاب سؤال CATگنجاند.
طراحی خزانه‌ی سؤال بهینه در مدل‌های دو و سه پارامتری
در این پژوهش، ما از دو خزانه‌ی عملیاتی که به صورت جداگانه در برنامه‌ی CAT ذخیره شدند، استفاده کردیم. خزانه‌ی سؤال عملیاتی اصلی اولیه، در سه محتوای اصلی و کلی (حسابان-دیفرانسیل، هندسه و جبر) طراحی شد، به طوری‌که، سؤالات برای هر یک از آزمون‌های CAT بر اساس وزن مشخصی که متخصصان موضوعی تعیین کردند، انتخاب شدند و شامل 921 سؤال بود. خزانه‌ی عملیاتی دوم که تنها از ذخیره‌ی سؤالات حسابان و دیفرانسیل تشکیل شد، بدون هیچ گونه وزن محتوایی برای اجرای CAT طرح ریزی شد و شامل 455 سؤال بود.
در این پژوهش، یکی از متغیرهایی که دستکاری شد، عامل تعادل محتوایی بود. از این‌رو، در عمل، دو اجرای واقعی CAT با تعادل محتوایی و بدون تعادل محتوایی در این پژوهش صورت گرفت. به منظور کنترل عامل تعادل محتوایی و همچنین، ایجاد مبنایی برای مقایسه‌ی نتایج خزانه‌ی سؤال بهینه‌ای که بدون عامل تعادل محتوایی شبیه‌سازی شدند با خزانه‌ی سؤال عملیاتی، در اولین مرحله‌ی اجرای واقعی آزمون CAT ، این پیش فرض قرار داده شد که تنها از خزانه‌ی مربوط به محتوای حسابان-دیفرانسیل آزمون گرفته شود و هیچ عامل کنترل کننده‌ی محتوایی بر انتخاب سؤال وارد نشود. بنابراین، سیستم CAT عملیاتی، به شکلی تنظیم شد که از خزانه‌ی سؤال 455 تایی، برای هر آزمودنی 20 سؤال حسابان – دیفرانسیل انتخاب و اجرا شود. این آزمون به صورت آنلاین بر روی 350 نفر دانش‌آموز مقطع پیش دانشگاهی اجرا شد. نتایج بدست آمده در این مرحله‌ی اجرایی با نتایج خزانه‌های سؤال بهینه‌ی شبیه‌سازی شده بدون در نظر گرفتن عامل تعادل محتوایی در شبیه‌سازی خزانه‌های بهینه‌ی سؤال مقایسه شد. در مرحله‌ی دوم، آزمون CAT، 60 سؤالی با وزن محتوایی مشخص، از یک خزانه‌ی 921 سؤالی انتخاب و بر روی 350 نفر دیگر که متعلق به همان جامعه بودند، اجرا شد. نتایج این اجرا، مبنا و محکی برای بررسی عملکرد خزانه‌های سؤال بهینه‌ای شد، که بر اساس عامل تعادل محتوایی و ایجاد وزن‌های محتوایی بوسیله‌ی روش WDM طراحی شدند.
در این فصل، ابتدا نتایج مربوط به خزانه‌هایی که بدون عامل تعادل محتوایی طرح‌ریزی شدند و سپس، خزانه‌هایی که بر اساس عامل تعادل محتوایی طرح ریزی شدند بررسی می‌شوند.
طراحی خزانه‌ی سؤال بهینه بدون در نظر گرفتن تعادل محتوایی در اجرای CAT
در این قسمت، نتایج مربوط به خزانه‌هایی که بدون عامل تعادل محتوایی طراحی شدند گزارش می‌شود. این برنامه بر اساس یک آزمون CAT، 20 سؤالی با یک محتوای مشخص و بدون در نظر گرفتن زیر محتواهای مربوط به درس حسابان-دیفرانسیل پایه‌ریزی شده است. در این قسمت با دستکاری دو عامل پهنای b-bin و عامل کنترل مواجهه‌ی سیمپسون-هتر (S-H ) چهار مرحله‌ی مجزا گزارش خواهد شد.
ساخت خزانه‌های سؤال بدون کنترل مواجهه‌ی بیش از حد سؤال
ساخت خزانه‌های سؤال با b-bin=0.2
نمودار 1، 2، 3 و 4 در قسمت ضمیمه (ب) و همچنین، جداول 1، 2، 3 و 4 در قسمت ضمیمه‌ی (الف)، توزیع‌های خزانه‌‌ی سؤال عملیاتی (حسابان-دیفرانسیل) و سه خزانه‌ی بهینه‌ای که از طریق روش R، MRP، MTI با پهنای b-bin = 0.2، میزان a-bin: Δa2=2ΔIMaximum = 0.4 و همچنین با فرض این‌که هیچ روش کنترل مواجهه‌ای روی سؤالات اعمال نشده است، شبیه‌سازی شدند را نشان می‌دهد. جدول 4-7 اندازه‌ها و خلاصه‌ی آماره‌های مربوط به پارامترهای سؤال در خزانه‌ها را ارائه می‌کند. نتایج نشان می‌دهد که خزانه‌های سؤال بهینه شامل حداقل تعداد سؤال می‌باشند. البته این نتیجه تعجب برانگیز نیست، زیرا هر سه خزانه‌ی بهینه با فرض این‌که هیچ روش کنترل مواجهه‌ای بر روی اجرای سؤالات وارد نشده، ساخته شدند، در حالی که خزانه‌ی سؤال عملیاتی بر اساس روش کنترل مواجهه‌ی سیمپسون-هتر ساخته شده است. نتایج نشان می‌دهد که همه‌ی خزانه‌های بهینه دارای سؤالاتی با دامنه‌ی وسیعی از سطوح دشواری یعنی تقریباً از 99/3 تا 99/3- می‌باشند. به عبارت دیگر، سؤالات در خزانه‌ها‌ی بهینه، نسبت به خزانه‌های عملیاتی، دارای دامنه‌ی تقریباً بزرگتری از ضرایب دشواری هستند. خزانه‌ی عملیاتی دارای تعداد زیادی سؤال با پارامتر b بین 5/0- تا 5/2 می‌باشد و از 98/3 تا 59/3- پراکنده شده است. در حالی که، خزانه‌های بهینه توزیع تا حدودی بزرگتری در میان b-bin ها دارند. خزانه‌ی بهینه‌ی MTI (ROP_3) شامل حداقل تعداد سؤل است و میانگین پارامتر a سؤالات آن نسبت به خزانه‌های دیگر، کوچکتر است و از 05/1 تا 42/2 پراکنده شده‌اند. خزانه‌ی سؤالR (ROP_1) دارای یک توزیع یکنواخت در سراسر ماتریس پارامترها می‌باشد، این نتیجه به دلیل ماهیت روشی است که پارامترهای سؤال را ایجاد می‌کند. در این روش، پارامترها در سراسر ماتریس پراکنده می‌شوند. توزیع پارامتر دشواری سؤالات در این روش بسیار مشابه خزانه‌ی عملیاتی است. سؤالات دشوار در خزانه‌ی بهینه MRP (ROP_2) دارای پارامتر ضریب تشخیص بالاتری هستند، و سؤالات آسان دارای پارامترهای ضریب تشخیص متوسط یا پایین‌تری هستند. بررسی نتایج عملکرد این خزانه‌ها در جدول 4-8 آورده شده است. برآورد توانایی در هر سه خزانه‌ی بهینه و عملیاتی، دارای سطح معینی از اریب مثبت می‌باشد، با این وجود، مقدار این اریب‌ها در خزانه‌های بهینه ناچیز است. میانگین مجذور خطا (MSE) در خزانه‌های سؤال بهینه کوچکتر از خزانه‌ی سؤال عملیاتی است. و در میان خزانه‌های سؤال بهینه، MRP (ROP_2) عملکرد بهتری در این شاخص نشان می‌دهد. همچنین نتایج نشان می‌دهد که خزانه‌های سؤال بهینه با وجود این‌که دارای سؤالات کمتری می‌باشند، دارای نرخ همپوشی پایین‌تری هستند. این نتیجه نشان می‌دهد که نرخ همپوشی تست با اندازه‌ی خزانه‌ی سؤال رابطه ندارد و رابطه‌ی آن به ترکیب بهینه‌ی سؤالات بستگی دارد.
جدول 4-7: اندازه‌ی خزانه‌ی سؤال و آماره‌های پارامتر سؤال، بدون S-H (b-bin=0.2)
خزانه سؤال
اندازه
خزانه

میانگین
انحراف استاندارد
حداکثر
حداقل
میانگین
انحراف استاندارد
حداکثر
حداقل
میانگین
انحراف استاندارد
حداکثر
حداقل
OP
455
089/1
2844/0
045/3
166/0
039/0-
779/0
981/3
596/3-
145/0

0801/0
4179/0
0005/0
ROP_1
284
67/1
27/0
75/2
88/0
024/0
03/1
99/3
99/3-
146/0
077/0

 

اینجا فقط تکه های از پایان نامه به صورت رندم (تصادفی) درج می شود که هنگام انتقال از فایل ورد ممکن است باعث به هم ریختگی شود و یا عکس ها ، نمودار ها و جداول درج نشوند.

برای دانلود متن کامل پایان نامه ، مقاله ، تحقیق ، پروژه ، پروپوزال ،سمینار مقطع کارشناسی ، ارشد و دکتری در موضوعات مختلف با فرمت ورد می توانید به سایت  77u.ir  مراجعه نمایید

رشته روانشناسی و علوم تربیتی همه موضوعات و گرایش ها :روانشناسی بالینی ، تربیتی ، صنعتی سازمانی ،آموزش‌ و پرورش‌، کودکاناستثنائی‌،روانسنجی، تکنولوژی آموزشی ، مدیریت آموزشی ، برنامه ریزی درسی ، زیست روانشناسی ، روانشناسی رشد

در این سایت مجموعه بسیار بزرگی از مقالات و پایان نامه ها با منابع و ماخذ کامل درج شده که قسمتی از آنها به صورت رایگان و بقیه برای فروش و دانلود درج شده اند

55/0
007/0
ROP_2
197
78/1
35/0
99/2
84/0
018/0
05/1
99/3
99/3-
142/0
048/0
5124/0
006/0
ROP_3
184
39/1
13/0
42/2
05/1
04/0-
078/1
99/3
99/3-
146/0
08/0
53/0
004/0
ارزیابی عملکرد خزانه‌ی سؤال بهینه شبیه‌سازی شده بدون در نظر گرفتن تعادل محتوایی در اجرای CAT و بدون کنترل مواجهه‌ی سیمپسون-هتر (S-H) (b-bin=0.2)
جدول 4-8: خلاصه‌ی آماره‌های عملکرد خزانه‌ی سؤال بدون S-H (b-bin=0.2)
آماره‌ها
OP
R
MRP
MTI
Bias
033/0
0083/0
0079/0
0081/0
MSE
11/0
091/0
065/0
085/0
کجی نرخ مواجهه
85/33
02/18
82/16
91/14
نرخ همپوشی سؤال
4693/0
4085/0
4094/0
4126/0
درصد سؤالاتی با نرخ مواجهه بزرگتر از
%21/11
%89/11
%21/15
%01/13
درصد سؤالاتی با نرخ مواجهه کوچکتر از
%40
%77/17
%53/13
%25/7
اندازه‌ی خزانه‌ی سؤال
455
284
197
184
نمودار 4-9 نشان می‌دهد که خزانه‌های سؤال بهینه، نرخ همپوشی تست بیشتری در سطوح توانایی زیر 2- نشان می‌دهند، البته، در عمل آزمودنی‌های اندکی در این سطوح توانایی وجود دارد. امّا خزانه‌ی سؤال بهینه‌ی MRP (ROP_2) نسبت به بقیه خزانه‌ها، نرخ همپوشی تست کمتری در سطوح توانایی بالای 2 نشان می‌دهد، دلیل این امر می‌تواند این نتیجه باشد که این خزانه برای سطوح توانایی بالای 2 سؤالاتی با ضریب تشخیص بالای بیشتری ایجاد کرده است، که در این صورت نرخ مواجهه و همپوشی این سؤالات در تست‌هایی که سرهم می‌شوند، کمتر است، و بنابراین این قضیه مانع از همپوشی بالای در این سطح توانایی می‌شود. خزانه‌ی سؤال عملیاتی دارای کمترین نرخ‌های مواجهه در دو انتهای سطوح توانایی می‌باشد. ولی دارای نرخ همپوشی بالایی در وسط توزیع توانایی است. خزانه‌ی R (ROP_1) دارای پایین‌ترین نرخ همپوشی تست در وسط توزیع توانایی است، زیرا اکثریت سؤالاتی که در این روش ساخته می‌شوند، برای افرادی است که در وسط توزیع توانایی قرار می‌گیرند. همچنین، خزانه‌های بهینه درصد خیلی کوچکی از کم مواجهه شدن سؤالات را دارند. البته خزانه‌ی MRP (ROP_2) و MTI (ROP_3) دارای نرخ بالاتری از درصد سؤالات بیش مواجهه شده هستند، که البته به دلیل عدم کنترل مواجهه‌ی سؤالات و تعداد بسیار کمتر سؤال در این دو خزانه‌ی بهینه می‌باشد. طبیعی است که با افزایش تعداد سؤالات در خزانه، نرخ همپوشی و بیش مواجهه شدن کاهش می‌یابد.
نمودار 4-9: نرخ همپوشی تست مشروط به Ɵ بدون S-H (b-bin: 0.2)
نمودارهای 4-10 تا 4-12، نمودارهای مربوط به درصد‌های مواجهه‌ی سؤال در هر یک از سطوح توانایی را نشان می‌دهد. در هر سه خزانه‌ی بهینه، سؤالات خیلی آسان و خیلی دشوار که به ترتیب در سطوح پایین و بالای توانایی ارائه می‌شوند، دارای نرخ‌های مواجهه کوچکتری هستند. بخصوص در خزانه‌ی MRP (ROP_2) سؤالات خیلی دشوار نرخ مواجهه‌ی کمتری دارند، که البته یک دلیل آن می‌تواند این نتیجه باشد که تعداد بیشتری سؤال با ضریب تشخیص بالا در این سطوح ساخته شده است. نتایج نشان می‌دهد که در هر سه خزانه‌ی بهینه، سؤالاتی با سطوح دشواری متوسط بیشترین قابلیت استفاده را داشته اند.
نمودار 4-10: درصد سؤالات بیش مواجهه شده در مدل R (ROP_1) بدون S-H b-bin: 0.2
نمودار 4-11: درصد سؤالات بیش مواجهه شده در مدل MRP (ROP_2) بدون S-H (b-bin: 0.2)

نمودار 4-12: درصد سؤالات بیش مواجهه شده در مدل MTI (ROP_3) بدون S-H (b-bin: 0.2)
نمودار 4-13: متوسط آگاهی تست مشروط به توانایی واقعی در خزانه‌های سؤال بدون S-H (b-bin: 0.2)
همچنان که در نمودار 4-13 ملاحظه می‌کنید، میانگین آگاهی خزانه‌های سؤال به شیوه‌ی متفاوتی در سطوح ثابت توانایی عمل می‌کند. امّا هم خزانه‌ی عملیاتی و هم سه خزانه‌ی بهینه با مقادیر متفاوت، در میانگین توانایی به اوج خود می‌رسند. خزانه‌ی سؤال R (ROP_1) و خزانه‌ی عملیاتی مشابه با هم عمل می‌کنند. خزانه‌ی سؤال عملیاتی، در برخی از سطوح توانایی به خصوص در سطوح 5/1- تا 5/1 نسبت به سه خزانه‌ی دیگر دارای بیشترین مقدار آگاهی است. البته میزان آگاهی آن با خزانه‌ی MRP (ROP_2) بسیار مشابه است و تفاوت آن با خزانه‌ی R (ROP_1) بسیار ناچیز است. در کل، خزانه‌ی MRP (ROP_2) آگاهی بیشتری در اغلب سطوح دشواری و توانایی ایجاد می‌کند. امّا، خزانه‌ی سؤال MTI (ROP_3) در کل دامنه‌ی سطوح توانایی، به طور معناداری آگاهی کوچکتری را ایجاد می‌کند، البته این نتیجه به دلیل ماهیت روشی است که سؤالات ایجاد می‌شود. امّا میزان آگاهی که در طول دامنه‌ی سطوح توانایی ایجاد می‌کند، فراتر از آگاهی هدف می‌باشد.
نمودار 4-14 تا 4-16 خطای استاندارد شرطی اندازه‌گیری (CSEM)، اریب شرطی و میانگین مجذور خطا (CMSE) را در هر چهار خزانه‌ی سؤال نشان می‌دهد. خطای استاندارد اندازه گیری در هر سه خزانه‌ی سؤال بهینه در سطوح توانایی زیر 2- دارای حداکثر مقادیر است. ولی در سطوح دیگر توانایی این مقدار کاهش می‌یابد در سطوح متوسط توانایی این مقدار به حداقل خود می‌رسد، ولی در سطوح بالای توانایی در هر یک خزانه‌ها به صورت متفاوت عمل می‌کند. در هر سه خزانه‌ی بهینه میزان خطای استاندارد اندازه گیری در همه‌ی سطوح توانایی کمتر از خزانه‌ی عملیاتی است، بخصوص در خزانه‌ی MRP (ROP_2) که مقدار خطای اندازه گیری به حداقل مقدار خود، یعنی صفر می‌رسد، دلیل این امر این است که این خزانه برای توانایی‌های بالای 72/1 سؤالاتی با ضریب تشخیص بالاتر ایجاد می‌کند. نمودار 4-15 نشان می‌دهد که در خزانه‌ی عملیاتی میزان اریب در اغلب سطوح توانایی بیشتر از خزانه‌های بهینه می‌باشد. همچنین، در سطوح توانایی پایین و بالای توانایی خزانه‌ی سؤال MTI (ROP_3) از میزان اریب بالاتری نسبت به خزانه‌های بهینه‌ی دیگر برخوردار است. دلیل این نتیجه آن است که در این سطوح توانایی حداقل مقدار آگاهی مورد نیاز برابر با 4/15 بود، که این قضیه باعث می‌شود که سؤالاتی با ضریب تشخیص پایین‌تر در این سطوح ساخته شود که با توجه به طول تست کوتاه این اریب مثبت بوجود می‌آید. ولی در بقیه‌ی سطوح توانایی تفاوت معنادار زیادی بین سه خزانه‌ی بهینه وجود ندارد. همچنین، نمودار 4-16 میانگین مجذور خطا را در سطوح متفاوت توانایی نشان می‌دهد. نتایج این نمودار نشان می‌دهد که MSE هر سه خزانه‌ی بهینه کوچکتر از خزانه سؤال عملیاتی است.
نمودار 4-14: خطای استاندارد اندازه‌گیری (CSEM) در خزانه‌های سؤال بدون S-H (b-bin: 0.2)
نمودار 4-15: اریب شرطی (conditional-Bias) در خزانه‌های سؤال بدون S-H (b-bin: 0.2)
نمودار 4-16: میانگین مجذور خطا (CMSE) در خزانه‌های سؤال بدون S-H (b-bin: 0.2)
ساخت خزانه‌های سؤال با b-bin=0.4
در این مرحله به منظور مقایسه‌ی نتایج مربوط به پهناهای b-bin متفاوت، که میزان دقت های متفاوتی در بیشینه‌ی آگاهی ایجاد می‌کنند، خزانه‌های سؤال بهینه با پهنای b-bin =0.4 ایجاد شدند. نمودار 5، 6 و 7 و در ضمیمه‌ی (ب) و همچنین، جداول 5، 6 و 7 در ضمیمه‌ی (الف) توزیع‌های سه خزانه‌ی بهینه که از طریق روش R، MRP، MTI با فرض این‌که هیچ روش کنترل مواجهه‌ای روی سؤالات اعمال نشده است را نشان می‌دهد. جدول 4-9، اندازه‌ها و خلاصه‌ی آماره‌های مربوط به پارامترهای سؤال در خزانه‌ها را ارائه می‌کند. نتایج نشان می‌دهد که همانند مرحله‌ی قبل خزانه‌ها سؤال بهینه شامل حداقل تعداد سؤال می‌باشند. نتایج نشان می‌دهد که هر سه خزانه‌ی بهینه دارای سؤالاتی با دامنه‌ی وسیعی از سطوح دشواری هستند. با این وجود، در این مرحله نیز سؤالات در خزانه‌ها‌ی بهینه، نسبت به خزانه‌های عملیاتی، دارای دامنه‌ی تقریباً بزرگتری از ضریب دشواری هستند، امّا، نسبت به خزانه‌های بهینه با پهنای 2/0 نیز دارای پراکندگی کمتری در ضریب دشواری هستند. خزانه‌های بهینه‌ای که با این پهنای bin ایجاد شدند، نسبت به خزانه‌هایی که با پهنای 2/0 ایجاد شدند، داری سؤالات کمتری هستند. میانگین پارامتر a سؤالات نسبت به خزانه‌های بهینه با پهنای 2/0 کوچکتر است. همچنین، پراکندگی در پارامتر b در این خزانه‌ها کمتر از