منابع پایان نامه درمورد ارزیابی عملکرد

برخوردارند، این نوع خزانه‌ها نسبت به خزانه‌های R و MRP دارای سؤالات کمتری هستند. به طوری‌که میزان دقت و صحت اندازه‌گیری آنها از خزانه‌های MRP در زمانی‌که پهنای b-bin ها برابر با 2/0 است، با تفاوت ناچیزی کمتر است و در زمانی‌که پهنای b-bin ها برابر با 4/0 است، با تفاوت ناچیزی بیشتر است. در کل، این نوع خزانه‌ها، از امنیت بالایی نیز برخوردارند و از سؤالات استفاده‌ی بیشتری می‌کنند.
بنابراین، توصیه می‌شود که، زمانی‌که به صرفه بودن طراحی خزانه‌های سؤال و امنیت آزمون عامل بسیار مهمی می‌باشند، برای کاهش تعداد سؤالات مورد نیاز در خزانه‌ی CAT از روش MTI با کنترل مواجهه‌ی سؤال استفاده شود. امّا، این نکته باید مدّنظر باشد که این خزانه از حداقل مقدار آگاهی برخوردار است. همچنین اگر، در آزمونی دقت و صحت اندازه‌گیری برای طبقه‌بندی و گزینش افراد و امنیت آزمون عوامل مهمی هستند، و به صرفه بودن عامل تعیین کننده‌ای نیست، از روش MRP استفاده شود. زیرا بدون توجه به پهنای b-bin ها، از دقت و آگاهی بالایی در تمام سطوح اندازه‌گیری برخوردارند.
طراحی خزانه‌ی سؤال بهینه با در نظر گرفتن تعادل محتوایی در اجرای CAT
در این مرحله، خزانه‌های سؤال بهینه با در نظر گرفتن عامل تعادل محتوایی و وزن‌های محتوایی از پیش تعیین شده، طراحی شدند. به طوری‌که، محتوای آزمون CAT، توسط متخصصان موضوعی مشخص شد و پس از توافق کامل میان 5 متخصص، محتواها به کدهای معینی تبدیل شدند. محتواها به سه مجموعه‌ی اصلی (حسابان-دیفرانسیل، هندسه، جبر) تقسیم بندی شدند. به دنبال آن هر یک از مجموعه‌ها به زیر مجموعه‌های معین (به ترتیب، 18، 16 و 11) تقسیم بندی شدند. سپس از طریق روش برنامه نویسی ریاضی کدهای مربوط به هر یک از محتواها، وارد برنامه‌ی طراحی خزانه‌ی سؤال بهینه شدند. در این پژوهش از روش برنامه‌نویسی خطی (ریاضی) (WDM) برای تعیین محتواها و ایجاد تعادل محتوایی در خزانه‌های سؤال استفاده شد. از طریق این روش تست‌های سنجش انطباقی برای 6000 نفر سرهم شدند. در این روش، ابتدا پیش‌بینی جستجوی راه حلّ برای تست کامل صورت گرفت و همزمان هم قابل حلّ بودن و هم بهینه بودن تست در نظر گرفته شد. این روش جزء روش‌های شهودی حلّ مسائل سرهم کردن تست می‌باشد. با کاربرد روش WDM به صراحت ویژگی‎های آماری و غیر آماری سؤال‌ها با تعادل مطلوبی بین ویژگی‌های اندازه‌گیری و ساختاری در نظر گرفته می‌شود. این ویژگی‌ها به‌وسیله‌ی وزن‌هایی که توسط طراحان تست انتخاب شد، در مدل وارد شدند. به عبارت دیگر، ویژگی‌های محتوایی به عنوان اهداف فرمول‌بندی شدند. انحراف از اهداف محتوایی وزن داده شد و در تابع هدف به همراه فاصله‌ی آگاهی سؤال از مقدار هدف قرار داده شد. انتخاب سؤالات در CAT، بر اساس رویکرد WDM به شکلی تنظیم شد که سؤالاتی انتخاب شوند که به‌طور متوالی کوچکترین مجموع انحرافات وزن‌دار را داشته باشند. برای انتخاب یک سؤال از سه گام پیروی شد: 1). اگر سؤالی که قبلاً در تست نبوده به تست اضافه شود، انحراف برای هر یک از قیود محاسبه شود. 2). انحرافات وزن‌دار در میان همه‌ی قیود جمع شود. 3). در پایان، سؤالی با کوچکترین مجموع وزن‌دار انحرافات انتخاب شود.
در این روش مدل‌یابی، سؤالات به صورت نشان داده می‌شود، متغیر تصمیم‌گیری را نشان می‌دهد. اگر سؤال در تست وارد شود، و اگر سؤال از تست خارج شود . در این مدل صفات تست همراه قیود غیر روان‌سنجی را نشان می‌دهد. حدود پایین و بالای تعداد سؤالاتی که در آزمون دارای چنین ویژگی‌هایی هستند را به ترتیب با و نشان می‌دهد، البته ممکن است گاهی با یکدیگر برابر باشد. همچنین، اگر سؤال دارای ویژگی باشد، . و اگر سؤال دارای ویژگی نباشد، . تعداد سؤالات در خزانه را نشان می‌دهد، وزن اختصاص داده شده به هر قید را نشان می‌دهد، و به ترتیب کسری حد پایین و مازاد حد بالا را نشان می‌دهند. و ، به ترتیب، اضافی حد پایین و کسری حد بالا را نشان می‌دهد. انحراف از آگاهی هدف را برای یک آزمودنی نشان می‌دهد. دو جدول 4-15 و 4-16 به صورت خلاصه اطلاعات مربوط به توابع هدف و قیود مربوط به آن را نشان می‌دهد. قیود تست به عنوان ویژگی‌های غیر آماری یا غیر روان‌سنجی، به همراه ویژگی‌های آماری وارد شبیه‌سازی‌های روش اکتشافی مرحله‌ی قبل می‌شود. سپس، انحرافات از این قیدها برای هر یک از 6000 تعداد CAT که از کل خزانه‌ی بهینه سرهم می‌شود، محاسبه می‌گردد. به طور کلی، در این مرحله تلفیقی از دو رویکرد برنامه‌نویسی ریاضی و رویکرد اکتشافی به چشم می‌خورد.
به دلیل کنترل عامل پهنای b-bin ها، در این مرحله، تنها از پهنای 2/0 در شبیه‌سازی ها استفاده شد و از بررسی عامل پهنای b-bin در خزانه‌هایی با کنترل محتوایی صرف‌نظر شد. امّا، عامل کنترل مواجهه یکی از مهمترین عوامل موثری است که در این مرحله دستکاری می‌شود. در قسمت زیر، ابتدا در مرحله‌ی اول نتایج مربوط به خزانه‌هایی که با تعادل محتوایی و بدون عامل کنترل مواجهه طراحی شدند و سپس در مرحله‌ی دوم نتایج مربوط به خزانه‌هایی که علاوه بر تعادل محتوایی، مواجهه‌ی سؤال را نیز کنترل می‌کنند، را گزارش می‌کنیم.
جدول 4-15: اطلاعات مربوط به قیود و وزن‌های آزمون‌های CAT در مورد بیشینه‌ کردن آگاهی تست
تابع هدف: به حداکثر رساندن تابع هدف
در ارتباط با قیود زیر
قید
کد قید
وزن
حداقل
حداکثر
طول تست
Test lenght
N1
25
25
N2
20
20
N3
15
15

 

اینجا فقط تکه های از پایان نامه به صورت رندم (تصادفی) درج می شود که هنگام انتقال از فایل ورد ممکن است باعث به هم ریختگی شود و یا عکس ها ، نمودار ها و جداول درج نشوند.

برای دانلود متن کامل پایان نامه ، مقاله ، تحقیق ، پروژه ، پروپوزال ،سمینار مقطع کارشناسی ، ارشد و دکتری در موضوعات مختلف با فرمت ورد می توانید به سایت  77u.ir  مراجعه نمایید

رشته روانشناسی و علوم تربیتی همه موضوعات و گرایش ها :روانشناسی بالینی ، تربیتی ، صنعتی سازمانی ،آموزش‌ و پرورش‌، کودکاناستثنائی‌،روانسنجی، تکنولوژی آموزشی ، مدیریت آموزشی ، برنامه ریزی درسی ، زیست روانشناسی ، روانشناسی رشد

در این سایت مجموعه بسیار بزرگی از مقالات و پایان نامه ها با منابع و ماخذ کامل درج شده که قسمتی از آنها به صورت رایگان و بقیه برای فروش و دانلود درج شده اند

تعداد زیر مجموعه‌های تست
Number of test sets
18
18
16
16
11
11
تعداد سؤالات در زیر مجموعه‌های تست
Number of item in test sets
For example :
1
3
تعداد سؤالات در هر سطح شناختی
Number of item per cognitive level
سه حوزه‌ی شناختی:
به کار بستن: h1
تجزیه و تحلیل: h2
ترکیب: h3
1
7
جدول 4-16: اطلاعات مربوط به قیود و وزن‌های آزمون‌ها در مورد به حداقل رساندن انحرافات از قیود
تابع هدف: به حداقل رساندن میزان انحرافات وزن دار
در ارتباط با قید زیر
ساخت خزانه‌های سؤال بدون کنترل مواجهه‌ی بیش از حد سؤال
ساخت خزانه‌های سؤال با b-bin=0.2
در این مرحله خزانه‌های بهینه‌ای که با عامل کنترل تعادل محتوایی و بدون عامل کنترل مواجهه‌ی S-H ساخته شدند، گزارش می‌شود. با وجود این‌که، شبیه‌سازی CAT برای کل سه محتوا، به صورت همزمان انجام گردید، به منظور اینکه، توزیع پارامترهای سؤال در هر یک از محتواها معین شود، در جداول جداگانه‌ای توزیع پارامترهای مربوط به هریک از خزانه‌های مربوط به محتواهای سه گانه، در قسمت ضمیمه گزارش می‌شود.
نمودار 14 تا 16 در قسمت ضمیمه (ب) و همچنین، جداول 1 و 14 تا 24 در قسمت ضمیمه‌ی (الف)، توزیع‌های خزانه‌‌های سؤال عملیاتی در سه محتوا و خزانه‌های سؤال بهینه‌‌ای که از طریق سه روش R، MRP، MTI با پهنای b-bin = 0.2، میزان a-bin: Δa2=2ΔIMaximum = 0.4 و بدون هیچ روش کنترل مواجهه‌ای، شبیه‌سازی شدند را نشان می‌دهد. به دلیل اینکه، توزیع خزانه‌های سؤال در هر یک از محتواها از یکدیگر تفکیک شود، پس از ایجاد خزانه‌های سؤالی که با تعادل محتوایی ساخته شدند، توزیع‌های هر کدام از سه محتوا در جداول جداگانه گزارش می‌شود. جدول 4-17، اندازه‌ها و خلاصه‌ی آماره‌های مربوط به پارامترهای سؤال در خزانه‌های سؤال بهینه و عملیاتی را در سه محتوای ارائه می‌کند. نتایج نشان می‌دهد که در این مرحله با این‌که در ساخت خزانه‌های سؤال بهینه، وزن‌های محتوایی نیز وارد می‌شود، باز هم شامل حداقل تعداد سؤال می‌باشند. البته یکی از دلایل آن می‌تواند این قضیه باشد که در ساخت آنها هیچ نوع کنترل مواجهه‌ای صورت نگرفته است. همچنین، برعکس نتایج مربوط به خزانه‌هایی که بدون تعادل محتوایی ساخته شده است، همه‌ی خزانه‌های بهینه با تعادل محتوایی دارای سؤالاتی با دامنه‌ی محدودی از سطوح دشواری هستند. دلیل این امر این است که زمانی که قیود محتوایی در تعامل با ویژگی‌های روان‌سنجی قرار می‌گیرند، خزانه‌های سؤال بهینه‌ی شبیه‌سازی دارای ویژگی‌های روان‌سنجی دقیق‌تری می‌شوند، به طوری‌که، دامنه‌ی دشواری سؤلات معین‌تر می‌شود. خزانه‌های سؤال بهینه دارای میانگین دشواری بالاتری نسبت به خزانه‌های عملیاتی هستند و مانند خزانه‌های بدون تعادل محتوایی تا 99/3- پراکنده نشدند. در این مرحله نیز خزانه‌ی بهینه‌ی MTI در هر سه محتوا دارای حداقل تعداد سؤل است، ولی تفاوت زیادی با خزانه‌های MRP ندارد. در این مرحله خزانه‌های MTI دارای حداقل میانگین پارامتر a نمی‌باشند، دلیل این امر تعامل ویژگی‌های محتوایی و پارامترهای روان‌سنجی است. با این وجود، خزانه‌های بهینه‌‌ی MRP دارای بیشترین مقدار پارامتر a هستند. ولی، خزانه‌های بهینه‌ی R و MTI دارای میانگین پارامتر a مشابهی هستند. خزانه‌های MTI به دلیل ماهیت ایحاد سؤالاتشان بیشترین مقدار پارامتر a آن نسبت به خزانه‌های دیگر حداقل است و کمترین مقدار پارامتر a آن نیز نسبت به خزانه‌های دیگر بیشتر است. به عبارت دیگر، دارای حداقل میزان پراکندگی در پارامتر a است. توزیع خزانه‌های سؤال R نسبت به دو خزانه‌ی دیگر دارای یک توزیع یکنواخت‌تری در سراسر ماتریس پارامترها می‌باشد، این نتیجه به دلیل ماهیت روشی است که پارامترهای سؤال را ایجاد می‌کند. در این روش، پارامترها در سراسر ماتریس پراکنده می‌شوند. توزیع پارامتر دشواری و تشخیص سؤالات در این روش بسیار مشابه خزانه‌ی عملیاتی است و در تمام محتواها دارای مقادیر پارامتر متنوع‌تری می‌باشد. امّا سؤالات دشوار در خزانه‌های بهینه MRP دارای پارامتر ضریب تشخیص بالاتری هستند، و برعکس سؤالات آسان دارای پارامترهای ضریب تشخیص متوسط یا پایین‌تری هستند. این نتایج باعث می‌شود که تعداد آزمون‌هایی که در خزانه‌های R از قیود محتوایی تخطی می‌کنند، در سرتاسر پارامتر توانایی یکنواخت باشد. خزانه‌های MRP در پارامترهای توانایی بالاتر از متوسط، دارای تخطی از قیود کمتری هستند.
بررسی نتایج عملکرد این خزانه‌ها در جدول 4-18 آورده شده است. نتایج عملکرد این خزانه‌ها با خزانه‌های چهار مرحله‌ی قبل، قابل مقایسه نمی‌باشد، زیرا تعدا سؤالات در این مرحله 3 برابر مراحل قبل است، از این‌رو، یکی از عواملی که میزان دقت خزانه‌هایی که با تعادل محتوایی ساخته می‌شوند را بیشتر می‌کند، تعداد بیشتر سؤالات آن می‌تواند باشد. با این وجود، برآورد توانایی در هر سه خزانه‌ی بهینه و عملیاتی، دارای سطح معینی از اریب مثبت می‌باشد، ولی مقدار این اریب‌ها بسیار ناچیز است. میانگین مجذور خطا (MSE) در خزانه‌های سؤال بهینه کوچکتر از خزانه‌ی سؤال عملیاتی است، ولی تفاوت آنها به چشمگیری مراحل قبل نیست. و در میان خزانه‌های سؤال بهینه‌یMTI عملکرد بهتری در این شاخص نشان می‌دهد، زیرا با برنامه‌ریزی دقیق‌تری با توجه به تعامل میزان حداقل آگاهی با ویژگی‌های محتوایی ایجاد شده است. بنابراین، برآورد توانایی را با دقت بیشتری برآورد می‌کند. خزانه‌های سؤال بهینه دارای نرخ همپوشی پایین‌تری هستند، با وجود اینکه دارای سؤالات کمتری می‌باشند.
جدول 4-17: اندازه‌ی خزانه‌ی سؤال و آماره‌های پارامتر سؤال، بدون S-H (b-bin=0.2)، با تعادل محتوا
خزانه سؤال
اندازه
خزانه
میانگین
انحراف استاندارد
حداکثر
حداقل
میانگین
انحراف استاندارد
حداکثر
حداقل
میانگین
انحراف استاندارد
حداکثر
حداقل
Content 1(arithmetic)
OP
455
089/1
2844/0
045/3
166/0
039/0-
079/1
981/3
596/3-

145/0
0801/0
4179/0
0005/0
ROP_13
230
79/1
277/0
78/2
46/0
016/0
15/1
65/3
82/3-
146/0
07/0
4102/0
001/0
ROP_14
178
012/2
281/0
12/3
95/0
0201/0
063/1
825/3
118/3-
148/0
072/0
43/0
024/0
ROP_15
174
562/1
253/0
324/2
987/0
0146/0
008/1
841/3
592/3-
142/0
064/0
46/0
001/0
Content 2 (geometry)
OP
258
206/1
2245/0
93/2
245/0
0482/0-
094/1
84/3
458/3-
184/0
097/0
476/0
091/0
ROP_13
199
732/1
263/0
654/2
526/0
0875/0-
976/0
55/3
854/3-
171/0
074/0
42/0
01/0
ROP_14
168
882/1
278/0
935/2
921/0
0128/0
047/1
74/3
49/3-

183/0
068/0
46/0
0015/0
ROP_15
167
759/1
272/0
51/2
15/1
0135/0-
993/0
104/3
104/3-
178/0
081/0
48/0
002/0
Content 3 (algebra)
OP
208
356/1
247/0
889/2
538/0
0324/0
018/1
689/3
409/3-
174/0
0754/0
489/0
004/0
ROP_13
183
783/1
268/0
789/2
235/0
0238/0
998/0
532/3
456/3-
181/0
062/0
497/0
003/0
ROP_14
157
148/2
291/0
046/3
95/0
0184/0
994/0
589/3
14/3-
189/0
075/0
465/0
002/0
ROP_15
155
794/1
279/0
489/2
902/0
0109/0-
007/1
598/3
089/3-
184/0
0748/0
45/0
001/0
ارزیابی عملکرد خزانه‌ی سؤال بهینه شبیه‌سازی شده با در نظر گرفتن تعادل محتوایی در اجرای CAT و بدون کنترل مواجهه‌ی سیمپسون-هتر (S-H): (b-bin=0.2)
جدول 4-18: خلاصه‌ی آماره‌های عملکرد خزانه‌ی سؤال، بدون S-H (b-bin=0.2)، با تعادل محتوا
آماره‌ها
OP
R
MRP
MTI
Bias
0052/0
0021/0
00073/0
00199/0
MSE
01745/0
01267/0
01138/0
0076/0
کجی نرخ مواجهه
856/98
402/51
4365/48
494/43
نرخ همپوشی سؤال
5173/0
3765/0
3844/0
3941/0
درصد سؤالاتی با نرخ مواجهه بزرگتر از
%169/8
%634/9
%524/11
%003/10
درصد سؤالاتی با نرخ مواجهه کوچکتر از
%526/51
%531/25
%15/21
%189/19
درصد تست‌هایی که از قیود تست تخطی دارند
%8/54
%002/3
%0013/2
%0015/2
اندازه‌ی خزانه‌ی سؤال
921
612
503
496
نمودار 4-41 نشان می‌دهد که نرخ همپوشی تست در سطوح توانایی زیر 2- در خزانه‌ها‌ی عملیاتی و بهینه تقریباً مشابه است. ولی در بقیه‌ی سطوح نرخ همپوشی خزانه‌های بهینه کمتر از عملیاتی است. میان سه خزانه‌ی بهینه شباهت زیادی در همپوشی تست‌ها وجود دارد و این به خاطر ویژگی مشترک همه‌ی آنها در ایجاد پارامتر b می‌باشد که ارتباط مستقیمی با انتخاب و سرهم شدن تست‌ها دارد. خزانه‌ی سؤال عملیاتی دیگر مانند مراحل قبل دارای کمترین نرخ‌های مواجهه در هر دو انتهای سطوح توانایی نمی‌باشد. زیرا، برنامه‌ی CAT این آزمون طوری طرح ریزی شده که دارای نقطه‌ی برش بالایی است که به سؤالات دشوارتری نیاز دارد. از این‌رو، تنها در سطوح پایین توانایی نرخ همپوشی تست کمتر است. همچنین، خزانه‌های بهینه درصد خیلی کوچک‌تری از کم مواجهه شدن سؤالات را نسبت به خزانه‌ی عملیاتی دارند. نرخ سؤالات بیش مواجهه‌شده در هر سه خزانه تقریباً مشابه و بیشتر از خزانه‌ی عملیاتی است ولی