قابليت اعتماد كه واژه هايي مانند پايايي، ثبات و اعتبار براي آن به كار برده ميشود و معادل انگليسي آن Reliability است، يكي از ويژگي هاي ابزار اندازه گيري (پرسشنامه يا مصاحبه يا ساير آزمون هاي علوم اجتماعي) است. مفهوم ياد شده با اين امر سروكار دارد كه ابزار اندازه گيري در شرايط يكسان تا چه اندازه نتايج يكساني به دست مي دهد. در شرکت تحقیقات بازار آزود بخوانید از جمله تعريف هايي كه براي قابليت اعتماد ارائه شده است مي توان به تعريف ارائه شده توسط ايبل و فريسبي (1989) اشاره كرد: «همبستگي ميان يك مجموعه از نمرات و مجموعه ديگري از نمرات در يك آزمون معادل كه به صورت مستقل بر يك گروه آزمودني به دست آمده است.»
با توجه به اين امر معمولا دامنه ضريب قابليت از صفر (عدم ارتباط) تا 1+ (ارتباط كامل) است. ضريب قابليت اعتماد نشانگر آن است كه تا چه اندازه ابزار اندازه گيري ويژگي هاي با ثبات آزمودني و يا ويژگي هاي متغير و موقتي وي را مي سنجد.
لازم به ذكر است كه قابليت اعتماد در يك آزمون ميتواند از موقعيتي به موقعيت ديگر و از گروهي به گروه ديگر متفاوت باشد. براي محاسبه ضريب قابليت اعتماد ابزار اندازه گيري شيوه هاي مختلفي به كار برده ميشود. از آن جمله ميتوان به الف) اجراي دوباره (روش بازآزمايي) ، ب) روش موازي (همتا) ، ج) روش تصنيف (دو نيمه كردن) ، د) روش كودر- ريچاردسون و ساير اشاره كرد.
1- الف) اجراي دوباره آزمون يا روش بازآزمايي
اين روش عبارت است از ارائه يك آزمون بيش از يك بار در يك گروه آزمودني تحت شرايط يكسان. براي محاسبه ضريب قابليت اعتماد با اين روش، ابتدا ابزار اندازه گيري بر روي يك گروه آزمودني اجرا شده و سپس در فاصله زماني كوتاهي دوباره در همان شرايط، آزمون بر روي همان گروه اجرا ميشود. نمرات بدست آمده از دو آزمون مورد نظر قرار گرفته و ضريب همبستگي آنها محاسبه ميشود. اين ضريب نمايانگر قابليت اعتماد (پايايي) ابزار است. روش بازآزمايي براي ارزيابي ثبات مولفه هاي يك ابزار اندازه گيري به كار ميرود ولي با اين اشكال نيز روبه رو است كه نتايج حاصله از آزمون مجدد ميتواند تحت تاثير تمرين (تجربه) و حافظه آزمودني قرار گرفته و بنابراين منجر به تغيير در قابليت اعتماد ابزار اندازه گيري گردد.
1- ب) روش موازي يا استفاده از آزمون هاي همتا
يكي از روشهاي متداول ارزيابي قابليت اعتماد در اندازه گيري هاي رواني- تربيتي استفاده از آزمون هاي همتا است كه شباهت زيادي با يكديگر دارند ولي كاملا يكسان نيستند.
ضريب قابليت اعتماد بر اساس همبستگي نمرات دو آزمون همتا به دست ميآيد. خطاهاي اندازه گيري و كمبود يا عدم وجود همساني ميان دو فرم همتاي آزمون (تفاوت در سوالات يا محتواي آنها) قابليت اعتماد را كاهش ميدهد.
ممكن است فرم هاي همتا به طور همزمان ارائه نگردد. در اين صورت قابليت اعتماد هم شامل ثبات و همساني ميشود. اگر فاصله اجراي فرم هاي همتا زياد باشد و تغييراتي در ضريب قابليت اعتماد مشاهده گردد، ممكن است كه اين تغيير مربوط به عوامل فردي (آزمودني ها)، همتا نبودن آزمون ها و يا تركيبي از هر دو باشد.
1- ج) روش تنصيف (دو نيمه كردن)
اين روش براي تعيين هماهنگي دروني يك آزمون به كار ميرود. براي محاسبه ضريب قابليت اعتماد با اين روش، سوال هاي (اقلام) يك آزمون را به دو نيمه تقسيم نموده و سپس نمره سوال هاي نيمه اول و نمره سوال هاي نيمه دوم را محاسبه ميكنيم. پس از آن همبستگي بين نمرات اين دو نيمه را بدست ميآوريم. ضريب همبستگي به دست آمده براي ارزيابي قابليت اعتماد كل آزمون مورد استفاده قرار ميگيرد. براي محاسبه ضريب قابليت اعتماد كل آزمون از فرمول -اسپيرمن- براون- براي اين مورد استفاده ميشود:
(1+همبستگي بين دو نيمه) / 2 * همبستگي بين دو نيمه = ضريب قابليت اعتماد كل آزمون
براي مثال آزموني با 80 سوال به 35 دانشجوي سال اول ارائه شده است. آزمون به دو نيمه (40 سوال) تقسيم شده است. همبستگي ميان نمرات دو تست r=0.7 ميباشد. قابليت اعتماد كل آزمون به قرار زير است:
2*0.7 / (1+0.7) = 0.82 = ضريب قابليت اعتماد كل آزمون
1- د) روش كودر- ريچاردسون
كودر و ريچاردسون دو فرمول را براي محاسبه هماهنگي دروني آزمون ها ارائه نموده اند. فرمول اول برآوردي از ميانگين ضرايب قابليت اعتماد براي تمام طرق ممكن تنصيف (دو نيمه كردن) را به دست ميدهد. اين ضريب برابر است با:
كه در آن :
n تعداد سوال ها – p نسبت پاسخ هاي صحيح – q نسبت پاسخ هاي غلط – Sبه توان دو:واريانس نمرات كل
فرمول دوم: براي استفاده از فرمول دوم بايد سطح دشواري سوال هاي آزمون يكسان باشد:
كه در آن :
n تعداد سوال ها – Sبه توان دو:واريانس نمرات كل – X بار: ميانگين نمرات
براي محاسبه ضريب قابليت اعتماد با اين روش، نيازي به داشتن نسبت پاسخ هاي صحيح و غلط نيست، بلكه در دست داشتن واريانس نمره هاي كل و ميانگين نمرات كفايت ميكند.
براي مثال، آزموني داراي 40 سوال است. اين آزمون به گروهي از دانش آموزان داده شده است. ميانگين نمره هاي آزمون 25 و واريانس كل 26 محاسبه شده است. سطح دشواري سوال ها نيز يكسان است. ضريب قابليت اعتماد اين آزمون را محاسبه كنيد:
1- ه) روش آلفاي كرونباخ
يكي ديگر از روشهاي محاسبه قابليت اعتماد استفاده از فرمول كرونباخ است. اين روش براي محاسبه هماهنگي دروني ابزار اندازه گيري از جمله پرسشنامه ها يا آزمونهايي كه خصيصه هاي مختلف را اندازه گيري مي كند بكار مي رود. در اين گونه ابزارها، پاسخ هر سوال مي تواند مقادير عددي مختلف را اختيار كند.
براي محاسبه ضريب آلفاي كرونباخ ابتدا بايد واريانس نمره هاي هر زير مجموعه سوال هاي پرسشنامه (يا زير آزمون) و واريانس كل را محاسبه كرد. سپس با استفاده از فرمول زير مقدار ضريب آلفا را محاسبه كرد.
كه در آن:
j = تعداد زير مجموعه سوال هاي پرسشنامه يا آزمون.
s واريانس زير آزمون j ام.
s2 واريانس كل آزمون.
براي مثال اگر پرسشنامه داراي سه زير مجموعه سوال باشد، به طوري كه واريانس هر زير مجموعه به ترتيب 6 ، 4 و 7 بوده و واريانس كل برابر با 32 باشد، مقدار ضريب آلفاي كرونباخ با استفاده از فرمول ياد شده به صورت زير به دست ميآيد:
مقدار صفر اين ضريب نشان دهنده عدم قابليت اعتماد و 1+ نشان دهنده قابليت اعتماد كامل است.
در خصوص آزمون آلفاي كروبناخ مطالب ديگري نيز در بخش آزمون كرونباخ آلفا ارائه شده است.
1- و) عوامل موثر بر ضريب قابليت اعتماد
ضريب قابليت اعتماد يك آزمون تحت تاثير عوامل مختلفي قرار دارد كه عبارتست از :
1- طول آزمون: علي الاصول آزمون هاي طولاني تر از قابليت اعتماد بالاتري در مقايسه با آزمون هاي كوتاه برخوردارند. براي مثال ضريب قابليت اعتماد يك آزمون 60 سوالي ميتواند بيشتر از يك آزمون 40 سوالي باشد.
2- سوال هاي مشابه از نظر محتوا و با سطح دشواري متوسط، قابليت اعتماد آزمون را افزايش ميدهد.
3- ماهيت متغير اندازه گيري شده نيز ضريب قابليت اعتماد را تحت تاثير قرار ميدهد.
لازم به ذكر است كه ضريب قابليت اعتماد در تفسير نتايج مهم بوده و شرط اساسي در انتخاب يك ابزار اندازه گيري است.
اعتبار اندازه گيري (روايي) ابزار اندازه گيري
مفهوم اعتبار (روايي) به اين سوال پاسخ ميدهد كه ابزار اندازه گيري تا چه حد خصيصه مورد نظر را مي سنجد. بدون آگاهي از اعتبار ابزار اندازه گيري نميتوان به دقت داده هاي حاصل از آن اطمينان داشت. ابزار اندازه گيري ممكن است براي اندازه گيري يك خصيصه ويژه داراي اعتبار باشد، در حالي كه براي سنجش همان خصيصه بر روي جامعه ديگر از هيچ گونه اعتباري برخوردار نباشد.
براي مثال يك آزمون رياضي ممكن است براي سنجش توانايي رياضي دانش آموزان پايه پنجم ابتدايي از اعتبار لازم برخوردار باشد اما براي سنجش توانايي رياضي دانش آموزان پايه سوم راهنمايي فاقد اعبتار باشد. روش هاي متعددي براي تعيين اعتبار ابزار اندازه گيري وجود دارد كه در اين جا به اختصار در مورد هر يك توضيح داده خواهد شد؛
2- الف) اعتبار محتوا
اعتبار محتوا نوعي اعتبار است كه معمولا براي بررسي اجزاي تشكيل دهنده يك ابزار اندازه گيري بكار برده ميشود. به عنوان مثال براي يك آزمون پيشرفت تحصيلي بايد اعتبار محتواي آن را مدنظر قرار داد. اعتبار محتواي يك ابزار اندازه گيري به سوال هاي تشكيل دهنده آن بستگي دارد. اگر سوال هاي ابزار معرف وپژگي ها و مهارت هاي ويژه اي باشد كه محقق قصد اندازه گيري آنها را داشته باشد، آزمون داراي اعتبار محتوا است. براي اطمينان از اعتبار محتوا، بايد در موقع ساختن ابزار (مانند طراحي پرسشنامه) چنان عمل كرد كه سوال هاي تشكيل دهنده ابزار معرف قسمت هاي محتواي انتخاب شده باشد. بنابراين اعتبار محتوا ويژگي ساختاري ابزار است كه همزمان با تدوين آزمون در آن تنيده ميشود. اعتبار محتواي يك آزمون معمولا توسط افرادي متخصص در موضوع مورد مطالعه تعيين ميشود. از اين رو اعتبار محتوا به قضاوت داوران بستگي دارد.
2- ب) اعبتار ملاكي
اعتبار ملاكي عبارتست از كارآمدي يك ابزار اندازه گيري در پيش بيني رفتار يك فرد در موقعيت هاي خاص. براي اين منظور عملكرد هر فرد در آزمون با يك ملاك مقايسه ميشود. به عبارت ديگر اعتبار ملاكي يك ابزار اندازه گيري عبارتست از همبستگي بين نمرات آزمون و نمره ملاك. اعتبار ملاكي بر دو نوع است:
1- اعتبار پيش بين ، 2- اعتبار همزمان
1-اعتبار پيش بين: در اندازه گيري هاي رواني- تربيتي، اعتبار پيش بين عبارتست از بررسي رابطه نمره هاي آزموني كه برخي ويژگي ها را مي سنجد و آن چه ادعاي پيش بيني آن را دارد. اعتبار پيش بين ميتواند به وسيله رابطه عملكرد در يك آزمون با آزمون ملاك رفتاري به دست آيد. به عبارت ديگر ضريب همبستگي نمره هاي حاصل از اجراي آزمون با نمره هاي متغير ملاك، نمايانگر اعتبار پيش بين است. براي مثال در يك تحقيق، 882 مرد و زن به يك آزمون رغبت شغلي پاسخ گفته اند. آزموني ها 12 ساله بودند و در 19 سالگي مجدد مورد بررسي قرار گرفتند. 51 درصد به شغلي كه در آزمون انتخاب كرده بودند اشتغال داشتند. اين داده ها اعبتار پيش بين اين ابزار را نشان ميدهد.
2- اعتبار همزمان: اعتبار همزمان در مواردي به كار ميرود كه داده هاي حاصله از دو اندازه گيري در يك زمان در دسترس باشد. در اين گونه موارد عملكرد در يك آزمون به عملكرد در آزمون ديگر مرتبط ميگردد. اين فرايند اعتبار همزمان ناميده ميشود. اعتبار همزمان در مواردي محاسبه ميشود كه هدف جانشين كردن يك ابزار اندازه گيري به جاي ابزار ديگري باشد. اين امر بيشتر به علت ملاحظات مربوط به سهولت اجراي آزمون يا جانشين كردن يك آزمون كوتاهتر به جاي يك آزمون طويل تر است. در اين مورد نيز ضريب همبستگي بين نمره هاي حاصل از اجراي آزمون با نمره هاي بدست آمده از اجراي آزمون ديگر يا اندازه هاي حاصل از اندازه گيري ديگري كه همزمان به عمل آمده است به عنوان ميزان اعتبار اندازه گيري به كار ميرود.
2-ج) اعتبار سازه
اعتبار سازه يك ابزار اندازه گيري نمايانگر آن است كه ابزار اندازه گيري تا چه اندازه يك سازه يا خصيصه اي را كه مبناي نظري دارد مي سنجد. در بررسي اعتبار سازه بايد به تدوين فرضيه هايي درباره مفاهيم اندازه گيري شده، آزمودن اين فرضيه ها و محاسبه همبستگي نتايج با اندازه گيري اوليه پرداخت. اگر ضريب همبستگي حاصله بالا باشد اعتبار سازه افزايش مييابد ولي اگر همبستگي معني دار نباشد علت را ميتوان به عوامل زير نسبت داد:
1- جمع آوري داده ها با اشكال همراه بوده است.
2- پيش بيني و فرضيه ها غلط بوده است.
3- ابزار، خصيصه مورد نظر را اندازه گيري نميكند.
اگر چه فرايند برقراري اعتبار سازه امر بي انتهايي است ولي محقق يا سازنده آزمون ميتواند اعتبار سازه يك آزمون را در موقعيت هاي خاص نشان دهد.
از جمله شيوه هايي كه براي تعيين اعتبار سازه به كار ميرود موارد زير است:
1- تفاوت هاي گروهي: اگر نظريه اي تفاوتي را بين گروهها (يا هيچ تفاوتي را) در نمرات آزمون پيش بيني كند، آزموني كه اين تفاوت را نشان دهد (يا ندهد) داراي اعتبار سازه است. براي مثال پيش بيني ميشود كه كودكان و بزرگسالان در بلوغ اجتماعي با هم تفاوت دارند. بنابراين اگر آزموني كه براي اندازه گيري خصيصه بلوغ اجتماعي ساخته شده باشد، تفاوت معني داري را بين كودكان و بزرگسالان نشان دهد داراي اعتبار سازه است.
2- تغييرات: چنانچه نظريه اي پيش بيني كند كه خصيصه مورد اندازه گيري تحت تاثير زمان يا مداخله آزمايشي قرار مي گيرد، اگر نمرات آزمون اين تاثير را نشان دهد داراري اعتبار سازه است. براي مثال اگر آزموني مهارت هاي كلامي را مي سنجد بايد با افزايش سن آزمودني ها نمرات افزايش يابد، يا اگر مداخله اجتماعي براي پرورش اين مهارت ها صورت گرفته باشد نمرات پيش آزمون و پس آزمون بايد تغييرات معني داري را نشان دهد.
3- اعتبار همگرا و واگرا (تشخيصي): هر گاه يك يا چند خصيصه از طريق دو يا چند روش اندازه گيري شوند همبستگي بين اين اندازه گيري ها دو شاخص مهم اعتبار را فراهم مي آورد. اگر همبستگي بين نمرات آزمون هايي كه خصيصه واحدي را اندازه گيري ميكند بالا باشد، آزمون ها داراي اعتبار همگرا ميباشد. چنانچه همبستگي بين آزمون هايي كه خصيصه هاي متفاوتي را اندازه گيري ميكند پايين باشد، آزمون ها داراي اعبتار تشخيصي يا واگرا است.
2-د) اعتبار عاملي
اعتبار عاملي صورتي از اعتبار سازه است كه از طريق تحليل عاملي به دست ميآيد. يك عامل، يك متغير فرضي (سازه) است كه نمرات مشاهده شده را در يك يا چند متغير تحت تاثير قرار ميدهد. هر گاه تحليل عاملي روي يك ماتريس همبستگي صورت گيرد آزمون هايي كه تحت تاثير عوامل خاصي قرار گرفته داراي بار عاملي بالا در آن عامل است.