Objelere ya da bireylere; belirli bir özelliğe sahip oluş derecelerini belirtmek için; belirli kurallara uyarak sembolik değerler verme işlemine ölçme denilmektedir (Arıcı; 1991). Psikolojik ölçme; kişilerin ya da objelerin özelliklerine; miktar olarak temsil edebilmek amacıyla; belirli kurallara uyarak sayısal değerler verme olarak tanımlanmaktadır (Hulin; Drasgow; Persons; 1983).
Her ölçme aracı daima belirli bir amaç için; belirli koşullar altında ve belirli bir gruba uygulamak üzere geliştirilir (Arıcı; 1994). Güvenirlik; bir ölçme aracının ölçme sonuçlarındaki kararlılık derecesidir. Bir gruba ya da bireye uygulanan testten bireylerin aldıkları puanların kararlı olması beklenir. Uygulanan testten elde edilen puanlar test aynı koşullarda tekrar uygulandığında önemli düzeyde farklılık gösteriyorsa testin güvenirlik derecesinin düşük olduğu anlaşılır (Özgüven; 1994).
Psikometrik kuramlar; kişilerin belirli bir psikolojik teste gösterdikleri tepkileri; bu gözlenen tepkilerin altında yatan özelliklerin tahminine dönüştürmede uygulanacak kuralların özelliklerini belirlemekle ilgilenirler.
Bir kişi test edildiğinde amaç; kişinin o test ile ölçülen özellik üzerindeki yerini saptamaktır. Bu; bir çizgi üzerinde bir nokta olarak düşünülebilir. Psikometrik bir test geliştirme modeli; kişinin testteki performansına bakarak; bu çizgi üzerindeki yerinin nasıl tayin edileceğini ve test maddelerinin bu çizgiyi oluşturmak üzere nasıl kullanılacağını içerir (Somer; 1996).
19. yüzyıldan günümüze dek test kuramcıları ölçülecek bir özelliği bir boyut üzerinde ölçeklemenin çeşitli yönleri üzerinde durmuşlar ve farklı modeller önermişlerdir.
Klasik kuramcılar madde güçlüğü ve ayırt etme parametreleri ile madde karakteristik- lerini tanımlamışlar ve eşit aralıklı ölçekler geliştirme yolunda çaba harcamışlardır. Ancak; bu kuramcıların karşılaştığı en büyük sorun kullanılan örneklemden farklı yetenek dağılımlarının; farklı ölçek değerleri elde edilmesine yol açması olmuştur. Bu sorunların üstesinden gelmek için gösterilen çabalar; bugün Madde-Cevap Kuramı ya da Örtük Özellikler Kuramı adı altında anılabilen; modern test geliştirme modellerine yol açmıştır.
Test kuramına göre hatasız bir ölçme yapılamayacağı kabul edilmektedir. Eğer hatasız bir ölçme yapılabilse; bireyin testten aldığı puan gerçek puanına eşit olacaktır. Ama bu mümkün değildir. Bireyin testten aldığı puan bir miktar hata ile karışık olduğu için onun gerçek yetenek düzeyini temsil etmez. Kişinin ölçülen nitelikle ilgili olarak gerçek yetenek düzeyi hakkında fikir edinebilmek için test puanına karışan hata miktarının ya da oranının bilinmesine veya yordanmasına gereksinim vardır. Çeşitli yöntemlerle elde edilen güvenirlik katsayıları veya oranlar bireyin gerçek puanına ve hata payına ilişkin ipuçları verirler.
Ölçmelere karışan hatalar sabit; sistematik ve rasgele hata olmak üzere üç türde ele alınmaktadır (Baykul; 2000; Turgut; 1992). Sabit hata ölçme aracından kaynaklanan ve her ölçme işleminde eşit miktarda karışan hatalar olarak adlandırılır. Sistematik hata ise sabit hata ile aynı içerikte ama ölçmelere değişen miktarda karışmaktadır (Beers; 1957).
Davranış bilimlerindeki ölçme ve değerlendirme kapsamında yapılan çalışmalarda rasgele hatanın varlığını araştırmak güvenirlik çalışmasıdır; sistematik hatanın varlığını araştırmak ise yanlılık araştırmasıdır. Bununla birlikte her iki hata türü de ölçme aracının geçerliliğinin azalan bir fonksiyonudur. Ancak sistematik hata özellikle yapı geçerliğini olumsuz yönde etkilemektedir (Zumbo; 1999).
Psikolojide; eğitim alanında yapılan ölçme ve değerlendirme çalışmalarında; ölçmelere karışan sistematik hatalara “yanlılık” (bias) adı verilmektedir. Ancak bu alanda kullanılan değişkenler psikolojik değişkenler ve ölçme aracı da geliştirilmiş ölçme aracı olduğu için sistematik hatanın kaynağı iyi tespit edilmelidir.
Camilli & Shepard (1994; sa: 377) verdiği bir örnek ölçeklerde ortaya çıkan yanlılık özelliğini oldukça net bir şekilde anlatmaktadır: “Kronometre ile bireylerin koşudaki hız performansları ölçülmek isteniyor. Ancak siyahi bireyler için kullanılan kronometre “yavaş” çalışmaktadır. Yapılan ölçme sonucundaki gruplar içindeki (siyah ve beyaz bireylerin oluşturduğu) performans sıralaması göreli olarak doğrudur. Fakat grupların en iyi performans gösteren bireylerinin karşılaştırılmaları ya da her iki grubun ortalama performanslarının karşılaştırılmaları için ölçme aracı yanlı olarak nitelendirilir. Bu örnekte ölçme aracı hatalı olduğu için ölçme sonuçları sistematik hata içermektedir ve yapılan ölçmede yanlılık vardır (Bilgi bozulumu söz konusudur).
0kulun atletizm takımı; antrenmanlarını kasabanın caddelerinde yapmaktadır. Okulda yapılan bir testte öğrencilerin kasaba ile ilgili bilgileri ölçülmek isteniyor. Yapılan bu ölçme atletizm antrenmanlarına katılan öğrencilerinin lehine işlemiştir. Burada ölçme atletizm takımında olanlara göre yanlı olduğu düşünülebilir ancak testi alan öğrencilerin bilgi ve tecrübeleri ölçme aracının alt gruplara göre yanlı olduğu anlamına gelmemektedir. Burada madde etkisinden söz edilebilir (Osterlind; 1983).
Camilli & Shepard (1994) tarafından verilen bir diğer örnekte;
a) Ağ: Kelebek
b) Örümcek Ağı: Örümcek
c) Tuzak Yemi: Balık
d) Patika: Kısa Yol
Erkek öğrencilerin kız öğrencilere göre daha kolay yanıtlayabildiği “ilişki kurma”yı ölçmek isteyen bir soru sorulmuştur. “Balık Avcılığı” ile ilgili bir sorudur; kız öğrencileri için bu madde “yanlı” olarak nitelenmektedir.
Test yanlılığının araştırılmasında iki temel yaklaşım bulunmaktadır. Bunlardan ilki kullanılan testten bağımsız olarak alınan bir dış ölçüt yöntemi (external methods) diğeri ise testin bir iç ölçüt (internal methods) ile yanlılığının incelenmesidir. Dışsal yönteme göre; ölçüt ve test puanları arasında alt gruplara göre farklı regresyon çizgileri elde ediliyorsa ilgili madde yanlıdır. Eğer ölçüt ve test puanları arasındaki regresyon çizgisi alt gruplara rağmen sürekli ise ilgili madde yansızdır.
Testin içsel yanlılık incelemeleri; bir dış ölçüt bulunamadığı durumda tüm test ile testin her bir maddesinin arasındaki yapı geçerliği ilişkilerini ve psikometrik incelemelerini kapsar. İçsel yöntem ilk zamanlar dışsal bir ölçüt bulmanın zor olduğu durumlarda; test puanlarının içsel ölçüt olarak kullanılmasıyla geliştirilmiştir.
Ölçülmek istenen özelliğe göre (ölçek toplam puanlarına göre ) gruplar arasında bir farklılık söz konusu olduğunda bu farklılık; yanlılıktan kaynaklanacağı gibi performanstaki gerçek farklılıktan da kaynaklanabilir. Bu durumda ölçmeye konu olan özellik göz önüne alınarak madde etkisi ya da yanlılık tanımının yapılması gerekmektedir. Bu aşamada bazı kavramların karşılıklarına yer vermek gerekmektedir:
Madde Etkisi (Item Impact): Gruplar arasında var olan gerçek farklılıktır. Farklı gruplardaki yanıtlayıcıların bir maddeyi doğru yanıtlama/uygun bulma olasılıklarındaki farklılıkları ifade eder. Bu farklılıklar bir maddenin ölçmeye çalıştığı belli bir yetenek düzeyinde gruplar arasında var olan gerçek farklılıktır.
Madde yanlılığı (Item Bias): Testin amacına uygun olmayan; test koşullarından ya da test maddelerinin karakteristik özelliklerinden dolayı bir maddeyi bir grubun doğru yanıtlamasının diğer gruba göre daha az/çok olması durumudur.
Madde Ayırt etme Fonksiyonu: Maddenin ölçmek istediği belirli bir yetenek düzeyinde yapılacak bir karşılaştırmada farklı gruplardaki yanıtlayıcıların ilgili maddeyi doğru yanıtlama olasılıklarındaki farklılıkları ifade eder (Zumbo; 1999). Burada karşılaştırma gruplarının belirli bir yetenek düzeyinde olması yani ölçülen özellik bakımından homojen bir konumda olması önemlidir. (örneğin 1-100 arasında puan alınan bir ölçekte 1-20 arası bir grup; 21-40 arası ikinci grup gibi.). Karşılaştırma tüm grup üzerinden değil puan açısından benzer konumda olan ama farklı grup üyeliklerine sahip kişiler arasında yapılmaktadır.
Şekil 3 Grupların Ölçek Üzerindeki Konumları
Yukarıdaki ölçekte gruplar farklı boyutlarda yer almışlardır. Bu yerleşim ölçek etkisinden (madde etkisi) kaynaklanabileceği gibi; ölçeğin yanlı olmasından ya da hem madde etkisinden hem de yanlılıktan kaynaklanabilir.
Test maddelerinin; aynı yetenek düzeyinde olan fakat farklı gruplardan gelen bireylerin cevapları açısından farklı özellikler göstermemesi beklenir. Bu beklentinin önemi özellikle seçme ve yerleştirme amacıyla kullanılan testlerde artmaktadır. Örneğin; test maddelerinin farklı cinsiyet veya sosyo-ekonomik düzey gruplarında bulunan aynı yetenek düzeyindeki bireylerden herhangi birinin lehine ya da aleyhine işlemiyor olması gerekir (Doğan; 2004).
Madde yanlılığını belirlemek amacıyla yapılan madde analizi çalışmalarının önemi giderek artmaktadır. Söz konusu araştırmalar; madde yanlılığı analizleri olarak tanımlanır ve geçerlik çalışmaları kapsamında incelenmektedir. Bu analizler; testi alan grubun alt grupları arasında karşılaştırmalar yapılması tekniğine dayanır (Ironson ve Craig; 1982; Shepard; Camilli ve Williams; 1985).
Madde yanlılığı analizlerini iki farklı kurama dayandırmak mümkündür. Bu kuramlardan ilki Klasik Test Kuramı (KTK) ve ilgili teknikleri kapsamaktadır. Bu teknikler; madde indekslerinin madde güçlük indeksi ((p) ve madde ayırıcılık gücü indeksinin (r )) farklı gruplara göre karşılaştırılması üzerine kuruludur. Söz konusu teknikler; klasik test kuramının bazı dezavantajları göz önünde bulundurularak eleştirilmektedir (Shepard; Camilli ve Williams; 1985; Rodney ve Drasgow; 1990; Aktaran Somer; 2004). Eleştiriler; klasik tekniklerle hesaplanan madde parametrelerinin bir gruptan diğerine değişkenlik göstermesi; parametrelerin sabit olmaması veya örnekleme bağımlı olması nedeniyle; yapılan madde yanlılığı analizlerinin hatalı yorumlara yol açacağı iddialarına dayandırılmaktadır. KTK kapsamında başvurulan bir diğer teknik ise Ki-kare (chi-square) tekniğidir. Bu teknik parametreleri karşılaştırırken madde karakteristik eğrilerine benzer biçimde; toplam puanda homojen olan alt gruplardaki doğru cevap oranlarını karşılaştırmaya dayalı olduğundan modern kuramla yürütülen analizlerin bir yaklaşımı olarak kabul edilmektedir.
Madde yanlılığın belirlemede yaygın olarak kullanılan ikinci kuram Madde Tepki Kuramıdır (MTK). MTK modellerinin kullanılmasının Klasik Test Kuramı ve tekniklerine göre üstün tarafları olduğu ileri sürülmektedir (Lord; Novic 1968; Hambleton; Swaminathan 1985; Baker 2001). MTK modelleriyle elde edilen madde karakteristik eğrisi (Item Charecteristic Curve) ve madde parametrelerinin sabit olduğu yani bir gruptan diğerine değişmeyen değerler aldığı; karşılaştırmaları tüm grup zerinden değil homojen alt gruplar üzerinden yaptığı için; grupların karşılaştırılmasında araştırmacıya maddenin yanlı olup olmadığı konusunda daha güvenilir sonuçlar verdiği görüşü kesin kanıtları olmamakla birlikte yaygınlaşmıştır.
Madde ve test yanlılığı araştırmaları Alfred Binet’le 1910’lu yıllarda; Binet’in düşük sosyo-ekonomik tabakadan gelen çocukları test etmesiyle başlamıştır. Binet bazı zeka testi maddelerinin zihinsel kapasitesinden ziyade çocukların evde veya okuldaki kültürel eğitim-öğretimlerinin etkileriyle ilişkili olduğunu saptamıştır. Binet bu saptamasından sonra belirli bazı kategorilerdeki maddeleri testten çıkarmıştır (Camili; Shepard; 1994; Aktaran Korkmaz; 2005).
Madde yanlılığı; bir tek test maddesine aynı yetenek düzeyinde fakat farklı gruplardan gelen iki bireyin doğru cevap verme olasılığının aynı olmaması olarak tanımlanabilir (Adams ve Rowe; 1988; Mellenberg; 1989; Hambleton; Swaminathan ve Rogers; 1991; Raju; 1983). Tanımdan hareketle; bir test maddesinin farklı örneklemlerden gelen ve aynı yetenek düzeyinde olan bireylerde aynı şekilde işlemesi; aynı madde için farklı grupların aynı yetenek düzeyindeki bireylerinden elde edilen madde karakteristik eğrilerinin benzer olması gerekir (Rodney ve Drasgow; 1990). Bu anlamda; madde yanlılığı analizini MTK modelleriyle yapmak; bir test maddesinin iki ayrı gruptan elde edilen madde karakteristik eğrilerinin karşılaştırılmasına dayanır (örneğin; kadın ve erkek cinsiyet grupları). Bu karşılaştırmalarda kullanılabilecek birinci yol madde parametrelerini karşılaştırmaktır. Birinci yolda; farklı gruplardan aynı yetenek düzeyindeki bireyler üzerinden elde edilen madde parametre değerleri aynı ise madde karakteristik eğrilerinin de aynı olması bekleneceğinden madde yansız; madde parametre değerleri arasındaki farklar büyüdükçe madde karakteristik eğrileri de farklılaşacağından madde yanlı yorumu yapılabilir. Karşılaştırmalarda kullanılacak ikinci yol ise farklı gruplardan elde edilen madde karakteristik eğrileri arasında kalan alanların hesaplanmasına dayanır. Madde karakteristik eğrileri arasındaki alan küçükse (sıfıra yakınsa) madde yansız; büyükse madde yanlı yorumu yapılabilir. Madde karakteristik eğrileri arasındaki alanın büyüklüğü sıfırdan uzaklaştıkça (arttıkça) maddenin yanlılığı da artmaktadır (Lord; 1980; Rudner; 1980; Raju; 1988).
Klasik Test Kuramı’nda maddelerin özelliklerine ilişkin istatistikler (madde güçlüğü; ayırt ediciliği vb.) madde analizi teknikleri olarak adlandırılırken; Madde Tepki Kuramı’nda ise bu süreç madde kalibrasyonu olarak adlandırılmaktadır. Hem KTK’nda hem de MTK’nda bu analizlerin en önemli amacı ölçekte yer alan her bir maddenin ölçülmek istenen yapı/özelliği ait olduğu yapı içerisinde tanımlamaya çalışmaktır. KTK’nda madde güçlüğü ve madde ayırt edicilik değerleri büyük ölçüde üzerinde çalışılan örnekleme bağlıdır ve örneklemin yetenek seviyesi bu test istatistiklerinin seviyesini genellikle etkilemektedir. Çünkü KTK’nda denek puanları madde güçlük düzeylerinin bir fonksiyonu olarak ele alınmaktadır ve bu nedenle bir testin güçlüğü farklı alt popülasyonlarda değişiklik göstermektedir (MacDonald ve Paunonen; 2002; Aktaran Korkmaz; 2005).
Madde analizinin temel amacı; testi geliştirmek testteki etkili olmayan soruları çıkarmak veya revizyondan geçirmektir. Madde analizinin diğer bir işlevi test alan kişilerin hangi maddeleri bildikleri ya da bilmedikleri hakkında teşhise yarayan bilgiler toplamaktır.
Madde analizi maddelerin istatistiksel nitelikleri yönünden kantitatif bir analizdir. Kantitatif analiz; test maddelerinin “güçlük dereceleri” ile “maddelerin ayırt etme güçlerinin” incelenmesini kapsar. Ayrıca; madde analizi süreci içinde; test maddelerine verilen yanıtlara bakılarak “seçeneklerin işlerliği” hakkında da bilgiler elde edilir. Testin “geçerlik” ve “güvenirlik” dereceleri temelde onu oluşturan maddelerin kalitesine ve niteliğine bağlıdır. Madde analizi sonunda elde edilen istatistiksel verilerden bir tanesi “madde güçlüğü”dür. Madde güçlüğü; test verilen gruptaki bireylerin maddeyi doğru olarak cevaplandırma yüzdesidir ve (p) ile gösterilir. Bir maddenin (p) değeri; yani doğru cevap verenlerin yüzdesi yükseldikçe sorunun kolay; düştükçe de zor olduğu anlaşılır; (p) değeri 0 ile 1 arasında değerler alır.
Madde yanlılığı analizi; büyük ve heterojen grupların aldıkları testlerde genellikle cinsiyet gruplarını; etnik grupları ve bireylerin yaşadığı bölge gruplarını (örneğin; cinsiyete göre kız ve erkek grupları) karşılaştırmaya dayanır. Test maddelerinin yapısı ve içeriği herhangi bir gruba avantaj ya da dezavantaj sağlamamalıdır. Aksi durumda testin geçerliği düşecek ve özellikle bireylerin gelecekteki performansının belirtisi sayılan bu test sonuçlarının yordama geçerliği tartışılır duruma gelecektir.
Test yanlılığı eğitim kurumlarına öğrencileri seçmede ve kabul etmede; özel eğitim kurumlarına öğrenci yerleştirmede; eğitimde programlarının değerlendirilmesinde ve başarı standartlarını oluşturmada; işin gereklerine uygun personel seçimi ile kariyer planlamasında ve benzer durumlarda sıklıkla incelenmiştir. Yanlılık gösteren bir test; bu tür durumlarda kullanıldığı zaman bazı insanların lehine işlev göstererek büyük oranda seçilmelerini sağlarken; bazı insanların da aleyhinde işlev göstererek seçilme oranlarını azaltacaktır. Bireylere eşit seçilme fırsatını sağlayamayan bir test; insan haklarına uygunsuzluğu nedeniyle kaygı yaratıcı olmasının yanı sıra ayrıca toplumun bu tür ölçüm araçlarının kullanımına ilişkin güvenirlik ve geçerlik algılarını da zedelemiş olur. Psikolojik ölçüm araçlarına yapılacak bu gibi olumsuz atıfları engellemenin yolu; test yapımcıları; yayıncıları ve uygulayıcılarının testin bir gruba karşı üstünlük sağlamadığına ilişkin kanıtları sunmalarından geçer (Hambleton; Swaminathan; Rogers; 1991; McAllister; 1993; Aktaran Korkmaz; 2005).
Ülkemizde her yıl yapılan Ortaöğretim Kurumları Öğrenci Seçme ve Yerleştirme Sınavı (OKÖSYS) çok büyük ve heterojen gruplara uygulanmaktadır. Özellikle akademik yetenek ölçümüne ağırlık verildiği (MEB 2002b) iddia edilen bu sınavlarda cinsiyete bağlı olarak farklılıklar gözlenmekte; fakat bu farklılıklar sadece cinsiyet gruplarının testlerden aldıkları puanların ortalamaları bazında analiz edilmekte; madde düzeyinde analizler ihmal edilmektedir. Yetenek ölçümlerine dayalı ve bireyleri bir sonraki öğrenim göreceği okullara (liselere) yerleştirme amacı ile yapılan bu testin maddelerinin cinsiyet gruplarına göre analizinin yapılmasının önemli bir ihtiyaç olduğu düşünülmektedir (Öğretmen; Doğan; 2004).
Öğretmen; Doğan (2004); Orta Öğretim Kurumları Öğrenci Seçme ve Yerleştirme Sınavı Matematik alt testindeki maddelerin madde yanlılığı analizlerini Madde Tepki Kuramı çerçevesinde işaretli ve işaretsiz alan indekslerini kullanarak incelemişlerdir. Hesaplanan alan indekslerinin büyüklükleri matematik alt testinin konu alanlarına göre karşılaştırılmaktadır. Madde yanlılığı analizleri sadece cinsiyet gruplarına göre yapılmıştır. Araştırma sonuçları matematik alt testindeki maddelerin cinsiyete göre farklılık gösterdiğini ortaya koymaktadır. Testteki çoğu madde kızların lehine yanlılık göstermektedir.
Cinsiyetle ilgili olarak matematik başarısında görülen farkı değerlendirmek üzere 8. sınıf düzeyinde bir diğer araştırma Ontario; Kanada; okullarında yapılmıştır. 4511 okul arasından 130 okul seçilerek araştırma kapsamına alınmıştır. Veri toplamada kullanılan ve 5 seçenekli çoktan seçmeli test maddelerinden oluşturulan test; toplam beş konu alanını içermektedir (Aritmetik; 58 madde; cebir; 31 madde; geometri; 42 madde; olasılık ve istatistik; 17 madde ve ölçme; 26 madde.). Sonuçlar kız ve erkek öğrenciler arasında aritmetik; cebir ve olasılık-istatistik konu alanları açısından cinsiyete göre anlamlı bir farkın olmadığını ortaya koymuştur. Geometri ve ölçme sorularında erkeklerin lehine çok az bir fark olmasına rağmen bu farkın büyük bir fark olmadığı belirtilmektedir (Hanna; 1986).
Gross (1977); katılımcıların lise fen ve matematik puanları; cinsiyet ve IQ’larının bilişsel gelişme düzeyine etkilerini incelemek üzere bir araştırma yapmıştır. Ölçümler Standard Piageion ve alternatif formlar kullanarak gerçekleştirilmiştir. Uygulamalar 3 grup üzerinde ve toplam 24 denekle yapılmıştır. Denekler farklı IQ düzeylerini temsil etmiştir. Analiz sonuçları IQ’nun test puanlarıyla yüksek bir korelâsyona sahip olduğunu göstermektedir. Diğer taraftan test puanlarının cinsiyete bağlı olarak bir fark vermediği gözlenmiştir.
Doolittle (1987); farklı düzeylerdeki öğrenci gruplarından elde ettiği veriler üzerinden; matematik ve geometri becerisi bakımından kız ve erkek öğrencileri karşılaştırmıştır. Elde ettiği sonuçlara göre; mantıksal düşünme ve geometri sorularında cinsiyete göre erkekler lehine fark bulunurken; diğer matematik sorularında kızlarla erkekler arasında matematik performansı bakımından fark bulunmamıştır.
Amerikan Ulusal değerlendirme (e.g. National Assessment of Education Progress; 1975) sonuçları erkeklerin kızlara oranla matematik testinden daha yüksek puanlar aldığını işaret etmiştir. Bu nedenle; açıklayıcı değişkenler arasında matematik başarısı açısından bir korelasyon olup olmadığını bulmak üzere bir araştırma yapılmıştır. Bu araştırma sonuçlarına göre; matematikte başarının cinsiyete göre farklı olmadığı anlaşılmıştır. Fakat bulgular arasında bazı çelişkilerde dikkati çekmiştir. Örneğin; Sherman (1980); cinsiyetin başarıda önemli bir değişken olduğunu ve matematik başarısında erkeklerin lehine bir durum görüldüğünü belirtmiştir. Diğer taraftan; Stanley ve Benbow (1982); yetenek ve başarıya göre bu farkın çok az ve önemsiz olduğunu açıklamışlardır.
Ülkemizde yapılan bir araştırmada (Yenal; 1995); 1993 Öğrenci Seçme Sınavı (ÖSS) Sayısal Testi’nin cinsiyete göre yanlılığı incelenmiştir. Bu çalışmanın verileri 1993 ÖSS’ye giren Ankara’daki beş devlet ve özel okulun öğrencilerinin cevaplarından elde edilmiştir. Araştırmada Madde Tepki Kuramı modellerine göre elde edilen dört alan indeksi madde yanlılığı açısından değerlendirilmiştir. Bulgular; işaretli ve işaretsiz alan indekslerinin madde karakteristik eğrilerinde düzgün olmayan bir yanlılık olduğunu göstermektedir. Konu alanlarının karşılaştırılması sonucunda geometri maddelerinin matematik testinin diğer konu alanlarına göre daha fazla yanlılık gösterdiği ve bu yanlılığın erkeklerin aleyhine olduğu gözlenmiştir. Fen bilgisi testinde ise yanlılık en fazla biyoloji maddelerinde ve erkeklerin aleyhine olmuştur. Ayrıca; analiz sonuçları Fen Bilgisi testinin Matematik testinden daha fazla yanlılık içerdiğini göstermiştir. Diğer taraftan; alan indeksleri arasında anlamlı bir ilişki olduğu gözlenmiştir.
Gruplar arası karşılaştırmalar söz konusu olduğunda ilgilenilen değişken dışında; farklılığa neden olabilecek değişkenlerin kontrol altına alınması araştırma deseninin odak noktalarından birisini oluşturmaktadır (Somer; 2004).
Waller; Thompson ve Wenk (2000); eşleştirilmesi gereken en önemli değişkenin çoğunlukla gözden kaçırıldığını belirtmektedir. Bu; üzerinde karşılaştırma yapılmak istenen değişkendir. Karşılaştırma yapılan değişken açısından grupların eşleştirilmesi; yani ölçme yanlılığının ortadan kaldırılması ölçmede temel problemlerden biridir. Gruplar; test puanlarının altında yatan örtük özellik (latent trait) üzerinde eşleştirilmeden yapılacak karşılaştırmalardan elde edilecek farklılıkların; ölçme yanlılığından mı; yoksa gerçek grup farklılıklarından mı kaynaklandığını yorumlamak mümkün değildir. Yanlı bir ölçme sonucunda; örtük değişken üzerinde bir farklılık olmadığı halde grupların test puanlarının birbiriyle farklılaşmasının mümkün olduğu gibi; gerçek farklılıkların maskelenmesi de söz konusu olabilmektedir.
Kültürel; organizasyonel; etnik; cinsiyete dayalı ve benzeri grup karşılaştırmalarında öncelikle ölçme eşdeğerliğinin sağlanmasını temel bir gereklilik olarak ortaya çıkmaktadır (Geisinger; 1994; Van de Vijver ve Leung; 2000; Aktaran Somer; 2004). Hulin; Drasgow ve Parsons (1983); gözlenen test puanları ile bunların altında yatan örtük özellikler arasındaki ilişki; karşılaştırma grupları açısından eşit olduğunda ölçme eşdeğerliğinin sağlandığını ifade etmektedirler. Ölçme eşdeğerliğinin bozulduğuna dair kanıtlar madde-test fonksiyonlarındaki farklılığın (Differential Item Functioning-DIF) incelenmesi ile elde edilebilmektedir. Ölçme literatüründeki “madde yanlılığı” terimi “madde fonksiyon farklılığı” terimi ile büyük ölçüde örtüşse de; DIF daha ziyade maddenin iki ya da daha fazla grup için gösterdiği farklı Psikometrik özelliklere işaret ederken; madde yanlılığı DIF analizleri sonucunda çıkarsanan; madde hakkındaki sosyal ve etik değer yargılarını kapsamaktadır (Camilli ve Shepard; 1994; Waller; Thompson ve Wenk; 2000; Aktaran Somer; 2004).
Yansız bir ölçme işlemi gerçekleştirmek tüm test ve ölçek geliştirme süreçlerinde en önemli hedeflerden biridir. Her ölçüm aracı spesifik bir amaç ile ölçmeyi hedeflediği özellik/özellikler üzerine temellenir. Yanlı maddelerden oluşan bir ölçüm aracı testin gerçek hedefini yerine getirememesine; diğer bir ifade ile testin geçerlik ölçütlerini karşılayamamasına neden olur. Dolayısıyla bir test; kişilerin bağlı bulunduğu herhangi bir demografik grup üyeliğinin etkisi olmaksızın ölçülmesi amaçlanan yeteneği; özelliği doğru olarak ölçmelidir (Korkmaz; 2005).
II. YÖNTEM
ÖRNEKLEM
Bu çalışma; toplam 940 kişilik bir yetişkin örneklemi üzerinde yürütülmüştür. Bunların 528’i kadın (%56.2) ve 412’si erkektir (%43.8). Çalışmada; Amerikan örnekleminin 271’i kadın (%58.3); 194’ü erkek (%41.7) olmak üzere toplam 465 kişi (Goldberg; 2001 Uluslar arası madde havuzu sitesinden alınmıştır); Türk örneklemi verileri araştırmacının uygulamalarından elde edilmiştir. Türk örnekleminde 257’si kadın (%54.1); 218’i erkek (%45.9) olmak üzere toplam 475 kişi yer almıştır (Tablo 1).
Tablo 1. Amerikan ve Türk Örneklemlerinin Cinsiyetlere Göre Dağılımı
Amerikan
Türk
Toplam
Cinsiyet
n
%
n
%
N
%
Kadın
271
58;3
257
54;1
528
56;2
Erkek
194
41;7
218
45;9
412
43;8
Toplam
465
475
940
Örneklem; 20 ile 92 yaş arasında dağılmaktadır ve yaş ortalaması 49.09; standart sapması 13.47’dir. Amerikan örnekleminin yaş ortalaması 52.56; standart sapması 12.63 iken; Türk örnekleminin yaş ortalaması 45.69; standart sapması 13.47’dir (Tablo 2).
Tablo 2. Amerika ve Türk örneklemlerinin Yaş Ortalama ve Standart Sapmaları
Amerikan
Türk
Toplam
X
SS
X
SS
X
SS
Yaş
52.56
12.63
45.69
13.41
49.09
13.47
Örneklemde yer alan bireylerin 372’si lise mezunu (%39.6); 566’sı üniversite mezunudur (%60.2). Amerikan örnekleminde yer alan kişilerin 80’i lise mezunu (%17.2); 383’ü üniversite mezunudur (%82.4). Türk örnekleminde ise 292 kişi lise mezunu (%61.5); 183 kişi ise üniversite mezunu (%38.59)dur (Tablo 3).
Tablo 3. Amerika ve Türk Örneklemlerinin Eğitim Durumu
Amerikan
Türk
Toplam
Eğitim Durumu
n
%
n
%
N
%
Lise Mezunu
80
17.2
292
61.5
372
39.6
Üniversite Mezunu
383
82.4
183
38.5
566
60.2
Örneklemde yer alan bireylerin 83’ü bekar (%8.8); 728’i evli (%77.4); 123’ü boşanmış/dul’dur (%13.1). Amerika örnekleminde 11 bekar (%2.4); 378 evli