Dewi Ekasari Kusumastuti

Buat Lencana Anda Dewi- Pinky Blog: PEMILIHAN ALAT-ALAT PENILAIAN

PLB 2009

PLB 2009
KKL Jakarta-Bandung

Selasa, 17 Januari 2012

PEMILIHAN ALAT-ALAT PENILAIAN


Penilaian adalah sebuah aktivitas pengumpulan informasi. Tujuannya adalah untuk memberikan jawaban terhadap pertanyaan-pertanyaan pendidikan yang penting, baik itu mengenai identifikasi dan penempatan, perencanaan pengajaran maupun pemantauan perkembangan siswa dan efektivitas program.
Alat-alat yang dipilih untuk penilaian mempengaruhi kesuksesan proses pengumpulan data. Ukuran yang tidak akurat menghasilkan informasi yang tidak bermanfaat dan mungkin membahayakan; alat-alat yang tidak tepat, bahkan meskipun hasilnya akurat akan gagal untuk memberikan jenis informasi yang diperlukan untuk membantu pengambilan keputusan pendidikan.
Kritikan tentang praktek penilaian dalam layanan pendidikan khusus pada jaman dahulu terpusat kepada penggunaan alat-alat penilaian yang tidak tepat, terutama penyalahgunaan tes kecerdasan terstandard dengan siswa yang dengan berbagai latar belakang  budaya dan bahasa.
Salah satu dorongan utama untuk perubahan ini adalah pemberlakuan hukum federal dan negara yang menetapkan pedoman khusus untuk penilaian dan penempatan pendidikan khusus. Faktor penting lainnya adalah pengembangan standard profesional praktek oleh kelompok-kelompok seperti Dewan Pengurus Anak-Anak Berkebutuhan Khusus (CEC), organisasi profesional utama dalam bidang pendidikan khusus.

KRITERIA UNTUK PEMILIHAN ALAT-ALAT PENILAIAN
Tujuan dari undang-undang pendidikan khusus yang penting, yaitu Undang-Undang Pendidikan untuk Semua Anak Cacat tahun 1975, adalah pembentukan serangkaian prosedur untuk melindungi dari praktek penilaian dan penempatan yang tidak tepat. Undang-undang ini memberikan perlindungan untuk mencegah terjadinya penyalahgunaan di masa lalu.
Pedoman Hukum untuk Penilaian
Peraturan untuk IDEA 2004 memberikan pedoman khusus mengenai evaluasi dan penempatan siswa berkebutuhan khusus dalam program pendidikan khusus. Undang-undang ini terfokus kepada penggunaan informasi penilaian untuk keputusan-keputuan hukum, yaitu, keputusan-keputusan tentang identifikasi dan penentuan pemenuhan syarat untuk layanan pendidikan khusus.
Penilaian Tidak Diskriminasi
Undang-undang Pendidikan khusus federal secara tegas melarang tiga jenis diskriminasi. Yang pertama, alat penilaian harus bebas dari bias ras dan budaya. Yang kedua, apabila bahasa asli siswa bukan bahasa Inggris, maka setiap upaya harus dilakukan untuk memberikan alat penilaian dalam bahasa siswa. Yang ketiga, alat penilaian tidak boleh melakukan diskriminasi atas dasar kecacatan.
Penilaian Terfokus Kepada Kebutuhan Pendidikan
Tujuan pokok dari penilaian ini adalah untuk menentukan kebutuhan pendidikan. penilaian harus terfokus kepada kemampuan siswa untuk berpartisipasi dalam kurikulum umum perkembangan yang ia buat dalam kurikulum tersebut.
Penilaian Bersifat Menyeluruh
Penilaian harus bersifat menyeluruh sehingga tidak ada bidang prestasi penting yang terabaikan. Kesehatan, penglihatan, pendengaran, sosial dan emosional, kecerdasan umum, prestasi akademis, status komunikasi, apabila ini merupakan bidang kebutuhan yang potensial bagi siswa yang sedang diteliti. Beberapa sumber harus dikaji untuk mendapatkan informasi tentang siswa. Hal ini meliputi hasil penilaian formal dan nonformal yang dilakukan oleh para pendidik khusus dan profesional lainnya, masukan dari orang tua, dan observasi dan rekomendasi dari guru kelas.
Alat Penilaian Secara Teknis Sudah Cukup dan Diberikan oleh Profesional yang Terlatih
Alat penilaian harus merupakan alat pengukuran yang terpercaya yang telah divalidasi untuk tujuan tertentu bagi penggunaannya. Mereka harus memperlihatkan kualitas teknis yang cukup guna menjamin hasil yang akurat. Jika tujuannya adalah kajian tentang prestasi membaca, maka instrumen yang dipilih seharusnya adalah sebuah ukuran yang valid untuk prestasi membaca. Penilaian juga harus dilakukan oleh profesional yang terlatih. Pemberian, penilaian dan aturan interpretasi yang ditetapkan dalam petunjuk penggunaan ukuran harus diikuti dengan seksama.
Hak-hak Siswa Berkebuutuhan Khusus dan Orangtuanya Dilindungi Selama Penilaian
Sepanjang proses penilaian, usaha perlindungan melindungi hak-hak individu berkebutuhan khusus dan orangtua atau wali mereka. Orang tua tidak harus diberitahu kapan seorang siswa dirujuk untuk penilaian; mereka harus menerima informasi tentang hak mereka; dan mereka harus memberikan persetujuan tertulis sebelum penilaian dimulai.
Pedoman Profesional
Ada beberapa sumber panduan dalam pemilihan alat penilaian selain syarat-syarat hukum. Sumber yang penting adalah Standards for Educational and Psychological Testing (1999), yang dibuat oleh komiter bersama Asosiasi Penelitian Pendidikan Amerika, Asosiasi Psikologis Amerika, dan Dewan Pengurus Nasional tentang Pengukuran dalam Pendidikan. Panduan untuk pengguna dan pembuat tes ini berisi tentang standard-standard tentang tes, petunjuk penggunaan dan laporan; hal ini juga mencantumkan standard untuk laporan penelitian tentang reliabilitas dan validitas dan standard untuk penggunaan tes. Code of Fair Testing Practices in Education (2004) dari Komite Bersama tentang Praktek Pengujian, memberikan pedoman untuk menguji para pengguna dalam memilih, memberikan, menilai, menafsirkan, dan melaporkan hasil tes pendidikan.
Katalog tes, website penerbit tes, petunjuk penggunaan tes dan informasi-informasi lain yang disediakan oleh pembuat alat-alat penilaian juga dapat membantu dalam proses pemilihan. Katalog tes dan website penerbit memberikan sebuah gambaran tentang instrument-instrumen yang tersedia. Edisi yang terbaru, Sixteenth Mental Measurement Yearbook, meliputi informasi tentang lebih dari 250 tes. Seri penyertanya, Test in Print, berfungsi sebagai indeks (daftar kata) untuk buku tahunan tersebut. Test Reviews Online berbasis web (www.unl.edu/buros), yang memuat tinjauan tentang lebih dari 2.500 tes dari seri Buku Tahunan.
Layanan online lainnya adalah TestLink dari Layanan Pengujian Pendidikan (www.ets.org). Database yang dapat dicari memuat lebih dari 25.000 tes, dan penjelasan tes yang singkat disediakan secara cuma-Cuma. Test (Maddox, 2003) adalah sebuah koleksi cetakan tentang tinjauan tes. Edisi yang kelima dari panduan ini berisi penjelasan tentang sekitar 2.000 tes yang umumnya digunakan dalam psikologi, pendidikan dan bisnis.
Jurnal profesional untuk penelitian yang berhubungan dengan penilaian dan untuk tinjauan kritis tentang alat-alat penilaian yang baru dibuat. Assessment for Effective Intervention, yang diterbitkan oleh Dewan Pengurus Layanan Diagnostik Pendidikan Dewan Pengurus Anak-Anak Berkebutuhan Khusus (CEC), terfokus kepada penilaian pendidikan khusus. Jurnal-jurnal lain yang seringkali memuat artikel-artikel tentang alat-alat penilaian dan penggunaanya didalam pendidikan khusus adalah Exceptional Children, Journal of Special Education, and Remedial and Special Education, serta jurnal-jurnal yang membahas tentang kecacatan tertentu (misalnya, Journal of Learning Disabilities, Learning Disabilities Research & Practice, Behavioral Disorders, da Education and Training in Developmental Disabilities).
Kriteria Evaluasi
Tugas tim penilaian  yaitu : pemilihan alat pengumpulan data yang paling akurat, efektif dan efisien.
Apakah Alat ini Sesuai dengan Tujuan Penilaian?
Jenis alat yang dibutuhkan terkait dengan tujuan penilaian, cara dimana informasi penilaian akan digunakan harus jelas. Tujuannya adalah untuk menjawab pertanyaan tentang cara berdiri seorang siswa dalam hubungannya dengan teman sebayanya, maka ukuran referensi norma adalah tepat. Untuk pertanyaan-pertanyaan tentang penguasaan keterampilan akademis, sumber-sumber informasi yang paling bermanfaat mungkin adalah tes referensi kriteria, inventarisasi nonformal, quiz kelas, dan checklist guru.
Pertimbangan lainnya adalah isi dan cakupan ukuran – prestasi, bakat atau bidang sikap tertentu yang dinilai. Jika tujuannya adalah kajian tentang kemampuan membaca seorang siswa, maka sebuah tes keterampilan matematika jelas tidak tepat.
Apakah alat yang tepat untuk Siswa?
Instrumen atau strategi penilaian harus sesuai dengan kebutuhan dan kemampuan siswa. Usia atau kelas siswa juga penting karena norma-norma tes umumnya disusun menurut usia kronologis atau kelas di sekolah.
Dengan suatu jenis ukuran, tugas penilaian harus sesuai dengan keterampilan siswa. Pertimbangan-pertimbangan keterampilan adalah:
  1. Mode presentasi, atau metode yang dengannya tugas tes diberikan kepada siswa.
  2. Mode respon, atau metode yang dengannya siswa harus menjawab pertanyaan atau menjalankan tugas-tugas yang ditetapkan.
  3. Pemberian kelompok versus perorangan, atau apakah siswa berpartisipasi dalam penilaian sebagai salah satu kelompok atau sebagai satu-satunya peserta.
  4. Faktor waktu seperti lamanya penilaian, terutama apabila berkaitan dengan jangkauan perhatian siswa, dan apakah siswa diminta untuk menjawab dalam kondisi-kondisi yang ditentukan waktunya.
Alat-alat sebaiknya memanfaatkan kekuatan siswa bukan menghukum kelemahan mereka Alat penilaian seharusnya tidak melakukan diskriminasi terhadap siswa berdasarkan ras, budaya, bahasa, jenis kelamin, atau cacat.

Apakah Alat ini Cocok untuk Penguji?
Alat penilaian harus sesuai dengan keterampilan profesional yang menggunakannya. Tidak ada alat yang harus dipilih kecuali jika petugas yang cukup terlatih ada untuk bertanggung jawab atas pemberian ukuran, penilaian respon siswa, dan penafsiran hasil. Di tangan-tangan yang tak terlatih, bahkan alat yang terbaik sekalipun dapat menghasilkan informasi yang keliru.
Apakah Alat tersebut Memadai Secara Teknis?
Teknik-teknik yang digunakan untuk menyusun ukuran harus baik, teknik ini harus menghasilkan data yang terpercaya, dan harus menunjukkan validitas. Informasi tentang ciri-ciri pengukuran terstandard referensi norma umumnya disajikan dalam petunjuk penggunaan tes atau tambahan teknis.
Apakah Alat Tersebut Merupakan Mekanisme Pengumpulan Data yang Efisien
Sebuah ukuran yang efisien menghasilkan informasi yang diperlukan dengan pengerahan waktu dan upaya minimal. Pemberian, persiapan oleh tester, penilaian hasil penilaian, dan penafsiran data semuanya merupakan faktor yang harus dipertimbangkan.
Dalam beberapa situasi penilaian, seorang profesional atau tim mengumpulkan sederet tes – sekumpulan alat yang dirancang untuk menjawab beberapa pertanyaan penilaian. Saat memilih ukuran-ukuran untuk sederet penilaian, prinsip-prinsip berikut ini harus diikuti:
1.       Deretan penilaian harus menyeluruh dan lengkap, tetapi duplikasi yang tidak perlu sebaiknya dihindari.
2.      Sebuah upaya sebaiknya dilakukan untuk memilih ukuran-ukuran yang meliputi berbagai macam kegiatan yang berbeda.
3.      Saat memilih alat-alat untuk penilaian awal, ukuran-ukuran untuk mendukung alasan atas rujukan sebaiknya dicantumkan.
4.     Umumnya, hasil ukuran kelompok sebaiknya digunakan hanya sebagai penyaring informasi.
5.      Jika dua prosedur tampak sama-sama cocok, maka pilihlah yang lebih efisien.
6.     Jika memungkinkan, hanya ukuran dengan kecukupan teknologi yang telah diketahui yang sebaiknya dimasukkan kedalam deret tersebut.

MENGEVALUASI KUALITAS TEKNIS
Kualitas teknis mengacu kepada kecukupan sebuah alat penilaian sebagai sebuah alat pengukuran. Empat karakteristik pokok dari sebuah instrumen pertimbangkan dalam evaluasi tentang kualitas teknis yaitu: reliabilitas, validitas, kesalahan pengukuran, dan untuk ukuran referensi norma dan referensi kriteria, kelompok referensi atau standard untuk dibandingkan dengan prestasi seorang siswa.
Istilah Pengukuran
Tujuannya adalah menghitung dimensi-dimensi psikologis seperti bakat, sikap dan prestasi.
Ada empat jenis skala pengukuran yaitu: skala nominal, ordinal, interval dan rasio.
  1. Skala nominal dibagi menjadi kategori-kategori. Dalam pengukuran nominal, tidak ada nilai yang diberikan kepada kategori-kategori; kategori hanya berbeda antara satu dengan yang lainnya.
  2. Skala ordinal hanya menempatkan individu pada kedudukan yang saling berhubungan satu sama lain.
  3. Skala interval, ada interval-interval yang sama antara satuan pengukuran, dan skala dimulai pada sebuah titik awal yang berubah-ubah. Beberapa variabel psikologis yang diukur dalam penilaian pendidikan disusun pada skala interval.
  4. Skala rasio dimulai dengan nilai nol yang sesungguhnya dan memiliki interval antar satuan pengukuran. Beberapa variable kepentingan dalam penilaian disusun pada skala rasio, yaitu meliputi sifat-sifat seperti tinggi, berat dan ukuran fisiologis.
Statistik deskriptif membantu dalam merangkum informasi dari semua jenis skala Ukuran-ukuran variabilitas adalah jenis lain dari statistik deskriptif. Tujuannya adalah mendeskripsikan sebaran atau dispersi dari sebuah distribusi.. Dengan data interval, sebuah estimasi yang lebih baik tentang variabilitas adalah standard deviasi.


Rumus penghitungan untuk standard deviasi (s) adalah
Jenis deskriptif statistik yang ketiga adalah ukuran korelasi. Hal ini menyatakan derajat hubungan antara kedua kelompok skor. Beberapa ukuran korelasi tersedia, tetapi yang paling umum adalah koefisien korelasi produk-momen Pearson yang sering disebut sebagai r, cocok untuk data interval. Koefisien korelasi memiliki nilai yang berkisar dari – 1,00 sampai + 1,00. Koefisien sebesar +1,00 indikasinya korelasi yang positif sempurna dinyatakan dengan koefisien sebesar -1,00.
Teknik-teknik korelasi sering digunakan untuk menganalisa kecukupan teknis dari alat-alat penilaian, khususnya dalam kajian tentang reliabilitas dan validitas.
Jacobs, Razavieh, dan Sorensen (2006) menjelaskan, “Jika anda menemukan korelasi sebesar +0,80 antara prestasi dengan kecerdasan, maka 64 persen variansi dalam prestasi terkait dengan variansi pada skor tes kecerdasan”.
Kaidah-kaidah Tes dan Standard Perbandingan Lain
Beberapa jenis alat penilaian membandingkan prestasi siswa dengan referensi atau standard luar. Dengan tes referensi norma, standard adalah prestasi kelompok norma, dan dengan tes referensi kriteria, standard merupakan tujuan kurikulum.
Faktor-faktor yang harus dipertimbangkan saat menentukan ketepatan dari norma tes adalah:
1. Usia, kelas, dan jenis kelamin para anggota kelompok norma.
Beberapa variabel psikologis kepentingan dalam penilaian pendidikan berbeda   menurut jenis kelamin dan antar kelompok usia serta tingkatan kelas.
2. Metode Pemilihan
Kelompok norma adalah sampel yang ditujukan untuk menyatakan suatu populasi kepentingan.
3. Kerepresentativan Kelompok Norma.
     Karakteristik populasi yang penting dalam pembuatan tes adalah usia, jenis kelamin, wilayah geografis, lokasi tempat tinggal, kebangsaan dan beberapa indeks status sosial ekonomi.
4. Ukuran kelompok norma.
Pada umumnya, sampel yang lebih besar memberikan hasil yang lebih akurat.

5. Kekinian norma-norma tes.
Norma-norma tes sebaiknya merefleksikan standar prestasi siswa saat ini.

Petunjuk penggunaan yang menyertai ukuran ini merupakan sumber informasi yang paling bagus tentang norma-norma tes dan standard perbandingan lainnya.

Reliabilitas
Reliabilitas, seperti yang didefinisikan oleh Anastasi dan Urbina (1997), “merupakan kesesuaian skor yang didapatkan oleh orang yang sama pada saat diuji kembali dengan tes yang sama dalam kesempatan yang berbeda, atau dengan kelompok soal yang berbeda dengan isi yang sepadan, atau dibawah kondisi pengujian variable yang lain”.
Teknik-teknik korelasi merupakan metode paling biasa untuk meneliti reliabilitas. Salvia dan Ysseldyke (2007) merekomendasikan taraf minimal sebesar 0,60 untuk data kelompok yang digunakan untuk tujuan administratif, 0,80 untuk data individu yang mempengaruhi keputusan-keputusan penyaringan, dan 0,90 untuk data individu yang dipertimbangkan untuk keputusan-keputusan penting seperti penempatan dalam pendidikan khusus. Gay (1990) mempertahankan bahwa “untuk tes prestasi dan bakat, umumnya tidak ada alasan yang baik untuk memilih sebuah tes yang reliabilitasnya bukan minimal 0,90.
Jenis-jenis Reliabilitas :
  1. Reliabilitas tes-retest mengacu kepada konsistensi sebuah ukuran dari satu pemberian ke pemberian yang lain.
  2. Reliabilitas bentuk-ekuivalen menarik ketika ada lebih dari satu bentuk dengan ukuran yang sama dan bentuk tersebut dirancang untuk digunakan secara bergantian.
  3. Reliabilitas split-half terkaut dengan konsistensi internal dari sebuah ukuran dan dikaji dengan salah satu bentuk ukuran dan satu kelompok.
Jenis reliabilitas utama yang terakhir adalah reliabilitas penilai, yang juga disebut reliabilitas antar penilai atau antar pengamat. Jenis ini terkait dengan konsistensi dikalangan orang-orang yang mengevaluasi hasil individu yang akan dinilai; hal ini paling penting apabila standard penilaian terkait dengan penafsiran.
Mungkin situasi penilaian yang paling khas dimana reliabilitas penilai adalah sebuah faktor adalah dalam penggunaan teknik-teknik observasi.

Prosentase persetujuan




Validitas
Validitas mengacu kepada apakah sebuah alat penilaian benar-benar mengukur apa yang ingin ia ukur.
Menurut pedoman hukum untuk penilaian dalam undang-undang federal, alat-alat penilaian yang digunakan pada siswa berkebutuhan khusus harus divalidasi sesuai tujuan penggunaannya.
Validitas terkait dengan reliabilitas. Instrumen yang valid adalah instrumen yang reliabel, walaupun sebuah ukuran bisa kurang valid dan masih tetap reliabel. Validitas terkait dengan isi ukuran dan apakah isi tersebut memungkinkan pengukuran menjalankan fungsi yang dimaksudkan.
Validitas isi diartikan sebagai “seberapa jauh sampel soal dalam sebuah tes mewakili semesta atau dimain isi yang telah ditentukan” (dari Standards For Educational and Psychology Testing seperti yang dikutip oleh Ary dkk., 2006, hal. 244).
Faktor-faktor yang harus dipertimbangkan adalah:
·         Bidang muatan apakah yang akan dinilai oleh ukuran tersebut? Bagaimanakah batas-batas dari bidang tersebut?
·         Apakah ukuran mencoba untuk menilai seluruh semesta isi, atau apakah hal itu hanya mencantumkan sebuah pengambilan sampel dari semesta itu?
·         Jika ukuran hanya menilai sebagian semesta isi, apakah sampelnya mewakili? Apakah sampelnya lengkap? Apakah semua unsur yang penting dimasukkan?
·         Jenis tugas seperti apakah yang digunakan untuk menilai isi? Apakah hal ini sesuai untuk keterampilan atau pengetahuan yang akan dinilai.
Jenis validitas yang lain adalah validitas yang terkait dengan kriteria.
Ada dua jenis validitas yang terkait dengan kriteria yaitu:
  1. Validitas Predektif
Validitas prediktif mengacu kepada kemampuan suatu ukuran untuk memprediksikan prestasi di masa yang akan datang.
  1. Validitas Concurrent
Validitas concurrent terkait dengan hubungan sebuah ukuran dengan beberapa kriteria saat ini.

Kesalahan Pengukuran
Kesalahan mengganggu suatu sistem pengukuran, dan tidak terkecuali, penilaian. Nilai tes dan hasil penilaian lainnya adalah nilai yang diamati yang tersusun atas dua bagian yaitu: nilai yang benar menurut hipotesis dan komponen kesalahan.
Walaupun kesalahan pengukuran tidak dapat dihindari, namun hal ini dapat dihitung dengan sebuah statistik yang disebut standard kesalahan pengukuran. Standard kesalahan pengukuran dapat ditentukan apabila standard deviasi dan reliabilitas ukurannya diketahui.

SKOR TES DAN HASIL PENILAIAN LAINNYA
Pertimbangan lain dalam pemilihan alat penilaian adalah jenis hasil yang diperlukan untuk menjawab pertanyaan-pertanyaan penilaian.
Dengan ukuran non formal, membandingkan prestasi seorang siswa dengan tujuan kurikulum atau harapan perilaku kelas dapat menghasilkan data yang sangat sederhana seperti jumlah keterampilan yang dikuasai atau jumlah perilaku tidak tepat yang diamati.
Hasil Ukuran Nonformal
Sebagian besar hasil penilaian nonformal bersifat langsung, mudah dipahami, dan bersifat deskriptif.
Jumlah frekuensi dan prosentasi adalah data interval yang dapat dimanipulasi dengan penambahan atau pengurangan. Data durasi adalah data rasio; skala waktu memiliki nilai nol yang sesungguhnya dan dapat ditambahkan, dikurangi, dikalikan atau dibagi.
Skor Tes Referensi Norma
Hasil dari tes referensi norma memiliki beberapa bentuk yaitu: ekuivalen usia dan kelas, peringkat persentil, stanine, skor standard dan seterusnya.
Dalam kebanyakan kasus, nilai mentah merupakan indeks jumlah soal tes yang dijawab dengan benar.
Ekuivalen Usia dan Kelas
Beberapa ukuran referensi norma memberikan skor usia dan/atau skor kelas (yang juga disebut ekuivalen usia dan/atau kelas).
Ekuivalen usia dan kelas merupakan data ordinal. Walaupun skala waktu interval-sama mendasar usia kronologis dan kelas di sekolah, namun tidak ada kesesuaian satu lawan satu antara waktu dengan penguasaan materi.
Kesederhanaan ekuivalen usia dan kelas yang memperdayakan mengakibatkan kesalahan penafsiran. Maka dari itu, para profesional sebaiknya memilih ukuran-ukuran referensi norma yang menawarkan jenis skor perolehan lainnya, baik selain maupun sebagai pengganti ekuivalen usia dan kelas.
Menurut Asosiasi Membaca Internasional:
Salah satu penyalahgunaan tes yang paling serius adalah ketergantungan kepada ekuivalen kelas sebagai indikator hasil mutlak, apabila ekuivalen kelas harus ditafsirkan sebagai indikator untuk prestasi seorang peserta tes dalam kaitannya dengan peserta tes lain yang digunakan sebagai kaidah tes.
Peringkat Persentil
Mengindikasikan prosentase individu didalam kelompok norma yang mencapai niai mentah ini atau nilai yang lebih rendah.
Peringkat persentil relatif mudah untuk dipahami selama mereka tidak keliru dengan prosentase. Peringkat persentil  mengacu kepada sebuah prosentase orang; prosentase yang benar mengacu kepada prosentase soal tes.
Data peringkat persentil mengindikasikan kedudukan relatif didalam kelompok norma tersebut. Salvia dan Ysseldyke (2007) lebih memilih peringkat persentil daripada skor yang diperoleh lainnya karena “persentil-persentil tidak memberi tahu kita apa-apa selain apa yang dapat diberitahukanoleh skor yang diperoleh referensi norma – yaitu kedudukan relatif seseorang dalam suatu kelompok.
Skor Standard
Tersedia dalam beberapa ukuran standar referensi norma yang mengubah nilai mentah menjadi sebuah skala baru dengan rerata kelompok dan standard deviasi. Skor standard bermanfaat untuk membandingkan prestasi orang yang sama pada dua ukuran yang berbeda, selama distribusi nilai mentah dari ukuran tersebut hampir sama.
Jika nilai mentah seorang siswa berubah menjadi skor standard 100, maka siswa tersebut memiliki prestasi rata-rata.
Norma-norma skor standard yang berbeda dapat diberikan menurut usia atau kelas.
Salah satu cara untuk menjamin persamaan adalah dengan memilih ukuran-ukuran dengan distribusi nilai mentah yang normal atau telah dinormalisasi oleh pembuat tes.
Stanine
Stanine adalah jenis lain dari skor yang diperoleh. Distribusi stanine dibagi menjadi sembilan segmen, atau standard sembilan, yang masing-masing memiliki lebar standard deviasi sebesar 0,5.
Stanine menyatakan suatu jangkauan prsstasi bukan suatu skor tertentu, maka data yang mereka sediakan kuang tepat dibandingkan dengan data dari skor standard. Tujuan penilaian adalah untuk membandingkan prestasi seorang siswa dengan sebuah kelompok norma, maka jenis skor yang paling informatif adalah skor standard yang dinormalisasi.
Penilaian dalam Penerapannya
Bapak Chang
Bapak Chang membaca petunjuk penggunaan tes untuk mempelajari apa yang harus dikatakan oleh penerbit tentang tujuan tes. Bapak Chang akan mengevaluasi tes untuk menentukan apakah hal ini akan memperbolehkan penilaian yang tidak bias terhadap siswa dari Elias, terutama mereka yang memiliki perbedaan dalam hal bahasa dan budaya.

MEMPROMOSIKAN PENILAIAN
Kemungkinan terjadinya bias bukan hanya terbatas pada pemilihan, pemberian, dan penafsiran alat penilaian. Pencegahan bias adalah pemilihan alat penilaian yang tepat.
Masalah-masalah dalam Penilaian Siswa yang memiliki Bahasa dan Budaya Berbeda
Masalah-masalah yang terkait dengan penilaian terhadap berbagai macam siswa telah merangsang sejumlah solusi yang diusulkan, walaupun tidak ada solusi yang bebas dari kritikan.
Penerjemahan Ukuran Kedalam Bahasa Selain Bahasa Inggris
            Untuk penilaian siswa dianjurkan agar tes dan petunjuk tes diterjemahkan kedalam bahasa asli siswa.
Menerjemahkan sebuah ukuran dari satu bahasa ke bahasa lain tidak menghapuskan kemungkinan bias. Penerjemahan tidak hanya harus mempertahankan makna harfiah dan budaya dari bahasa aslinya melainkan juga tingkat kesulitan masing-masing soal tes.
Pemanfaatan Penerjemah
Strategi lain untuk penilaian siswa yang berbicara bahasa selain bahasa Inggris adalah dengan memanfaatkan penerjemah. Penerjemahan spontan terhadap petunjuk tes dan soal-soal mungkin melibatkan ketidakakuratan dan seperti keberangkatan dari kondisi standardisasi tes, hal itu membuat norma-norma tes jadi mustahil untuk digunakan.
Tes yang Adil Bagi Budaya
Salah satu metode yang diusulkan untuk memerangi bias budaya adalah pengembangan ukuran yang bebas budaya dan yang adil budaya.
Salah satu upaya untuk menghasilkan ukuran semacam itu adalah Culture Fair Intelligence Test dari Cattel. Leiter International Performance Scale dan ukuran-ukuran kecerdasan non verbal lainnya juga dianggap sebagai tes yang adil budaya.
Menurut Gonzales (1982), sebuah ukuran yang adil budaya harus memenuhi kriteria berikut ini:
  1. Prediksi yang sama dapat dibuat dari hasil antar budaya atau populasi tertentu.
  2. Bahasa dan membaca dijaga tetap pada tingkat minimum.
  3. Representasi yang cukup dari populasi target terletak pada penormaan.
  4. Subyek sebaiknya tidak dihukum dengan faktor waktu.
  5. Populasi target harus memiliki kesempatan untuk mempelajari materi
  6. Isi soal harus familier untuk semua kelompok.
Ukuran Khusus Budaya
Ukuran khusus budaya dapat meningkatkan pemahaman tentang berbagai macam budaya, namun mereka tidak dapat mengatasi masalah-masalah bias. Ukuran khusus budaya seringkali tidak dapat dipindahkan dari satu wilayah negara ke wilayah yang lain. Selain itu, validitas prediktifnya mungkin kurang.
Norma-norma yang Berbeda
Sebuah alternatif untuk ukuran khusus budaya adalah pembentukan norma-norma yang berbeda untuk berbagai siswa dan siswa dari budaya yang dominan. Gonzales (1982) merekomendasikan agar norma-norma lokal yang berbeda ditetapkan untuk berbagai macam siswa hanya apabila karakteristik budaya dan bahasa mereka berbeda secara signifikan dengan karakteristik budaya dan bahasa budaya yang dominan, seperti halnya beberapa kelompok siswa Pribumi Amerika.


Modifikasi Prosedur Pemberian Tes
Prosedur pemberian tes dapat diubah dalam upaya untuk memperbaiki prestasi siswa. Sebuah strategi yang terkait adalah dengan melatih siswa dalam keterampilan mengikuti tes. Jika siswa tidak familier dengan prosedur pengujian atau tugas penilaian tertentu, kurangnya persiapan dapat menghambat prestasi mereka.
Penilaian yang Dinamis
Dijelaskan oleh Feuerstein dan rekan-rekannya (1979), tes-tes diberikan dengan menggunakan format tes-mengajar-retest. Penguji memberikan sebuah tugas tes, mengamati siswa yang berinteraksi dengan tugas, dan kemudian melatih siswa dalam upaya untuk meningkatkan prestasi. Tujuan dari pendekatan ini adalah untuk mempelajari kemampuan belajar atau “kapasitas tersembunyi” menurut Sternberg dan Grigorenko (2002), bukan prestasi intelektualnya saat ini.
Winzer dan Mazurek (1998) mengemukakan, “observasi dan hasil yang diperoleh selama penilaian dapat menghasilkan saran pengajaran karena teknik-teknik tersebut telah ditunjukkan meningkatkan efisiensi pembelajaran pada seorang, dalam penilaian.
Penggantian Tes Terstandard dengan Prosedur Non Formal
Tes referensi kriteria mengevaluasi prestasi seorang siswa tanpa mengacu kepada prestasi siswa lain. Selanjutnya, tes referensi kriteria memberikan petunjuk pengajaran berdasarkan kebutuhan masing-masing siswa.
Pedoman mengenai Pemilihan Alat-alat Penilaian Non-Diskriminasi
Salah satu kesulitan dalam melaksanakan persyaratan ini adalah kurangnya kesepakatan tentang apa yang dimaksud dengan penilaian non diskriminasi. Alley dan Foster (1978) menjelaskan ukuran non-diskriminasi sebagai “ukuran yang menghasilkan distribusi prestasi yang hampir sama antar kelompok budaya”. Menurut definisi ini, semua kelompok akan perlu berprestasi sama baik dalam sebuah ukuran dengan rerata yang hampir sama dan variabilitas yang hampir sama. Akan tetapi, prestasi relatif kelompok hanya merupakan satu kriteria. Masalah lainnya adalah validitas prediktif instrument, struktur analisis faktor dan variansi dalam nilai soal.
Hambatan lainnya adalah langkanya alat penilaian yang tepat untuk berbagai macam populasi. Tahap lain dalam evaluasi adalah meninjau soal tes untuk bias budaya. Jika soal-soal memerlukan sebuah latar belakang pengalaman yang tidak sesuai dengan pengalaman siswa, maka siswa mungkin akan memiliki hasil yang buruk.
Panduan tentang Evaluasi Alat Penilaian
Nama ukuran                                                                                                                      
Pembuat                                                                                Tanggal                     
Penerbit                                                                                 Biaya                         
DESKRIPSI TENTANG UKURAN
1.       Tujuan dari ukuran seperti yang dinyatakan dalam petunjuk penggunaan.
2.      Jenis ukuran (misalnya tes referensi norma, inventarisasi, checklist)
3.      Bidang muatan yang dinilai (deskripsi tentang tiap bidang dan bila perlu daftar sub test)
4.     Persyaratan siswa
a.     Bahasa
b.     Cara penyajian (modus presentasi)
c.      Pemberian secara berkelompok atau perorangan
d.     Faktor waktu
5.      Persyaratan penguji
a.     Pelatihan yang diperlukan
b.     Waktu pemberian dan persyaratan waktu yang lain
c.      Kemudahan pengunaan
6.     Norma tes atau standard lainnya
a.     Jenis referensi (misalnya kelompok norma atau tujuan kurikulum)
b.     Bila perlu, karakteristik kelompok norma
(1)    Usia, kelas, jenis kelamin
(2)  Metode pemilihan
(3)  Representativitas
(4)  Ukuran
(5)  Kekinian norma-norma
c.      Bila perlu, deskripsi tentang standard kurikulum
(1)    Domain isi
(2)  Representativitas kelompok soal
(3)  Kelengkapan kelompok soal
(4)  Ketepatan tugas
7.      Reliabilitas
a.     Reliabilitas Tes-retes
b.     Reliabilitas bentuk ekuivalen
c.      Konsistensi internal
d.     Reliabilitas penilai
8.      Validitas
a.     Validitas isi
b.     Validitas yang terkait dengan kriteria (prediktif dan/atau concurrent)
c.      Validitas konsep
9.     Hasil
a.     Jenis skor atau hasil lainnya
b.     Standrd kesalahan pengukuran
10.  Komentar lain

PERTIMBANGAN DALAM PENILAIAN YANG TIDAK BIAS
1.       Apakah kelompok norma atau standard perbandingan lain tepat bagi siswa dalam kaitannya dengan ras, kesukuan, budaya dan jenis kelamin?
2.      Apakah soal tes bebas dari bias budaya?
3.      Apakah bahasa ukuran sesuai untuk siswa?
4.     Apakah kuran tersebut mengindari batasan-batasan yang dibebankan oleh kebutuhan khusus.

KESIMPULAN
1.       Apakah alat ini sesuai dengan tujuan penilaian?
2.      Apakah alat ini cocok untuk siswa?
3.      Apakah alat ini cocok bagi penguji?
4.     Apakah alat ini memadai secara teknis
5.      Apakah alat ini merupakan mekanisme pengumpulan data yang efisien?





Tidak ada komentar:

Posting Komentar