Item Response Theory (IRT) Atau Teori Respon Butir [Penjelasan Lengkap]

Item Response Theory (IRT) Adalah Penelaahan Butir Soal. Atau disebut juga teori respon butir. Akhir-akhir ini skema pembobotan item response theory banyak diperbincangkan, terutama setelah digunakan dalam seleksi UTBK SBMPTN. Apa sih Item Response Theory atau yang disingkat IRT itu?

Artikel ini akan mencoba menjelaskan mulai dari perihal evaluasi, definisi IRT, asumsi teori respn butir, tujuan IRT dalam sebuah evaluasi, serta hal-hal lain yang terkait dengan bahasan Item Response Theory.

Selamat menyimak, dan mari kita awali dari bahasan urgensi evaluasi dalam pembelajaran. Hal ini penting dibawakan dengan harapan memberikan pemahaman yang lebih komprehensif tentang topik bahasan kita kali ini.

Daftar Isi

Urgensi Evaluasi & Pengukuran dalam Pembelajaran

Kegiatan evaluasi selalu menjadi bagian yang tidak bisa ditnggalkan untuk mengukur dan menentukan apakah aktivitas yang telah dilakukan berhasil atau tidak (Mansyur & Harun, 2015).

Evaluasi sendiri bisa diartikan sebagai salah satu rangkaian kegiatan dalam meningkatkan kualitas, kinerja atau produktivitas suatu lembaga dalam melaksanakan programnya (Mardapi, 2012).

Sedangkan pengukuran merupakan suatu langkah atau tindakan yang harus dilaksanakan dalam rangka melakukan proses evaluasi. Artinya kegiatan evaluasi harus diawali dengan kegiatan pengukuran.

Pengukuran akan selalu menjadi sebuah proses dalam pemberian angka yang diharapkan dapat menunjukkan kemampuan peserta didik mengenai suatu mata pelajaran (Mardapi, 2012). Oleh karena itu didalam praktik, masalah pengukuran mempunyai kedudukan sangat penting didalam proses evaluasi.

Setiap proses pengukuran pasti dibutuhkan alat ukur. Alat ukur tersebut harus sudah disiapkan sebelum proses pengukuran dimulai. Alat ukur inilah yang memberikan informasi tentang posisi seseorang dalam atribut yang diukur, sehingga untuk memperoleh hasil pengukuran yang dapat menggambarkan hasil pengukuran sebenarnya dibutuhkan alat ukur yang memiliki tingkat validitas dan reliabilitas tinggi.

Alat ukur tersebut (dalam pembelajaran) adalah berupa instrumen. Sejalan dengan itu, (Saifuddin, 2002) mengatakan bahwa instrumen yang baik adalah instrumen yang mampu menghasilkan data dan memberikan informasi yang akurat agar informasi yang diperoleh dari hasil pengukuran menggambarkan kemampuan peserta didik yang sebenarnya.

Secara umum dalam mengukur prestasi belajar siswa digunakan instrument tes. (Allen & Yen, 1979) menyebut tes sebagai “a test is device for optaining a sample of an indifidual’s behavior”. Hal yang hampir sama juga dikemukakan oleh (Mardapi, 2012) mengatakan bahwa tes merupakan salah satu bentuk instrumen yang digunakan untuk melakukan pengukuran, yaitu mengumpulkan informasi karakteristik suatu objek.

Ahli pengukuran yang lain, (Widoyoko, 2012) mengatakan bahwa tes dapat diartikan sebagai sejumlah pertanyaan yang harus diberikan tanggapan dengan tujuan untuk mengukur tingkat kemampuan seseorang atau mengungkap aspek tertentu dari orang yang dikenai tes.

Pada prinsipnya, soal-soal UTBK baik itu berupa soal PTS maupun TKA Saintek & Soshum juga merupakan instrumen pengukuran. Karena hasil tes ini, selain sebagai sarana seleksi SBMPTN juga bisa dijadikan ukura keberhasilan pendidikan yang diselenggarakan oleh sekolah-sekolah seluruh Indonesia.

Adapun sebagai bentuk evaluasi, hasil seleksi UTBK itu bisa dijadikan cerminan keberhasilan bapak/ ibu guru dalam mengajar di sekolahnya masing-masing. Sekaligus juga sebagai ukuran kualitas pembelajaran di sekolah tersebut.

Proses penyusunan soal-soal UTBK tersebut juga bukan perkara mudah. Dalam prosesnya diperlukan analisis butir soal dengan tingkat validitas dan reliabilitas yang baik, sehingga komposisi soal mudah, sedang dan sukar menyebar secara proporsional sesuai dengan materi pelajaran yang diujikan.

Salah satu hal terpenting saat penyusunan soal adalah karakteristik butir soal. Karakteristik butir soal meliputi tingkat kesukaran butir soal yang baik dengan komposisi soal mudah, sedang dan sukar menyebar secara proporsional sesuai dengan materi pelajaran yang diujikan.

Serta indeks daya beda butir soal yang baik mampu untuk membedakan antara kelompok peserta didik berkemampuan tinggi dengan kelompok peserta didik berkemampuan rendah, sehingga hasil evaluasi belajar peserta didik akan menggambarkan hasil belajar peserta didik yang sebenarnya.

Terdapat dua pendekatan yang dapat digunakan untuk melihat karakteristik butir soal yaitu Classical Test Teory (CTT) dan Item Respon Teory (IRT). Maka mari kita bahas satu persatu

**Teori Tes Klasik (Classical Test Theory)**

Salah satu teori pengukuran yang tertua di dunia pengukuran behavioral adalah classical true-score theory. Teori ini dalam bahasa Indonesia sering disebut dengan teori tes klasik.

Teori tes klasik merupakan sebuah teori yang mudah dalam penerapannya, serta model yang cukup berguna dalam mendeskripsikan bagaimana kesalahan dalam pengukuran dapat mempengaruhi skor amatan.

Teori tes klasik merupakan upaya menjelaskan error pada pengukuran. Pada teori tes klasik, model error pengukuran berdasarkan koefisien korelasi. Koefisien korelasi ditemukan oleh Charles Spearman, merupakan upaya menjelaskan error menggunakan dua komponen: korelasi sebenarnya dan korelasi amatan.

Koefisien korelasi dalam teori tes klasik, berdasarkan pada teori bahwa nilai rata-rata pengukuran dari semua hasil pengukuran yang mungkin akan sama pengukuran sebenarnya pada populasi. Akibatnya terhadap teori tes klasik adalah:

error bersifat acak dan
pengukuran terdiri atas tiga komponen:

indikator amatan,
indikator hipotetikal yang menunjukkan nilai populasi murni,
dan konsep hipotetikal yang menunjukkan kuantitas ketidak sesuaian antara indikator sebenarnya dan indikator amatan.

Teori tes klasik dinyatakan dengan rumus X = T + E. Menurut (Mardapi, 2012) pada teori tes klasik, skor yang tampak (X) terdiri atas skor sebenarnya atau skor murni (T) dan skor kesalahan (E).

Teori tes klasik menekankan pada skor mentah dari satu ujian yang dihasilkan. Skor mentah menunjukkan kemampuan seseorang. Dari skor mentah ini maka berbagai analisis dan interpretasi bisa dihasilkan sesuai dengan keperluan studi yang dilakukan (Sumintono & Widhiarso, 2014).

Menurut (Hambleton & Jones, 1993) “Classical test models are often referred to as “weak models” because the assumptions of these models are fairly easily met by test data”. Teori tes klasik mempunyai bebarapa asumsi;

Pertama, instrumen hanya satu dimensi.

Kedua, skor kesalahan pengukuran tidak berinteraksi dengan skor sebenarnya.

Ketiga, skor kesalahan tidak berkorelasi dengan skor sebenarnya dan skor-skor kesalahan pada tes yang lain untuk peserta tes yang sama.

Keempat, rata-rata skor kesalahan sama dengan nol. Asumsi tersebut dijadikan dasar untuk mengembangkan rumus yang digunakan untuk menghitung reliabilitas tes.

Reliabilitas dapat diartikan sebagai keajegan atau konsistensi hasil pengukuran atau hasil tes yang dilakukan pada waktu yang berbeda pada subjek yang sama. Artinya Semakin besar indeks reliabilitas maka akan semakin kecil kesalahan pengukuran, demikian sebaliknya (Mardapi, 2012)

Sayangnya, seperti diungkapkan (Saifuddin, 2002) bahwa teori tes klasik memiliki keterbatasan yang mendasar yaitu hasil estimasi parameter tergantung pada karakteristik peserta ujian (gruop dependent).

Hal ini berimplikasi pada tingkat kesukaran soal akan menjadi rendah jika tes diujikan pada kelompok peserta tes berkemampuan tinggi dan sebaliknya jika tes diujikan pada peserta dengan kemampuan rendah maka tingkat kesukaran tes itu akan tinggi.

Kedua hasil estimasi kemampuan peserta tergantung pada karakterisktk butir soal (item dependent). Keterbatasan ini menyebabkan estimasi kemampuan peserta akan rendah jika soal yang diberikan berada di atas kemampuannya.

Sebaliknya, estimasi kemampuan peserta akan tinggi bila soal yang diujikan berada dibawah tingkat kemampuannya.

Mengatasi kelemahan pada teori tes klasik, maka para ahli pengukuran mengembangkan model yang tidak terikat dengan sampel (sample free). Model ini selanjutnya dikenal tes modern atau tes respon butir.

Menurut teori respon butir, perilaku seseorang dapat dijelaskan oleh karakteristik orang yang bersangkutan sampai pada batas-batas tertentu (Mardapi, 2012)

Latar belakang munculnya Item Response Theory (IRT)

Sebagaimana sudah dijelaskan di atas, bahwa dalam pengukuran pendidikan, terdapat dua pendekatan yang sering digunakan yaitu Classical Test Theory (CTT) dan Item Respons Theory (IRT).

Bila menggunakan CTT, umumnya siswa menjawab butir soal suatu tes yang berbentuk pilihan ganda dengan benar diberi skor 1 dan 0 jika salah, sehingga kemampuan siswa dinyatakan dengan skor total yang diperolehnya. Prosedur tersebut dinilai kurang memperhatikan interaksi antara setiap orang siswa dengan butir.

Namun, pendekatan tem Respons Theory (IRT) merupakan pendekatan alternatif yang dapat digunakan dalam menganalisis suatu tes. Hal ini dikarenakan IRT menggunakan model probabilistik.

Model probabilistik bermakna bahwa probabilitas subjek untuk menjawab butir dengan benar bergantung pada kemampuan subjek dan karakteristik butir. Artinya, peserta tes berkemampuan tinggi mempunyai probabilitas menjawab benar lebih besar dibandingkan peserta tes yang berkemampuan rendah.

Sementara CTT memiliki beberapa kelemahan yaitu:

(1) tingkat kesukaran dan daya beda butir soal tergantung pada kelompok peserta yang mengerjakannya,

(2) penggunaan metode dan teknik untuk desain dan analisis tes dengan memperbandingkan kemampuan siswa pada pembagian kelompok atas, tengah, dan bawah,

(3) Konsep reliabilitas skor didefinisikan dari istilah tes paralel,

(4) tidak ada dasar teori untuk menentukan bagaimana peserta memperoleh tes yang sesuai dengan kemampuan peserta yang bersangkutan, dan

(5) Standard Error Measurement (SEM) berlaku pada seluruh peserta tes [9]. Berdasarkan kelemahan- kelemahan tersebut, maka pendekatan Item response Theory (IRT) muncul untuk mengatasi kelemahan yang ada pada CTT.

Berikut kami berikan penjelasan mengenai sistem pengukuran Item response Theory

Item Response Theory (IRT) Adalah Penelaahan Butir Soal

Berikut adalah beberapa pengertian mengenai Item response Theory dari para ahli.

Van der Linden & Hambleton (2013)

Menurut beliau di atas, Item response Theory adalah salah satu cara untuk menilai kelayakan butir dengan membandingkan rerata penampilan butir terhadap tampilan bukti kemampuan kelompok yang diramalkan oleh model.

Liang, Wells, & Hambleton (2014)

Menurutnya, Item response theory (IRT) adalah: “is a powerful scaling technique with appealing features such as the invariance of item and ability parameter values”.

Tujuan IRT

IRT dikenal juga sebagai Teori Ciri Laten (Latent Trait Theory -LTT) atau lengkungan karakteristik butir (Item Characteristic Curve-ICC) atau Fungsi Karakteristik Butir (Items Characteristic Function-ICF).

Pada dasarnya, teori ini ingin memperbaiki kelemahan yang terdapat pada CTT yakni adanya sifat group dependent dan item dependent. atau dengan kata lain tujuan utama teori respon butir dikembangkan adalah untuk mengatasi teori tes klasik yang tidak independent terhadap kelompok peserta yang mengerjakan tes maupun terhadap tes yang diujikan.

Hal ini berarti indeks daya pembeda, tingkat kesulitan, dan koefisien reliabilitas tes tergantung kepada yang mengerjakan tes tersebut, selain dipengaruhi oleh soal atau butir yang ada. Maka dalam konteks tes UTBK, indeks penskoran akan tergantung pada kemampuan seluruh pesertanya.

Untuk mencapai tujuan seperti ini, IRT membangun suatu model yang menghubungkan ciri butir dengan ciri peserta. Dengan sejumlah syarat tertentu, model hubungan itu dibuat untuk berlaku secara bebas bagi kelompok butir dan kelompok peserta mana saja yang memenuhi syarat itu.

Dengan kata lain, model hubungan tersebut dibuat untuk berlaku bagi sejumlah kelompok butir dan seju- mlah kelompok peserta tanpa ketergantungan satu terhadap ciri lainnya.

Ciri butir dan ciri peserta yang dihubungkan oleh model yang berbentuk fungsi atau lengkungan grafik dengan sejumlah syarat itu dinyatakan melalui sejumlah parameter. Ada parameter ciri butir dan ada pula parameter ciri peserta dengan menggunakan cukup banyak butir tes serta cukup banyak respon peserta tes, dari model hubungan itu kita dapat mengestimasi parameter ciri butir dan parameter ciri peserta.

Demikianlah dengan adanya butir tes, peserta tes, respon peserta, ciri butir, ciri terpendam (laten) dari peserta, model hubungan berbentuk fungsi atau berbentuk lengkungan grafik ini, muncullah berbagai istilah seperti teori respons butir, teori ciri laten, lengkungan karakteristik butir, dan fungsi karakteristik butir.

Sesuai dengan namanya, teori respon butir membangun model hubungan untuk setiap butir yakni hubungan diantara butir itu dengan para peserta yang meresponsnya.

Terdapat tiga unsur utama dalam IRT:

Unsur pertama adalah butir.

IRT menelaah butir untuk menemukan cirinya. Setiap penelaahan berkenaan dengan satu butir sehingga di dalam tes, kita dapat memiliki banyak penelaahan masing-masing berkenaan dengan satu butir di dalam perangkat tes itu.

2. Unsur kedua adalah peserta yang meresponsi butir itu.

Biasanya, peserta yang meresponsi butir itu melakukan responsinya melalui suatu kemampuan. Dalam hal ini, model pada IRT menggunakan suatu skala kontinum untuk menampung segala jenis kemampuan peserta yang meresponsi butir.

Diangkat ke istilah yang lebih umum, kontinum segala kemampuan peserta, dinamakan konti- num ciri peserta atau dalam sejumlah hal, dinamakan juga kontinum ciri terpendam (latent trait) peserta.

3. Unsur ketiga adalah isi responsi peserta terhadap butir tes.

Didalam tes, isi respon dapat berbentuk salah atau benar, sehingga dengan menggabungkan isi reponsi dari semua peserta terhadap butir itu, kita menemukan hasil berupa banyaknya jawaban benar, proporsi jawaban benar, atau probabilitas jawaban benar.

Dengan cara yang sama, kita juga dapat menemukan banyaknya jawaban salah, proporsi jawaban salah, atau probabilitas jawaban salah.

Probabilitas dalam Teori Respon Butir

Bagian penting dari teori respon butir adalah probabilitas jawaban benar peserta tes, parameter butir dan parameter peserta tes dihubungkan melalui suatu fungsi matematik atau model formula matematik.

Dalam formula ini, nilai kemungkinan peserta tes menjawab soal dipahami sebagai fungsi logistik perbedaan parameter yang dimasukkan kedalam model.

Teori respon butir atau teori tes modern dikembangkan atas dasar pikiran:

1) hasil ujian seseorang dapat diprediksi dari kemampuan yang dimilikinya dan

2) hubungan antara hasil ujian dan kemampuan dinyatakan dalam sebuah fungsi yang disebut kurva karakteristik butir atau Item Characteristic Curve (Hambleton, Swaminathan, & Rogers, 1991).

Fungsi kurva karakteristik butir (ICC) ini memperlihatkan posisi peserta tes dengan kemampuan tinggi akan memiliki peluang yang lebih sebaliknya, peserta tes dengan kemampuan rendah besar menjawab butir soal dengan tingkat kesukaran yang tinggi.

Kemampuan ini sering disebut dengan potensi yang merupakan faktor dominan untuk menentukan keberhasilan seseorang dalam belajar yang ditunjukkan oleh hasil yang diperoleh dari suatu ujian.

Hubungan dengan tingkat kesukaran butir soal, sifat invarians berarti bahwa indeks kesukaran suatu butir soal tidak akan berubah, sekalipun soal dikerjakan oleh peserta tes yang pandai atau kurang pandai.

Kondisi tersebut tidak berlaku bagi tes klasik sehingga sifat invarians merupakan salah satu kelebihan teori respon butir. Teori tes modern atau respon butir memiliki syarat yang lebih ketat dibanding tes klasik, baik ditinjau dari asumsinya maupun ukuran sampel yang dibutuhkan dalam analisisnya

Asumsi Teori Respon Butir

Dalam teori respon butir, model matematisnya mempunyai makna bahwa probabilitas subjek untuk menjawab butir dengan benar tergantung pada kemampuan subjek dan karakteristik butir.

Ini berarti bahwa peserta tes dengan kemampuan tinggi akan mempunyai probabilitas menjawab benar lebih besar jika dibandingkan dengan peserta yang mempunyai kemampuan rendah.

Hambleton et al. (1991) menyatakan bahwa ada tiga asumsi yang mendasari teori respon butir, yaitu unidimensi, independensi lokal dan invariansi parameter.

Unidimensi, artinya setiap butir tes hanya mengukur satu kemampuan.

Contohnya, pada tes prestasi belajar bidang studi matematika, butir-butir yang termuat di dalamnya hanya mengukur kemampuan peserta didik dalam bidang studi matematika saja, bukan bidang yang lainnya.

Pada praktiknya, asumsi unidimensi sulit dilakukan karena adanya faktor-faktor kognitif, kepribadian dan faktor-faktor pelaksanaan tes, seperti kecemasan, motivasi, dan tendensi untuk menebak.

Oleh karena itu, asumsi unidimensi dapat ditunjukkan hanya jika tes mengandung satu komponen dominan yang mengukur prestasi subjek. Menurut Naga (1992) Salah satu cara menguji ketercapaian syarat unidimensi adalah metode analisis faktor.

Independensi lokal menyatakan bahwa sikap kemampuan yang mempengaruhi suatu tes adalah konstan, maka respon peserta tes pada setiap butir soal adalah independen secara statistik.

Sebagaimana dijelaskan oleh van der Linden & Hambleton (2013):

The term “local” in the local independence assumption is used to indicate that responses are assumed independent at the level of individual persons with the same value of, but the assumption does not generalize to the case of variation in.

Asumsi independensi lokal menyatakan bahwa tidak ada korelasi antara respon peserta tes pada butir soal yang berbeda. Hal ini menunjukkan bahwa kemampuan yang dinyatakan dalam model adalah satu-satunya faktor yang mempengaruhi respon peserta tes pada butir-butir soal.

Bukti yang lain adalah peluang dari pola jawaban setiap peserta tes sama dengan hasil kali peluang jawaban peserta tes pada setiap butir soal.

Invariansi parameter artinya bahwa karakteristik butir soal tidak tergantung pada distribusi parameter kemampuan peserta tes dan parameter yang menjadi ciri peserta tes tidak bergantung dari ciri butir soal.

Schulz & Fraillon (2011) mengatakan: “Measurement invariance holds if individuals with the same score on the same measurement instrumen have the same standing on the underlying construct that is measured”.

Kemampuan seseorang tidak akan berubah hanya karena mengerjakan tes yang berbeda tingkat kesulitannya dan parameter butir tes tidak akan berubah hanya karena diujikan pada kelompok peserta tes yang berbeda tingkat kemampuannya.

Penskoran Klasik dan Modern

Berdasarkan taksonomi psikologi belajar, maka karakteristik objek berkaitan dengan aspek kognitif, afektif dan psikomotorik. Secara khusus, pengukuran aspek kognitif diukur melalui uji tes.

Sedangkan pengukuran aspek afektif diukur dengan kuesioner, angket, wawancara, atau melalui pengamatan, sementara aspek psikomotorik diukur dengan pengamatan langsung melalui praktik terhadap sesuatu keterampilan (skill) khusus dari peserta didik.

Objek yang diukur dalam pendidikan antara lain: siswa, mahasiswa, guru/dosen. Untuk mendapatkan informasi yang akurat tentang karakteristik dan objek yang diteliti, maka perlu alat ukur yang baik (sahih) yakni alat ukur yang mempersyaratkan beberapa hal, sehingga alat ukur tersebut menghasil-kan informasi yang mengandung ketetapan yang tinggi, dan kesalahan kecil, sehingga hasilnya dapat diandalkan (Asmin, 2004) .

Persyaratan alat ukur pendidikan, menurut Cronbach (1990) meliputi kesahihan (validitas) yang diperoleh melalui korelasi sebuah tes dengan suatu kriteria tes yang ditentukan, dan keterandalan (reliabilitas ) alat ukur yakni suatu proses yang dilakukan oleh pengguna tes dalam mengumpulkan bukti untuk mendukung inferensi yang dibuat berdasarkan skor tes.

Menurut teori tes klasik kesahihan meliputi kesahihan isi, konstrak, dan kriteria (Crokcer & Algina, 1986). Validitas dapat berarti sejauh mana ketepatan dan kecermatan suatu alat ukur dalam melakukan fungsi ukurnya.

Menurut Djaali (2000) bahwa validitas tes tinggi apabila tes tersebut menjalankan fungsi ukur secara tepat, atau memberikan hasil ukur yang sesuai dengan maksud dilakukannya pengukuran tersebut.

Selanjutnya, reliabilitas artinya sejauh mana hasil pengukuran dapat dipercaya. Suatu hasil pengukuran hanya dapat dipercaya apabila dalam beberapa kali pelaksanaan pengetesan terhadap kelompok subyek yang sama diperoleh hasil yang relatif sama.

Pada pengukuran klasik ciri yang unik diper-lihatkan dari kenyataan bahwa kelompok butir tes atau kelompok angket (kuesioner) tidak dapat dipisahkan dari kelompok peserta tes atau kelompok yang mengisi angket.

Artinya, kelompok butir tes/ angket (kuesioner) yang sama harus dijawab oleh kelompok peserta tes yang sama.

Jika kelompok tes yang sama dijawab kelompok peserta uji tes yang berbeda maka ciri karakteristik kelompok butir itu akan berubah, sehingga taraf kesukaran dan daya pembeda kelompok butir tes itu akan berubah semata-mata karena kelompok butir tes tersebut ditanggapi oleh kelompok peserta yang berbeda.

Menurut Setiadi (1998) bahwa dalam teori klasik, statistik soal, misalnya indeks kesukaran soal tergantung pada sampel pengikut ujian.

Kalau tes tersebut dikerjakan oleh siswa yang pandai maka soal-soal itu sepertinya mudah atau tingkat kesukaran soalnya menjadi besar, dan sebaliknya kalau dikerjakan oleh siswa yang kurang pandai maka soal itu sepertinya sukar atau tingkat kesukaran soal menjadi kecil.

Jadi, soal-soal itu tidak konsisten atau berubah- ubah tergantung pada kemampuan kelompok sampel siswa yang menempuh ujian.

Sejalan dengan itu, jika kelompok peserta tes yang sama (peserta UTBK misalnya) menjawab kelompok butir tes yang berbeda maka ciri kelompok peserta akan berubah.

Dalam hal ini kemampuan atau sikap para peserta berubah semata- mata karena peserta tes yang menjawab butir tes yang berbeda, sehingga kelompok peserta yang sama dan kelompok butir tes yang berbeda akan menunjukkan ciri peserta yang berbeda.

Pada penskoran klasik ada keterkaitan antara kedua kelompok butir tes dan kelompok peserta tes, yang memungkinkan munculnya beberapa hal:

1) kelompok peserta uji tes yang cirinya diskor perlu mengikuti tes yang sama pada saat yang bersamaan, sehingga perlu dihindari kebocoran butir tes sebelum tes dilaksanakan;

2) keterkaitan antara kelompok butir dan kelompok peserta tes mengakibatkan tafsiran skor diarahkan pada kelompok peserta tes yang menjawab tes tersebut. Biasanya tafsiran tersebut mengacu ke acuan norma; dan

3) tes yang terlalu mudah atau terlalu sukar tidak akan mencerminkan kemampuan peserta tersebut dengan akurat, sehingga kedua bentuk tes tersebut dipertimbangkan untuk diganti.

Responden memiliki kemampuan yang biasanya berbeda di antara responden. Butir memiliki taraf sukar butir b yang biasanya berbeda di antara butir. Pada pengukuran terjadi pertemuan di antara kemampuan responden dengan tara sukar butir.

Jawaban atau tanggapan responden terhadap butir membuahkan hasil ukur. Dalam hal tertentu, hasil ukur menunjukkan salah atau betul. Pada skala dikotomi, jawaban salah sering diberi skor 0 dan jawaban betul diberi skor 1.

Hasil ukur dapat juga dinyatakan dalam bentuk probabilitas jawaban betul (nilai dari 0 sampai 1).

Probabilitas jawaban betul ditentukan oleh padanan di antara kemampuan responden dengan taraf sukar butir.

Sementara demikian yang bisa saya tuliskan dalam artikel ini. Jika masih ada yang belum dimengerti atau artikel ini kurang lengkap bisa kami tambahkan pada artikel-artikel berikutnya.

Salam sukses! Teriring doa dari saya semoga wawasan kita mengenai item response theory semakin bertambah.