Berikut ini adalah terjemahan dari sebuah artikel yang berjudul Want to improve recruiting? Start by learning from 100 years of research [Schmidt] oleh Itamar Goldminz
Selamat membaca.
Chandra Natadipurba
===
Saya pertama kali menemukan karya Frank Schmidt saat membaca buku “Work Rules!” oleh Laszlo Bock beberapa tahun lalu. Bock merujuk pada sebuah makalah tahun 1998 yang ditulis oleh Schmidt dan Hunter sebagai dasar ilmiah untuk praktik wawancara Google, khususnya penggunaan “tes sampel kerja” dan “wawancara terstruktur”. Pada tahun 2016, Schmidt menulis sebuah makalah terbaru yang mengintegrasikan data dari 20 tahun penelitian tambahan dan metode analisis yang lebih baik:
The Validity and Utility of Selection Methods in Personnel Psychology: Practical and Theoretical Implications of 100 Years of Research Findings
Validitas Operasional Mandiri
No. | Metode Penilaian | Validitas Operasional Mandiri |
1 | Tes GMA | 0,65 |
2 | Wawancara Kerja (terstruktur) | 0,58 |
3 | Wawancara Kerja (tidak terstruktur) | 0,58 |
4 | Penilaian oleh Rekan (Peer rating) | 0,49 |
5 | Tes Pengetahuan Kerja | 0,46 |
6 | Tes Integritas | 0,46 |
7 | Wawancara berbasis telepon | 0,46 |
8 | Prosedur Uji Coba Kerja | 0,44 |
9 | Pusat Penilaian (Assessment centers) | 0,36 |
10 | Data Biografi | 0,35 |
11 | Nilai Rata-Rata (Grade point average) | 0,34 |
12 | Tes Sampel Kerja (Work-sample test) | 0,33 |
13 | EI Berbasis Kepribadian (Personality-based EI) | 0,32 |
14 | Minat | 0,31 |
Pemenang yang jelas dalam kemampuannya untuk memprediksi kinerja kerja secara mandiri menurut analisis Schmidt adalah tes “General Mental Ability” (GMA) seperti ONET Ability Profiler*, Slosson Intelligence Test, dan Wonderlic Cognitive Ability Test.
Rata-rata, tes-tes ini mampu memprediksi 65% kinerja kerja seorang kandidat.
Ini mewakili peningkatan 14% dalam kemampuan prediktif mereka dibandingkan dengan data tahun ’98, yang menggantikan “tes sampel kerja” (’98–54%, ’16–33%).
Rata-rata ini hanya menceritakan sebagian dari cerita karena analisis yang lebih rinci menunjukkan perbedaan yang signifikan dalam kemampuan prediktifnya tergantung pada jenis pekerjaan: 74% untuk pekerjaan profesional dan manajerial, dan 39% untuk pekerjaan tidak terampil.
Menariknya, tidak ada organisasi yang pernah saya kerja untuk atau dengar yang tampaknya menggunakan GMA.
Salah satu alasannya mungkin karena konsistensi dan presisi dalam metode ini, ditambah dengan ukuran sampel yang besar, membuat lebih mudah untuk membuktikan bahwa tes-tes ini memperkenalkan bias gender dan rasial.
Ini tampaknya disayangkan, karena tidak ada metode evaluasi lain yang bebas bias, hanya saja lebih sulit untuk diukur.
Mampu mengukur bias secara tepat memungkinkan kita untuk mengoreksinya dalam jangka pendek—post-hoc, dan dalam jangka panjang—melalui desain tes yang lebih baik.
Berikutnya adalah wawancara kerja (58%), di mana “wawancara terstruktur” mengacu pada wawancara di mana baik pertanyaan maupun kriteria evaluasi jawaban konsisten di antara kandidat.
Pertanyaan MSA dan PSQ yang saya diskusikan di sini adalah contoh bagus dari pertanyaan wawancara terstruktur.
Daftarnya turun dari sana hingga grafologi dan usia dengan kekuatan prediktif yang sedikit atau tidak ada sama sekali. Meskipun keduanya tampaknya tidak berbeda dalam kekuatan prediktif, wawancara tidak terstruktur jelas lebih rentan terhadap bias.
Karena GMA tampaknya merupakan ukuran terbaik untuk membuat keputusan perekrutan, Schmidt melihat semua ukuran lain relatif terhadapnya, dengan menanyakan pertanyaan berikut:
Ketika digunakan dalam kombinasi berbobot yang tepat dengan ukuran GMA, seberapa banyak masing-masing ukuran ini akan meningkatkan validitas prediktif untuk kinerja kerja di atas 0,65 yang dapat diperoleh dengan hanya menggunakan GMA?
Dalam hal ini, fokus beralih dari hanya melihat kemampuan prediktif mandiri mereka dan sebaliknya juga memperhitungkan kovarians mereka dengan GMA (kovarians lebih kecil = lebih baik).
Tabel ringkasan yang lebih luas ditampilkan di bawah ini tetapi inti dari semuanya adalah:
Secara keseluruhan, dua kombinasi dengan validitas multivariat tertinggi dan utilitas untuk memprediksi kinerja kerja adalah GMA ditambah tes integritas (validitas rata-rata 0,78) dan GMA ditambah wawancara terstruktur (validitas rata-rata 0,76).
Meskipun wawancara kerja mempertahankan posisinya di bagian atas daftar, tes integritas seperti Stanton Survey, Reid Report, dan PSI mengambil posisi teratas. Sekali lagi, ini bukan alat yang umum digunakan saat ini.
Jadi, di mana semua ini meninggalkan kita? Menurut pendapat saya, tampaknya pendulum dalam rekrutmen mungkin telah bergeser terlalu jauh dari kutub penilaian kuantitatif ke kutub penilaian kualitatif.
Tampaknya kita akan mendapatkan hasil yang jauh lebih baik dari upaya perekrutan kita jika penilaian GMA dan Integritas menggantikan beberapa wawancara terstruktur kita, sementara kita bekerja dengan tekun untuk menghilangkan bias dari upaya perekrutan kita, apa pun metode penilaian yang kita gunakan.
Validitas Inkremental saat digunakan dalam kombinasi dengan GMA
No. | Metode Penilaian | Validitas Inkremental |
1 | Tes Integritas | 0,13 |
2 | Wawancara Kerja (terstruktur) | 0,12 |
3 | Wawancara Kerja (tidak terstruktur) | 0,09 |
4 | Minat | 0,06 |
5 | Wawancara berbasis telepon | 0,06 |
6 | Ketelitian (Conscientiousness) | 0,05 |
7 | Pemeriksaan Referensi | 0,05 |
8 | Keterbukaan terhadap pengalaman baru | 0,04 |
9 | Data Biografi | 0,04 |
10 | Pengalaman Kerja (tahun) | 0,03 |
Sumber: Schmidt (2016)