L’objectif de tout recrutement est de sélectionner les candidats qui seront les plus performants une fois en poste. Mais quelles méthodes permettent réellement d’identifier ces candidats ? Les entretiens ? Les mises en situation ? Les tests d’aptitudes cognitives ? Un siècle de recherches a tenté de répondre à cette question que les spécialistes en psychologie du travail et des organisations ont qualifiée de « problème suprême » [1].
Evaluer la validité d’une méthode de sélection
La capacité d’une méthode de sélection à prédire la performance professionnelle correspond à sa validité. Techniquement, il s’agit de la corrélation entre les scores des personnes à cette méthode (le prédicteur) et la performance professionnelle (le critère). Plus cette corrélation est élevée, plus ceux qui ont un score élevé ont une performance élevée (et inversement), et donc plus la méthode est valide.
Cette validité est appelée critérielle (criterion-related validity) car il s’agit de prédire un critère tangible, en l’occurrence la performance professionnelle. Celle-ci peut renvoyer à une mesure objective (la productivité par exemple) ou une mesure subjective qui est typiquement l’évaluation par le supérieur hiérarchique. Le second type de mesure est le plus fréquent dans les études. A noter que le critère peut être autre chose que la performance professionnelle, par exemple l’engagement, la satisfaction au travail, ou encore les comportements contre-productifs.
Depuis le début des du 20e siècle, des milliers d’études publiées ont investigué la validité de différentes méthodes de sélection. Quand un domaine de recherche est aussi prolifique, les chercheurs publient des synthèses d’études appelées meta-analyses. Par exemple, une meta-analyse qui porte sur la validité des tests d’aptitudes cognitives va examiner la corrélation entre cette méthode et la performance professionnelle dans un grand nombre d’études (une centaine ou plusieurs centaines) et rapporter la corrélation moyenne. Celle-ci est bien sûr plus informative que la corrélation rapportée dans une étude isolée.
Cependant, la corrélation moyenne brute entre une méthode de sélection et la performance professionnelle ne correspond pas à la vraie valeur de la corrélation, pour deux raisons.
D’une part, la mesure de la performance professionnelle comporte une erreur de mesure. Imaginons que des salariés soit évalués par leur manager en novembre. S’ils étaient à nouveau évalués deux mois plus tard, les deux évaluations ne seraient pas parfaitement corrélées parce que l’évaluation d’un manager comporte une erreur de mesure aléatoire (le bruit).
D’autre part, la sélection inhérente au recrutement fait que la corrélation entre une méthode de sélection et la performance professionnelle est toujours calculée avec une portion restreinte de la variance des scores à la méthode. Ce phénomène est la restriction de la variance, et il amène à sous-estimer la vraie valeur de la corrélation.
Dans une meta-analyse, la corrélation moyenne brute doit donc être corrigée pour ces deux phénomènes. La corrélation corrigée correspond à la validité opérationnelle de la méthode de sélection, soit sa capacité réelle à prédire la performance professionnelle.
Deux études en particulier ont synthétisé les meta-analyses sur la validité des méthodes de sélection : l’étude de Schmidt et Hunter [2] et celle de Sackett et al. [3]. Chacune indique la validité opérationnelle de ces méthodes, estimée sur la base de milliers d’études. Cette information est évidemment très utile, et ces deux synthèses sont des références à la fois pour les chercheurs et les professionnels dans les RH.
La synthèse de Schmidt et Hunter (1998)
La première synthèse est celle publiée par Schmidt et Hunter en 1998. Frank Schmidt, professeur à l’université de l’Iowa et décédé en 2021, était l’un des chercheurs les plus réputés en psychologie du travail et des organisations (en 2020, ses publications étaient citées plus de 66 000 fois). Son article publié avec Hunter synthétise 85 années de recherche sur la validité des méthodes de sélection, et cet article a servi de référence sur le sujet pendant plus de 20 ans.
La figure ci-dessous montre les estimations par Schmidt et Hunter (1998) de la validité opérationnelle de différentes méthodes de sélection. Leur article estime la validité de 19 méthodes, mais nous indiquons ici seulement les méthodes communes à cet article et celui de Sackett et al. [3].
L’étude de Schmidt et Hunter montre que les trois méthodes les plus valides sont les mises en situation (work sample tests), les tests d’aptitude cognitive générale (general mental ability tests), et les entretiens structurés (structured interviews). Ces trois méthodes ont une validité supérieure à 0.50, ce qui signifie que la variance des scores à ces méthodes explique plus de 25 % de la variance de la performance professionnelle.
Une corrélation de 0.50 peut sembler modérée aux yeux du profane, mais c’est en réalité une valeur exceptionnelle. En effet, la performance professionnelle dépend d’une multitude de facteurs – relations avec les collègues, événements personnels, changements internes à l’entreprise – qui sont par définition inconnus au moment du recrutement. Dans ces conditions, il est remarquable que des informations collectées en l’espace d’une heure permettent d’expliquer à elles seules un quart de la variance de la performance future.
Par ailleurs, pour apprécier une corrélation de 0.50, il faut la comparer à d’autres corrélations. D’une part, à celles que l’on trouve typiquement en psychologie. Une boutade chez les chercheurs consiste à dire que « tout corrèle avec tout à 0.30 ». C’est une façon de dire qu’il est rare de trouver des corrélations supérieures à 0.30, en particulier lorsqu’elles impliquent des comportements réels, comme la performance professionnelle [4]. Les quelques rares corrélations fortes (entre 0.50 et 0.60) établies dans la littérature sont par exemple celle entre le QI et la réussite scolaire, ou encore celle entre l’âge et la vitesse de traitement de l’information chez les adultes.
Une corrélation de 0.50 doit être d’autre part comparée à celles que l’on trouve typiquement dans d’autres domaines que la psychologie [5]. Et ici, il n’y a pas à rougir. Par exemple, la corrélation entre la consommation d’alcool pendant la grossesse et le taux de naissances prématurées est de 0.09 ; celle entre la consommation d’Ibuprofène et la réduction de la douleur est de 0.14.
Pour ces raisons, Schmitt [6] a souligné que « L’ampleur des coefficients de validité [des méthodes de sélection] constitue l’une des réalisations les plus remarquables de la psychologie ».
L’un des résultats marquant de Schmidt et Hunter [2] est la forte validité des tests mesurant l’aptitude cognitive générale (qui correspond fondamentalement au QI mais tout le monde préfère éviter ce terme). D’ailleurs, les auteurs utilisent cette méthode comme benchmark et indiquent le gain de prédictivité obtenu en la combinant avec une autre méthode.
Par exemple, un test d’aptitude cognitive générale prédit 26 % de la variance de la performance professionnelle (validité = 0.51). En couplant ce test avec un entretien structuré, on prédit 40 % de la variance (validité combinée = 0.63) soit un gain de 24 %. Atteindre un tel niveau de prédictivité en évaluant les candidats avec ces deux outils seulement est tout à fait remarquable.
L’étude de Schmidt et Hunter révèle au passage que la validité de la graphologie est nulle (0.02). Une meta-analyse publiée en 1989 [7] avait par ailleurs montré que sur la base d’échantillons d’écriture manuscrite, les graphologues ne prédisent pas mieux la performance professionnelle que des non graphologues.
La synthèse de Sackett et al. (2022)
Cette seconde synthèse récente tend à remplacer celle de Schmidt et Hunter. Paul Sackett, professeur à l’université du Minnesota, est lui aussi un chercheur de référence en psychologie du travail et des organisations.
L’article de Sackett et al. [3] synthétise 49 meta-analyses qui représentent un total de 3616 études. Comparée à la synthèse de Schmidt et Hunter, celle de Sackett et al. inclut de nouvelles méthodes de sélection comme les tests de jugement situationnel et les tests d’intelligence émotionnelle, mais la principale différence concerne la correction de la restriction de la variance.
Comme nous l’avons mentionné plus haut, ce phénomène amène à sous-estimer la corrélation entre une méthode de sélection et la performance professionnelle. Dans les meta-analyses, la pratique habituelle est de corriger la corrélation moyenne brute pour obtenir la vraie corrélation (celle avec la variance non restreinte des scores à la méthode). Sackett et al. font valoir que cette correction est appliquée dans des cas où elle ne devrait pas l’être (les études où la restriction de la variance est beaucoup moins forte).
Par conséquent, les corrélations corrigées (les valeurs de validité opérationnelle) rapportées par Schmidt et Hunter sont probablement surestimées. Sackett et al. recommandent un principe d’estimation conservatrice qui consiste à ne pas appliquer cette correction dans les cas où celle-ci n’est pas évidente : mieux vaut sous-estimer que surestimer. Cette approche est discutable [8] mais les arguments avancés par Sackett et ses collègues [3, 9] sont très convaincants (voir notre note technique pour plus de détails).
Voici les principaux résultats que l’on peut retenir de la synthèse de Sackett et al. :
1) Les estimations de la validité sont globalement plus basses que celles de Schmidt et Hunter.
A nouveau, ces valeurs restent remarquablement élevées.
2) La partie haute du classement des méthodes est relativement similaire dans les deux études.
3) Les tests d’aptitude cognitive générale ne figurent plus en haut du classement.
Leur validité chute drastiquement (de 0.51 à 0.31).
4) La méthode la plus valide est l’entretien structuré.
L’entretien structuré est par ailleurs beaucoup plus valide (0.42) que l’entretien traditionnel (0.19). Cette différence s’explique par le fait que l’entretien structuré réduit la subjectivité du recruteur et ainsi la part d’erreur humaine.
Dans son livre Work Rules!, l’ancien DRH de Google Laszlo Bock décrit la mise en place systématique d’entretiens structurés dans le processus de recrutement de l’entreprise [10], en expliquant que cette pratique s’appuyait sur l’étude de Schmidt et Hunter. Bock serait content d’apprendre que l’entretien structuré est la méthode la plus prédictive dans la nouvelle étude de référence !
5) Les méthodes les plus valides sont celles qui évaluent des compétences spécifiques au poste (vs. générales comme les tests psychométriques).
Après les entretiens structurés, les trois méthodes les plus valides sont les tests de connaissances professionnelles (validité = 0.40), les questionnaires biographiques empiriques (validité = 0.38), et les mises en situation (validité = 0.33). Ce résultat est cohérent avec l’idée que plus le prédicteur est similaire au critère, plus ils sont corrélés [11].
Un questionnaire biographique est un outil construit de manière empirique et sur-mesure, spécifiquement pour un poste donné au sein d’une entreprise donnée. Il correspond aux informations biographiques (formation, expériences, parcours, etc.) qui prédisent le mieux la performance professionnelle dans le contexte précis du poste concerné. Dans sa forme la plus simple, un inventaire biographique peut être élaboré à partir des informations du CV.
6) L’expérience professionnelle ne prédit pas la performance au travail (validité = 0.07).
7) Les questionnaires de personnalité prédisent modérément la performance au travail.
Et surtout, ces questionnaires sont plus prédictifs lorsqu’ils évaluent la personnalité dans le contexte professionnel (les questions portent sur des comportements au travail) plutôt que la personnalité en général. Par exemple, le trait de personnalité « stabilité émotionnelle » est beaucoup plus valide lorsqu’il est évalué de façon contextualisé (0.23) que non contextualisé (0.09). Même chose pour le trait « agréabilité ».
8) La variabilité des estimations des coefficients de validité est conséquente.
L’attention se porte souvent sur les valeurs moyennes, mais il ne faut jamais perdre de vue qu’une moyenne masque la variabilité des données sous-jacentes.
Sackett et al. rapportent deux indicateurs de la variabilité associée à chaque coefficient de validité : l’écart-type, et la borne inférieure de l’intervalle de crédibilité à 80 %, c’est-à-dire la valeur au-dessus de laquelle devraient se situer 90 % des coefficients observés dans d’autres études. On voit dans la figure ci-dessus que cet intervalle de crédibilité à 80 % est assez large pour la plupart des méthodes. Par exemple, l’intervalle de crédibilité à 80 % pour l’entretien structuré est [0.18 ; 0.66]. Cela signifie que dans les nouvelles études sur la validité critérielle de cette méthode, la corrélation obtenue sera supérieure à 0.18 dans 90 % des cas, et inférieure à 0.66 dans 90 % des cas.
Cette variabilité s’explique par des différences dans l’implémentation des méthodes de sélection dans les études.
Prenons le cas de l’entretien structuré. Contrairement aux tests mesurant un facteur cognitif général, aux tests d’intelligence émotionnelle, ou encore aux questionnaires de personnalité, qui se caractérisent par la mesure d’un attribut, l’entretien structuré est une méthode pour mesurer des attributs (même chose pour les tests de jugement situationnel). Les meta-analyses sur cette méthode agrègent donc des études qui évaluent des attributs aussi divers que le facteur cognitif général, le leadership, des compétences techniques, etc. Par ailleurs, les paramètres de l’entretien structuré varient énormément entre les études : le type de questions posées (comportementales vs. situationnelles), la qualité des questions, le nombre de questions, ou encore l’évaluation des réponses.
La validité d’une combinaison de méthodes de sélection
Un recrutement repose rarement sur une seule méthode de sélection. En pratique, plusieurs méthodes sont souvent combinées. Sur la base de la synthèse de Sackett et al., Berry et al. [12] ont estimé la validité de diverses combinaisons parmi six méthodes de sélection : les tests d’aptitude cognitive générale, les questionnaires biographiques, les questionnaires mesurant le caractère consciencieux, les entretiens structurés, les tests d’intégrité, et les tests de jugement situationnel.
Par exemple :
- Entretien structuré : 0.42
- Entretien structuré + Test de jugement situationnel : 0.43
- Entretien structuré + Test d’intégrité : 0.53
- Entretien structuré + Test d’intégrité + Test de jugement situationnel + Test d’aptitude cognitive générale = 0.58
Berry et al. montrent notamment que ne pas inclure un test d’aptitude cognitive générale réduit la validité de façon marginale. Ceci est la conséquence du fait que la validité de cette méthode a substantiellement baissé dans la synthèse de Sackett et al. Par exemple :
- Test d’aptitude cognitive générale + Entretien structuré + Test d’intégrité : 0.58
- Entretien structuré + Test d’intégrité : 0.53
Ce dernier résultat est particulièrement intéressant au regard du compromis entre validité et diversité : les tests d’aptitude cognitive générale étant connus pour réduire la diversité parmi les candidats retenus — notamment la diversité ethnique —, leur exclusion du processus de sélection permet d’améliorer la diversité sans nuire significativement à la validité [12, 13].
Limites des meta-analyses
Les résultats des synthèses de Schmidt et Hunter, et de Sackett et al. sont incontestablement utiles et précieux. Comme tout résultat scientifique, ils présentent toutefois certaines limites, qui sont en réalité celles des meta-analyses dont ils sont issus.
1) La forte variabilité des estimations des coefficients de validité limite leur valeur pratique.
Par exemple, la validité de l’entretien structuré est de 0.42 en moyenne, ce qui signifie que cette valeur peut sensiblement varier selon les contextes. Il est intéressant de noter que Schmidt et Hunter n’avaient pas rapporté la variabilité des coefficients de validité, ce qui a pu induire en erreur certains lecteurs, compte tenu du statut de référence de leur étude.
Les valeurs moyennes de validité rapportées par Sackett et al. constituent seulement une toile de fond générale et il serait erroné de croire qu’elles sont valables dans tous les contextes. Ces derniers soulignent ainsi que “It is an essential reminder that a given employer cannot count on the mean value as applicable to their organization”.
Une entreprise souhaitant améliorer la validité prédictive de sa procédure de sélection devrait s’appuyer sur des études menées dans des contextes similaires au sien, ou idéalement mener une étude spécifique en interne. La réalisation de telles études requiert une collaboration étroite entre les RH de l’entreprise et les chercheurs ou consultants spécialisés.
2) La prédiction porte uniquement sur la performance professionnelle.
Recruter, c’est faire une prédiction sur les comportements futurs d’un candidat. Il est évidemment très utile pour une entreprise de pouvoir prédire comment un candidat serait évalué par son futur supérieur hiérarchique — la mesure la plus courante de la performance professionnelle. Mais d’autres dimensions méritent également d’être anticipées : la satisfaction au travail, l’engagement, ou encore l’intégration au sein de l’équipe et de l’organisation. Sur ces critères, la littérature scientifique est moins abondante.
Par ailleurs, les résultats varient largement en fonction de la façon dont la performance professionnelle est évaluée : de façon étroite (la performance relative à la tâche) ou large (en incluant le civisme organisationnel et les comportements contre-productifs).
3) Les résultats ne distinguent pas les études de validité prédictive des études de validité concourante.
Comme indiqué dans la première partie, une étude de validité critérielle vise à évaluer le lien entre un prédicteur (ici, une méthode de sélection) et un critère (ici, la performance professionnelle). On distingue deux cas de figure, selon que le critère est déjà disponible ou non au moment où l’on mesure le prédicteur.
Dans une étude de validité prédictive, on administre la méthode de sélection (ex : un test de connaissances) à des candidats dont par définition on ne connaît pas encore la performance professionnelle future sur le poste visé. Après la sélection, on calcule la corrélation entre les scores au prédicteur et la performance observée chez les personnes recrutées. Dans une étude de validité concourante, la méthode est administrée à des personnes déjà en poste, pour lesquelles une évaluation de la performance existe déjà.
Or, deux biais majeurs peuvent affecter différemment la corrélation entre le prédicteur et le critère dans ces deux types d’études.
Le premier biais est lié à la désirabilité sociale ou à la tricherie, et concerne surtout les méthodes non cognitives (ex : questionnaires de personnalité, questionnaires biographiques, tests d’intégrité, entretiens structurés). Les candidats sont plus enclins à manipuler leurs réponses lorsqu’ils postulent à un poste (validité prédictive) que lorsqu’ils sont déjà en poste (validité concourante).
Le second biais est lié à l’effort fourni, notamment pour les tests cognitifs qui demandent une forte implication mentale. On peut là aussi supposer que les candidats sont plus motivés à fournir un effort maximal lors d’un recrutement que des salariés déjà en poste.
Pour ces raisons, la corrélation entre prédicteur et critère est probablement différente selon le type d’étude, et les méta-analyses devraient rapporter ces coefficients séparément.
Enfin, il est important de rappeler que les méthodes de sélection s’appliquent, par définition, à des candidats, et non à des employés en poste. A ce titre, les études de validité prédictive sont plus écologiques et plus pertinentes pour informer les pratiques de recrutement.
4) Ces résultats sont basés sur des études relativement anciennes.
La majorité des études inclues dans les meta-analyses synthétisées ont été réalisées avant 2000. Sackett et al. [14] ont par exemple noté que les études utilisées pour estimer la validité des tests d’aptitude cognitive générale dans la synthèse de Schmidt et Hunter datent de plus de 50 ans. Leur propre meta-analyse, qui ne contient que des études publiées après 2000, montre une validité corrigée de 0.22, soit une valeur inférieure à celle de 0.31 rapportée par Sackett et al. [3].
Ce résultat confirme que la validité des tests d’aptitude cognitive générale est bien inférieure à ce que l’on pensait, et plus généralement, que les résultats des meta-analyses dépendent fortement de la période à laquelle les études analysées ont été menées.
5) Ces résultats sont principalement basés sur des études réalisées aux Etats-Unis.
Les méthodes de sélection diffèrent sensiblement entre les pays anglo-saxons et les pays européens. Le rapport de Hudson, The value of assessment tools in personnel selection, propose une adaptation des résultats de Sackett et al. [3] aux pratiques européennes. En particulier, cette version renomme certaines méthodes et exclut celles qui sont peu utilisées en Europe : les questionnaires biographiques (en raison des contraintes liées à la confidentialité des données personnelles) ainsi que les tests d’intégrité et les questionnaires d’intérêts professionnels, qui sont fortement exposés au mensonge — les conséquences de celui-ci étant généralement moins dissuasives pour les candidats en Europe qu’aux États-Unis.
6) Ces synthèses ne fournissent aucune information sur la validité de méthodes de sélection innovantes.
En particulier, les tests gamifiés (game-based assessments ou GBA) et les entretiens vidéo différés (asynchronous video interviews ou AVI) suscitent un intérêt croissant depuis quelques années [15, 16]. Ces méthodes étant relativement récentes, nous avons moins de recul sur leur validité. Les AVI connaissent un essor spectaculaire, notamment parce qu’ils permettent d’utiliser l’entretien structuré comme outil de pré-sélection. Cependant, leurs spécificités (nombre réduit de questions, scoring automatisé des réponses) les distinguent sensiblement des entretiens en présentiel. Leur validité doit donc faire l’objet d’évaluations spécifiques [17].
Conclusion
Recruter consiste par essence à formuler une prédiction sur les comportements futurs d’un candidat, en particulier sa performance au travail. Cette prédiction repose sur des méthodes de sélection. Des milliers d’études ont examiné leur validité critérielle, c’est-à-dire le lien entre les scores obtenus à ces méthodes et la performance professionnelle observée.
La synthèse de ces études par Schmidt et Hunter en 1998 a marqué un tournant : elle a montré que certaines méthodes de sélection présentent des corrélations substantielles avec la performance au travail, notamment les tests d’aptitude cognitive générale. Cette synthèse a servi de référence pendant plus de 20 ans, tant pour les chercheurs que pour les praticiens en ressources humaines.
En 2022, Sackett et al. ont actualisé ces résultats en adoptant une approche plus conservatrice dans l’estimation de la validité des méthodes. Leurs résultats indiquent des coefficients globalement plus faibles et révèlent que les entretiens structurés sont la méthode la plus valide.
Cette synthèse constitue aujourd’hui la nouvelle référence… mais sans doute pas la dernière. Car, comme tout résultat scientifique, ces estimations demeurent provisoires. Sackett et ses collègues concluent d’ailleurs leur article en affirmant : “we eagerly await the availability of the data that will permit further refinement of our estimates”.
Références
[1] Ployhart, R. E., Schmitt, N., & Tippins, N. T. (2017). Solving the Supreme Problem: 100 years of selection and recruitment at the Journal of Applied Psychology. The Journal of applied psychology, 102(3), 291–304.
[2] Schmidt, F. L., & Hunter, J. E. (1998). The validity and utility of selection methods in personnel psychology: Practical and theoretical implications of 85 years of research findings. Psychological Bulletin, 124(2), 262–274.
[3] Sackett, P. R., Zhang, C., Berry, C. M., & Lievens, F. (2022). Revisiting meta-analytic estimates of validity in personnel selection: Addressing systematic overcorrection for restriction of range. Journal of Applied Psychology, 107(11), 2040–2068.
[4] Funder, D. C., & Ozer, D. J. (2019). Evaluating effect size in psychological research: Sense and nonsense. Advances in Methods and Practices in Psychological Science, 2(2), 156–168.
[5] Meyer, G. J., Finn, S. E., Eyde, L. D., Kay, G. G., Moreland, K. L., Dies, R. R., Eisman, E. J., Kubiszyn, T. W., & Reed, G. M. (2001). Psychological testing and psychological assessment. A review of evidence and issues. The American psychologist, 56(2), 128–165.
[6] Schmitt, N. (2014). Personality and cognitive ability as predictors of effective performance at work. Annual Review of Organizational Psychology and Organizational Behavior, 1(1), 45–65.
[7] Neter, E., & Ben-Shakhar, G. (1989). The predictive validity of graphological inferences: A meta-analytic approach. Personality and Individual Differences, 10(7), 737–745.
[8] Oh, I.-S., Le, H., & Roth, P. L. (2023). Revisiting Sackett et al.’s (2022) rationale behind their recommendation against correcting for range restriction in concurrent validation studies. Journal of Applied Psychology, 108(8), 1300–1310.
[9] Sackett, P. R., Zhang, C., Berry, C. M., & Lievens, F. (2023). Revisiting the design of selection systems in light of new findings regarding the validity of widely used predictors. Industrial and Organizational Psychology: Perspectives on Science and Practice, 16(3), 283–300.
[10] Bock, L. (2015). Work rules!: Insights from inside Google that will transform how you live and lead. New York, NY: Twelve.
[11] Schmitt, N., & Ostroff, C. (1986). Operationalizing the "behavioral consistency" approach: Selection test development based on a content-oriented strategy. Personnel Psychology, 39(1), 91–108.
[12] Berry, C. M., Lievens, F., Zhang, C., & Sackett, P. R. (2024). Insights from an updated personnel selection meta-analytic matrix: Revisiting general mental ability tests’ role in the validity–diversity trade-off. Journal of Applied Psychology, 109(10), 1611–1634.
[13] Berry, C. M. (2024). Personnel selection systems and diversity. Current Opinion in Psychology, 60, Article 101905.
[14] Sackett, P. R., Demeke, S., Bazian, I. M., Griebie, A. M., Priest, R., & Kuncel, N. R. (2024). A contemporary look at the relationship between general cognitive ability and job performance. The Journal of applied psychology, 109(5), 687–713.
[15] Landers, R. N., Armstrong, M. B., Collmus, A. B., Mujcic, S., & Blaik, J. (2022). Theory-driven game-based assessment of general cognitive ability: Design theory, measurement, prediction of performance, and test fairness. Journal of Applied Psychology, 107(10), 1655–1677.
[16] Hickman, L., Bosch, N., Ng, V., Saef, R., Tay, L., & Woo, S. E. (2022). Automated video interview personality assessments: Reliability, validity, and generalizability investigations. The Journal of applied psychology, 107(8), 1323–1351.
[17] Liff, J., Mondragon, N., Gardner, C., Hartwell, C. J., & Bradshaw, A. (2024). Psychometric properties of automated video interview competency assessments. The Journal of applied psychology, 109(6), 921–948.