L’erreur humaine prend deux formes : les erreurs systématiques, appelées biais, et l’erreur aléatoire, appelée bruit.
Prenons l’exemple d’un recruteur qui évalue des CV. Il peut, consciemment ou non, évaluer moins bien les CV des candidates que ceux des candidats. Cette tendance correspond à un biais, ici un biais de genre. Ce recruteur peut aussi évaluer différemment deux CV pourtant similaires, simplement parce qu’il accorde un poids variable aux mêmes informations d’un CV à l’autre (âge, diplôme, expérience, etc.). Cette variabilité aléatoire qui affecte tout jugement humain est du bruit.
La notion de biais est plus connue du grand public que celle de bruit car elle est plus facilement appréhendable. De nombreux livres ont vulgarisé les biais cognitifs. Le livre de référence est le best-seller de Daniel Kahneman Système 1 / Système 2 : Les deux vitesses de la pensée [1]. Les autres livres sur ce sujet – y compris le mien, L’erreur est humaine publié en 2018 à CNRS Editions, et réédité en format poche en 2021 [2] – reprennent essentiellement les travaux de Kahneman. Sur la notion de bruit, le livre de référence est Noise de Kahneman et al. [3].
Les biais
On distingue deux catégories de biais psychologiques : les biais cognitifs et les biais psychosociaux.
Les biais cognitifs
Les biais cognitifs sont des raccourcis mentaux appelés heuristiques qui s’avèrent erronés dans certains contextes.
Par exemple, prédire le futur à partir du passé est une heuristique valide dans de nombreuses situations comme anticiper la météo de demain ou les choix de consommateurs. En revanche, elle n’est plus valide et devient un biais dans des contextes particuliers comme les jeux de casino. Cette heuristique nous fait par exemple croire qu’à la roulette, la couleur rouge a plus de chances de tomber si la couleur noire est tombée plusieurs fois d’affilée, un biais cognitif appelé « l’erreur du joueur ».
Les biais cognitifs sont systématiques et difficiles à contrer parce qu’ils impliquent des mécanismes mentaux qui fonctionnent bien la plupart du temps.
Voici trois biais majeurs qui peuvent impacter les décisions dans le recrutement.
1) L’effet de Halo
Ce phénomène a été mis en évidence dès 1920 par le psychologue américain Edward Thorndike [4] chez des officiers de l’armée qui devaient évaluer leurs subordonnés sur plusieurs dimensions (intelligence, loyauté, leadership, etc.). Il avait constaté que ces évaluations étaient fortement corrélées entre elles, ce qui suggérait que celles-ci étaient influencées par une impression générale (positive ou négative) de l’évaluateur.
L’effet bien connu de la première impression est donc un cas particulier de l’effet de Halo [5]. Dans la correction de copies par exemple, l’impression générée par la lecture de la première réponse est susceptible d’influencer l’évaluation des réponses suivantes. Autre illustration : un collègue chercheur nous confiait un jour que, lorsqu’il expertise un article scientifique soumis pour publication, sa première impression oriente largement son évaluation finale.
Dans le recrutement, la première impression ou l’impression générale qu’a le recruteur du candidat peut biaiser son jugement dans le sens de cette impression au détriment d’une appréciation plus nuancée. Prenons un exemple : si un candidat explique avoir quitté son précédent poste à la suite d’un désaccord stratégique avec la direction, cette information pourra être interprétée de manière diamétralement opposée selon l’impression que le recruteur s’est déjà forgée. Avec une impression positive, il verra là un signe de courage et d’intégrité ; avec une impression négative, il y verra plutôt un signe de rigidité, voire d’immaturité [3].
2) Le biais de confirmation
Ce biais désigne la tendance à favoriser les informations qui confirment nos croyances, nos hypothèses, et nos attentes [6]. Dans le contexte de l’entretien d’embauche, le biais de confirmation agit souvent en synergie avec l’effet de halo : le recruteur cherche alors à valider, plutôt qu’à challenger, son impression initiale ou générale du candidat. Cela se traduit par des questions orientées, une plus grande attention portée aux éléments qui confortent cette impression, et une tendance à minimiser – voire à ignorer – les informations qui la contredisent.
3) L’insensibilité à la prévisibilité et l’illusion de validité
Nous faisons sans cesse des prédictions : sur le temps qu’il fera demain, la croissance du PIB l’année prochaine, ou encore le vainqueur d’un combat de MMA. Dans certains cas, nous disposons de données objectives sur le degré de prévisibilité de ces événements. Par exemple, la météo à trois jours est fiable à 80 %, le vainqueur d’un combat de MMA peut être prédit dans 70 % des cas à l’issue du premier round, tandis que l’évolution à court terme d’un indice boursier reste, elle, fondamentalement imprévisible.
Pourtant, même lorsque nous connaissons le degré de prévisibilité d’un événement, nous avons tendance à l’ignorer. Ce biais est connu sous le nom d’insensibilité à la prévisibilité [7]. En effet, nos prédictions reposent davantage sur des récits ou des croyances reliant les informations disponibles au résultat prédit. Plus ces récits nous semblent cohérents, plus nous sommes confiants dans notre prédiction : c’est l’illusion de validité. Par exemple : « Ce jeune entrepreneur est motivé et sûr de lui, je parie que sa startup va réussir ».
Ces biais sont courants chez les recruteurs [8]. Par exemple, certains affirment que « 80 % du succès professionnel dépend des soft skills », les 20 % restants relevant des compétences techniques. Une telle affirmation sous-entend implicitement que la performance professionnelle est entièrement prédictible.
Mais la recherche montre que ce n’est pas le cas. De nombreuses études ont évalué la capacité des méthodes de recrutement à prédire la performance professionnelle [9]. L’entretien structuré en ressort comme le meilleur prédicteur, avec une validité de 0.42. Cela signifie que la variance des scores des candidats à un entretien structuré explique 18 % de la variance de la performance professionnelle. En combinant plusieurs méthodes (entretien structuré, questionnaire biographique, et tests psychométriques), on peut atteindre une validité de 0.61, ce qui équivaut à 37 % de variance expliquée [10].
Ces résultats, bien que remarquables, montrent que la performance professionnelle n’est pas entièrement prédictible. C’est logique, car celle-ci dépend aussi de facteurs qui sont par définition inconnus au moment du recrutement – relations avec les collègues, événements de vie, dynamiques internes à l’entreprise, etc. Cette incertitude plafonne le niveau de prédictibilité atteignable.

En résumé, les recruteurs s’appuient souvent sur des croyances et des narrations pour prédire la performance professionnelle, ce qui nourrit l’illusion que celle-ci est largement prédictible. Ce faisant, ils oublient qu’à l’instar de nombreux phénomènes, une part de la performance future d’un candidat est fondamentalement imprédictible.

Les biais psychosociaux
Contrairement aux biais cognitifs, qui correspondent à des mécanismes de traitement de l’information, les biais psychosociaux traduisent plutôt des préférences sociales.
Ces biais incluent notamment les stéréotypes. Un stéréotype est une croyance – plus ou moins consciente – à propos d’un groupe social. Par exemple, un stéréotype de genre est la croyance que les garçons sont plus doués que les filles dans les matières techniques et scientifiques, et inversement dans les matières littéraires. Lorsque le CEO d’une startup cherche son futur CTO, saura-t-il résister à ce stéréotype ?
Dans une étude célèbre publié en 2000 dans la prestigieuse American Economic Review [11], Claudia Goldin et Cecilia Rouse ont estimé que l’introduction des auditions à l’aveugle dans les orchestres symphoniques aux Etats-Unis dans les années 1970 explique 30 à 40 % de l’augmentation du nombre de femmes recrutées. Le simple fait de ne pas voir les candidats neutralise l’impact du stéréotype de genre. Claudia Goldin, professeure à l’université de Harvard, a reçu le prix Nobel d’économie pour ses travaux sur les inégalités de genre sur le marché du travail.
Par ailleurs, la recherche sur la cognition sociale implicite montre que les biais psychosociaux peuvent opérer de manière inconsciente. Par exemple, des stéréotypes tels que « les femmes sont moins à l’aise avec la technologie que les hommes » ou « les jeunes sont plus adaptables » peuvent influencer les comportements et les décisions, même chez des personnes qui ne partagent pas consciemment ces croyances.
Le bruit
Lorsqu’une personne prend une décision ou formule une prédiction, elle s’appuie sur un ensemble d’informations. Le bruit (noise) désigne la variabilité aléatoire dans la manière dont ces informations sont traitées d’un cas à l’autre. Cette inconstance fait que des données similaires peuvent conduire à des conclusions différentes [3].
Le bruit affectant tout jugement humain a trois conséquences majeures.
1) Le degré d’accord entre des personnes n’est jamais total
Prenons l’exemple suivant : trois enseignants corrigent les mêmes 100 copies d’une épreuve du BAC. Dans quelle mesure leurs évaluations sont-elles concordantes ? Une manière simple de le mesurer consiste à calculer la corrélation entre les notes attribuées par les correcteurs. Plus cette corrélation est élevée, plus l’accord inter-juges est fort.
Or, chaque note contient une part d’erreur aléatoire, qui est la résultante de facteurs comme la fatigue, l’humeur ou encore le niveau d’attention du correcteur au moment de l’évaluation. Comme ces erreurs aléatoires ne sont pas corrélées entre les évaluateurs, elles viennent diminuer le degré d’accord entre eux. Il en va de même dans le recrutement : lorsque plusieurs recruteurs évaluent les mêmes candidats, un certain désaccord est inévitable, quand bien même ils utilisent les mêmes critères d’évaluation.
Lorsque plusieurs personnes évaluent un même cas (un candidat, une copie, un projet), une manière simple et efficace de réduire le bruit est de moyenner leurs évaluations.
2) Un modèle est souvent plus performant qu’un jugement humain
En 1954, le psychologue Paul Meehl, professeur à l’université du Minnesota, publie l'ouvrage Clinical Versus Statistical Prediction [12]. Il y passe en revue des études comparant deux approches de la prise de décision : la décision dite « clinique », fondée sur le jugement humain, et la décision « statistique », qu’il appelle aussi « actuarielle » en référence aux méthodes utilisées en assurance et en finance. Contre toute attente, Meehl montre que les décisions actuarielles sont aussi bonnes, et souvent meilleures, que les décisions humaines, et ce dans une grande variété de contextes.
Voici un exemple d’étude passée en revue par Meehl, conduite à l’université du Minnesota auprès de 162 étudiants de première année [13]. L’objectif : prédire, dès le début de l’année, leur note finale (Grade Point Average). Deux méthodes sont comparées :
- La prédiction statistique : le résultat d’une équation – de régression linéaire – utilisant seulement deux variables : les résultats scolaires au lycée et le score à un test d’aptitudes à l’entrée à l’université.
- La prédiction clinique : celle d’un conseiller d’orientation de l’université. Ce dernier avait accès aux deux informations utilisées dans la prédiction statistique, mais aussi à de nombreuses autres informations : les résultats à d’autres tests, un formulaire personnel de huit pages, et même un entretien avec l’étudiant. Cinq conseillers se sont livrés individuellement à cet exercice.
Qui a gagné ce match prédictif ? La note finale des étudiants est mieux prédite par le modèle statistique que par les conseillers d’orientation, malgré leur accès à davantage d’informations. Autrement dit, une simple équation bat l’intuition de professionnels expérimentés.
Ce résultat, en apparence contre-intuitif, est l’un des plus établis dans les sciences du comportement. En effet, les études réalisées depuis les travaux de Meehl ont confirmé la supériorité de la décision actuarielle [14, 15, 16].
Le bruit est la raison pour laquelle la prédiction actuarielle est plus performante que la prédiction humaine. Dans l’exemple sur la prédiction de la note finale des étudiants, les conseillers d’orientation n’accordent pas le même poids aux informations qu’ils traitent d’un étudiant à l’autre. Par exemple, un conseiller peut accorder beaucoup d’importance aux résultats scolaires au lycée pour un étudiant mais moins pour un autre. Ce bruit rend la prédiction incohérente : un conseiller peut faire des prédictions différentes pour des étudiants pourtant similaires.
Au contraire, le modèle statistique applique les mêmes pondérations à tous les étudiants. Il est figé, constant, et donc insensible au bruit.
3) Le modèle de l’expert est plus performant que l’expert lui-même
Imaginons une base de données rassemblant les informations suivantes pour 200 étudiants en deuxième année :
- Deux prédicteurs : les résultats scolaires au lycée et un score à un test d’aptitudes ;
- Un critère : la note finale obtenue à la fin de la première année ;
- Une prédiction du critère à partir des prédicteurs : réalisée par un conseiller d’orientation au début de la première année.
A partir de ces données, on peut construire deux modèles :
- Un modèle actuariel, qui prédit la note finale à partir des deux prédicteurs ;
- Un modèle de l’expert, qui prédit la prédiction du conseiller d’orientation à partir de ces mêmes prédicteurs.
Comme on l’a vu dans l’exemple ci-dessus, la note finale à la première année est mieux prédite par le modèle actuariel que par un expert. Mais un résultat plus surprenant est que la note finale est également mieux prédite par le modèle de l’expert que par l’expert lui-même [17].
Autrement dit, si on modélise la façon dont un expert utilise les informations, on obtient de meilleures prédictions que lorsqu’on le laisse juger directement. La raison est la même : le modèle applique toujours la même règle, alors que l’expert, lui, est soumis à du bruit. Le modèle de l’expert capture la logique moyenne de ses décisions, tout en éliminant leur inconstance.
Conclusion
Le progrès scientifique est, pour l’humanité, une leçon d’humilité. Copernic et Galilée ont montré que la Terre n’est pas au centre de l’univers. Darwin a révélé que l’homme n’est pas une création divine mais le produit de l’évolution biologique. Dans cette même lignée, les travaux de Kahneman ont mis en lumière les limites de notre rationalité. Aussi, gardons à l’esprit que tout jugement, aussi éclairé soit-il, reste vulnérable à l’erreur humaine.
Références
[1] Kahneman, D. (2011). Thinking, Fast and Slow. New York, NY: Farrar, Straus and Giroux. Traduction française : Kahneman, D., & Clarinard, R. (2012). Système 1, système 2 : Les deux vitesses de la pensée. Paris : Flammarion.
[2] Berthet, V. (2018/2021). L’erreur est humaine. Aux frontières de la rationalité. Paris : CNRS Editions.
[3] Kahneman, D., Sibony, O., & Sunstein, C. R. (2021). Noise: A flaw in human judgment. New York, NY: Little, Brown Spark.
[4] Thorndike, E.L. (1920). A constant error in psychological ratings. Journal of Applied Psychology, 4(1), 25–29.
[5] Asch, S. E. (1946). Forming impressions of personality. The Journal of Abnormal and Social Psychology, 41(3), 258–290.
[6] Nickerson, R. S. (1998). Confirmation bias: A ubiquitous phenomenon in many guises. Review of General Psychology, 2(2), 175–220.
[7] Kahneman, D., & Tversky, A. (1973). On the psychology of prediction. Psychological Review, 80(4), 237–251.
[8] Highhouse, S. (2008). Stubborn reliance on intuition and subjectivity in employee selection. Industrial and Organizational Psychology: Perspectives on Science and Practice, 1(3), 333–342.
[9] Sackett, P. R., Zhang, C., Berry, C. M., & Lievens, F. (2022). Revisiting meta-analytic estimates of validity in personnel selection: Addressing systematic overcorrection for restriction of range. Journal of Applied Psychology, 107(11), 2040–2068.
[10] Berry, C. M., Lievens, F., Zhang, C., & Sackett, P. R. (2024). Insights from an updated personnel selection meta-analytic matrix: Revisiting general mental ability tests’ role in the validity–diversity trade-off. Journal of Applied Psychology, 109(10), 1611–1634.
[11] Goldin, C., & Rouse, C. (2000). Orchestrating Impartiality: The Impact of “Blind” Auditions on Female Musicians. The American Economic Review, 90(4), 715-741.
[12] Meehl, P.E. (1954). Clinical versus statistical prediction: A theoretical analysis and a review of the evidence. Minneapolis: University of Minnesota.
[13] Sarbin, T. R. (1943). A contribution to the study of actuarial and individual methods or prediction. American Journal of Sociology, 48, 593–602.
[14] Dawes, R. M., Faust, D., & Meehl, P. E. (1989). Clinical versus actuarial judgment. Science, 243(4899), 1668–1674.
[15] Grove, W. M., Zald, D. H., Lebow, B. S., Snitz, B. E., & Nelson, C. (2000). Clinical versus mechanical prediction: A meta-analysis. Psychological Assessment, 12(1), 19–30.
[16] Kuncel, N. R., Klieger, D. M., Connelly, B. S., & Ones, D. S. (2013). Mechanical versus clinical data combination in selection and admissions decisions: a meta-analysis. The Journal of applied psychology, 98(6), 1060–1072.
[17] Goldberg, L. R. (1970). Man versus model of man: A rationale, plus some evidence, for a method of improving on clinical inferences. Psychological Bulletin, 73(6), 422–432.