Sur 100 entreprises françaises qui utilisent un test de logique en 2026, 60 le font sans avoir validé sa pertinence pour le poste. Résultat : 20 minutes de perdues pour le candidat, un score qu'on ne sait pas interpréter, et une décision finale qui se rejoue de toute façon en entretien.
Ce guide pose la méthode appliquée chez Lity quand un client veut intégrer un test de logique dans son process. On regarde ce que mesure chaque outil, ce que disent les recherches en psychométrie, et comment éviter les biais qui transforment un test scientifique en filtre arbitraire.
Ce que mesure réellement un test de logique
Un test de logique évalue le facteur g, dit aussi intelligence fluide. C'est la capacité d'un individu à résoudre un problème nouveau sans s'appuyer sur des connaissances apprises. Concrètement : trouver la règle qui relie des formes géométriques, compléter une suite numérique, déduire une relation entre objets.
Ce que ça ne mesure pas
Pas la motivation, pas la culture, pas le savoir-faire métier. Un excellent score Raven ne fait pas un excellent commercial. Un bon directeur financier peut avoir un score moyen en logique inductive et exceller sur son P&L. Les tests de logique sont un signal parmi d'autres, jamais un verdict.
Origine du facteur g
Le concept date des travaux de Charles Spearman au début du XXe siècle. Repris dans les années 1930 par John C. Raven (matrices progressives), il reste l'indicateur le plus prédictif de la performance professionnelle selon les méta-analyses de Schmidt et Hunter (1998, mise à jour 2016). Validité prédictive estimée à 0,51 sur la performance générale, devant l'entretien non structuré (0,38) et l'expérience professionnelle (0,18).
Les 4 outils utilisés sur le marché français en 2026
Matrices de Raven (RPM, APM)
Le standard historique. 60 matrices visuelles à compléter, sans mots ni chiffres. Durée 40 minutes en version standard, 20 minutes en version avancée. Forces : neutralité culturelle élevée, validité scientifique documentée depuis 1936. Limites : longueur, format daté, sensible à l'entraînement préalable.
BLS4 (Bonnardel)
Test français de raisonnement logique abstrait. 40 items mêlant suites graphiques et relations entre objets. Durée 30 minutes. Forces : étalonné sur population française, intégrable au profil professionnel global. Limites : la version papier reste majoritaire, digitalisation partielle, plafond bas sur les profils très qualifiés.
NV5-R et NV7 (ECPA / Pearson)
Test non verbal de raisonnement, version révisée de 2008 et 2017. Adapté aux populations adultes en milieu professionnel, étalonné sur cadres et techniciens. Durée 25 à 35 minutes. Forces : étalonnage récent, faible biais culturel, distribution claire entre niveau d'études. Limites : licence Pearson coûteuse, formation à l'interprétation obligatoire pour le RH.
OPQ32 (SHL / CEB)
Attention au piège : l'OPQ32 n'est pas un test de logique. C'est un inventaire de personnalité. Beaucoup de RH le citent par erreur dans la catégorie logique. Les vrais tests de raisonnement chez SHL sont la suite Verify (numerical, verbal, inductive). Pour les tests de personnalité, voir notre guide sur les tests de personnalité.
| Outil | Type | Durée | Population cible | Validité prédictive |
|---|---|---|---|---|
| Matrices de Raven (APM) | Logique inductive non verbale | 20-40 min | Tous niveaux | 0,49 (méta Schmidt 2016) |
| BLS4 (Bonnardel) | Raisonnement abstrait | 30 min | Cadres et techniciens FR | 0,42 sur étalonnage FR |
| NV5-R / NV7 (Pearson) | Raisonnement non verbal | 25-35 min | Adultes professionnels | 0,46 (étude ECPA 2018) |
| SHL Verify (Inductive) | Logique inductive en ligne | 12-20 min | Recrutement volume | 0,44 (validation SHL) |
Validité prédictive : ce que disent vraiment les chiffres
La méta-analyse de référence reste Schmidt et Hunter (1998), réactualisée en 2016. Sur 100 ans de données regroupées, le test de raisonnement général sort en tête des prédicteurs de performance professionnelle. Mais le résultat se nuance fortement selon le poste et le contexte.
La leçon : un test seul reste un signal partiel. Le combo le plus fiable, c'est test cognitif + entretien structuré + mise en situation. Aux États-Unis, ce combo est utilisé sur 73% des recrutements C-Level selon le Society for Industrial and Organizational Psychology (SIOP).
Quand un test de logique a du sens (et quand il n'en a pas)
Test indispensable
Profils analystes, data, ingénieurs, traders. Le raisonnement abstrait fait la différence. Validité prédictive 0,55+. Utiliser Raven APM ou SHL Verify Inductive.
Test utile en complément
Profils chef de projet, consultant, manager intermédiaire. Le test sécurise la décision mais reste secondaire. Préférer un format court (20 min).
Test peu pertinent
Profils opérationnels avec process clair (logistique, support N1, agent administratif). Privilégier les mises en situation métier concrètes.
Test à éviter
Profils créatifs, commerciaux terrain, métiers relationnels. Le test peut filtrer des candidats performants à tort. Préférer assessment center.
Règle d'or
Plus la charge cognitive est élevée et plus la tâche est non structurée, plus le test de logique apporte de signal. À l'inverse, sur les métiers procéduraux ou très relationnels, il devient bruit de fond.
Les 5 biais qui torpillent un test de logique mal utilisé
1. L'effet d'entraînement
Les candidats qui ont préparé sont avantagés de 15 à 20% sur le score brut. Les sites de préparation (mon-qi.com, blog-rh.com, jobtestprep) sont accessibles gratuitement. Sur 100 candidats, comptez 30 à 40 qui se sont entraînés au moins une heure.
2. Le biais culturel
Même les tests non verbaux comme Raven ne sont pas culturellement neutres. Des études menées en Afrique de l'Ouest et au Maghreb montrent des écarts de 0,5 à 0,8 écart-type sur l'étalonnage occidental. Un candidat international peut sous-performer sans que cela reflète sa capacité de raisonnement réelle.
3. L'anxiété de test
30 à 40% des candidats sous-performent à cause du stress de la situation, surtout sur les profils seniors qui n'ont pas passé de test depuis 15 ans. Sans débriefing, on filtre des bons candidats sur leur niveau de stress, pas sur leur intelligence.
4. L'effet plafond
Sur les profils très qualifiés (ingénieurs grandes écoles, chercheurs, consultants stratégie), 80% obtiennent un score au-dessus du 90e percentile. Le test ne discrimine plus rien. Il faut un test calibré sur ce niveau (Raven APM en version avancée, SHL Verify niveau Senior Manager).
5. Le sur-poids dans la décision
Un score chiffré rassure les RH. Trop souvent, il prend une place démesurée dans la décision finale. La règle Lity : le test compte pour 15 à 20% de l'évaluation globale, jamais plus. Le reste se joue en entretien structuré, mise en situation et prises de référence.
Aspect juridique RGPD
Le test psychométrique est un traitement de données personnelles sensibles. Selon l'article L1221-8 du Code du travail, le candidat doit être informé avant la passation et le résultat ne peut être conservé au-delà de 2 mois après la fin du processus. Le débriefing oral est obligatoire si le test contribue à la décision (CNIL 2023).
Comment intégrer le test dans un process structuré
Étape 1 : positionner le test au bon moment
Le test arrive après le tri CV, avant le premier entretien long. Pas en première étape (taux de complétion à 35%), pas en dernière (le candidat ne comprend plus pourquoi). Le sweet spot : entre le call de qualification de 20 minutes et l'entretien structuré de 60 minutes.
Étape 2 : prévenir et expliquer
Le candidat reçoit un mail clair : nom du test, durée, ce qu'on mesure, à quoi sert le score dans la décision. Un test surprise génère 25% d'abandon. Une explication transparente monte le taux de complétion à 75% selon les données AssessFirst 2025.
Étape 3 : interpréter en relatif, pas en absolu
Un score brut ne dit rien. Le percentile par rapport à la population de référence dit tout. Un 65/80 sur Raven correspond au 75e percentile sur cadres dirigeants français. C'est ce qu'on remonte au comité, pas le score brut.
Étape 4 : débriefer avec le candidat
Sur les profils confirmés, on partage le résultat en entretien et on demande au candidat de réagir. C'est un signal de transparence rare en France et ça ouvre une vraie conversation sur ses zones de force.
Les alternatives au test de logique pur
Mises en situation métier (work samples)
Donner au candidat un cas réel issu du poste : analyse d'un dataset pour un data analyst, plaidoirie pour un juriste, plan de campagne pour un brand lead. Validité prédictive 0,54 selon Schmidt et Hunter 2016, soit légèrement supérieure aux tests cognitifs purs.
Assessment center
Demi-journée mêlant études de cas, jeu de rôle, présentation. Coût élevé (1500 à 3000 euros par candidat), réservé aux postes C-Level. Validité prédictive 0,37 en moyenne, plus faible que prévu mais utile pour observer la posture sous pression.
Tests cognitifs adaptatifs en ligne
SHL Verify Interactive, AssessFirst Swipe, Pymetrics. Format court (10 à 15 minutes), expérience candidat moderne, score temps réel. Utile en sourcing volume sur les profils juniors et opérationnels.
Comment Lity utilise les tests de logique sur ses missions
On utilise un test cognitif sur 35% des missions environ. Toujours combiné à un entretien structuré et une mise en situation. Jamais comme filtre éliminatoire seul. Le résultat est partagé au comité avec le percentile contextualisé, jamais le score brut.
Sur les missions C-Level, on privilégie l'assessment center ciblé sur 2-3 situations critiques du poste. Plus prédictif qu'un test de logique généraliste pour un directeur de BU ou un COO. Voir aussi notre méthode : le guide pour créer une scorecard de recrutement.
Check-list pour intégrer un test de logique sereinement
- Valider la pertinence du test pour le poste (charge cognitive, tâches non structurées)
- Choisir l'outil étalonné sur la population cible (Raven APM pour seniors, SHL Verify pour volume)
- Positionner le test après le tri CV et avant l'entretien long
- Prévenir le candidat 48h avant avec mail clair (durée, objet, poids dans la décision)
- Plafonner le poids du test à 15-20% de l'évaluation globale
- Interpréter en percentile sur population de référence, jamais en score brut
- Débriefer oralement avec le candidat finaliste
- Supprimer les données à 2 mois maximum après la fin du process (CNIL)



