Méthodologie

Cette page explique comment NoCall transforme des milliers de signalements d'utilisateurs en une évaluation fiable pour chaque numéro de téléphone. Nous expliquons la formule exacte du score de risque, les niveaux de danger, comment nous classons les catégories, comment fonctionne notre analyse par intelligence artificielle et d'où proviennent les données. Nous publions cette méthodologie pour que chacun puisse comprendre — et remettre en question — les décisions du système.

Comment le score de risque est calculé

Chaque numéro de notre base de données reçoit un score de risque compris entre 0 et 100. Ce n'est pas un jugement subjectif : il découle d'une formule déterministe recalculée chaque fois qu'un nouveau signalement approuvé arrive.

risque = min(100, signalements × 5 + (vérifié ? 30 : 0))

Chaque signalement approuvé ajoute 5 points. Si notre équipe a vérifié le numéro comme spam confirmé, 30 points supplémentaires sont ajoutés. Le résultat ne dépasse jamais 100.

Le facteur de vérification existe pour distinguer un numéro avec de nombreux signalements récents (qui pourrait être un faux positif ponctuel) d'un numéro qu'un examinateur humain a activement confirmé comme abusif. C'est pourquoi 20 signalements non vérifiés (100 points de signalements, plafonnés) et 14 signalements vérifiés (70 + 30) peuvent atteindre des scores similaires par des voies différentes.

Lorsqu'un numéro a été analysé par notre IA et présente des signaux communautaires approuvés, le niveau de danger détecté agit aussi comme un plancher pour le score : un numéro signalé comme critique ne s'affichera jamais en dessous de 90, un numéro élevé en dessous de 70, un moyen en dessous de 45 et un faible en dessous de 20, même avec peu de signalements. Ainsi, un schéma clairement frauduleux n'est pas sous-évalué simplement parce qu'il est récent.

Niveaux de danger

À partir du score numérique, nous classons chaque numéro dans l'un des quatre niveaux de danger. Ce sont les mêmes identifiants que notre base de données utilise en interne :

Catégories de spam

Chaque signalement et chaque numéro sont classés dans l'une des sept catégories. La catégorie détermine la manière dont le numéro est présenté dans le répertoire et découle à la fois du signalement de l'utilisateur et de l'analyse automatisée ultérieure :

SPAM — Appels commerciaux génériques et indésirables qui ne correspondent pas à une catégorie plus précise.
DÉMARCHAGE — Campagnes de vente par téléphone, généralement télécoms ou énergie, qui persistent malgré le refus.
ARNAQUE — Arnaques et fraudes, y compris l'usurpation d'identité (banques, organismes publics, faux support technique). La catégorie la plus grave.
RECOUVREMENT — Appels de recouvrement et de recouvrement de créances, souvent agressifs ou adressés à la mauvaise personne.
HARCÈLEMENT — Appels répétés destinés à harceler, intimider ou déranger délibérément.
SONDAGE — Sondages téléphoniques, enquêtes et études de marché non sollicités.
AUTRE — Tout autre type d'appel indésirable qui ne correspond pas à ce qui précède.

Analyse par intelligence artificielle

Au-delà du score numérique, un agent IA analyse les numéros à partir du contenu approuvé par la communauté : les commentaires et signalements qui ont passé la modération. L'IA ne travaille jamais avec du contenu non approuvé, de sorte qu'aucune contribution non examinée ne peut influencer l'analyse publique.

Pour chaque numéro analysé, l'IA génère un ensemble structuré d'informations affichées sur la page du numéro :

Les champs produits par l'analyse sont les suivants :

Description — Un résumé en langage naturel de qui semble se cacher derrière le numéro et de ce qu'ils veulent.
Schémas de plaintes — Les motifs de plainte les plus répétés dans les signalements (par exemple, des appels à des heures indues ou une insistance après refus).
Tactiques utilisées — Les techniques spécifiques détectées, telles que la pression, la fausse urgence ou les demandes de données personnelles.
Secteur — Le domaine auquel appartient l'activité (télécoms, énergie, recouvrement, sondages, etc.).
Entreprise détectée — L'entreprise ou l'organisation que le numéro semble représenter ou usurper, lorsqu'elle peut être identifiée.
Usurpation — Un indicateur de savoir si le numéro prétend être une entité légitime (banque, administration publique, marque connue).
Action recommandée — La recommandation finale pour l'utilisateur : bloquer, prudence, ignorer ou sûr.

Cette analyse est indicative et générée automatiquement à partir des contributions de la communauté ; elle ne remplace pas le propre jugement de l'utilisateur ni ne constitue une accusation contre une entreprise spécifique.

Modération : rien n'est publié sans révision

Le contrôle de la qualité est la pièce maîtresse de la méthodologie. Les signalements et commentaires n'apparaissent pas dans le répertoire public dès leur soumission : ils restent en attente jusqu'à ce qu'un administrateur les approuve. Ce n'est qu'alors qu'ils comptent dans le score de risque, alimentent l'analyse par IA et deviennent visibles pour les autres utilisateurs.

Ce filtre de modération sert deux objectifs : il écarte les signalements faux ou malveillants avant qu'ils n'affectent la réputation d'un numéro, et il garantit que l'IA ne raisonne que sur des informations vérifiées. L'auteur d'un signalement en attente peut voir sa propre contribution, mais personne d'autre, jusqu'à ce qu'elle soit approuvée.

Sources de données

L'évaluation de chaque numéro combine trois sources indépendantes :

Signalements de la communauté — Le fondement de tout. Les utilisateurs signalent les numéros depuis l'application et le web, de manière anonyme, avec une catégorie et un commentaire. Après modération, ils constituent le principal signal pour le score.
Données d'opérateurs et de préfixes de la CNMC — Nous utilisons les données publiques de la Commission nationale des marchés et de la concurrence (CNMC) pour identifier l'opérateur attribué à chaque bloc de numérotation et le type de ligne (mobile, fixe, surtaxé).
Communiqués de presse des entreprises (RSS) — Nous suivons les salles de presse des entreprises via des flux RSS pour détecter les campagnes légitimes et réduire les faux positifs lorsqu'une vraie entreprise mène des communications de masse.