Évaluation de la précision de la modération de texte Copyleaks

Une méthodologie détaillée

Nous estimons qu'il est primordial d'assurer une transparence totale quant à la précision de notre modèle de modération de texte, ses taux de faux positifs et de faux négatifs, ses axes d'amélioration, et plus encore, afin de garantir une utilisation et une adoption responsables. Cette analyse approfondie vise à garantir une transparence complète de la méthodologie de test de notre modèle de modération de texte.

Date du test : 29 juin 2025

Date de publication : 16 septembre 2025

Modèle testé : V1

Résumé exécutif

Le modèle de modération de texte Copyleaks v1 a été soumis à une évaluation à l'aveugle par une double équipe sur un total de 120 000 textes anglais (violant 50%, non violant 50%) qui étaient complètement séparés de l'ensemble de données d'entraînement. 

L'évaluation montre que le modèle peut identifier les contenus nuisibles avec un taux de rappel très élevé tout en ne signalant quasiment jamais les textes innocents. 

Lorsque le même ensemble de données a été traité par trois API de modération commerciales de premier plan (OpenAI, Azure et Google) à leurs seuils par défaut, Copyleaks a produit moins de faux positifs et de faux négatifs, avec un avantage de 4%-30% sur les principales métriques.

 

Chiffres clés (ensemble de test QA, N = 20 000)  

  • Précision : 99,23 % %  
  • Précision : 99,97 % (3 faux positifs sur 10 000 SMS non enfreints)  
  • Rappel (TPR) : 98,48 %  
  • Score F-Beta(0,5) : 99,67 %

Méthodologie

Une évaluation à l'aveugle, menée conjointement par deux équipes, a permis d'obtenir une vision objective des performances du modèle. Les équipes de science des données et d'assurance qualité ont travaillé de manière totalement indépendante, utilisant des machines et des scripts différents, sans partager de données. 

1. Construction des ensembles de tests

Ensemble de test de science des données

  • 100 000 passages en anglais (50 000 non-violants / 50 000 violants)

  • Textes sélectionnés aléatoirement, sans remise, à partir de quatre sources validées : contenus publics issus des réseaux sociaux, articles de presse, littérature du domaine public et cas limites générés par Copyleaks. Tous les documents sont soit dans le domaine public, soit utilisés sous licence explicite.

  • Vérification croisée avec deux LLM externes ; seuls les éléments faisant l’unanimité sont conservés.

  • Couverture pour toutes les catégories de polices Copyleaks

  • Filtre de certitude des étiquettes : seuls les passages dont le statut de modération était définitif (100%) ont été conservés ; les textes limites ont été écartés. Ceci maximise l’équité des comparaisons directes et élimine la subjectivité de la vérité de référence.

ensemble de test QA

  • 20 000 passages en anglais (10 000 conformes et 10 000 non conformes) rédigés indépendamment par le service d’assurance qualité.

  • Longueur minimale de 10 caractères ; sinon, même échantillonnage, étiquetage, provenance de la licence, règle définitive 100% et protocole de catégorie que l’ensemble DS

L'ensemble de données scientifiques a été strictement exclu des corpus originaux utilisés pour l'entraînement. L'ensemble de questions-réponses comprend des passages intentionnellement rédigés après l'entraînement du modèle ; ces textes n'ont jamais été utilisés lors de l'entraînement et ne proviennent pas des corpus d'entraînement.

2. Détails de la chaîne d'outils et de l'exécution

  • API Copyleaks v1, interrogée le 24 juin 2025

  • Points d'accès concurrents (interrogés avec un prétraitement identique le 24 juin 2025)
    • OpenAI Moderation v2, seuil par défaut
    • Azure AI Content Safety, version 2025-06-15
    • API Google Perspective rév. 2025-06-12, seuil de toxicité = 0,50

  • Prétraitement : préservation des émojis, pas de lemmatisation ni de mise en minuscules

  • Pour chaque exécution, nous avons enregistré la réponse JSON brute, dérivé un verdict binaire, construit une matrice de confusion (TP, FP, TN, FN) puis calculé l'exactitude, la précision, le rappel, le TNR et le F-Beta(0,5).

Définition des catégories de modération

Les définitions suivantes ont été utilisées pour les catégories de modération :

  1. Adulte: Descriptions, références ou représentations explicites d'actes ou de comportements sexuels destinés à susciter l'excitation sexuelle.

  2. ToxiqueLes propos blessants qui insultent, rabaissent ou dégradent de manière générale, sans nécessairement viser une personne en particulier, incluent tout propos destiné à causer un préjudice moral.

  3. Violent: Langage qui incite à la violence physique ou qui la glorifie.

  4. Impiété: Utilisation de jurons grossiers ou offensants.

  5. L'automutilationRéférences qui encouragent ou normalisent les comportements d'automutilation.

  6. Harcèlement: Insultes ciblées qui insultent ou dégradent une personne ou un groupe en particulier, en se concentrant sur des traits de personnalité ou des croyances.

  7. discours haineux: Un langage qui diabolise ou incite à la violence envers un groupe ou un individu en raison de caractéristiques inhérentes, appelant souvent à la violence ou à la discrimination systémique.

  8. Consommation de drogues: Références, descriptions ou approbations de l'utilisation, de l'abus ou de la distribution de drogues dans un contexte nocif, y compris les substances illégales ou le mésusage de médicaments légaux.

  9. armes à feu: Tout contenu abordant l'utilisation, la possession ou la distribution d'armes à feu et autres armes, en particulier lorsque de telles discussions pourraient promouvoir ou provoquer des violences ou des pratiques dangereuses.

  10. cybersécuritéContenu relatif à la sécurité informatique, y compris des discussions sur le piratage, les violations de données et les mesures visant à pirater des systèmes numériques ou à obtenir un accès non autorisé.

  11. AutreTout autre contenu jugé inapproprié, nuisible ou offensant et non couvert par les catégories ci-dessus.

Définitions des indicateurs

Les indicateurs utilisés dans cette tâche de modération de texte sont les suivants :

1. Matrice de confusionUn tableau récapitulant les performances du modèle, affichant :

    1. Vrais positifs (VP): Textes enfreignant les règles, correctement identifiés comme nécessitant une modération.
    2. Faux positifs (FP)Des textes non enfreignant les règles ont été identifiés à tort comme nécessitant une modération.
    3. Vrais négatifs (VN): Textes non enfreignant les règles, correctement identifiés comme ne nécessitant pas de modération.
    4. Faux négatifs (FN): Des textes enfreignant les règles ont été identifiés à tort comme ne nécessitant pas de modération.

2. Précision: La proportion d'instances correctement classées (vrais positifs et vrais négatifs) par rapport au nombre total de textes évalués.

Exactitude = TP + TN / Nombre total de textes

3. Taux de vrais négatifs (TNR)Le TNR (Target Negative Rate) correspond à la proportion d'instances négatives correctement identifiées comme telles. Dans le contexte de la modération de texte, ce ratio mesure la performance du modèle sur les textes non enfreignants.

TNR = TN / TN + FP

4. Taux de vrais positifs (TVP) / RappelLe TPR (taux de faux positifs) correspond à la proportion d'instances positives correctement identifiées comme telles. Dans le contexte de la modération de texte, il mesure la performance du modèle face aux textes non conformes.

TPR = TP / TP + FN

5. PrécisionLa précision correspond à la proportion d'observations positives correctement prédites parmi toutes les prédictions positives. Dans le contexte de la modération de texte, la précision mesure la fiabilité du modèle lorsqu'il signale un contenu inapproprié ; elle indique combien de textes identifiés comme non conformes par le modèle ont effectivement été modérés.

Précision = TP / TP + FP

6. Score F-bêtaIl s'agit d'une moyenne harmonique pondérée de la précision et du rappel, où le paramètre bêta est paramétré pour privilégier la précision. Cette priorisation contribue à réduire le taux de faux positifs.

Image

Résultats

Équipe de science des données

Résultats de l'équipe de science des données

Matrice de confusion

Image

équipe d'assurance qualité

Résultats de l'équipe d'assurance qualité

Résumé des indicateurs de test QA :

  • Précision globale: 0.9923

  • Précision: 0.9997

  • Rappel: 0.9848

  • F-bêta (β = 0,5): 0.9967

Comparaison directe

Face à face
Comparaison de modèles

Limites

  • Champ d'application linguistique : ce modèle et son évaluation ne couvrent que l'anglais.

  • Portée du contexte : la modération s’effectue sur un seul passage à la fois, un passage étant un segment de texte autonome comportant un certain nombre d’éléments. Le système ne conserve aucune trace des passages, chapitres ou échanges entre les dialogues ; par conséquent, des références telles que “ comme nous l’avons expliqué précédemment ” ou des pronoms dépendant du contexte antérieur peuvent être omis.

  • Champ d'application des modalités : ce produit évalue uniquement le texte ; aucune image, aucun fichier audio ni aucune vidéo n'ont été inclus.