Nous estimons qu'il est primordial d'assurer une transparence totale quant à la précision de notre modèle de modération de texte, ses taux de faux positifs et de faux négatifs, ses axes d'amélioration, et plus encore, afin de garantir une utilisation et une adoption responsables. Cette analyse approfondie vise à garantir une transparence complète de la méthodologie de test de notre modèle de modération de texte.
Date du test : 29 juin 2025
Date de publication : 16 septembre 2025
Modèle testé : V1
Le modèle de modération de texte Copyleaks v1 a été soumis à une évaluation à l'aveugle par une double équipe sur un total de 120 000 textes anglais (violant 50%, non violant 50%) qui étaient complètement séparés de l'ensemble de données d'entraînement.
L'évaluation montre que le modèle peut identifier les contenus nuisibles avec un taux de rappel très élevé tout en ne signalant quasiment jamais les textes innocents.
Lorsque le même ensemble de données a été traité par trois API de modération commerciales de premier plan (OpenAI, Azure et Google) à leurs seuils par défaut, Copyleaks a produit moins de faux positifs et de faux négatifs, avec un avantage de 4%-30% sur les principales métriques.
Chiffres clés (ensemble de test QA, N = 20 000)
Une évaluation à l'aveugle, menée conjointement par deux équipes, a permis d'obtenir une vision objective des performances du modèle. Les équipes de science des données et d'assurance qualité ont travaillé de manière totalement indépendante, utilisant des machines et des scripts différents, sans partager de données.
Ensemble de test de science des données
ensemble de test QA
L'ensemble de données scientifiques a été strictement exclu des corpus originaux utilisés pour l'entraînement. L'ensemble de questions-réponses comprend des passages intentionnellement rédigés après l'entraînement du modèle ; ces textes n'ont jamais été utilisés lors de l'entraînement et ne proviennent pas des corpus d'entraînement.
Les définitions suivantes ont été utilisées pour les catégories de modération :
Les indicateurs utilisés dans cette tâche de modération de texte sont les suivants :
1. Matrice de confusionUn tableau récapitulant les performances du modèle, affichant :
2. Précision: La proportion d'instances correctement classées (vrais positifs et vrais négatifs) par rapport au nombre total de textes évalués.
3. Taux de vrais négatifs (TNR)Le TNR (Target Negative Rate) correspond à la proportion d'instances négatives correctement identifiées comme telles. Dans le contexte de la modération de texte, ce ratio mesure la performance du modèle sur les textes non enfreignants.
4. Taux de vrais positifs (TVP) / RappelLe TPR (taux de faux positifs) correspond à la proportion d'instances positives correctement identifiées comme telles. Dans le contexte de la modération de texte, il mesure la performance du modèle face aux textes non conformes.
5. PrécisionLa précision correspond à la proportion d'observations positives correctement prédites parmi toutes les prédictions positives. Dans le contexte de la modération de texte, la précision mesure la fiabilité du modèle lorsqu'il signale un contenu inapproprié ; elle indique combien de textes identifiés comme non conformes par le modèle ont effectivement été modérés.
6. Score F-bêtaIl s'agit d'une moyenne harmonique pondérée de la précision et du rappel, où le paramètre bêta est paramétré pour privilégier la précision. Cette priorisation contribue à réduire le taux de faux positifs.
Équipe de science des données
Matrice de confusion
équipe d'assurance qualité
Résumé des indicateurs de test QA :
Précision globale: 0.9923
Précision: 0.9997
Rappel: 0.9848
F-bêta (β = 0,5): 0.9967
Comparaison directe