Мы считаем крайне важным обеспечить полную прозрачность в отношении точности нашей модели модерации текста, количества ложных срабатываний и ложных отрицаний, областей для улучшения и многого другого, чтобы гарантировать ответственное использование и внедрение. Этот всесторонний анализ призван обеспечить полную прозрачность в отношении методологии тестирования нашей модели модерации текста.
Дата тестирования: 29 июня 2025 г.
Дата публикации: 16 сентября 2025 г.
Протестированная модель: В1
Модель модерации текста Copyleaks версии 1 была подвергнута слепой оценке двумя командами экспертов на 120 000 англоязычных текстах (501 текст, нарушающий правила TP9T, и 501 текст, не нарушающий правила TP9T), которые были полностью отделены от обучающего набора данных.
Результаты оценки показывают, что модель способна выявлять вредоносный контент с очень высокой степенью полноты, практически никогда не помечая при этом безобидный текст.
Когда идентичный набор данных был обработан с помощью трех ведущих коммерческих API для модерации (OpenAI, Azure и Google) с их пороговыми значениями по умолчанию, Copyleaks показал меньшее количество ложных срабатываний и ложных отрицаний, с преимуществом в 4%-30% по ключевым показателям.
Ключевые показатели (тестовый набор данных, N = 20 000)
Для получения объективной картины производительности модели была проведена слепая оценка двумя командами. Команды специалистов по анализу данных и контролю качества работали в полной изоляции, используя разные компьютеры, разные скрипты и не обмениваясь данными.
Набор тестов для анализа данных
Набор тестов контроля качества
Набор данных для анализа данных был строго исключен из исходного корпуса, использованного для обучения. Набор вопросов и ответов включает в себя фрагменты, специально созданные после обучения модели; эти тексты никогда не использовались во время обучения и не были взяты из обучающего корпуса.
Для категорий модерации использовались следующие определения:
В этой задаче модерации текста используются следующие метрики:
1. Матрица ошибокТаблица, суммирующая результаты работы модели, отображает:
2. Точность: Доля правильно классифицированных случаев (как истинно положительных, так и истинно отрицательных) от общего числа оцененных текстов.
3. Показатель истинно отрицательных результатов (TNR): Доля фактически отрицательных случаев, которые правильно идентифицированы как отрицательные. В контексте модерации текста TNR измеряет эффективность модели при работе с текстами, не нарушающими правила.
4. Показатель истинно положительных результатов (TPR) / Полнота отзываПоказатель TPR (Tax-Project Recognition — процент действительно положительных случаев, правильно идентифицированных как положительные) отражает реальную долю положительных результатов. В контексте модерации текста TPR измеряет эффективность модели при работе с текстами, нарушающими правила.
5. Точность: Доля правильно предсказанных положительных наблюдений от общего числа положительных предсказаний. В контексте модерации текста, показатель точности измеряет надежность модели при выявлении контента, нарушающего правила; он показывает, сколько текстов, идентифицированных моделью как нарушающие правила, были фактически модерированы.
6. Показатель F-бетаВзвешенное гармоническое среднее точности и полноты, где параметр бета устанавливается в пользу точности. Такая приоритезация помогает добиться более низкой частоты ложноположительных результатов.
Команда специалистов по анализу данных
Матрица ошибок
команда контроля качества
Сводка метрик тестирования качества:
Общая точность: 0.9923
Точность: 0.9997
Отзывать: 0.9848
F-бета (β = 0,5): 0.9967
Сравнительный тест