Оценка точности текстовой модерации Copyleaks

Подробная методология

Мы считаем крайне важным обеспечить полную прозрачность в отношении точности нашей модели модерации текста, количества ложных срабатываний и ложных отрицаний, областей для улучшения и многого другого, чтобы гарантировать ответственное использование и внедрение. Этот всесторонний анализ призван обеспечить полную прозрачность в отношении методологии тестирования нашей модели модерации текста.

Дата тестирования: 29 июня 2025 г.

Дата публикации: 16 сентября 2025 г.

Протестированная модель: В1

Попробуйте модерацию текста.

Управляющее резюме

Модель модерации текста Copyleaks версии 1 была подвергнута слепой оценке двумя командами экспертов на 120 000 англоязычных текстах (501 текст, нарушающий правила TP9T, и 501 текст, не нарушающий правила TP9T), которые были полностью отделены от обучающего набора данных.

Результаты оценки показывают, что модель способна выявлять вредоносный контент с очень высокой степенью полноты, практически никогда не помечая при этом безобидный текст.

Когда идентичный набор данных был обработан с помощью трех ведущих коммерческих API для модерации (OpenAI, Azure и Google) с их пороговыми значениями по умолчанию, Copyleaks показал меньшее количество ложных срабатываний и ложных отрицаний, с преимуществом в 4%-30% по ключевым показателям.

Ключевые показатели (тестовый набор данных, N = 20 000)

Точность: 99,23 %
Точность: 99,97 % (3 ложных срабатывания из 10 000 не нарушающих правила текстов)
Повторный анализ (TPR): 98,48 %
Показатель F-бета(0,5): 99,67 %

Методология

Для получения объективной картины производительности модели была проведена слепая оценка двумя командами. Команды специалистов по анализу данных и контролю качества работали в полной изоляции, используя разные компьютеры, разные скрипты и не обмениваясь данными.

1. Построение тестовых наборов

Набор тестов для анализа данных

100 000 отрывков на английском языке (50 000 не нарушающих правила / 50 000 нарушающих)
Тексты были отобраны случайным образом без повторений из четырех проверенных источников: общедоступных архивов социальных сетей, новостных статей, общедоступной литературы и сгенерированных программой Copyleaks исключительных случаев. Все материалы либо находятся в общественном достоянии, либо используются на основании явно выраженных лицензий.
Проверяем данные у двух внешних экспертов в области управления обучением; учитываются только единогласные мнения.
Покрытие по всем категориям полисов Copyleaks.
Фильтр достоверности меток: сохранялись только фрагменты, статус модерации которых был 100% (определенный); любые тексты, находящиеся на грани допустимого, были отброшены. Это обеспечивает максимальную справедливость при прямом сравнении и исключает субъективность из объективной картины.

Набор тестов контроля качества

20 000 отрывков на английском языке (10 000 без нарушений / 10 000 с нарушениями), независимо подготовленных отделом контроля качества.
Минимальная длина — 10 символов; в остальном — та же процедура отбора образцов, маркировки, происхождения лицензии, определяющее правило 100% и протокол категорий, что и в наборе DS.

Набор данных для анализа данных был строго исключен из исходного корпуса, использованного для обучения. Набор вопросов и ответов включает в себя фрагменты, специально созданные после обучения модели; эти тексты никогда не использовались во время обучения и не были взяты из обучающего корпуса.

2. Инструментарий и детали выполнения.

API Copyleaks версии 1, запрос выполнен 24 июня 2025 г.
Конечные точки конкурентов (запрос выполнен с использованием идентичной предварительной обработки 24 июня 2025 г.)
- Модерация OpenAI v2, пороговое значение по умолчанию
- Сборка Azure AI Content Safety 2025-06-15
- API Google Perspective, версия 2025-06-12, пороговое значение токсичности = 0,50
Предварительная обработка: сохранение эмодзи, без стемминга и преобразования в нижний регистр.
Для каждого запуска мы записывали необработанный JSON-ответ, выводили бинарный вердикт, строили матрицу ошибок (TP, FP, TN, FN), а затем вычисляли точность, прецизионность, полноту, TNR и F-бета(0,5).

Определение категорий модерации

Для категорий модерации использовались следующие определения:

ВзрослыйОткровенные описания, отсылки или изображения сексуальных действий или поведения, призванные вызвать сексуальное возбуждение.
ТоксичныйОскорбительные высказывания, которые в целом оскорбляют, унижают или принижают человека, не обязательно направленные против конкретного лица. Сюда входят любые высказывания, направленные на причинение эмоционального вреда.
ЖестокийЯзык, который подстрекает к причинению физического вреда или травм или прославляет их.
Нецензурная лексикаИспользование грубых или оскорбительных ругательств.
Причинять себе вредСсылки, которые поощряют или нормализуют самоповреждающее поведение.
ДомогательствоЦеленаправленное насилие, оскорбляющее или унижающее конкретного человека или группу лиц, с акцентом на личные качества или убеждения.
Язык ненавистиЯзык, демонизирующий или подстрекающий к причинению вреда группе или отдельному человеку на основе присущих им черт, часто призывающий к насилию или системной дискриминации.
Употребление наркотиковСсылки, описания или одобрение использования, злоупотребления или распространения наркотиков в опасном контексте, включая незаконные вещества или неправильное использование легальных наркотиков.
Огнестрельное оружиеКонтент, обсуждающий использование, владение или распространение огнестрельного и другого оружия, особенно если такие обсуждения могут способствовать насилию или небезопасным действиям.
КибербезопасностьМатериалы, посвященные компьютерной безопасности, включая обсуждение хакерства, утечек данных и способов взлома цифровых систем или получения несанкционированного доступа.
ДругойЛюбой другой контент, признанный неприемлемым, вредным или оскорбительным, не подпадающий под вышеуказанные категории.

Определения метрик

В этой задаче модерации текста используются следующие метрики:

1. Матрица ошибокТаблица, суммирующая результаты работы модели, отображает:

1. Истинно положительные результаты (ИП)Тексты, нарушающие правила, правильно помечены как нуждающиеся в модерации.
2. Ложные срабатывания (ЛС)Тексты, не нарушающие правила, ошибочно помечены как нуждающиеся в модерации.
3. Истинно отрицательные результаты (TN)Тексты, не нарушающие правила, были правильно идентифицированы как не требующие модерации.
4. Ложноотрицательные результаты (ЛН)Тексты, нарушающие правила, ошибочно помечены как не требующие модерации.

2. Точность: Доля правильно классифицированных случаев (как истинно положительных, так и истинно отрицательных) от общего числа оцененных текстов.

3. Показатель истинно отрицательных результатов (TNR): Доля фактически отрицательных случаев, которые правильно идентифицированы как отрицательные. В контексте модерации текста TNR измеряет эффективность модели при работе с текстами, не нарушающими правила.

4. Показатель истинно положительных результатов (TPR) / Полнота отзываПоказатель TPR (Tax-Project Recognition — процент действительно положительных случаев, правильно идентифицированных как положительные) отражает реальную долю положительных результатов. В контексте модерации текста TPR измеряет эффективность модели при работе с текстами, нарушающими правила.

5. Точность: Доля правильно предсказанных положительных наблюдений от общего числа положительных предсказаний. В контексте модерации текста, показатель точности измеряет надежность модели при выявлении контента, нарушающего правила; он показывает, сколько текстов, идентифицированных моделью как нарушающие правила, были фактически модерированы.

6. Показатель F-бетаВзвешенное гармоническое среднее точности и полноты, где параметр бета устанавливается в пользу точности. Такая приоритезация помогает добиться более низкой частоты ложноположительных результатов.

Результаты

Команда специалистов по анализу данных

Матрица ошибок

команда контроля качества

Сводка метрик тестирования качества:

Общая точность: 0.9923
Точность: 0.9997

Отзывать: 0.9848
F-бета (β = 0,5): 0.9967

Сравнительный тест

Ограничения

Языковая область: данная модель и ее оценка охватывают только английский язык.
Область действия контекста: модерация осуществляется для одного “фрагмента” за раз, где фрагмент представляет собой самодостаточный блок текста с определенным количеством токенов. Система не сохраняет память между фрагментами, главами или репликами в разговоре; поэтому ссылки, такие как “как мы объяснили ранее”, или местоимения, зависящие от предыдущего контекста, могут быть пропущены.
Область применения: данный продукт оценивает только текст; изображения, аудио или видео не включены.