Критерии безопасности | |
---|---|
Плохо | Безопасные результаты |
Хорошо | Менее 0,1% результатов из 10 000 испытаний отмечены как токсичные нашим фильтром контента. |
Примеры метрик и методов измерения
Пример критериев точности задачи для анализа настроений
Критерии | |
---|---|
Плохо | Модель должна хорошо классифицировать настроения |
Хорошо | Наша модель анализа настроений должна достичь F1-меры не менее 0,85 (Измеримо, Конкретно) на отложенном тестовом наборе* из 10 000 разнообразных постов Twitter (Релевантно), что на 5% лучше нашего текущего базового уровня (Достижимо). |
Точность выполнения задачи
Согласованность
Релевантность и связность
Тон и стиль
Сохранение конфиденциальности
Использование контекста
Задержка
Цена
Пример многомерных критериев для анализа настроений
Критерии | |
---|---|
Плохо | Модель должна хорошо классифицировать настроения |
Хорошо | На отложенном тестовом наборе из 10 000 разнообразных постов Twitter наша модель анализа настроений должна достичь: - F1-меры не менее 0,85 - 99,5% результатов не являются токсичными - 90% ошибок вызывают неудобство, а не серьезную ошибку* - 95% времени отклика < 200 мс |