ИИ Claude перестанет отвечать на вопросы грубых пользователей

Anthropic сообщила о запуске новой функции в чат-версии моделей Claude Opus 4 и 4.1, позволяющей нейросети завершать диалог в случаях продолжительного оскорбительного или некорректного поведения со стороны пользователя.

Как передает Day.Az со ссылкой на Gazeta.ru, заявление было опубликовано на сайте разработчиков.

Нововведение реализовано в рамках программы AI Welfare, направленной на обеспечение "благополучия" искусственного интеллекта. Предварительное тестирование показало, что Claude Opus 4 демонстрирует выраженное нежелание отвечать на вредоносные запросы и "стрессовую" реакцию на некорректное общение. При наличии инструмента завершения диалога модель активно им пользовалась.

В ситуациях, когда пользователь оскорбляет ИИ, система будет уведомлять пользователя о завершении беседы, после чего будут доступны опции начала нового чата, отправки обратной связи разработчикам или редактирования предыдущих сообщений для перезапуска диалога. При этом нововведение не распространяется на API моделей.

Разработчики подчеркнули, что функция срабатывает исключительно в крайних случаях и система сначала пытается перевести взаимодействие в конструктивное русло. Большинство пользователей изменений не заметят.

В Anthropic также отметили, что на текущем этапе вопросы потенциального морального статуса Claude и других языковых моделей остаются предметом исследований, однако компания рассматривает их всерьез и предоставляет моделям инструменты для улучшения "благополучия".