Ученые выявили главную слабость искусственного интеллекта
Международная команда исследователей протестировала ведущие языковые модели с помощью теста Струпа - классического психологического инструмента для измерения концентрации. Результаты оказались неожиданными: чем длиннее задача, тем хуже справляется ИИ - вплоть до почти полного отказа. Работа опубликована в журнале PNAS Nexus передает Day.Az со ссылкой на Gazeta.ru.
Тест Струпа состоит в следующем: испытуемому показывают слова-цвета, написанные цветными чернилами, и просят называть цвет чернил, игнорируя само слово. Например, слово "красный", написанное синим, требует ответа "синий". Люди справляются с этим устойчиво даже при длинных списках - мозг умеет подавлять автоматическую реакцию.
Ученые под руководством Сукету Пателя предложили этот тест GPT-4o, Claude 3.5 Sonnet, GPT-5, Claude Opus 4.1 и Gemini 2.5. При коротких списках (5 слов) все системы работали хорошо. С ростом длины точность резко падала: GPT-4o при 5 словах давал 91% правильных ответов, при 10 - уже 57%, при 40 - лишь 15%. Claude 3.5 держался до 20 слов, затем рухнул до 24%.
По мнению авторов, модели "забывают" инструкцию и возвращаются к тому, чему обучены сильнее всего - читать слова. Это принципиально отличает их от людей, способных поддерживать устойчивое произвольное внимание.
Заметили ошибку в тексте? Выберите текст и сообщите нам, нажав Ctrl + Enter на клавиатуре
