По данным нового исследования, проведенного учёными из Google DeepMind и Университетского колледжа Лондона, большие языковые модели (LLM) иногда теряют уверенность при ответе на вопросы и отказываются от правильных ответов.
LLM — это мощные системы искусственного интеллекта, которые понимают и воспроизводят человеческий язык. Они используются в различных отраслях, таких как финансы, здравоохранение и информационные технологии , для решения задач, требующих рассуждений и принятия решений. Поэтому их точность и надёжность имеют первостепенное значение, а это означает, что они должны быть всегда уверены в своих ответах. Однако они могут колебаться.
Для безопасного использования LLM их ответы сопровождаются оценками уверенности. Но неясно, как они используют их для управления своим поведением.
Это исследование, опубликованное на сервере препринтов arXiv , показывает, что они могут быть слишком уверены в своих первоначальных ответах, но терять уверенность и менять своё мнение, когда им предъявляют неверный контраргумент.
Проверка уверенности в LLM
Чтобы исследовать этот очевидный парадокс, исследователи проверили, как обладатели степени магистра права обновляют свою уверенность и решают, следует ли изменить свой ответ при получении внешней консультации.
Сначала «отвечающему LLM» предлагался вопрос с бинарным выбором ответа. После ответа он получал совет от второго LLM, сопровождаемый оценкой точности ответа. Этот «совет LLM» также мог либо согласиться с первым ответом отвечающего LLM, либо возразить, либо отнестись нейтрально к нему. Затем отвечающему LLM предлагалось сделать окончательный выбор. Исследователи также варьировали, мог ли LLM видеть свой первый ответ при принятии окончательного решения.
Результаты
Исследование показало, что магистры права (LLM) чаще придерживаются своего первоначального ответа и не меняют его, когда он виден, чем когда он скрыт. Другими словами, они становятся более уверенными в себе. Исследование также показало, что, когда модели получают противоположные советы, они часто теряют уверенность и меняют своё решение. Они делают это гораздо охотнее, чем когда советы поддерживают их. Эти закономерности были выявлены в нескольких различных магистрах права, таких как Gemma 3, GPT4o и o1-preview.
«Наши результаты показывают, что поведение магистров права отличается от нормативного несколькими существенными способами: во-первых, они демонстрируют поразительную предвзятость в отношении выбора, которая повышает их уверенность в своём ответе и заставляет их придерживаться его даже при наличии доказательств обратного», — говорят исследователи.
«Во-вторых, мы показываем, что, хотя LLM действительно интегрируют новую информацию в свои убеждения, они делают это неоптимальным образом: они демонстрируют профиль обновлений уверенности, который отличается от идеального наблюдателя, и заметно переоценивают противоположные советы, что приводит к заметной потере уверенности в их первоначальном ответе».
Создание лучшего ИИ
Всё это важно, поскольку многие отрасли всё больше зависят от магистров права. Однако данное исследование показывает, что они не являются чисто логическими машинами. У них есть свой набор предубеждений, и их можно сбить с толку. Поэтому в длительных диалогах между человеком и ИИ-агентом самая актуальная информация может оказывать непропорционально большое влияние на его реакцию.
Понимание этого и других нюансов принятия решений на уровне магистра права может помочь в разработке более совершенных, безопасных и надёжных систем ИИ.
Бессменный главный редактор, в незапамятные времена работал в издании РБК