Почему нейросети «галлюцинируют» и как это исправить: исследование OpenAI
Новое исследование OpenAI раскрывает неожиданную причину, по которой большие языковые модели (LLM) склонны к так называемым «галлюцинациям» — выдаче недостоверной информацИИ. Оказывается, дело не в ошибках в коде, а в самой структуре обучения этих систем. LLM скорее солгут, чем признаются в незнании ответа.
Как объясняют исследователи OpenAI, LLM обучаются, предсказывая наиболее вероятное следующее слово в тексте. В большинстве случаев это означает, что беглость и уверенность в ответе ценятся выше, чем его истинность. Тесты, используемые для оценки прогресса, часто поощряют самоуверенные догадки больше, чем честный отказ отвечать.
Иными словами, система настроена на выдачу отшлифованных ответов, даже если они неверны. Это похоже на экзамен, где за частично правильный ответ начисляются баллы. Если нельзя оставить вопрос без ответа, чтобы не потерять баллы, приходится гадать, даже наугад, чтобы остаться в игре. LLM действуют по той же логике.
Статистическое смещение делает «галлюцинации» неизбежными в системах общего назначения. Ни один конечный набор данных не может охватить всю истину о мире, поэтому модель всегда будет сталкиваться с пробелами. И когда это происходит, она заполняет их правдоподобными выдумками. Вот почему «галлюцинации» сохраняются в разных версиях, у разных провайдеров и при разных методах обучения.
Решение, предложенное исследователями OpenAI, заключается в изменении правил игры. Они предлагают дать чат-ботам разрешение признаваться в незнании ответа. Поскольку модели обучаются максимизировать баллы за правдоподобные ответы, предлагается ввести новое правило: отвечать только в том случае, если уверен не менее чем на 90%, в противном случае говорить «Я не знаю».
Теоретически, это должно сместить математику, сделав для модели более безопасным признание неопределенности, чем блеф. Однако есть загвоздка: у нынешних LLM нет внутреннего «измерителя уверенности», откалиброванного в процентах. Поэтому, когда вы говорите «90% уверенности», модель воспринимает это как стилистическую инструкцию быть осторожным, а не как реальный статистический порог.
Как бороться с галлюцинациями ИИ: советы пользователям
- Всегда запрашивайте источники.
- Четко формулируйте вопросы.
- Перепроверяйте ответы с помощью других систем.
- Обращайте внимание на самоуверенность.
- Не используйте ответы ИИ без проверки.
Пока обучение не догонит, бремя часто ложится на пользователей. Самые безопасные пользователи — это скептики, которые никогда не забывают, что первая задача модели — беглость, а не истина.