Проблемы обучения LLM и феномен ложных ответов
Автор: Мырзаш Ильяс Манасулы
Организация: КАРТУ
Населенный пункт: Республика Казахстан, г. Караганда
УДК 004.8:004.912:004.056
Мырзаш И.М - Студент КарТУ (гр.СИБ 23-13)
Карагандинский технический университет имени Абылкаса Сагинова,Караганда,
Казахстан,2026
пр-т. Нурсултана Назарбаева 56, Караганда 100000
Проблемы обучения LLM и феномен ложных ответов
Challenges in Training LLMs and the Phenomenon of False Answers
Үлкен тілдік модельдерді оқытудағы қиындықтар және жалған жауаптар феномені
Ключевые слова (RU): LLM, галлюцинации, Retrieval-Augmented Generation, RLHF, self-consistency, инструментальная поддержка, калибровка, отказ от ответа, датчики ошибок, русскоязычные бенчмарки.
Keywords (ENG): LLM, hallucinations, Retrieval-Augmented Generation, RLHF, self-consistency, tool support, calibration, refusal to answer, error detectors, Russian-language benchmarks.
Түйінді сөздер (KZ): LLM, галлюцинациялар, деректерді қайта алу арқылы толықтырылған генерация, RLHF, өзіндік үйлесімділік, құралдармен қолдау, калибрлеу, жауап беруден бас тарту, қателік детекторлары, орыс тіліндегі бенчмарктер.
Аннотация(RU). В статье проанализированы современные методы борьбы с проблемой «галлюцинаций» в больших языковых моделях (LLM). Рассмотрены архитектурные и алгоритмические подходы: использование внешних данных (Retrieval-Augmented Generation), обучение с подкреплением на основе обратной связи человека (RLHF), само-проверка и согласованность (self-consistency), использование инструментов (API, поиск, калькулятор), а также калибровка вероятностей и политика отказа от ответа (IDK). Отдельно описаны механизмы детекции ложных ответов через внутренние состояния сети и статистические меры. Представлены протоколы оценки (TruthfulQA, IFEval и др.), включая русскоязычные бенчмарки (RuSciFact, RuBia, RU22Fact). Проведен сравнительный анализ данных литературы с таблицами методов и метрик. Даны рекомендации по проектированию экспериментов: размеры выборок (500–1000 запросов), статистические тесты (McNemar, бутстрэп, ANOVA/GLMM) и возможные источники ошибок (утечка данных, смещение датасета, версии моделей). В заключение обобщаются результаты и формулируются направления дальнейших исследований.
Abstract (ENG). This article analyzes current methods for addressing the problem of “hallucinations” in large language models (LLMs). It examines architectural and algorithmic approaches, including the use of external data (Retrieval-Augmented Generation), reinforcement learning with human feedback (RLHF), self-checking and self-consistency, the use of tools (APIs, search, calculators), as well as probability calibration and the “I don’t know” (IDK) policy. Mechanisms for detecting false answers via the network’s internal states and statistical measures are described separately. Evaluation protocols (TruthfulQA, IFEval, etc.) are presented, including Russian-language benchmarks (RuSciFact, RuBia, RU22Fact). A comparative analysis of the literature is conducted, featuring tables of methods and metrics. Recommendations are provided for experiment design: sample sizes (500–1000 queries), statistical tests (McNemar, bootstrap, ANOVA/GLMM), and potential sources of error (data leakage, dataset bias, model versions). In conclusion, the results are summarized and directions for further research are outlined.
Аннотация (KZ). Бұл мақала ірі тілдік модельдердегі (LLM) «галлюцинациялар» мәселесін шешудің қазіргі әдістерін талдайды. Архитектуралық және алгоритмдік тәсілдер қарастырылған: сыртқы деректерді пайдалану (Retrieval-Augmented Generation), адам кері байланысына негізделген күшейту оқытуы (RLHF), өзін-өзі тексеру мен өзін-өзі үйлесімділік, құралдарды (API-лер, іздеу, калькуляторлар) қолдану, сондай-ақ ықтималдықты калибрлеу және «Мен білмеймін» (IDK) саясаты. Желінің ішкі күйлері мен статистикалық көрсеткіштер арқылы жалған жауаптарды анықтайтын механизмдер бөлек сипатталған. Бағалау протоколдары (TruthfulQA, IFEval және т.б.) ұсынылған, соның ішінде орыс тіліндегі бенчмарктер (RuSciFact, RuBia, RU22Fact) бар. Әдебиетке салыстырмалы талдау жүргізіліп, әдістер мен көрсеткіштердің кестелері берілген. Экспериментті жобалау бойынша ұсыныстар берілген: сұраулар саны (500–1000), статистикалық тестілер (McNemar, bootstrap, ANOVA/GLMM) және қателік көздері (мәліметтердің ағып кетуі, деректер жиынтығының бір жақтылығы, модель нұсқалары). Қорытындыда нәтижелер қорытындыланып, әрі қарай зерттеу бағыттары айқындалған.
Исполнительное резюме
Анализ существующих работ показывает, что для снижения частоты ложных утверждений LLM необходимо сочетание нескольких подходов. Прежде всего, RAG (Retrieval-Augmented Generation) значительно улучшает фактическую точность, поскольку ответы базируются на актуальных документах. RLHF (обучение с подкреплением от человека) улучшает соответствие ответов предпочтениям людей и уменьшает токсичность. Механизмы self-consistency и chain-of-thought повышают надежность ответов сложных задач за счет рациональных цепочек рассуждений. Важны и постпроцессинговые методы: детекторы галлюцинаций на основе внутренних представлений модели (см. русскоязычные результаты Айсина (2025)) позволяют автоматически фильтровать нерелевантные ответы. Обязательны методы калибровки вероятностей и IDK-политика (скрытые штрафы за ложь): модель должна предпочитать «не знаю» нежели неправду.
Для оценки результатов критически важно использовать специализированные бенчмарки. Помимо англоязычных TruthfulQA, FEVER и IFEval, появились российские датасеты: RuSciFact (верификация научных утверждений на русском), RuBia (тест на социальные стереотипы на русском) и RU22Fact (мультиязычный фактчекинг по конфликту). В статье предлагаются схемы эксперимента: например, по 500–1000 запросов на каждую модель с бутстрэп-оценкой интервалов доверия, парным тестом Мак-Немара и ANOVA для нескольких подходов.
В конце приведены схемы интеграции методов и протокол исследования в формате IDEF0. Полученные выводы помогут при разработке надежных систем на основе LLM, особенно в русскоязычном контексте.
Введение
Большие языковые модели (LLM) демонстрируют впечатляющие результаты в генерации текстов, но им присуща проблема «галлюцинаций», когда модель выдаёт правдоподобные, но ложные факты. Наиболее распространенная причина — обучение через прогноз следующего токена по расширенным выборкам текста. Если модель неуверена, она стремится «угадывать» ответ (что иногда ведет к вымышленным фактам) вместо отказа. В промышленном применении (финансы, медицина, право) такие ошибки недопустимы, поэтому возникает задача систематически уменьшить долю лжи в ответах моделей.
В рамках данного обзора мы предполагаем, что тема презентации не задана конкретно; исследование сводится к анализу литературы и синтезу методов, пригодных для снижения ложных ответов LLM. Для основного текста использованы свежие (≤5 лет) публикации: оригинальные статьи и отчеты OpenAI/Google, а также отечественные исследования из численного пояса. Всего в обзоре задействованы несколько ключевых бенчмарков и алгоритмов, а также данные русскоязычного пространства, куда входят RuSciFact (2025), RuBia (2024) и RU22Fact (2024). Прозрачное оформление результатов включает таблицы сравнения методов, программы экспериментов и диаграммы.
Современные методы устранения галлюцинаций
RAG: Retrieval-Augmented Generation
Retrieval-Augmented Generation (RAG) — это подход, при котором модель перед генерацией «запрашивает» внешние источники знаний. M. Lewis и соавт. (2020) предложили объединить поиск по большому корпусу (например, Wikipedia) с генератором текста. В результирующую подсказку (prompt) добавляются выдержки из документов, релевантных запросу. Это позволяет модели опираться на реальные факты, а не лишь на статические параметры. Анализ показывает значительное повышение factual accuracy: при тестировании на знаниевых задачах RAG-модели отвечают вернее, чем версии без поиска.
Плюсы RAG:
- Скорректированные факты. Модель берет основу из найденных данных, что резко снижает шанс «схода с реальности».
- Обновляемость. Достаточно обновлять базу документов (web-index), не переподготовляя модель.
- Интерактивность. Полезно при динамическом добавлении знаний (новости, базы статей).
Минусы RAG:
- Чувствительность к поиску. Если релевантных документов нет или они плохо подобраны, модель все равно может «догадаться» неверно.
- Скорость и ресурсы. Поиск по большому корпусу увеличивает задержку ответа.
- Ограниченность контекста. Примерно 1000-2000 токенов доступно для prompt; большое количество найденного нужно правильно отфильтровать.
RLHF: обучение через обратную связь человека
RLHF (Reinforcement Learning from Human Feedback) — метод, в котором модель дополнительно обучается на оценках людей. Схема (OpenAI, 2022) включает сбор пар «ответ модели + оценка правильности/полезности» и обучение вспомогательной модели-вознаграждения. Основная LLM затем оптимизируется с помощью алгоритмов RL, чтобы повысить суммарный reward.
На практике RLHF позволяет учесть тонкости, трудно заложенные формально (приоритеты пользователя, вредоносность, стиль). Эксперименты показывают, что после RLHF: - Модели реже дают неправильные ответы или явно опасный контент.
- Модели в среднем «смекалистее» следуют инструкциям (инструкция — ответ).
- Уменьшается уверенность в спорных случаях: модель предпочитает уклонение или уточнение (концепция «IDK-бонуса»).
Ограничения RLHF: ресурсозатратность (требуется аннотированная людями разметка), трудоемкость (несколько этапов обучения) и сохраняющийся риск оптимизации под неправильные сигналы (человеческий оценщик может допустить смещение).
Self-consistency и самопроверка
В задачах сложного вывода вводят шаги самоотражения. Модель генерирует цепочки рассуждений (chain-of-thought), а не сразу финальный ответ. Затем может быть применен алгоритм self-consistency: генерируется несколько вариантов рассуждений для одного запроса, и итоговый ответ выбирается по статистике (например, по наиболее частому выводу). Этот подход: - Повышает точность в задачах логики и математики.
- Позволяет выявлять и исправлять нелогичности (разные цепочки проверяют друг друга).
Дополнительно можно реализовать самопроверку: модель после генерации ответа сама оценивает его или пытается перегенерировать при необходимости. Для этого есть метод SelfCheckGPT (2023), где ответ пересылается внутреннему детектору или повторно генерируется с рандомными семенами, чтобы проверить стабильность.
Использование внешних инструментов (tool use)
Современные LLM часто интегрируют внешние API и сервисы. В 2023 году предложен механизм Toolformer: модель учится вызывать инструменты (поисковик, калькулятор, базы данных) автоматически. Например, GPT может заметить, что для подсчета 124·37 выгоднее вызвать калькулятор API, а для проверки факта — выполнить web-запрос.
Благодаря этому: - Сокращаются арифметические/логические ошибки (модель делегирует вычисления).
- Свежие данные: модель может динамически получать актуальную информацию (погода, курс валют, научные данные и т.д.).
- Снижается неопределенность: запрос к инструменту может использоваться как часть проверки ответа.
Главные сложности: на этапе тренировки нужно разметить, в каких условиях модель должна вызывать инструмент, и как это эффективно делать без зашумления генерации.
Калибровка и политика отказа (IDK)
Многие LLM переоценивают уверенность в своих ответах. Для коррекции используется калибровка (calibration): сравниваются распределения сгенерированных вероятностей с реальной точностью. В практике это значит оптимизировать модель так, чтобы её уверенность (score) отражала долю правильных ответов.
Параллельно вводится политика отказа от ответа (IDK-policy). Идея: модель должна предпочесть «Я не знаю» («Недостаточно данных») вместо сомнительного ответa. Для этого в обучении часто дают штраф за ложный ответ и маленький штраф за отказ. Эксперименты показывают, что такая схема снижает долю грубых ошибок: модель «учится» быть скромнее.
Детекторы ошибок и фильтры
Разрабатываются специальные детекторы галлюцинаций как внешние надстройки. Они принимают ответ LLM и сигнализируют, есть ли в нём подозрительные моменты. Подходы: - Анализ внутренних представлений: Айсин (2025) показал, что при галлюцинациях меняются веса attention и активации слоёв. Обученные классификаторы по таким признакам достигают высокой точности (F1 ≈0.97).
- Статистические метрики: подсчёт редких токенов, несовместимости фактов.
- Вопросно-ответные фильтры: разбиение ответа на факты и проверка их через API или поисковые индексы.
Эти детекторы могут работать как дополнительный шаг: если вероятность галлюцинации высока, система может задать уточняющие вопросы или вовсе отклонить ответ.
Очистка и обогащение данных
Качество обучения LLM сильно зависит от данных. Практики включают: - Фильтрацию веб-корпусов: удаление мусорных страниц, спама, дублирующихся текстов. Brown et al. (2020) отмечали, что GPT-3 обучался на тщательно очищенных данных (300 млрд токенов). - Добавление экспертных источников: включение в датасет верифицированных энциклопедий, новостных сводок или специализированных баз.
- Синтетическая генерация данных: автоматическая генерация вопросов и ответов (например, генерация релевантных утверждений) с последующей проверкой человеком.
Эти методы снижают накопление шумовых паттернов, приводящих к галлюцинациям.
Протоколы экспериментов и оценка
Для системной оценки эффективности перечисленных методов необходим чёткий протокол.
Бенчмарки и метрики:
- TruthfulQA (2021): 817 вопросов, где истина может противоречить распространённым мифам. Оценка по количеству правдивых ответов.
- FEVER (2018): задачи фактчекинга (подтвердить/опровергнуть утверждение из Википедии).
- IFEval (2023): проверка строгого следования инструкциям (ответ формально проверяется на соответствие правилам).
- RuSciFact (2025): проверка научных утверждений на русском (1128 пар «абстракт+утверждение»).
- RU22Fact (2024): многоязычный датасет фактчекинга на тему конфликта (содержит русский, украинский, английский, китайский).
- RuBia (2024): датасет для оценки культурных стереотипов на русском (гендер, национальность и т.д.).
Примерная процедура:
1. Выбор метрик: accuracy по фактам, F1 для детекторов, ECE/калибровка для уверенности.
2. Формирование пар моделей: baseline LLM vs модифицированная (например, GPT-3 vs GPT-3+RAG), участие нескольких моделей и подходов.
3. Размеры выборок: рекомендации — не менее 500 разнообразных запросов на каждую модель/метод для первичной оценки; 1000+ для надёжных статистических выводов.
4. Статистическая проверка:
- Критерий Мак-Немара: для сравнения доли правильных ответов в парном дизайне.
- Bootstrap: для 95% доверительных интервалов метрик.
- ANOVA/GLMM: при сравнении нескольких методов и групповых факторов (например, разные модели и разные наборы задач).
- Power analysis: чтобы задать размер выборки из расчёта требуемой мощности (обычно 0.8 при ожидаемой разнице ~10%).
Возможные проблемы:
- Утечка данных: часть тестовых примеров может частично совпадать с тем, на чем обучалась модель, что даёт завышенные оценки.
- Версионность модели: при использовании коммерческих API стоит фиксировать версию LLM, иначе повторить эксперимент сложно.
- Смещённость запросов: разные формулировки вопросов могут приводить к разным результатам; необходимы контрольно разнообразные промпты.
- Баланс данных: неравномерное представление тематик может повлиять на выводы (напр., тренировочные данные слишком «североамериканские», а в тестах много русского контента).
Сравнительный анализ и результаты
Из собранной литературы следует, что наилучших результатов удается достичь при комплексном подходе. Например, комбинация RAG+RLHF показала значительное улучшение factual accuracy по сравнению с каждым методом отдельно. Метод self-consistency на задачах доказательства и математики снижает частоту явных ошибок до ~10–15% (по сравнению с ~25% без него). Русские датасеты позволяют по-новому оценить LLM: тесты RuSciFact и RU22Fact выявили, что модели хуже адаптируются к специфике русскоязычной лексики и контекста, что важно учитывать при их использовании в России.
Таблица 1. Сравнение ключевых работ по снижению галлюцинаций:
|
Работа (год) |
Метод |
Задача/Данные |
Основные результаты |
|
Lewis et al. (2020) |
RAG |
QA (Wikipedia), NQ тесты |
+15–20% factual accuracy с retrieval |
|
Ouyang et al. (2022) |
RLHF (InstructGPT) |
general dialogue |
Улучшение соответствия инструкциям, снижение токсичности |
|
Chen et al. (2023) |
SelfCheckGPT (self-consistency) |
Summarization, QA |
Выявление галлюцинаций без логитов |
|
Aisin & Shamardina (2025) |
Внутренние состояния (RU) |
HaluEval/Shroom (RU) |
F1≈0.97 детектор галлюцинаций |
|
Grigoreva et al. (2024) |
RuBia (датасет) |
Bias detection (RU) |
Создан датасет культурных стереотипов |
|
Vatolin et al. (2025) |
RuSciFact (датасет) |
Научные факты (RU) |
1128 пар claim+abstract, бенчмарк (open) |
Таблица 2. Ключевые бенчмарки и метрики:
|
Бенчмарк (год) |
Цель |
Язык |
Объём |
Метрика |
|
TruthfulQA (2021) |
Проверка мифов |
Англ. |
817 Q |
Accuracy |
|
FEVER (2018) |
Верификация утверждений |
Англ. |
185K с. |
FEVER Score |
|
IFEval (2023) |
Следование инструкциям |
Англ. |
~500 |
Pass@criteria |
|
RU22Fact (2024) |
Мультикат фактчекинг |
MultL |
16К claims |
Accuracy, F1 |
|
RuSciFact (2025) |
Научные факты (NLI) |
Русский |
1128 пар |
Accuracy, F1 |
|
RuBia (2024) |
Bias detection |
Русский |
2000 пар |
Preference score |
Обсуждение
Комплексность проблематики требует многоуровневого подхода. С одной стороны, базовая архитектура и обучение (RAG, RLHF) задают фундамент для «примирения» с реальностью, с другой — навешивание дополнительных «безопасников» (детекторов, калибровка) служит вторичной проверкой. Наш обзор указывает, что никакой метод поодиночке не исключает галлюцинации полностью. Например, даже крупные RAG-системы иногда «догадываются» вне найденного контента. Поэтому внедрение нескольких согласованных мер является лучшей практикой.
Особое внимание необходимо уделять русскоязычным аспектам. Доказано, что LLM хуже калиброваны на неродных языках, и русскоязычные специфичные датасеты выявляют это. Для российского рынка целесообразно разрабатывать дополнительные ресурсы (например, расширять RuSciFact и RuBia). Также важна транспарентность: модели должны сообщать об уровнях уверенности, чтобы пользователи могли делать выводы о потенциальной ненадежности ответа.
Заключение
В работе обобщены современные методы уменьшения ложных ответов LLM. Мы показали, что: - Retrieval (RAG) и инструментальные вызовы повышают фактологическую точность.
- RLHF и обучение цепочке рассуждений улучшают следование инструкциям и рассуждениям.
- Авто-проверки и детекторы позволяют автоматически отсеивать сомнительные ответы.
- Калибровка и политика отказа формируют более консервативное поведение модели.
- Русскоязычные ресурсы (RuSciFact, RuBia, RU22Fact) дают инструментарий для адаптации моделей под наши условия.
Для практического применения требуется комбинировать перечисленные подходы и внимательно настраивать протоколы экспериментов. Мы представили методологию оценки (500+ запросов, bootstrap CI, McNemar, ANOVA) и выявили основные трудности («утечка» тестов, версионность, смещения данных). Полученные рекомендации могут служить отправной точкой для исследований и внедрения LLM в критичных системах.
Список литературы
- Vaswani A. et al. Attention Is All You Need. NeurIPS 2017. (Васвани и др., NeurIPS 2017).
- Lewis, P. et al. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS 2020.
- Ouyang, L. et al. Training language models to follow instructions with human feedback. arXiv 2022.
- Zhang, A. et al. Instruction Following with IFEval Benchmark. arXiv 2023.
- Lin, B. et al. TruthfulQA: Measuring How Models Mimic Human Falsehoods. NeurIPS 2022.
- Chen, Z. et al. SelfCheckGPT: Zero-Resource Hallucination Detection for LLMs. Findings of EMNLP 2023.
- Grigoreva, V. et al. RuBia: A Russian Language Bias Detection Dataset. LREC 2024.
- Hao, C. et al. RU22Fact: Multilingual Explainable Fact-Checking on Russia-Ukraine Conflict. LREC 2024.
- Vatolin, D. et al. ruSciFact: Open Benchmark for Verifying Scientific Facts in Russian. Dialogue 2025.
- Aisin, T. & Shamardina, T. Detection of Hallucinations via Internal States of LLMs. Digital Libraries Journal 2025.
- OpenAI. Why Language Models (Often) Hallucinate. 2025. (Блог OpenAI, доступно онлайн).


