Item

Rectifying Belief Space via Unlearning to Harness LLMs' Reasoning

Niwa, Ayana
Kaneko, Masahiro
Inui, Kentaro
Supervisor
Department
Natural Language Processing
Embargo End Date
Type
Conference proceeding
Date
2025
License
Language
Japanese
Collections
Research Projects
Organizational Units
Journal Issue
Abstract
大規模言語モデル(LLM)は高度な推論能力を示す一方、しばしば誤った回答を出力することが知られている。本研 究では、この誤推論がモデル内部に存在する偽信念(Spurious Beliefs)に起因するという仮説を提示する。そして、 モデルが推論時に使う信念の中で、正しい答えにつながる「真の信念」が優先的に参照されるように調整し、推論能力 を向上させる手法を提案する。具体的には、まず誤答と正答を導く際に参照される偽信念と真の信念を特定する。次に、 逆学習によってモデルの偽信念への参照を抑制し、真の信念を優先的に参照させるようモデル内部の信念空間を是正す る。QA タスクにおける実験では、提案手法が誤推論を抑制するとともに汎化性能を向上させることを示した。
Citation
A. Niwa, M. Kaneko, and K. Inui, “Rectifying Belief Space via Unlearning to Harness LLMs' Reasoning,” pp. 2Win550-2Win550, 2025, doi: 10.11517/PJSAI.JSAI2025.0_2WIN550
Source
Proceedings of the Annual Conference of JSAI, 2025
Conference
The 39th Annual Conference of the Japanese Society for Artificial Intelligence
Keywords
Large Language Models, Interpretability
Subjects
Source
The 39th Annual Conference of the Japanese Society for Artificial Intelligence
Publisher
Japanese Society for Artificial Intelligence
Full-text link