情報処理試験を勉強していると、「ハルシネーションって結局何?ディープフェイクやバイアスとどう違うの?」と混乱しがちです。この記事では、ハルシネーションの意味・発生原因・試験での出題パターンを、例え話を交えて整理します。
対象試験と出題頻度
ハルシネーションは、ITパスポート・基本情報技術者・応用情報技術者で出題されるテーマです。
生成AIの登場にともない、2024年以降のシラバス改訂で新たに追加された用語であり、今後も繰り返し問われる可能性が高いです。
詳細をクリックして確認
ITパスポート
基本情報技術者
応用情報技術者
★★★☆☆
ランクB(標準)覚えておくと有利
用語の定義
ハルシネーション(Hallucination)とは、一言で言うと
「生成AIが、事実と異なる情報をもっともらしく出力してしまう現象」
のことです。
イメージとしては、「自信満々に間違った道を教える通行人」です。
道に迷って通行人に「駅はどっちですか?」と聞いたとき、「あっちです」と堂々と答えてくれたのに、実は反対方向だった。そんな経験はないでしょうか。
悪気はなく、本人は正しいと思い込んでいるのがポイントです。
生成AIのハルシネーションもまったく同じ構造で、AIは「嘘をつこう」としているのではなく、確率的に尤もらしい文章を生成した結果、事実から外れてしまいます。
📊 ハルシネーションの基本情報
| 項目 | 内容 |
|---|---|
| 英語名 | Hallucination |
| 語源 | 「幻覚・妄想」を意味する英単語。AIが存在しない事実を”見ている”かのように出力することから |
| 対象 | 大規模言語モデル(LLM)を含む生成AI全般 |
| 公的な位置づけ | NIST AI 600-1(生成AIリスクマネジメントフレームワーク)で「Confabulation」としてリスク分類 |
解説
なぜハルシネーションは起きるのか
大規模言語モデル(LLM)は、入力された文脈に対して「次に来る確率が最も高い単語」を連鎖的に選び出すことで文章を生成します。
つまりAIは「事実を検索して回答している」のではなく、「統計的に自然な文を組み立てている」だけです。
この仕組みのため、学習データに含まれない情報や、学習データ内で矛盾する情報があると、AIは”もっともらしいが事実ではない文”を堂々と出力します。これがハルシネーションの発生メカニズムです。
ハルシネーション発生の流れ
※ AIは「嘘をつく意図」はなく、確率的に自然な出力を選んだ結果こうなる
主な発生要因
ハルシネーションを引き起こす要因は複数あります。
代表的なものを整理すると、学習データの不足・古さ、学習データ自体の誤り、そして生成プロセスにおける確率的な逸脱の3つに大別できます。
| 要因 | 具体例 |
|---|---|
| 学習データの不足・古さ | 最新の出来事やニッチな分野の情報が学習データに含まれていないため、AIが「それらしい情報」を作り出す |
| 学習データ自体の誤り | インターネット上の誤情報をそのまま学習してしまい、誤った知識を「正しい事実」として出力する |
| 生成プロセスの確率的逸脱 | 単語の出現確率を計算する過程で、低確率だが文法的に正しい組み合わせが選ばれ、内容が事実から乖離する |
紛らわしい用語との比較
試験では、ハルシネーションと似て非なる用語がひっかけ選択肢として並びます。
それぞれの違いを正確に押さえてください。
| 用語 | 意味 | ハルシネーションとの違い |
|---|---|---|
| ディープフェイク | ディープラーニングで精巧な偽の画像・動画・音声を生成する技術 | メディア(画像・動画)の偽造が対象。テキスト出力の誤りであるハルシネーションとは領域が異なる |
| バイアス | 学習データの偏りに起因してAIの判断が特定方向に歪むこと | バイアスは「偏り」であり出力自体が虚偽とは限らない。ハルシネーションは「事実と異なる出力」 |
| アノテーション | 学習データに「犬」「猫」などのラベル(注釈)を付与する作業 | データ準備の工程であり、出力の正誤とは無関係 |
| エコーチェンバー | 同じ意見が閉じた空間内で反響・増幅する現象 | SNS等のコミュニティの問題であり、AI固有の出力誤りではない |
では、この用語が試験でどのように出題されるか見ていきましょう。
💡 ハルシネーションの核心を3行で
・生成AIが確率的な文章生成の過程で、事実と異なる内容をもっともらしく出力する現象
・原因は学習データの不足・誤り・生成プロセスの確率的逸脱の3つ
・ディープフェイク(偽画像・動画)やバイアス(判断の偏り)とは明確に区別する
試験ではこう出る!
ハルシネーションは、2024年のシラバス改訂以降に本格的に出題が始まった新しい用語です。IPAが公開したサンプル問題で先行して取り上げられ、その後の本試験にそのまま反映されています。
📊 過去問での出題実績
| 試験回 | 出題内容 | 問われたポイント |
|---|---|---|
| IP 生成AI サンプル問題 問2 |
「生成AIが学習データの誤りや不足などによって、事実とは異なる情報をもっともらしく生成する事象」の用語を選ぶ問題 | ・正解は「ハルシネーション」 ・アノテーション、ディープフェイク、バイアスがひっかけ |
| IP R7年度 問10 |
「生成AIにおいて、もっともらしいが事実とは異なる内容が出力されること」を表す用語を選ぶ問題 | ・正解は「ハルシネーション」 ・エコーチェンバー、シンギュラリティ、ディープフェイクがひっかけ |
📝 IPA試験での出題パターン
パターン:「用語の意味を選べ」
「もっともらしいが事実とは異なる出力」という説明文を読ませ、該当する用語を4択から選ばせる形式です。ひっかけ選択肢にはディープフェイク(偽画像・動画の生成技術)、バイアス(データの偏り)、アノテーション(学習データへのラベル付与)、エコーチェンバー(意見の反響・増幅)などが並びます。
ここだけは確実に押さえてください。「もっともらしい+事実と異なる+AIの出力」の3要素が揃っていれば、それはハルシネーションです。試験ではここまででOKです。発生を防ぐ具体的な技術(RAGなど)まで深追いする必要はありません。
【確認テスト】理解度チェック
ここまでの内容を理解できたか、簡単なクイズで確認してみましょう。
Q. 生成AIにおいて、もっともらしいが事実とは異なる内容が出力される現象を指す用語として、最も適切なものはどれでしょうか?
- A. ハルシネーション ― 生成AIが事実と異なる情報を、あたかも正しいかのようにもっともらしく出力する現象。
- B. アノテーション ― AIの学習データに対して、内容を識別するためのラベルや注釈を付与する作業。
- C. エコーチェンバー ― SNSなどの閉じた空間で同じ意見が繰り返し反響し、特定の思想が増幅する現象。
正解と解説を見る
正解:A
解説:
ハルシネーションは、生成AIが確率的に文章を組み立てる過程で、事実とは異なる内容をもっともらしく出力してしまう現象です。IPAのサンプル問題(問2)およびITパスポートR7年度 問10で、まさにこの定義が問われています。
選択肢Bのアノテーションは、学習データにラベルを付ける「前工程の作業」であり、AI出力の正誤とは無関係です。選択肢Cのエコーチェンバーは、SNSやオンラインコミュニティで同じ意見が繰り返される社会的現象であり、AI固有の出力誤りを指す用語ではありません。
よくある質問(FAQ)
Q. ハルシネーションは完全に防げますか?
現時点の技術では完全な防止は困難です。ただし、RAG(Retrieval-Augmented Generation)のように外部の信頼できるデータベースから情報を検索してから回答を生成する手法や、プロンプトエンジニアリングで「わからない場合は”わからない”と回答して」と指示する方法で、発生頻度を大幅に下げることは可能です。
Q. NISTはハルシネーションのことを別の名前で呼んでいると聞きました。本当ですか?
本当です。NIST(米国国立標準技術研究所)が策定した「AI 600-1(生成AIリスクマネジメントフレームワーク)」では、同じ現象を「Confabulation(コンファビュレーション/作話)」と呼んでいます。「Hallucination(幻覚)」は人間の知覚に関する用語であり、AIの動作を正確に表すには「情報のギャップを埋める」意味合いを持つConfabulationの方が適切と判断されたためです。ただしIPA試験では「ハルシネーション」の名称で出題されるため、試験対策としてはこちらを覚えておけば問題ありません。
Q. 画像生成AIでもハルシネーションは起きますか?
起きます。たとえば「指が6本ある人物画像」や「実在しない建物の写真」が生成されるケースは、画像分野のハルシネーションに該当します。ただしIPA試験ではテキスト生成AIにおけるハルシネーション(事実と異なるテキスト出力)を中心に出題されるため、画像分野まで深く覚える必要はありません。
Q. シンギュラリティとハルシネーションを混同しそうです。どう区別すればいいですか?
シンギュラリティ(技術的特異点)は「AIが人間の知能を超える転換点」を指す未来予測の概念です。一方、ハルシネーションは「今のAIが実際に引き起こしている出力誤り」です。シンギュラリティは「未来の仮説」、ハルシネーションは「現在の問題」と覚えれば混同しません。