テキストマイニングは、ITパスポート・基本情報技術者・応用情報技術者で出題されるAI・データ分析分野の用語です。
対象試験と出題頻度
テキストマイニングは、ITパスポート・基本情報技術者・応用情報技術者の3区分で出題対象になっています。
データ分析手法の識別問題として出題されるケースが多く、「データマイニング」「マーケットバスケット分析」「プロセスマイニング」との違いを正確に区別できるかがカギになります。
詳細をクリックして確認
ITパスポート
基本情報技術者
応用情報技術者
★★★☆☆
ランクB(標準)覚えておくと有利
用語の定義
情報処理試験を勉強していると、「テキストマイニングって、データマイニングと何が違うの?」と混乱しがちです。
テキストマイニング(Text Mining)とは、一言で言うと
「大量の文章データから、単語の出現頻度や単語同士の関係性を解析して有用な情報を取り出す手法」
のことです。
イメージとしては、「大量のお客様アンケートを読み込んで、よく出てくる単語や不満の傾向を自動で集計してくれるアシスタント」です。
人間がアンケート1万件を一枚一枚読むのは非現実的ですが、テキストマイニングを使えば「クレーム」「遅い」「壊れた」といった単語がどれくらいの頻度で出現し、どの単語同士がセットで使われているかを機械的に割り出せます。
📊 テキストマイニングの基本情報
| 項目 | 内容 |
|---|---|
| 英語名 | Text Mining |
| 分類 | データ分析手法(自然言語処理の応用) |
| 分析対象 | アンケート自由記述、SNS投稿、問い合わせ履歴などの非構造化テキスト |
| 主な分析指標 | 単語の出現頻度、共起関係、感情極性(ポジティブ/ネガティブ) |
解説
企業が蓄積するデータには、売上金額や在庫数のような「数値データ」と、アンケートの自由記述やSNS投稿のような「文章データ」の2種類があります。
数値データは集計・グラフ化が容易ですが、文章データはそのままでは集計できません。
そこで登場したのがテキストマイニングです。文章を単語や品詞に自動分割(形態素解析)し、統計的に処理することで、数値では見えなかった顧客の本音や傾向を浮かび上がらせます。
処理の流れ
テキストマイニングは、大きく3つのステップで進みます。
テキストマイニングの処理フロー
文章を単語・品詞に分割する
例:「対応が遅い」→「対応 / が / 遅い」
出現頻度のカウント、共起関係の抽出
例:「遅い」×「対応」が高頻度で共起
ワードクラウドや共起ネットワーク図で
傾向を視覚的に把握する
関連手法との違い
テキストマイニングは「データマイニング」の一種に位置づけられますが、分析対象がテキスト(文章)に限定される点で区別されます。試験では以下の手法と並んで選択肢に登場するため、違いを押さえてください。
| 手法 | 分析対象 | 目的 |
|---|---|---|
| テキストマイニング | 文章データ(自由記述・SNS等) | 単語の出現頻度や共起関係から傾向を抽出 |
| データマイニング | 数値・カテゴリデータ(売上、購買履歴等) | 隠れた規則性や相関関係を発見 |
| マーケットバスケット分析 | 購買データ | 同時に購入される商品の組み合わせを発見 |
| プロセスマイニング | 業務システムの操作ログ | 実際の業務プロセスを可視化し課題を特定 |
テキストマイニングの根幹にはディープラーニングや自然言語処理の技術があり、形態素解析の精度向上とともに活用範囲が広がっています。
では、この用語が試験でどのように出題されるか見ていきましょう。
💡 テキストマイニングの核心を3行で
・文章データを単語に分割し、出現頻度や共起関係を統計的に分析する手法
・データマイニングの一種だが、分析対象が「テキスト(文章)」に限定される
・形態素解析 → 集計・分析 → 可視化の3ステップで処理が進む
試験ではこう出る!
テキストマイニングは、IP・SG・FE・APの午前系問題で「分析手法の識別」として出題されています。
📊 過去問での出題実績
| 試験回 | 出題内容 | 問われたポイント |
|---|---|---|
| SG R1秋 午前 問50 |
「アンケートの自由記述欄の文章における単語の出現頻度などを分析する手法」を選ぶ問題 | ・正解は「テキストマイニング」 ・アクセスログ分析、シックスシグマ、マーケットバスケット分析がひっかけ |
| IP R7 問17 |
プロセスマイニングの説明を選ぶ問題。選択肢ウにテキストマイニングの説明が登場 | ・テキストマイニングは「膨大な文章データから情報を抽出して分析する手法」 ・プロセスマイニング・BPR・クリプトマイニングとの区別 |
| AP R6春 午後 問2 |
経営戦略の長文問題内で、ドライバーの自由記述をテキストマイニングで分析する場面が題材 | ・共起関係の読み取り ・分析対象のテキストデータを選別する必要性 |
| AP H25春 午後 問6 |
テキストマイニングツールを活用したシステムへの機能追加がテーマのデータベース問題 | ・午後問題ではテキストマイニングの実装面まで問われる |
📝 IPA試験での出題パターン
パターン1:「分析手法の説明を選べ」
「単語の出現頻度」「自由記述の文章を分析」というキーワードが問題文に出たら、テキストマイニングを選ぶ。ひっかけとして、データマイニング(数値データから規則性を発見)やマーケットバスケット分析(購買の組み合わせ分析)の説明が紛れ込む。
パターン2:「○○マイニングの識別」
IP R7 問17のように、プロセスマイニング・テキストマイニング・クリプトマイニングなど「○○マイニング」系の用語が並んだ選択肢から正しいものを選ぶ形式。それぞれの分析対象(操作ログ/文章/暗号計算)で判別する。
ここだけは確実に押さえてください。午前問題レベルなら「文章データ」「出現頻度」「共起」のキーワードで即答できます。形態素解析の具体的なアルゴリズムまでは深追い不要です。
【確認テスト】理解度チェック
ここまでの内容を理解できたか、簡単なクイズで確認してみましょう。
Q. アンケートの自由記述欄に記入された文章における単語の出現頻度などを分析する手法として、最も適切なものはどれでしょうか?
- A. 蓄積されたデータを統計的手法で分析し、隠れた規則性や相関関係を発見する手法。
- B. 顧客の購買データから、同時に購入されやすい商品の組み合わせを見つけ出す手法。
- C. 対象となる文章を品詞や単語に区切り、出現頻度や共起関係を解析して有用な情報を取り出す手法。
正解と解説を見る
正解:C
解説:
テキストマイニングは、文章データを単語単位に分割し、出現頻度や単語間の共起関係を統計的に解析して有用な知見を得る手法です。SG R1秋 午前問50でも同様の趣旨で出題されています。
選択肢Aはデータマイニングの説明です。データマイニングは数値やカテゴリデータを対象とし、隠れたパターンを発見するもので、文章を単語に分割する処理は含みません。選択肢Bはマーケットバスケット分析の説明です。購買データの同時購入パターンを対象とするものであり、文章データの出現頻度分析とは異なります。
よくある質問(FAQ)
Q. テキストマイニングで使われる「共起関係」とは具体的に何ですか?
共起関係とは、2つ以上の単語が同じ文章や同じ段落に一緒に出現する関係のことです。例えば、お客様の声を分析した際に「配送」と「遅延」が高い確率でセットになって登場していれば、配送の遅れに対する不満が多いと判断できます。AP R6春 午後問2では、ドライバーの自由記述から「コア業務」と「集中」の共起関係を読み取る場面が出題されました。
Q. テキストマイニングとセンチメント分析(感情分析)は同じものですか?
異なります。センチメント分析は「文章がポジティブかネガティブか」を判定する技術で、テキストマイニングの分析手法の一つとして位置づけられます。テキストマイニングのほうが上位概念であり、出現頻度分析や共起分析、トピック抽出なども含む幅広い手法です。IPA試験ではセンチメント分析が単独で問われることは少なく、テキストマイニングの一部として理解しておけば十分です。
Q. 実務ではテキストマイニングはどのような場面で使われていますか?
コールセンターへの問い合わせ記録の傾向把握、SNS投稿からのブランドイメージ調査、社内アンケートの自由記述からの課題抽出などが代表的です。近年は生成AIとの組み合わせも進んでおり、テキストマイニングで傾向を把握した後に生成AIで要約レポートを自動作成するといった活用例も増えています。
Q. 「形態素解析」は試験で問われますか?
基本情報技術者のシラバス(Ver.9.0)に形態素解析は記載されており、「自然言語処理」の文脈で出題される可能性があります。ただし、形態素解析のアルゴリズム詳細が問われるのではなく、「文章を単語に分割する処理」という概念レベルの理解で対応できます。試験範囲ではここまでで十分です。