情報処理試験を勉強していると、AI・機械学習の分野で「特徴量」という言葉に出くわします。
「特徴量って結局何のこと?」「ディープラーニングとどう関係するの?」と疑問に感じた方は多いはずです。
対象試験と出題頻度
特徴量は、ITパスポート・基本情報技術者・応用情報技術者で出題されるテーマです。
ディープラーニングや機械学習に関する問題の中で、「特徴量を人間が設計するかどうか」が選択肢の正誤を分けるポイントとして繰り返し登場します。
詳細をクリックして確認
ITパスポート
基本情報技術者
応用情報技術者
★★★☆☆
ランクB(標準)覚えておくと有利
用語の定義
特徴量(Feature)とは、一言で言うと
「機械学習でモデルに入力するために、データの特徴を数値化したもの」
のことです。
イメージとしては、「履歴書の項目欄」です。
企業が採用判断をするとき、応募者の「年齢」「学歴」「資格」「職歴年数」といった項目を見て総合的に判断します。
この一つひとつの項目が、まさに特徴量に相当します。AIも同じで、「何を見て判断するか」を数値として与えなければ、データから何も学べません。
📊 特徴量の基本情報
| 項目 | 内容 |
|---|---|
| 英語名 | Feature(フィーチャー) |
| 別名 | 説明変数、入力変数、属性(Attribute) |
| 分野 | AI・機械学習(基礎理論) |
| シラバス | IPAシラバス Ver.6.3以降の用語例に明記 |
解説
機械学習では、コンピュータにデータを与えて「パターン」を見つけさせます。しかし、生のデータをそのまま渡しても、コンピュータは何に注目すればよいか分かりません。
そこで必要になるのが、データの中から「判断に役立つ情報」を選び出し、数値として整理する作業です。
この整理された数値こそが特徴量であり、モデルの予測精度を左右する最も重要な要素です。
具体例:メールのスパム判定
迷惑メールを自動判定するAIを作る場合を考えます。メール本文をそのまま渡すのではなく、以下のような数値データに変換してモデルに入力します。
| 特徴量の例 | 値の例 | 判断への寄与 |
|---|---|---|
| 「無料」の出現回数 | 5回 | 多いほどスパムの可能性が高い |
| URLの数 | 3個 | 多いほどスパムの可能性が高い |
| 送信元が連絡先に含まれるか | 0(いいえ) | 含まれなければスパムの可能性が高い |
| 本文の文字数 | 42文字 | 極端に短い・長いとスパム傾向 |
このように、生のメールから「判断に使える数値」を取り出したものが特徴量です。
どの情報を選ぶかでモデルの精度は大きく変わります。
図解:特徴量の位置づけ
図解:特徴量の位置づけ
機械学習における特徴量の位置づけ
(画像・テキスト・数値など)
(数値化・選択・加工)
(パターンを学習)
(結果を出力)
▲ 従来の機械学習では「特徴量の設計」を人間が行う。深層学習ではこの工程をモデルが自動化する
特徴量エンジニアリングとは
生データから有用な特徴量を作り出す作業全体を特徴量エンジニアリング(Feature Engineering)と呼びます。具体的には、不要な項目の除去、欠損値の補完、カテゴリデータの数値変換(例:「男性→0、女性→1」)などが含まれます。
従来の機械学習では、この特徴量エンジニアリングの品質がモデル精度の8割を決めると言われるほど重要な工程です。
深層学習との関係
従来の機械学習では、人間がドメイン知識を使って特徴量を手作業で設計します。一方、ニューラルネットワークを多層化した深層学習(ディープラーニング)では、モデル自身がデータの中から有効な特徴を自動的に抽出します。
| 比較項目 | 従来の機械学習 | ディープラーニング |
|---|---|---|
| 特徴量の設計者 | 人間が手動で設計 | モデルが自動で抽出 |
| 必要な専門知識 | 対象分野の深い知識が必要 | 比較的少なくて済む |
| 必要なデータ量 | 少量でも動作する | 大量のデータが必要 |
| 代表的な手法 | 決定木、SVM、ランダムフォレスト | CNN、RNN、Transformer |
この「人間が設計するか、モデルが自動抽出するか」の違いは、試験の選択肢で繰り返し問われるポイントです。
では、具体的にどのような形で出題されるか見ていきましょう。
💡 特徴量の核心を3行で
・データの特徴を数値化してモデルに入力する変数のこと
・従来の機械学習では人間が設計し、深層学習ではモデルが自動抽出する
・特徴量の選び方・作り方を工夫する作業を「特徴量エンジニアリング」と呼ぶ
試験ではこう出る!
特徴量そのものを単独で問う問題は少なく、ディープラーニングや機械学習の問題の中で「特徴量を人間が定義するかどうか」が正誤判断の分かれ目として登場するのが典型パターンです。
📊 過去問での出題実績
| 試験回 | 出題内容 | 特徴量との関連 |
|---|---|---|
| IP R7年 問86 |
画像から動物の種類を識別するAI技術を選ぶ問題。正解はディープラーニング。 | 「特徴を自動的に抽出」がディープラーニングの判別キーワード |
| IP R元年秋 問21 |
ディープラーニングの説明として正しいものを選ぶ問題。 | 「データの特徴を抽出,学習する技術」が正解の選択肢 |
| FE H30春 問3 |
ディープラーニングの特徴を選ぶ問題。正解は「ニューラルネットワークを用いて認識を実現する方法」。 | 「人間の力なしに自動的に特徴点やパターンを学習」が解説のキー |
| AP R7年春 午前 問3 |
過学習と疑われたときの解消方法を問う問題。 | 選択肢に「特徴量の見直しと削減」が含まれる |
📝 IPA試験での出題パターン
パターン1:「ディープラーニングの説明を選べ」
選択肢の中に「データから特徴を自動的に抽出」というフレーズがあれば、それがディープラーニングの正解選択肢です。ひっかけとして「人間がルールをあらかじめ設定する」(エキスパートシステム)や「eラーニング」「アダプティブラーニング」の説明が紛れ込みます。
パターン2:「過学習の対処法を選べ」
AP R7年春のように、過学習の解消法として「訓練データの増量」「正則化」とあわせて「不要な入力変数の削減」が問われます。ここだけは確実に押さえてください。「特徴量が多すぎるとモデルがノイズまで学習する」→「だから削減する」という因果関係が分かれば正解できます。
試験ではここまででOKです。特徴量エンジニアリングの具体的な手法(正規化・標準化・ワンホットエンコーディング等)まで問われることはほぼないので、深追いは不要です。
【確認テスト】理解度チェック
ここまでの内容を理解できたか、簡単なクイズで確認してみましょう。
Q. 機械学習における「特徴量」の説明として、最も適切なものはどれでしょうか?
- A. 学習済みモデルが出力する予測結果の確率値のこと。
- B. データの特徴を数値化してモデルの入力とする変数のこと。
- C. モデルの学習回数を制御するために設定するパラメータのこと。
正解と解説を見る
正解:B
解説:
特徴量は、データの特徴を数値として表現し、機械学習モデルへの入力として使用する変数です。モデルはこの数値をもとにパターンを学習し、予測や分類を行います。
選択肢Aは「予測結果の確率値」であり、これはモデルの出力(推論結果)に該当します。特徴量はモデルへの入力であり、出力ではありません。選択肢Cは「学習回数を制御するパラメータ」であり、これはエポック数やハイパーパラメータに該当します。特徴量とは役割が異なります。
よくある質問(FAQ)
Q. 特徴量と「ラベル」はどう違いますか?
特徴量はモデルへの「入力」、ラベルは「正解データ(出力の教師信号)」です。例えばメールのスパム判定で、「URLの数」「特定単語の出現回数」が特徴量、「スパムか否か」がラベルです。教師あり学習では、特徴量とラベルのペアをセットで学習させます。
Q. 特徴量が多すぎるとどうなりますか?
「次元の呪い」と呼ばれる現象が起きます。特徴量の数(次元数)が増えすぎると、データが高次元空間に散らばり、モデルがノイズまで学習してしまいます。これが過学習の原因の一つです。AP R7年春 午前問3でも、過学習の解消策として不要な入力変数を削減する選択肢が出題されています。
Q. 画像データの場合、特徴量は何になりますか?
従来の画像認識では、人間がエッジ(輪郭)の方向や色ヒストグラムなどを手動で計算して特徴量とします。一方、深層学習(CNN)では、画素値をそのまま入力し、畳み込み層が自動的に有効な特徴を抽出します。IP R7年 問86「画像から動物の種類を識別するAI技術」はまさにこの違いを問う問題です。
Q. 実務では特徴量エンジニアリングにどのくらい時間がかかりますか?
データ分析プロジェクトの工数の6〜8割がデータの前処理と特徴量エンジニアリングに費やされると言われています。Pythonのpandasやscikit-learnを使って欠損値の補完、カテゴリ変数の数値変換、標準化などを行うのが一般的です。ただし、試験範囲では具体的なツール名や手順は問われません。