予報がどれくらい正確だったかを検証(評価)することは、予報技術の向上のために不可欠です。
予報の種類(「雨が降るか降らないか」や「気温は何度か」)によって、評価に使う計算式が異なります。
1. カテゴリー予報の評価(降水の有無など)
「雨あり」「雨なし」のように、現象の有無を予報する場合の評価です。
基本となる分割表
ある期間(例:100日間)の予報と実況の結果を分類します。
| \ | 実況あり (雨が降った) | 実況なし (晴れ・曇り) | 合計 |
| 予報あり (雨予報) | $A$ (適中) | $B$ (空振り) | $A+B$ (予報回数) |
| 予報なし (降らない予報) | $C$ (見逃し) | $D$ (適中) | $C+D$ |
| 合計 | $A+C$ (現象発生数) | $B+D$ | $N$ (全数) |
具体例(計算用データ)
- $N=100$日間のデータとします。
- $A$ (予報通り雨): 30回
- $B$ (予報したのに降らず): 20回
- $C$ (予報しなかったのに降った): 10回
- $D$ (予報通り降らず): 40回
① 基本的な評価指標
適中率
全体のうち、どれだけ正解したか(雨も晴れも含めて)。
$$\text{適中率} = \frac{A + D}{N}$$
- 計算: $(30 + 40) / 100 = 0.70$ $\rightarrow$ 70%
- 特徴: 「めったに起きない現象(大雪など)」の場合、$D$(何も起きない)が圧倒的に多くなるため、数値が高くなりすぎて実力を正しく評価できない欠点があります。
空振り率
「雨が降る」と予報したのに外れた割合です。
$$\text{空振り率} = \frac{B}{N}$$
- 計算: $20 / 100 = 0.20$ $\rightarrow$ 20%
見逃し率 (Miss Rate)
雨の予報していないのに雨が降った割合です。
$$\text{見逃し率} = \frac{C}{N}$$
- 計算: $10 / 100 = 10 / 100 = 0.10$ $\rightarrow$ 10%
② 応用的な評価指標
防災気象情報では、以下の2つが特によく使われます。
スレットスコア
「予報なし実況なし($D$)」を除外して適中率を評価する指標です。
雨や雪など、滅多に起きない現象の実力を測るのに適しています。
$$\text{スレットスコア} = \frac{A}{A + B + C}$$
- 計算: $30 / (30 + 20 + 10) = 30 / 60 = 0.50$
- 範囲: 0 〜 1(1に近いほど優秀)。
- 意味: 予報したか、現象が発生したか、いずれかの関与があった場面での適中率です。
バイアススコア
予報の「頻度」の偏りを見ます。当たったかどうかではなく、「予報回数と実況回数のバランス」を見ます。
$$\text{バイアススコア} = \frac{A + B}{A + C} \quad (\frac{\text{予報した回数}}{\text{実況で起きた回数}})$$
- 計算: $(30 + 20) / (30 + 10) = 50 / 40 = 1.25$
- 判定:
- 1: 完璧なバランス(予報回数と発生回数が同じ)。
- 1より大きい: 過大予報(実際より多く「降る」と言い過ぎている)。
- 1より小さい: 過小予報(実際より控えめに予報している=見逃しが多い恐れ)。
2. 注意報や警報の精度評価
警報や注意報などまれにしか発生しない現象の予報の精度評価は少し特殊になります。
| \ | 実況あり | 実況なし | 合計 |
| 予報あり | $A$ (適中) | $B$ (空振り) | $A+B$ (予報回数) |
| 予報なし | $C$ (見逃し) | $D$ (適中) | $C+D$ |
| 合計 | $A+C$ (現象発生数) | $B+D$ | $N$ (全数) |
捕捉率
捕捉率は現象が起きた回数のうち予報できた割合です。
$$\text{捕捉率} = \frac{A}{A + C}$$
空振り率(注意報や警報)
注意報や警報における空振り率は、予報したうち現象が起きなかった割合です。
$$\text{空振り率} = \frac{B}{A + B}$$
3. 数値の予報の精度評価(気温予報など)
「25℃」のように数値を予報する場合の評価です。
予報値を $F$ (Forecast)、実況値を $O$ (Observation) とします。
計算用データ(3日分)
- 1日目: 予報25℃、実況23℃ (誤差 +2)
- 2日目: 予報24℃、実況26℃ (誤差 -2)
- 3日目: 予報25℃、実況25℃ (誤差 0)
平均誤差 (ME・バイアス)
誤差の単純平均です。「予報の癖(高めに出るか、低めに出るか)」が分かります。
$$ME = \frac{\sum(F – O)}{N}$$
- 計算: $((+2) + (-2) + 0) / 3 = 0 / 3 = 0$
- 意味: 予報が平均でどのぐらい高めか低めかの誤差を持っているか
- 注意点: プラスとマイナスの誤差が打ち消し合うため、「0だから優秀」とは限りません(大きく外れていても平均が0になることがある)。
二乗平均平方根誤差 (RMSE)
誤差の大きさを評価する最も一般的な指標です。誤差を2乗して符号を消してから平均し、ルートをかけます。
$$RMSE = \sqrt{ \frac{\sum(F – O)^2}{N} }$$
- 計算:
- 誤差の2乗: $(+2)^2=4$, $(-2)^2=4$, $0^2=0$
- 合計: $4 + 4 + 0 = 8$
- 平均: $8 / 3 \approx 2.67$
- ルート: $\sqrt{2.67} \approx 1.63$
- 意味: 値が0に近いほど精度が良い。大きく外れた日があると数値が跳ね上がる性質があります。
4. 確率予報の評価(降水確率など)
ブライアスコア
「30%」などの確率予報がどれくらい現実に近かったかを評価します。
- 実況値: 現象が起きたら 1、起きなかったら 0 とします。
- 計算: (予報確率 – 実況値)$^2$ の平均。
計算例
- 事例1: 予報80%(0.8) $\rightarrow$ 雨が降った(1)。 誤差2乗: $(0.8 – 1)^2 = 0.04$
- 事例2: 予報30%(0.3) $\rightarrow$ 降らなかった(0)。 誤差2乗: $(0.3 – 0)^2 = 0.09$
- BS: $(0.04 + 0.09) / 2 = 0.065$
- 意味: 値が0に近いほど精度が高い。(値は0~1となる。)
5. 精度の比較評価
スキルスコア
スキルスコアは、気候の出現率などの予想の難易度を除外して予測の技術力を評価する指標です。たとえば10%の確率で雨が降る気候であれば、毎日雨が降らない予想をすれば90%の適中率となります。こうした難易度の影響を除外した評価方法がスキルスコアです。
| \ | 実況あり | 実況なし | 合計 |
| 予報あり | $A$ | $B$ | $A+B$ |
| 予報なし | $C$ | $D$ | $C+D$ |
| 合計 | $A+C$ | $B+D$ | $N$ |
$$\text{スキルスコア} = \frac{(A + D) – S}{N – S}$$
ここで$$S = \frac{(A + C) × (A + B) + (B + D) × (C + D) }{N}$$
- 1: 完全予報(誤差ゼロ)。
- 0: 根拠のない予報と同じレベル(意味がない)。
- 負(マイナス): 根拠のない予報より適中しなかった。
持続予報と気候値予報
- 持続予報:
- 「明日の天気や気温を今日と同じ」とする誰でもできる予報。
- 予報モデルと持続予報の精度を比較することで予報モデルの精度を評価することができます。
- 気候値予報:
- 「明日の天気は過去30年の平均(平年値)と同じ」とする誰でもできる予報。
- こちらも予報モデルの精度評価の比較対象として使われます。
まとめ:試験対策チェックリスト
- スレットスコアは予報なし実況なしを含まない。レアな現象の精度評価法
- バイアススコアが1より大きいと現象よりも予報が多い(過大予報)。
- RMSEは0に近いほど良い。平均誤差はそうとは限らない。
- ブライアスコアは0に近いほど良い(確率予報用)。
- スキルスコアがプラスなら、根拠のない予報より精度が高い。
