1140923 meeting
本週使用 Weather2K 資料集。經整理,此資料集內並無缺失,其資料日期為 2017 年 1 月至 2021 年 8 月止,紀錄頻率為每 3 小時,共計 13,632 個時間點資料,同時包含 2,130 個觀測站資料,且採用中國標準時間(CST,UTC+8)。此資料集之資料來源為中國中央氣象局(CMA)地面氣象站的觀測資料,並遵循《地面氣象觀測規範—通則》(GB/T 35221-2017)以及《地面氣象觀測資料質量控制》(QX/T 118-2010)之標準收集原始數據。
原始論文表示,完整資料集代號為 Weather2K-N ,包含完整的的氣象站資料,出於保密原因並未發布;開源的資料集為 Weather2K-R ,以 Numpy 檔案格式儲存,形狀為 (1866, 13, 13632) ;此外,此論文還提供了一個特殊版本 Weather2K-S ,包含分布於不同地區的 15 個代表性氣象站,並以 CSV 格式文件儲存。
本次使用的資料集為 Weather2K-R ,其儲存之變數如下:
Numpy Index | Long Name | Short Name | Unit |
---|---|---|---|
0 | Latitude | lat | (°) |
1 | Longitude | lon | (°) |
2 | Altitude | alt | (m) |
3 | Air pressure | ap | hpa |
4 | Air Temperature | t | (°C) |
5 | Maximum temperature | mxt | (°C) |
6 | Minimum temperature | mnt | (°C) |
7 | Relative humidity | rh | (%) |
8 | Precipitation in 3h | p3 | (mm) |
9 | Wind direction | wd | (°) |
10 | Wind speed | ws | (ms-1) |
11 | Maximum wind direction | mwd | (°) |
12 | Maximum wind speed | mws | (ms-1) |
經簡單資料整理後,得到如下資訊:
|
|
Variable | min | max | range | mean | median | std | nan_count | mode |
---|---|---|---|---|---|---|---|---|
Air pressure (ap, hpa) | 567.5 | 1041.4 | 473.9 | 944.072875 | 980.2 | 83.676838 | 0 | 1002.0 |
Air Temperature (t, °C) | -17.5 | 45.3 | 62.8 | 18.894059 | 19.8 | 8.623656 | 0 | 24.6 |
Maximum temperature (mxt, °C) | -16.8 | 46.1 | 62.9 | 19.379240 | 20.3 | 8.620829 | 0 | 24.8 |
Minimum temperature (mnt, °C) | -17.7 | 44.7 | 62.4 | 18.417392 | 19.30625 | 8.613370 | 0 | 24.6 |
Relative humidity (rh, %) | 0.0 | 100.0 | 100.0 | 67.372178 | 72.0 | 24.457984 | 0 | 100.0 |
Precipitation in 3h (p3, mm) | 0.0 | 310.8 | 310.8 | 0.425590 | 0.0 | 2.624026 | 0 | 0.0 |
Wind direction (wd, °) | 0.0 | 360.0 | 360.0 | 173.129808 | 170.0 | 99.114257 | 0 | 185.0 |
Wind speed (ws, ms-1) | 0.0 | 30.0 | 30.0 | 2.255382 | 1.8 | 1.645024 | 0 | 1.1 |
Maximum wind direction (mwd, °) | 0.0 | 360.0 | 360.0 | 173.556036 | 170.0 | 99.265078 | 0 | 195.0 |
Maximum wind speed (mws, ms-1) | 0.0 | 48.9 | 48.9 | 2.944923 | 2.5 | 1.837524 | 0 | 1.5 |
本次實驗使用的時間範圍為 2021 年 3 月 5 日 00:00 至 2021 年 7 月 26 日 21:00,共 1152 個時間步,提供模型充分的歷史資訊以捕捉季節性及日變化。
測試期間為 2021 年 7 月 27 日 00:00 至 2021 年 8 月 31 日 21:00,共 288 個時間步,其中 2021 年 8 月 24 日 21:00 至 8 月 31 日 21:00 有 57 個時間步的缺失值,用於對模型的空間填補與時間預測能力提出挑戰。
資料中包含 1492 個已知站點 作為訓練與驗證的基礎,另有 374 個未知站點 需進行預測或補值,實驗範圍涵蓋時序預測與空間插補,旨在評估模型在多站點、多變數環境下的表現。
時間挑選方式為,從原始時間序列抽取固定比例的連續時間段作為訓練與測試資料集,空間測站亦同。
項目 | 訓練 | 測試 |
---|---|---|
起始時間 | 2021 年 3 月 5 日 00:00 | 2021 年 7 月 27 日 00:00 |
結束時間 | 2021 年 7 月 26 日 21:00 | 2021 年 8 月 31 日 21:00 |
時間步 | 1152 個時間步 | 288 個時間步 |
已知站點數 | 1492 個已知站點 | 1492 個已知站點 |
未知站點數 | 374 個未知站點 | 374 個未知站點 |
缺失值期間 | - | 2021 年 8 月 24 日 21:00 至 2021 年 8 月 31 日 21:00 共 57 個時間步 |
|
|
此次實驗因各變數尺度過大,故各時間序列均會先進行標準化後再進行訓練。以 RegressionEnsemble 為例,以上變數若全部經時間序列預測與 autoFRK 的空間填補,相對溼度、風向、最大風速風向的平均預測誤差(MSPE)容易出現明顯偏高的情形,故應在後續實驗中移除。
Variable | MSPE |
---|---|
Air pressure (ap, hpa) | 3.729113 |
Air Temperature (t, °C) | 4.448267 |
Maximum temperature (mxt, °C) | 4.573875 |
Minimum temperature (mnt, °C) | 4.289456 |
Relative humidity (rh, %) | 127.798885 |
Precipitation in 3h (p3, mm) | 6.457359 |
Wind direction (wd, °) | 7206.518631 |
Wind speed (ws, ms^-1) | 1.279657 |
Maximum wind direction (mwd, °) | 7193.734357 |
Maximum wind speed (mws, ms^-1) | 1.504698 |
參考資料
- Zhu X, Xiong Y, Wu M, et al. Weather2K: A Multivariate Spatio-Temporal Benchmark Dataset for Meteorological Forecasting Based on Real-Time Observation Data from Ground Weather Stations[C]//International Conference on Artificial Intelligence and Statistics. PMLR, 2023: 2704-2722.