跳轉到內容

R 中的資料探勘演算法/包/CCMtools/CCM

來自 Wikibooks,開放世界中的開放書籍

此函式對兩個匹配的資料集(例如,每日本地和大型大氣資料)進行同時聚類,以便每個聚類最大化兩個資料集之間的相關性。此聚類基於規範相關分析 (CCA) 的混合。

CCM(Nc, NS, DataA.tbc,DataS.tbc,NN, DataStation, init="block", ITmax=15, rq=0)

  • Nc 所需的聚類數。
  • NS 本地尺度時間序列的位置數(即氣象站)。
  • DataA.tbc 對應於要聚類的大尺度資料集。這是一個矩陣

M*NN,其中M對應於大尺度位置的數量(例如,GCM 或 RCM 網格單元),NN 對應於時間序列的長度(例如,天數)。請注意,此矩陣在 CCM 中使用時沒有任何轉換。例如,如果必須執行主成分分析 (PCA),則必須在輸入 CCM 之前進行。

  • DataS.tbc 對應於要聚類的本地尺度(站點)資料集。這是一個

NS*NN 矩陣。與 DataA.tbc 類似,請注意此矩陣在 CCM 中使用時沒有任何轉換,並且如果必須執行 PCA,則必須在輸入 CCM 之前進行。

  • NN 時間序列的長度(例如,每日時間序列的天數)。
  • DataStation 將計算資訊準則的本地尺度(站點)資料集。

它通常與 DataS.tbc 相同,但根據應用程式(例如,DataS.tbc 是 PCA 的結果)或要達成的目標而有所不同。

  • init 聚類的初始化方法。有六種方法可用

- "block":塊初始化(預設值) - "12345":每天交替分配到一個聚類(例如,如果需要 3 個聚類,則第 1 天進入 C1,第 2 天進入 C2,第 3 天進入 C3,第 4 天進入 C1,第 5 天進入 C2,依此類推) - "Kmeans":透過 k 均值演算法進行初始化 - "Mixtn":與 "12345" 相同,但長度為 12(而不是長度為 1) - "EMw":透過對從在 DataA.tbc 和 DataS.tbc 之間執行的 CCA 得到的 w(即大尺度)規範變數應用 EM 聚類演算法進行初始化 - "EMvw":與 "EMw" 相同,但 EM 應用於 v(本地)和 w(大尺度)規範變數。

  • ITmax 最大迭代次數(預設為 15)是演算法不收斂的情況。

CWGLI 3

  • rq 計算資訊準則

(IC) 的本地尺度變數(感興趣的變數)的值(預設為 rq=0)。rq 可以是資料的第 90 個百分位數。在這種情況下,CCM 將嘗試找到極值得到良好區分的聚類。高 IC 表示聚類之間(在本地尺度變數方面)的良好區分。

有關 CCM 方法的詳細資訊,請參見下面的參考文獻。M. Vrac、P. Yiou。“為區域性降水建模設計的天氣狀況:在地中海盆地的應用”。JGR-大氣,doi:10.1029/2009JD012871,2010

作者(s)

[編輯 | 編輯原始碼]

M. Vrac (mathieu.vrac@lsce.ipsl.fr))

  1. 資訊準則
華夏公益教科書