本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon EC2 主控台輸出日誌
當 AWS ParallelCluster 偵測到靜態運算節點執行個體意外終止時,它會嘗試在經過一段時間後從終止的節點執行個體擷取 Amazon EC2 主控台輸出。如此一來,如果運算節點無法與 Amazon CloudWatch 通訊,仍可從主控台輸出擷取節點終止原因的實用疑難排解資訊。此主控台輸出會記錄在前端節點的/var/log/parallelcluster/compute_console_output
日誌中。如需 Amazon EC2 主控台輸出的詳細資訊,請參閱《Amazon EC2 Linux 執行個體使用者指南》中的執行個體主控台輸出。
根據預設, AWS ParallelCluster 只會從已終止節點的範例子集擷取主控台輸出。這可防止叢集前端節點因大量終止而導致的多個主控台輸出請求負擔過重。根據預設,在終止偵測和主控台輸出擷取之間 AWS ParallelCluster 等待 5 分鐘,讓 Amazon EC2 有時間從節點擷取最終主控台輸出。
您可以在前端節點的 /etc/parallelcluster/slurm_plugin/parallelcluster_clustermgtd.conf
檔案中編輯範例大小和等待時間參數值。
此功能已新增至 3.5.0 AWS ParallelCluster 版。
Amazon EC2 主控台輸出參數
您可以在前端節點的 /etc/parallelcluster/slurm_plugin/parallelcluster_clustermgtd.conf
檔案中編輯下列 Amazon EC2 主控台輸出參數的值。
compute_console_logging_enabled
若要停用主控台輸出日誌集合,請將 compute_console_logging_enabled
設定為 false
。預設值為 true
。
您可以隨時更新此參數,而無需停止運算機群。
compute_console_logging_max_sample_size
compute_console_logging_max_sample_size
會設定每次偵測到非預期終止時,從中 AWS ParallelCluster 收集主控台輸出的運算節點數目上限。如果此值小於 1
, 會從所有終止的節點 AWS ParallelCluster 擷取主控台輸出。預設值為 1
。
您可以隨時更新此參數,而無需停止運算機群。
compute_console_wait_time
compute_console_wait_time
會以秒為單位,設定在偵測節點失敗和從該節點收集主控台輸出之間 AWS ParallelCluster 等待的時間。如果您判斷 Amazon EC2 需要更多時間從終止的節點收集最終輸出,則可以增加等待時間。預設值為 300 秒 (5 分鐘)。
您可以隨時更新此參數,而無需停止運算機群。