AWS 上の SAS に関する考慮事項 - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS 上の SAS に関する考慮事項

SAS バックグラウンド

  • SAS Permanent Data File Space (SASDATA)

    • SAS の利用と、結果として得られる SAS 出力ファイルのための永続的なデータを保存します

    • 読み取りは広範囲に及ぶが、書き戻しの頻度は低い

  • SAS Working Data File Space (SASWORK)

    • SAS ジョブ用のスクラッチ作業スペース

    • シングルスレッド SAS プロシージャの作業用ストレージアクティビティを実行するために使用されます

  • SAS Utility Data File Space (UTILLOC)

    • マルチスレッド SAS プロシージャ用の SASWORK と同じタイプのスペース

    • デフォルトでは、SASWORK のサブディレクトリとして配置されます

  • RAID 0 構成で共にストライプ化された内部ソリッドステート (SSD) デバイスを再起動または再開しても、ストレージは保持されません。高帯域幅、低レイテンシ、およびシーケンシャル I/O を備えた NVMe(Non Volatile Memory Express)エフェメラルデバイスを持つインスタンスを使用することをお勧めします。これらのインスタンスは、一時的な SAS データ(SASWORK と UTILLOC)に最適です。

SAS 共有ファイルシステム (SAS Gridに必要)

  • AWS は、rwseclabel および lazystatfs マウントオプションを使用して Lustre ファイルシステムを設定します。これらは SAS Grid の推奨マウントオプションではないため、これらの FSx for Lustre ファイルシステムをアンマウントし、flock パラメータを使用して再マウントする必要があります。

  • Lustre ファイルシステムのサイズを拡張することはできません。サイズを変更するには、大きな Lustre ファイルシステムを作成し、古いシステムから新しいシステムにデータをコピーします。

  • FSx for Lustre 永続ファイルシステムでは、耐久性を高めるためにデータが単一のアベイラビリティーゾーン内でレプリケーションされます。AWS アベイラビリティーゾーンを越えてはレプリケートされません。

  • SAS Grid および FSx for Lustre で使用する場合は Amazon S3 ストレージオプションを使用することをお勧めします。詳細については、AWS ドキュメントの 「FSx for Lustre でデータリポジトリを使用する」を参照してください。

  • AWS リージョンとアベイラビリティーゾーンにわたるサービスの可用性については、AWS リージョン表を参照してください。また、高可用性のためのデータレプリケーションの必要性については「Amazon S3 同一リージョンでのレプリケーション (SRR) またはクロスリージョンでのレプリケーション (CRR)」 も確認してください。

SAS Grid サーバーティアのインスタンスタイプ

SAS Grid サーバーには、データ処理に高速な CPU が必要です。推奨事項:

  • 物理コアあたり最低 8 GB の物理 RAM と堅牢な I/O スループット (特に SASWORK と SAS UTILLOC の場合)。

  • I3 インスタンス — Amazon EC2 I3 インスタンスは、高トランザクション、低レイテンシのワークロード向けにストレージ最適化がされています。これらのインスタンスには、高いランダム I/O パフォーマンス、高いシーケンシャル読み取りスループット、および高い IOPS に向けてストレージが最適化された NVMe SSD ベースのインスタンスが含まれています。SASWORK および SAS UTILLOC 用のストライプ NVMe SSD ドライブは内部 I/O 帯域幅が高いため、Amazon EBS ボリュームの代わりに NVMe ベースの SSD ローカルドライブを明示的に使用するように環境を設定する必要があります。

  • I3en インスタンス — このファミリーは、Amazon EC2 上でストレージが最適化された NVMe SSD インスタンスを提供し、ENA 経由の拡張ネットワーキングにより最大 100 Gbps のネットワーク帯域幅を実現します。

  • M5n インスタンス — M5 ファミリーは、コンピューティング、メモリ、ネットワーキングをバランスよく提供します。M5n インスタンスは、ネットワークスループットとパケットレートパフォーマンスの向上を必要とするアプリケーションに最適です。

  • SAS ワークロードは、主に大量のデータを伴う大規模なシーケンシャル I/O リクエストとして特徴付けられます。SAS の使用パターンを事前に決定しておくことをお勧めします。これにより、基盤となる個々のファイルシステム、およびそれぞれの物理 I/O プロビジョニングの最適なアーキテクチャとセットアップが導かれます。

    • クエリ、レポート、および簡単な統計ジョブは、通常、物理 CPU コアあたり 100 MiB /秒の I/O レートで良好に動作します。

    • 高度な分析や大量の統計ジョブでは、物理 CPU コアあたり最大 150 MiB /秒が必要になる場合があります。

    • 全体として、物理 CPU コアあたりの最小 I/O スループットレートは 100 ~ 125 MiB /秒にすることをお勧めします。

SAS Grid ミドルティアとメタデータサーバーティアのインスタンスタイプ

これらのサーバーは、コンピューティング負荷の高いリソースや堅牢な I/O スループットを必要としません。SAS のコンピューティングティアよりも多くのメモリへのアクセスを必要とします。推奨事項:

  • 物理コアあたり最低 24 GB の物理 RAM または 8 GB の物理 RAM (どちらか大きい方)。

  • R5 または R5d インスタンス — これらのインスタンスはインメモリキャッシュ、中規模のインメモリデータベース、リアルタイムビッグデータ分析など、メモリを大量に消費するアプリケーションに適しています。

SAS Grid 用の高可用性とディザスタリカバリ

ディザスタリカバリ計画は、SAS Intelligence Platform や SAS ソリューションを実行する運用システムを含む、あらゆる重要なビジネスシステムにとって重要です。

ディザスタリカバリは高可用性とは異なります。どちらの概念も事業継続に関するものですが、高可用性とは業務を中断することなく継続できるようにすることです。対照的に、ディザスタリカバリにはある程度のダウンタイムが伴い、通常は数時間または数日単位で測定されます。