AWSSupport-TroubleshootOpenSearchHighCPU - AWS Systems Manager 자동화 런북 참조

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWSSupport-TroubleshootOpenSearchHighCPU

설명

AWSSupport-TroubleshootOpenSearchHighCPU런북은 Amazon OpenSearch Service 도메인에서 진단 데이터를 수집하여 높은 CPU 문제를 해결하는 자동화된 솔루션을 제공합니다.

어떻게 작동하나요?

AWSSupport-TroubleshootOpenSearchHighCPU런북은 Amazon OpenSearch 서비스 도메인에서 높은 CPU 사용률 문제를 해결하는 데 도움이 됩니다.

런북은 다음 단계를 수행합니다.

  • 제공된 Amazon OpenSearch Service 도메인에 대해 DescribeDomainAPI를 실행하여 클러스터 메타데이터를 가져옵니다.

  • Amazon OpenSearch 서비스 도메인이 퍼블릭 또는 Amazon VPC 기반인지 확인하고 의 AWS CloudFormation 도움을 받아 퍼블릭 또는 Amazon AWS Lambda VPC 기반 함수를 생성합니다.

  • Lambda 함수는 Amazon 서비스 도메인에서 진단 데이터를 가져옵니다. OpenSearch

  • AWS Step Functions 상태 머신을 사용하여 여러 Lambda 함수 실행을 오케스트레이션하여 보다 포괄적인 데이터를 수집합니다.

  • 수집된 데이터를 Amazon CloudWatch 로그 그룹에 기본적으로 24시간 동안 저장합니다.

  • CloudWatch 로그 그룹을 제외하고 생성된 리소스를 삭제합니다.

필수 IAM 권한

실행서를 성공적으로 사용하려면 AutomationAssumeRole 파라미터에 다음 작업이 필요합니다.

  • cloudformation:CreateStack

  • cloudformation:CreateStack

  • cloudformation:DescribeStacks

  • cloudformation:DescribeStackEvents

  • cloudformation:DeleteStack

  • lambda:CreateFunction

  • lambda:DeleteFunction

  • lambda:InvokeFunction

  • lambda:GetFunction

  • lambda:TagResource

  • es:DescribeDomain

  • ec2:DescribeSecurityGroups

  • ec2:DescribeSubnets

  • ec2:DescribeVpcs

  • ec2:DescribeNetworkInterfaces

  • ec2:CreateNetworkInterface

  • ec2:DescribeInstances

  • ec2:AttachNetworkInterface

  • ec2:DeleteNetworkInterface

  • logs:CreateLogGroup

  • logs:PutRetentionPolicy

  • logs:TagResource

  • states:CreateStateMachine

  • states:DeleteStateMachine

  • states:StartExecution

  • states:TagResource

  • states:DescribeStateMachine

  • states:DescribeExecution

  • iam:PassRole

  • iam:CreateRole

  • iam:DeleteRole

  • iam:GetRole

  • iam:PutRolePolicy

  • iam:DeleteRolePolicy

  • ssm:DescribeAutomationExecutions

  • ssm:GetAutomationExecution

런북을 성공적으로 사용하려면 LambdaExecutionRole 파라미터에 다음 작업이 필요합니다.

  • es:ESHttpGet

  • ec2:CreateNetworkInterface

  • ec2:DescribeNetworkInterfaces

  • ec2:DeleteNetworkInterface

  • logs:CreateLogStream

  • logs:PutLogEvents

Lambda 실행 역할은 이 런북에 필요한 서비스 및 리소스에 AWS 액세스할 수 있는 권한을 함수에 부여합니다. 자세한 내용을 알아보려면 Lambda 실행 역할을 참조하세요.

참고

ec2:DescribeNetworkInterfaces,ec2:CreateNetworkInterface, 및 ec2:DeleteNetworkInterface 는 Lambda 함수가 Amazon VPC 네트워크 인터페이스를 생성하고 관리할 수 있도록 하는 Amazon VPC 기반 OpenSearch 서비스 클러스터인 경우에만 필요합니다. 자세한 내용은 Amazon VPC의 리소스에 아웃바운드 네트워킹 연결Lambda 실행 역할을 참조하십시오.

지침

다음 단계에 따라 자동화를 구성합니다.

  1. 콘솔에서 AWSSupport- TroubleshootOpenSearchHigh CPU로 이동합니다. AWS Systems Manager

  2. Execute automation(자동화 실행)을 선택합니다.

  3. 입력 파라미터의 경우, 다음 내용을 입력합니다.

    • AutomationAssumeRole (선택 사항):

      Systems Manager Automation이 사용자를 대신하여 작업을 수행할 수 있도록 하는 AWS Identity and Access Management (IAM) 역할의 Amazon 리소스 이름 (ARN). 역할을 지정하지 않은 경우, Systems Manager Automation에서는 이 실행서를 시작하는 사용자의 권한을 사용합니다.

    • DomainName (필수):

      높은 CPU 문제로 문제를 해결하려는 Amazon OpenSearch 서비스 도메인의 이름.

    • LambdaExecutionRoleForOpenSearch (필수):

      Lambda 함수에 연결할 IAM 역할의 ARN입니다. Lambda 함수는 이 역할의 자격 증명을 사용하여 Amazon OpenSearch 서비스 도메인에 대한 요청에 서명합니다. Amazon OpenSearch Service 도메인에서 세분화된 액세스 제어가 활성화된 경우, 최소 “cluster_monitor” 권한을 가진 OpenSearch 서비스 대시보드 백엔드 역할에 이 역할을 매핑해야 합니다.

    • DataRetentionDays (선택 사항):

      Amazon OpenSearch 서비스 도메인에서 수집한 진단 데이터를 보관하는 기간 (일). 기본적으로 데이터는 24시간 (1일) 동안 보관됩니다. 데이터를 최대 30일 동안 보존하도록 선택할 수 있습니다.

    • NumberOfDataSamples (선택 사항):

      Amazon OpenSearch 서비스 도메인에서 수집할 데이터 샘플 수. 기본적으로 5개의 데이터 샘플이 수집됩니다. 최대 10개의 샘플을 수집할 수 있으며 각 샘플 수집에 대해 Lambda 함수가 호출됩니다.

  4. OpenSearch 서비스 클러스터에서 세분화된 액세스 제어를 활성화한 경우, LambdaExecutionRole 역할 arn이 최소한 권한이 있는 역할에 매핑되었는지 확인하십시오. cluster_monitor

  5. 실행을 선택합니다.

  6. 자동화가 시작됩니다.

  7. 자동화 실행서는 다음 단계를 수행합니다.

    • 체크동시성:

      지정된 Amazon OpenSearch Service 도메인을 대상으로 하는 이 런북이 한 번만 실행되도록 합니다. 런북에서 동일한 도메인 이름을 대상으로 하는 다른 실행을 발견하면 오류가 반환되고 종료됩니다.

    • getDomainConfig:

      대상 OpenSearch 서비스 도메인의 구성 세부 정보를 가져옵니다.

    • 프로비저닝 리소스:

      를 사용하여 데이터를 수집할 수 있는 리소스를 제공합니다. AWS CloudFormation

    • waitForStack생성:

      AWS CloudFormation 스택이 완료될 때까지 기다립니다.

    • describeStackResources:

      AWS CloudFormation 스택을 설명하고 상태 머신의 ARN을 가져옵니다.

    • runStateMachine:

      Step Functions 상태 머신을 실행하여 데이터 수집기 Lambda 함수를 한 번 이상 호출합니다.

    • describeErrorsFromStackEvents:

      AWS CloudFormation 스택의 오류에 대한 설명을 제공합니다.

    • unstageOpenSearch높은 CPU 자동화:

      스택을 삭제합니다. AWSSupport-TroubleshootOpenSearchHighCPU AWS CloudFormation

    • describeErrorsFromStackDeletion:

      스택을 삭제하는 동안 발생한 오류에 AWS CloudFormation 대해 설명합니다.

    • 최종 상태:

      런북의 AWSSupport-TroubleshootOpenSearchHighCPU 최종 출력을 반환합니다.

  8. 완료 후에는 Outputs 섹션에서 실행의 세부 결과를 검토합니다.

    • 최종 상태. FinalOutput:

      진단 데이터가 저장되는 CloudWatch 로그 그룹을 제공합니다.

참조

Systems Manager Automation

AWS 서비스 설명서