자산 액세스 또는 공유 (사용 설명서) - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

자산 액세스 또는 공유 (사용 설명서)

SageMaker 자산을 사용하여 조직 내 다른 개인과 기계 학습 프로젝트에서 원활하게 협업할 수 있습니다. SageMaker Assets를 사용하면 공동 작업자와 함께 모델 및 데이터 테이블을 만들고 서로 공유할 수 있습니다. SageMaker 에셋 내에서 이러한 모델 및 데이터 테이블을 에셋이라고 합니다.

SageMaker 자산은 Amazon SageMaker 스튜디오의 기능입니다. 귀하 또는 관리자가 Amazon DataZone 프로젝트 내에 Studio 환경을 생성합니다. Amazon 설정에 대한 자세한 내용은 DataZone 을 참조하십시오 SageMaker 에셋 설정 (관리자 가이드).

자산은 ML 자산 또는 데이터 자산입니다. ML 자산은 다음을 가리키는 메타데이터입니다.

  • 피처 스토어 기능 그룹

  • SageMaker 모델 그룹

기본 모델 그룹과 기능 그룹이 데이터 소스입니다. 기능 그룹 또는 모델 그룹을 업데이트하면 해당 모델 그룹 또는 기능 그룹의 자산이 하루 내에 업데이트됩니다.

데이터 자산은 다음을 가리키는 메타데이터입니다.

  • Amazon Redshift 테이블

  • AWS Glue 테이블

데이터 자산의 경우 데이터 소스는 AWS Glue 테이블 및 Amazon Redshift 테이블에서 자산으로 메타데이터를 가져오는 메커니즘입니다. 예를 들어, 데이터 소스는 테이블의 메타데이터를 해당 AWS Glue 테이블의 자산으로 가져옵니다.

자산을 게시하여 조직의 모든 사람이 자산을 볼 수 있도록 할 수 있습니다. 개인은 자산의 메타데이터를 검토하고 액세스를 요청할 수 있습니다. 액세스 권한을 제공하면 해당 사용자는 데이터 또는 테이블의 기본 기계 학습 소스에 액세스할 수 있습니다.

관리자가 기능 그룹, 모델 그룹, 테이블에 대한 액세스 권한을 부여했을 수 있습니다. 아직 설정하지 않은 경우 시작하는 SageMaker 에셋 설정 (관리자 가이드) 데 도움이 되는 정보를 참조하십시오.

다음 섹션에서는 기능 그룹 및 모델 그룹에 대한 참조 정보를 제공합니다.

Amazon SageMaker Feature Store는 기능을 저장하고 관리하는 데 도움이 되는 중앙 위치를 제공합니다. 기능 엔지니어링에 사용할 수 있는 고성능 리포지토리입니다.

Feature Store 내에서 기능은 기능 그룹에 저장됩니다. 기능 그룹은 작업 중인 프로젝트와 관련된 기능의 컬렉션입니다. 예를 들어 주택 가격 예측과 관련된 프로젝트를 진행 중인 경우 위치 또는 침실 수와 같은 기능이 기능 그룹에 포함될 수 있습니다.

기능 그룹을 사용하여 기능 엔지니어링 프로세스를 간소화하는 방법에 대한 자세한 내용은 을 참조하십시오. Amazon SageMaker 피처 스토어를 사용하여 기능을 생성, 저장 및 공유하십시오.

모델 레지스트리 내의 SageMaker SageMaker 모델 그룹을 사용하여 다양한 버전의 모델을 구성하고 관리할 수 있습니다. 다양한 버전의 모델을 비교하여 사용 사례에 가장 적합한 모델을 확인할 수 있습니다. SageMaker 모델 레지스트리에 대한 자세한 내용은 을 참조하십시오모델 레지스트리에 모델 등록 및 배포.

다음은 Amazon Redshift와 관련된 배경 정보입니다. AWS Glue

Amazon Redshift는 대규모 데이터 세트에 대해 빠른 쿼리 성능을 제공하는 대규모 데이터 웨어하우징 서비스입니다. Amazon Redshift에 대한 자세한 내용은 Amazon Redshift 서버리스를 참조하십시오.

AWS Glue 데이터 준비 프로세스를 단순화하는 데 사용할 수 있는 ETL (추출, 변환, 로드) 서비스입니다. 에 대한 자세한 내용은 AWS GlueAWS Glue무엇입니까를 참조하십시오.

SQL 편집기를 사용하여 Amazon Redshift 데이터베이스를 AWS Glue 연결하고 쿼리를 실행할 수 있습니다. 에디터에서 생성한 모든 테이블을 SageMaker Assets 내에서 공유할 수 있습니다. 자세한 정보는 Studio에서 SQL을 사용하여 데이터를 준비하세요을 참조하세요.

용어 및 개념

SageMaker 에셋 사용을 시작하기 전에 다음 용어와 개념을 숙지하는 것이 좋습니다.

  • 에셋 — 공유 중인 모델 또는 데이터 테이블을 가리키는 메타데이터입니다. 다른 사람이 소유한 자산에 대한 액세스를 요청하거나 다른 사람과 자산을 공유할 수 있습니다. 팀원과 함께 해당 자산과 해당 자산과 관련된 기본 데이터 테이블 또는 모델에 액세스할 수 있습니다.

  • 구독한 자산 — 자산에 대한 액세스를 요청하려면 구독 요청을 제출해야 합니다. 요청이 승인되면 구독한 자산 아래에 자산이 표시됩니다.

  • 소유 자산 — 팀원들과 공유한 자산입니다.

  • 자산 카탈로그 — 조직 전체에서 공유한 자산입니다.

1단계: SageMaker 에셋 액세스

자산에 액세스하여 SageMaker 자산을 보고 다른 사람과 공유할 수 있습니다. 다음 정보를 참조하면 사용을 시작하는 데 도움이 됩니다.

Amazon DataZone 도메인 내 프로젝트에서 SageMaker 에셋에 액세스합니다. 프로젝트는 여러분과 팀원 간의 협업입니다. 프로젝트 내에서 귀하와 프로젝트의 다른 구성원은 귀하와 다른 팀 구성원이 인벤토리 카탈로그에서 생성한 에셋에 액세스할 수 있습니다. 자산을 게시된 카탈로그에 게시하여 조직의 다른 사람들이 볼 수 있도록 할 수 있습니다.

해당 개인은 자산에 대한 액세스를 요청할 수 있습니다. 액세스 권한을 제공하면 해당 사용자는 업데이트된 데이터 소스에 액세스할 수 있습니다. 예를 들어 업데이트한 AWS Glue 테이블을 개인이 구독하면 업데이트된 AWS Glue 테이블에 실시간으로 액세스할 수 있습니다.

다음 절차를 사용하여 SageMaker 에셋에 액세스하십시오.

SageMaker 에셋에 액세스하려면
  1. Amazon DataZone 콘솔을 엽니다.

  2. 도메인 보기를 선택합니다.

  3. 프로젝트가 포함된 도메인 옆의 Open data portal을 선택합니다.

  4. 분석 도구에서 SageMaker Studio를 선택합니다.

  5. 아마존 열기를 선택합니다 SageMaker.

  6. 자산을 선택합니다.

공유된 자산은 구독 자산 아래에 있습니다. 사용자와 프로젝트 멤버가 만든 에셋은 Owned Assets 아래에 있습니다. 사용자 및 조직의 다른 구성원이 게시한 에셋은 에셋 카탈로그에 있습니다.

2단계: 자산 공유 및 자산에 대한 액세스 관리

기계 학습 모델, 기능 그룹 또는 데이터 테이블을 만든 후에는 프로젝트에서 함께 작업하는 개인이나 조직이 더 광범위하게 볼 수 있도록 할 수 있습니다. 자산에 대한 액세스 요청에 응답할 수 있습니다. 개인의 요청을 승인하면 해당 개인이 자산의 기본 데이터 소스를 수정할 수 있습니다.

자산을 공유하는 경우 다음과 같은 두 가지 옵션이 있습니다.

  • 자산 카탈로그에 게시 — 조직의 모든 사람이 자산을 볼 수 있도록 합니다.

  • 인벤토리에 게시 — 프로젝트에 참여하는 모든 사람이 자산을 볼 수 있도록 하세요.

자산을 자산 카탈로그에 게시한 경우 조직의 각 구성원이 자산 카탈로그에서 해당 자산을 찾을 수 있습니다. 사용자는 자산의 메타데이터를 보고 해당 자산에 대한 액세스를 요청할지 여부를 결정할 수 있습니다. 요청을 승인하면 기본 데이터 소스에 액세스할 수 있습니다.

인벤토리에 게시하면 프로젝트의 다른 구성원을 비롯한 모든 구성원이 추가 작업 없이 에셋에 액세스할 수 있습니다.

인벤토리에 게시된 자산은 소유 자산에만 표시됩니다. 카탈로그에 게시된 자산은 소유 자산 및 자산 카탈로그에 표시됩니다.

데이터 테이블을 게시할 때는 기본 테이블 또는 Amazon Redshift AWS Glue 테이블의 메타데이터를 자산으로 가져오는 데이터 소스를 만들어야 합니다. 다음 절차를 사용하여 Amazon Redshift 테이블을 AWS Glue 게시하십시오.

Publish an AWS Glue table

AWS Glue 테이블의 자산을 게시하려면 해당 자산의 데이터 소스를 생성하여 게시해야 합니다. 데이터 원본은 AWS Glue 테이블의 메타데이터를 자산으로 가져오는 메커니즘입니다.

AWS Glue 테이블을 게시하려면 다음 절차를 따르십시오.

AWS Glue 테이블을 게시하려면
  1. SageMaker Assets 랜딩 페이지로 이동합니다.

  2. 소유 자산을 선택합니다.

  3. 데이터 소스 보기를 선택합니다.

  4. 데이터 소스 생성을 선택합니다.

  5. 이름에 데이터 원본의 이름을 지정합니다.

  6. 설명에는 설명을 입력합니다.

  7. 유형에서 선택합니다 AWS Glue.

  8. 데이터 선택에서 AWS Glue 테이블이 포함된 데이터베이스를 선택합니다.

  9. 테이블 선택 기준에 테이블 이름을 지정합니다.

    참고

    테이블을 두 개 이상 지정할 수 있지만 테이블 이름은 하나만 제공하는 것이 좋습니다.

  10. 다음을 선택합니다.

    • 자산을 카탈로그에 게시하려면 [] 를 선택하여 자산 카탈로그에 게시합니다.

    • 자산을 카탈로그에 게시하려면 아니오를 선택하여 자산 카탈로그에 게시합니다.

  11. 다음을 선택합니다.

  12. 자산 세부 정보에서 일정에 따라 실행 또는 요청 시 실행을 선택하여 AWS Glue 테이블의 메타데이터를 자산으로 가져오는 방법을 결정합니다.

  13. (선택 사항) 일정에 따라 실행을 선택하는 경우 메타데이터를 자산으로 가져오는 일정을 지정하십시오.

  14. [Next]를 선택합니다.

  15. Create를 선택합니다.

  16. (선택 사항) 일정을 만들지 않은 경우 [Run] 을 선택하여 AWS Glue 테이블의 메타데이터를 에셋으로 가져옵니다.

Publish an Amazon Redshift table

Amazon Redshift 테이블의 자산을 게시하려면 해당 자산에 대한 데이터 소스를 생성하여 게시해야 합니다. 데이터 소스는 Amazon Redshift 테이블에서 자산으로 메타데이터를 가져오는 메커니즘입니다.

Amazon Redshift 테이블을 게시하려면 다음 절차를 사용하십시오.

Amazon Redshift 테이블을 게시하려면
  1. SageMaker 자산 랜딩 페이지로 이동합니다.

  2. 소유 자산을 선택합니다.

  3. 데이터 소스 보기를 선택합니다.

  4. 데이터 소스 생성을 선택합니다.

  5. 이름에 데이터 원본의 이름을 지정합니다.

  6. 설명에는 설명을 입력합니다.

  7. 유형에서 Amazon Redshift를 선택합니다.

    • Redshift 클러스터를 선택합니다.

      1. Redshift 클러스터의 경우 테이블의 데이터베이스를 포함하는 Amazon Redshift 클러스터의 이름을 지정합니다.

      2. Secret의 경우 클러스터의 자격 증명이 포함된 AWS Secrets Manager 암호의 이름을 지정합니다.

    • Redshift 서버리스를 선택합니다.

      1. Redshift 워크그룹의 경우 테이블의 데이터베이스를 포함하는 Amazon Redshift 워크그룹의 이름을 지정합니다.

      2. Secret의 경우 워크그룹의 자격 증명이 포함된 AWS Secrets Manager 암호의 이름을 지정합니다.

  8. 게시 소스 선택에서 Amazon Redshift 테이블이 포함된 데이터베이스를 선택합니다.

  9. 테이블 선택 기준에 테이블 이름을 지정합니다.

    참고

    테이블을 두 개 이상 지정할 수 있지만 테이블 이름은 하나만 제공하는 것이 좋습니다.

  10. 다음을 선택합니다.

    • 자산을 카탈로그에 게시하려면 [] 를 선택하여 자산 카탈로그에 게시합니다.

    • 자산을 카탈로그에 게시하려면 아니오를 선택하여 자산 카탈로그에 게시합니다.

  11. 다음을 선택합니다.

  12. 자산 세부 정보에서 일정에 따라 실행 또는 요청 시 실행을 선택하여 Amazon Redshift 테이블의 메타데이터를 자산으로 가져오는 방법을 결정합니다.

  13. (선택 사항) 일정에 따라 실행을 선택하는 경우 메타데이터를 자산으로 가져오는 일정을 지정하십시오.

  14. [Next]를 선택합니다.

  15. Create를 선택합니다.

  16. (선택 사항) 일정을 생성하지 않은 경우 [Run] 을 선택하여 Amazon Redshift 테이블의 메타데이터를 자산으로 가져옵니다.

다음 절차를 사용하여 기능 그룹 또는 모델 패키지 그룹의 자산을 게시하십시오.

Publish a feature group

다음 절차를 사용하여 생성한 기능 그룹으로 이동하여 소유한 자산 또는 자산 카탈로그에 게시할 수 있습니다.

소유한 자산 또는 자산 카탈로그에 기능 그룹을 게시하려면
  1. Studio 내에서 왼쪽 탐색에서 데이터를 선택합니다.

  2. 게시하려는 기능 그룹을 선택합니다.

  3. Three dots next to the feature group. 아이콘을 선택합니다.

    • 자산 카탈로그에 게시하려면 자산 카탈로그에 게시를 선택합니다.

    • 그룹의 소유 자산에 게시하려면 인벤토리에 게시를 선택합니다.

Publish a model group

다음 절차를 사용하여 생성한 모델 그룹으로 이동하여 소유 자산 또는 자산 카탈로그에 게시하십시오.

소유 자산 또는 자산 카탈로그에 모델 그룹을 게시하려면
  1. Studio 내 왼쪽 탐색창에서 모델을 선택합니다.

  2. 게시하려는 모델 그룹을 선택합니다.

  3. Three dots next to the model group. 아이콘을 선택합니다.

    • 자산 카탈로그에 게시하려면 자산 카탈로그에 게시를 선택합니다.

    • 그룹의 소유 자산에 게시하려면 인벤토리에 게시를 선택합니다.

다음 절차에 따라 소유 자산의 자산을 자산 카탈로그에 게시하십시오.

자산 페이지에서 SageMaker 자산을 게시하려면
  1. Studio 내에서 에셋으로 이동합니다.

  2. 소유 자산을 선택합니다.

  3. 검색 창에 자산 이름을 지정합니다.

  4. 자산을 선택합니다.

  5. 게시를 선택합니다.

다음 SageMaker Python SDK 코드를 사용하여 기능 그룹 또는 모델 패키지 그룹을 게시할 수 있습니다. 코드는 기능 그룹 또는 모델 패키지 그룹을 이미 생성했다고 가정합니다.

from sagemaker.asset import AssetManager publisher = AssetPublisher() publisher.publish_to_catalog(name-of-your-feature-group-or-model-package)

3단계: 액세스 요청 관리

에셋을 게시한 후에는 프로젝트 외부의 사용자가 에셋에 액세스하고 싶어할 수 있습니다. 액세스 요청을 제공, 거부 또는 취소할 수 있습니다. 자산을 삭제하여 기본 데이터 소스를 자신만 사용할 수 있도록 할 수도 있습니다.

다음 절차를 사용하여 구독 요청에 응답하십시오.

구독 요청을 승인하려면
  1. SageMaker 자산 페이지로 이동합니다.

  2. 자산 자산 관리를 선택합니다.

  3. 수신 구독 요청을 선택합니다.

    • (선택 사항) 승인을 선택하고 이유를 입력합니다.

    • (선택 사항) 거부를 선택합니다.

이전에 승인한 자산에 대한 액세스 권한을 취소할 수 있습니다. 액세스 권한을 취소하면 사용자는 자산과 기본 자산 모두에 대한 액세스 권한을 잃게 됩니다. 출처. 다음 절차를 사용하여 액세스를 취소하십시오.

액세스 취소하기
  1. SageMaker 자산 페이지로 이동합니다.

  2. 자산 자산 관리를 선택합니다.

  3. 수신 구독 요청을 선택합니다.

  4. 승인됨 탭을 선택합니다.

  5. 자산 옆의 취소를 선택합니다.

자산을 게시 취소하여 소유한 자산으로만 표시되도록 할 수도 있습니다. 자산은 리소스 카탈로그에 표시되지 않지만 구독 요청을 승인한 개인은 여전히 액세스할 수 있습니다.

자산 게시 취소하기
  1. SageMaker 에셋 페이지로 이동합니다.

  2. 소유 자산에서 게시를 취소하려는 자산을 선택합니다.

  3. 게시 취소를 선택합니다.

게시를 취소한 동일한 페이지에서 자산을 삭제할 수도 있습니다. 자산을 삭제해도 데이터 원본은 삭제되지 않습니다. 에셋을 삭제하면 프로젝트 또는 조직의 다른 구성원은 해당 에셋을 볼 수 없게 됩니다.

4단계: 에셋 찾기 및 액세스 요청

다른 사용자가 리소스 카탈로그에 게시한 자산에 대한 액세스를 요청할 수 있습니다. 사용자가 구독 요청을 승인하면 기본 데이터 소스에 액세스할 수 있습니다.

SageMaker 자산 페이지 상단에서 조직의 다른 사용자가 게시한 자산을 찾기 위한 검색 쿼리를 지정할 수 있습니다. 자산 유형을 선택하여 해당 유형의 게시된 모든 자산을 볼 수도 있습니다. 예를 들어 Glue Table을 선택하여 게시된 AWS Glue 테이블을 모두 볼 수 있습니다.

에셋 이름 바로 아래에서 에셋 유형을 볼 수도 있습니다. 자산 유형에 사용할 수 있는 이름은 다음과 같습니다.

  • Redshift 테이블

  • Glue 테이블

  • 모델

  • 특성 그룹

참고

다음 스토어의 기능 그룹 유형은 Glue 테이블입니다.

  • 오프라인

  • 오프라인 및 온라인

구독을 요청하려면
  1. SageMaker 에셋 페이지로 이동합니다.

    • 검색 창에서 에셋 이름을 지정하고 검색을 선택합니다.

    • 유형에서 자산 유형을 선택하고 리소스 카탈로그에서 액세스 중인 자산을 찾습니다.

  2. 자산을 선택합니다.

  3. 구독을 선택합니다.

  4. 요청 사유를 입력하세요.

  5. 제출을 선택합니다.

구독 요청은 자산 요청 관리의 발신 구독 요청에 표시됩니다. 자산 게시자가 요청을 승인하면 해당 요청이 구독된 자산 아래에 표시됩니다. 이제 기계 학습 워크플로에서 Amazon Redshift, AWS Glue 테이블 또는 ML 데이터 소스를 사용할 수 있습니다.

5단계: 기계 학습 워크플로에서 공유 자산 사용

자산에 대한 구독 요청이 승인되면 기계 학습 워크플로에서 이를 사용할 수 있습니다.

액세스 권한이 부여된 기능 그룹은 Studio의 기능 그룹 목록에 표시됩니다.

액세스 권한이 부여된 모델 그룹은 Studio의 모델 그룹 목록에 표시됩니다. SageMaker Assets의 모델 레지스트리에서 모델 그룹을 열 수 있습니다. 모델 레지스트리 내에서 모델 그룹을 열려면 다음 절차를 따르십시오. 구독된 자산.

Assets에서 SageMaker 모델 그룹을 열려면
  1. 모델 그룹을 선택합니다.

  2. 모델 레지스트리에서 열기를 선택합니다.

캔버스 내의 데이터 랭글러에서 Amazon Redshift 테이블에 액세스할 AWS Glue 수 있습니다. SageMaker SageMaker Canvas는 탐색적 데이터 분석 (EDA) 을 수행하고 코드 없이 모델을 학습시킬 수 있는 애플리케이션입니다. SageMaker Canvas에 대한 자세한 내용은 을 참조하십시오아마존 SageMaker 캔버스.

SQL 확장을 사용하여 사용자 AWS Glue 또는 Amazon Redshift 테이블의 데이터를 Jupyter 노트북으로 가져올 수도 있습니다. 기계 학습 워크플로를 위해 데이터를 Pandas 데이터 프레임으로 변환할 수 있습니다. 자세한 정보는 Studio에서 SQL을 사용하여 데이터를 준비하세요을 참조하세요.