Amazon S3로 내보내기 파이프라인으로 내보내기 SageMaker 추론 엔드포인트로 내보내기 Python 코드로 내보내기 아마존 SageMaker 피처 스토어로 내보내기 변환을 전체 데이터 세트로 재구성하고 내보내기 새 데이터를 자동으로 처리하는 일정을 생성합니다.

내보내기

Data Wrangler 흐름에서 데이터 처리 파이프라인에 대해 수행한 변환 중 일부 또는 전부를 내보낼 수 있습니다.

Data Wrangler 흐름은 데이터에 대해 수행한 일련의 데이터 준비 단계입니다. 데이터 준비 과정에서 데이터에 대한 변환을 한 번 이상 수행합니다. 각 변환은 변환 단계를 사용하여 이루어집니다. 흐름에는 데이터 가져오기와 자신이 수행한 변환을 나타내는 일련의 노드가 있습니다. 노드 예는 다음 이미지를 참조하세요.

앞서 나온 이미지는 두 개의 노드가 있는 Data Wrangler 흐름을 보여줍니다. Source - sampled 노드는 데이터를 가져온 데이터 소스를 보여줍니다. Data types 노드는 Data Wrangler가 데이터 세트를 사용 가능한 형식으로 바꾸도록 변환했음을 나타냅니다.

Data Wrangler 흐름에 추가하는 각 변환은 추가 노드로 나타납니다. 추가할 수 있는 변환에 대한 자세한 내용은 데이터 변환하기 단원을 참조하세요. 다음 이미지는 데이터 세트의 열 이름을 변경하기 위해 Rename-column 노드가 있는 Data Wrangler 흐름을 보여줍니다.

데이터 변환을 다음으로 내보낼 수 있습니다.

Amazon S3
SageMaker 파이프라인
아마존 SageMaker 피처 스토어
Python 코드

중요

IAMAmazonSageMakerFullAccess관리형 정책을 사용하여 데이터 랭글러 사용 AWS 권한을 부여하는 것이 좋습니다. 관리형 정책을 사용하지 않는 경우 데이터 랭글러에게 Amazon S3 버킷에 대한 액세스 권한을 부여하는 IAM 정책을 사용할 수 있습니다. 정책에 대한 자세한 정보는 보안 및 권한 단원을 참조하세요.

데이터 흐름을 내보내는 경우 사용한 AWS 리소스에 대한 요금이 부과됩니다. 비용 할당 태그를 사용하여 해당 리소스의 비용을 구성하고 관리할 수 있습니다. 사용자 프로필용으로 이러한 태그를 만들면 Data Wrangler가 데이터 흐름을 내보내는 데 사용되는 리소스에 해당 태그를 자동으로 적용합니다. 자세한 내용은 비용 할당 태그 사용하기를 참조하세요.

Amazon S3로 내보내기

Data Wrangler를 사용하면 Amazon S3 버킷 내 위치로 데이터를 내보낼 수 있습니다. 다음 방법 중 하나를 사용하여 위치를 지정할 수 있습니다.

대상 노드 – Data Wrangler가 데이터를 처리한 후 저장하는 위치입니다.
내보낼 위치 – Amazon S3로 변환한 결과 데이터를 내보냅니다.
데이터 내보내기 – 작은 데이터 세트의 경우 변환한 데이터를 빠르게 내보낼 수 있습니다.

다음 단원을 통해 이런 각각의 옵션에 대해 자세히 알아보세요.

Destination Node

Amazon S3에 대해 수행한 일련의 데이터 처리 단계를 출력하려면 대상 노드를 생성합니다. 대상 노드는 데이터를 처리한 후 Data Wrangler에 데이터를 저장할 위치를 알려줍니다. 대상 노드를 생성한 후 데이터를 출력하는 처리 작업을 생성합니다. 처리 작업은 Amazon SageMaker 처리 작업입니다. 대상 노드를 사용 중인 경우 Amazon S3로 변환한 데이터를 출력하는 데 필요한 계산 리소스가 실행됩니다.

대상 노드를 사용하여 Data Wrangler 흐름에서 수행한 일부 변환 또는 모든 변환을 내보낼 수 있습니다.

여러 대상 노드를 사용하여 다양한 변환 또는 변환 세트를 내보낼 수 있습니다. 다음 예에서는 단일 Data Wrangler 흐름의 두 대상 노드를 보여줍니다.

데이터 랭글러 콘솔에 있는 두 개의 대상 노드를 보여주는 예제 데이터 흐름.

다음 절차에 따라 대상 노드를 생성하고 Amazon S3 버킷으로 내보낼 수 있습니다.

데이터 흐름을 내보내려면 대상 노드와 데이터를 내보내는 Data Wrangler 작업을 생성합니다. 데이터 랭글러 작업을 생성하면 흐름을 내보내기 위한 SageMaker 처리 작업이 시작됩니다. 대상 노드를 생성한 후 내보내려는 대상 노드를 선택할 수 있습니다.

참고

Data Wrangler 흐름에서 작업 생성을 선택하여 처리 작업 사용 지침을 볼 수 있습니다.

대상 노드를 만들려면 다음 절차에 따르세요.

내보내려는 변환을 나타내는 노드 옆의 +를 선택합니다.
대상 추가를 선택합니다.
Amazon S3를 선택합니다.
다음 필드를 지정합니다.
- 데이터 세트 이름 – 내보내는 데이터 세트에 대해 지정하는 이름입니다.
- 파일 유형 – 내보내는 파일의 형식입니다.
- 구분자 (CSV및 Parquet 파일만 해당) — 다른 값을 구분하는 데 사용되는 값입니다.
- 압축 (CSV및 Parquet 파일만 해당) - 파일 크기를 줄이는 데 사용되는 압축 방법입니다. 다음 압축 방법을 사용할 수 있습니다.
  - bzip2
  - deflate
  - gzip
- (선택 사항) Amazon S3 위치 – 파일을 출력하는 데 사용하는 S3 위치입니다.
- (선택 사항) 파티션 수 – 처리 작업의 출력으로 작성 중인 데이터 세트의 수입니다.
- (선택 사항) 열 기준 분할 – 열에서 동일한 고유 값을 사용하여 모든 데이터를 씁니다.
- (선택 사항) 추론 파라미터 – 추론 아티팩트 생성을 선택하면 Data Wrangler 흐름에서 사용한 모든 변환이 추론 파이프라인으로 들어오는 데이터에 적용됩니다. 파이프라인의 모델은 변환된 데이터에 대한 예측을 수행합니다.
대상 추가를 선택합니다.

다음 절차를 사용하여 처리 작업을 생성합니다.

데이터 흐름 페이지에서 작업을 만들고 내보내려는 대상 노드를 선택합니다.

참고

Data Wrangler 흐름에서 작업 생성을 선택하여 처리 작업 생성 지침을 볼 수 있습니다.

작업 생성을 선택합니다. 다음 이미지는 작업 생성을 선택한 후 나타나는 창을 보여줍니다.
작업 이름에는 내보내기 작업의 이름을 지정합니다.
내보내려는 대상 노드를 선택합니다.
(선택 사항) 키를 지정합니다. AWS KMS ARN AWS KMS 키는 데이터를 보호하는 데 사용할 수 있는 암호화 키입니다. AWS KMS 키에 대한 자세한 내용은 을 참조하십시오 AWS Key Management Service.
(선택 사항) 훈련된 파라미터에서 다음을 수행했다면 재구성을 선택하세요.
- 샘플링된 데이터 세트
- 데이터를 사용하여 데이터 세트에 새 열을 만드는 변환을 적용했습니다.
전체 데이터 세트에 대해 수행한 변환을 재구성하는 방법에 대한 자세한 내용은 변환을 전체 데이터 세트로 재구성하고 내보내기 단원을 참조하세요.

참고
이미지 데이터의 경우 Data Wrangler는 사용자가 수행한 변환을 모든 이미지에 내보냅니다. 자신의 사용 사례에 변환 재구성을 적용할 수는 없습니다.
작업 구성을 선택합니다. 다음 이미지는 작업 구성 페이지를 보여줍니다.
(선택 사항) Data Wrangler 작업을 구성합니다. 다음과 같이 구성할 수 있습니다.
- 작업 구성
- Spark 메모리 구성
- 네트워크 구성
- 태그
- Parameters
- 일정 연결
Run(실행)을 선택합니다.

Export to

대상 노드를 사용하는 대신, 내보낼 위치 옵션으로 Jupyter notebook을 사용하여 Data Wrangler 흐름을 Amazon S3로 내보낼 수 있습니다. Data Wrangler 흐름에서 원하는 데이터 노드를 선택하여 내보낼 수 있습니다. 데이터 노드를 내보내면 노드가 나타내는 변환과 그 이전의 변환이 내보내집니다.

다음 절차에 따라 Jupyter notebook을 생성하고 실행하여 Data Wrangler 흐름을 Amazon S3로 내보냅니다.

내보내고자 하는 노드 옆에 있는 +를 선택합니다.
내보낼 위치를 선택합니다.
(Jupyter notebook을 통해) Amazon S3를 선택합니다.
Jupyter notebook을 실행합니다.

노트북을 실행하면 데이터 랭글러 흐름과 AWS 리전 동일하게 데이터 흐름 (.flow 파일) 을 내보냅니다.

노트북은 처리 작업과 처리 작업에서 출력하는 데이터를 구성하는 데 사용할 수 있는 옵션을 제공합니다.

중요

데이터 출력을 구성하기 위한 작업 구성을 제공합니다. 파티셔닝 및 드라이버 메모리 옵션의 경우 이미 알고 있는 경우가 아니면 구성을 지정하지 않는 것이 좋습니다.

작업 구성에서 다음을 구성할 수 있습니다.

output_content_type – 출력 파일의 콘텐츠 유형. 기본 형식으로 CSV를 사용하지만 Parquet를 지정할 수 있습니다.
delimiter— 파일에 쓸 때 데이터셋의 값을 구분하는 데 사용되는 문자입니다. CSV
compression – 설정된 경우 출력 파일을 압축합니다. gzip을 기본 압축 형식으로 사용합니다.
num_partitions – Data Wrangler가 출력으로 쓰는 파티션 또는 파일 수.
partition_by – 출력을 분할하는 데 사용하는 열의 이름.

출력 파일 형식을 Parquet에서 CSV Parquet으로 변경하려면 값을 에서 로 "CSV" 변경합니다. "Parquet" 나머지 선행 필드의 경우 지정하려는 필드가 포함된 줄의 주석 처리를 제거합니다.

(선택 사항) Spark 클러스터 드라이버 메모리 구성에서 config 사전의 Spark 드라이버 메모리와 같은 작업에 대한 Spark 속성을 구성할 수 있습니다.

다음은 config 사전을 보여줍니다.



config = json.dumps({
    "Classification": "spark-defaults",
    "Properties": {
        "spark.driver.memory": f"{driver_memory_in_mb}m",
    }
})

구성을 처리 작업에 적용하려면 다음 줄의 주석 처리를 제거하세요.



# data_sources.append(ProcessingInput(
#     source=config_s3_uri,
#     destination="/opt/ml/processing/input/conf",
#     input_name="spark-config",
#     s3_data_type="S3Prefix",
#     s3_input_mode="File",
#     s3_data_distribution_type="FullyReplicated"
# ))

Export data

작은 데이터 세트에 빠르게 내보내려는 변환이 있는 경우 데이터 내보내기 메서드를 사용할 수 있습니다. 데이터 내보내기를 선택하면 Data Wrangler가 동기식으로 작동하여 Amazon S3로 변환한 데이터를 내보냅니다. 데이터 내보내기를 완료하거나 작업을 취소할 때까지는 Data Wrangler를 사용할 수 없습니다.

Data Wrangler 흐름에서 데이터 내보내기 메서드를 사용하는 방법에 대한 자세한 내용은 다음 절차를 참조하세요.

데이터 내보내기 메서드를 사용하려면 다음을 수행하세요.

Data Wrangler 흐름에서 노드를 열어서(두 번 클릭) 선택합니다.
데이터를 내보낼 방법을 구성합니다.
데이터 내보내기를 선택합니다.

데이터 흐름을 Amazon S3 버킷으로 내보낼 경우 Data Wrangler는 흐름 파일의 복사본을 S3 버킷에 저장합니다. 그러면 흐름 파일이 data_wrangler_flow 접두사 아래에 저장됩니다. 기본 Amazon S3 버킷을 사용하여 흐름 파일을 저장하는 경우 sagemaker-region-account number 명명 규칙을 사용합니다. 예를 들어 계정 번호가 111122223333이고 us-east-1에서 스튜디오 클래식을 사용하는 경우 가져온 데이터세트는 에 저장됩니다. sagemaker-us-east-1-111122223333 이 예에서는 us-east-1에서 생성된 .flow 파일이 s3://sagemaker-region-account number/data_wrangler_flows/에 저장됩니다.

파이프라인으로 내보내기 SageMaker

대규모 기계 학습 (ML) 워크플로를 구축하고 배포하려는 경우 SageMaker 파이프라인을 사용하여 작업을 관리하고 SageMaker 배포하는 워크플로를 만들 수 있습니다. SageMaker 파이프라인을 사용하면 SageMaker 데이터 준비, 모델 교육, 모델 배포 작업을 관리하는 워크플로를 구축할 수 있습니다. 파이프라인을 사용하면 SageMaker SageMaker 제공되는 퍼스트 파티 알고리즘을 사용할 수 있습니다. SageMaker 파이프라인에 대한 자세한 내용은 파이프라인을 참조하십시오. SageMaker

데이터 흐름에서 SageMaker 파이프라인으로 하나 이상의 단계를 내보내면 Data Wrangler는 파이프라인을 정의, 인스턴스화, 실행 및 관리하는 데 사용할 수 있는 Jupyter 노트북을 생성합니다.

Jupyter notebook을 사용하여 파이프라인 생성하기

다음 절차에 따라 Jupyter 노트북을 만들어 데이터 랭글러 흐름을 파이프라인으로 내보낼 수 있습니다. SageMaker

다음 절차를 사용하여 Jupyter 노트북을 생성하고 이를 실행하여 데이터 랭글러 흐름을 파이프라인으로 내보냅니다. SageMaker

내보내고자 하는 노드 옆에 있는 +를 선택합니다.
Export to(내보내기)를 선택합니다.
SageMaker 파이프라인을 선택합니다 (Jupyter Notebook 사용).
Jupyter notebook을 실행합니다.

데이터 랭글러 콘솔에서 데이터 랭글러 흐름을 내보내는 방법을 보여주는 예제 데이터 흐름.

Data Wrangler가 생성하는 Jupyter notebook을 사용하여 파이프라인을 정의할 수 있습니다. 파이프라인에는 Data Wrangler 흐름으로 정의되는 데이터 처리 단계가 포함됩니다.

노트북의 다음 코드에 있는 steps 목록에 단계를 추가하여 파이프라인에 다른 단계를 추가할 수 있습니다.


pipeline = Pipeline(
    name=pipeline_name,
    parameters=[instance_type, instance_count],
    steps=[step_process], #Add more steps to this list to run in your Pipeline
)

파이프라인 정의에 대한 자세한 내용은 파이프라인 정의를 참조하십시오. SageMaker

추론 엔드포인트로 내보내기

데이터 랭글러 흐름에서 SageMaker 직렬 추론 파이프라인을 만들어 추론 시점에 데이터를 처리하려면 데이터 랭글러 흐름을 사용하세요. 추론 파이프라인은 훈련된 모델이 새 데이터에 대해 예측하도록 하는 일련의 단계입니다. Data Wrangler 내의 직렬 추론 파이프라인은 원시 데이터를 변환하여 예측을 위해 기계 학습 모델에 제공합니다. Studio Classic의 Jupyter 노트북에서 추론 파이프라인을 만들고, 실행하고, 관리합니다. 노트북에 액세스하는 방법에 대한 자세한 내용은 Jupyter notebook을 사용하여 추론 엔드포인트 생성하기 단원을 참조하세요.

노트북 내에서 기계 학습 모델을 훈련시키거나 이미 훈련한 모델을 지정할 수 있습니다. Amazon SageMaker XGBoost Autopilot을 사용하거나 데이터 랭글러 흐름에서 변환한 데이터를 사용하여 모델을 훈련할 수 있습니다.

파이프라인은 배치 추론 또는 실시간 추론을 수행하는 기능을 제공합니다. 모델 레지스트리에 데이터 랭글러 흐름을 추가할 수도 있습니다. SageMaker 호스팅 모델에 대한 자세한 내용은 한 엔드포인트 뒤에 있는 한 컨테이너에 여러 모델 호스트 단원을 참조하세요.

중요

다음과 같은 변환이 있는 경우 Data Wrangler 흐름을 추론 엔드포인트로 내보낼 수 없습니다.

조인
연결
그룹화 기준

이전 변환을 사용하여 데이터를 준비해야 하는 경우 다음 절차에 따르세요.

지원되지 않는 변환으로 추론할 수 있도록 데이터를 준비하려면

Data Wrangler 흐름을 생성합니다.
지원되지 않는 이전 변환을 적용합니다.
Amazon S3 버킷으로 데이터를 내보냅니다.
별도의 Data Wrangler 흐름을 생성합니다.
이전 흐름에서 내보낸 데이터를 가져옵니다.
나머지 변환을 적용합니다.
당사에서 제공하는 Jupyter notebook을 사용하여 직렬 추론 파이프라인을 생성합니다.

Amazon S3 버킷으로 데이터를 내보내는 방법에 대한 자세한 내용은 Amazon S3로 내보내기 단원을 참조하세요. 직렬 추론 파이프라인을 생성하는 데 사용되는 Jupyter notebook을 여는 방법에 대한 자세한 내용은 Jupyter notebook을 사용하여 추론 엔드포인트 생성하기 단원을 참조하세요.

Data Wrangler는 추론 시 데이터를 제거하는 변환을 무시합니다. 예를 들어 누락 삭제 구성을 사용하는 경우 Data Wrangler는 누락된 값 처리 변환을 무시합니다.

변환을 전체 데이터 세트에 재구성한 경우 변환은 추론 파이프라인으로 이어집니다. 예를 들어 중앙값을 사용하여 누락된 값을 대입한 경우 변환 재구성의 중앙값이 추론 요청에 적용됩니다. Jupyter notebook을 사용하거나 추론 파이프라인으로 데이터를 내보내는 경우 Data Wrangler 흐름에서 변환을 재구성할 수 있습니다. 변환 재구성에 대한 자세한 내용은 변환을 전체 데이터 세트로 재구성하고 내보내기 단원을 참조하세요.

직렬 추론 파이프라인은 입력 및 출력 문자열에 대해 다음 데이터 형식을 지원합니다. 각 데이터 형식에는 일련의 요구 사항이 있습니다.

지원되는 데이터 형식

text/csv— 문자열의 데이터 유형 CSV
- 문자열에는 헤더가 있을 수 없습니다.
- 추론 파이프라인에 사용되는 특성은 훈련 데이터 세트의 특성과 순서가 같아야 합니다.
- 특성 간에는 쉼표 구분 기호가 있어야 합니다.
- 레코드는 줄 바꿈 문자로 구분해야 합니다.
다음은 추론 요청에 제공할 수 있는 올바른 형식의 CSV 문자열의 예입니다.
```
abc,0.0,"Doe, John",12345\ndef,1.1,"Doe, Jane",67890                    
                
```
application/json— 문자열의 데이터 유형 JSON
- 추론 파이프라인용 데이터 세트에 사용되는 특성은 훈련 데이터 세트의 특성과 순서가 같아야 합니다.
- 데이터에는 특정 스키마가 있어야 합니다. 스키마를 일련의 features이 있는 단일 instances 객체로 정의합니다. 각 features 객체는 관측치를 나타냅니다.
다음은 추론 요청에 제공할 수 있는 올바른 형식의 JSON 문자열의 예입니다.
```
{
    "instances": [
        {
            "features": ["abc", 0.0, "Doe, John", 12345]
        },
        {
            "features": ["def", 1.1, "Doe, Jane", 67890]
        }
    ]
}                  
                
```

Jupyter notebook을 사용하여 추론 엔드포인트 생성하기

Data Wrangler 흐름을 내보내 추론 파이프라인을 생성하려면 다음 절차를 따르세요.

Jupyter notebook을 사용하여 추론 파이프라인을 만들려면 다음을 수행하세요.

내보내고자 하는 노드 옆에 있는 +를 선택합니다.
Export to(내보내기)를 선택합니다.
SageMaker 추론 파이프라인을 선택합니다 (Jupyter Notebook 사용).
Jupyter notebook을 실행합니다.

Jupyter notebook을 실행하면 추론 흐름 아티팩트가 생성됩니다. 추론 흐름 아티팩트는 직렬 추론 파이프라인을 생성하는 데 사용되는 추가 메타데이터가 포함된 Data Wrangler 흐름 파일입니다. 내보내는 노드에는 이전 노드의 모든 변환이 포함됩니다.

중요

Data Wrangler가 추론 파이프라인을 실행하려면 추론 흐름 아티팩트가 필요합니다. 자체 흐름 파일을 아티팩트로 사용할 수 없습니다. 이전 절차를 사용하여 생성해야 합니다.

Python 코드로 내보내기

데이터 흐름의 모든 단계를 데이터 처리 워크흐름에 수동으로 통합할 수 있는 Python 파일로 내보내려면 다음 절차를 따르세요.

다음 절차에 따라 Jupyter notebook을 생성하고 실행하여 Data Wrangler 흐름을 Python Code로 내보냅니다.

내보내고자 하는 노드 옆에 있는 +를 선택합니다.
내보낼 위치를 선택합니다.
Python 코드를 선택합니다.
Jupyter notebook을 실행합니다.

파이프라인에서 실행되도록 Python 스크립트를 구성해야 할 수도 있습니다. 예를 들어 Spark 환경을 실행 중인 경우 리소스에 액세스할 수 있는 권한이 있는 환경에서 스크립트를 실행하고 있는지 확인하세요. AWS

아마존 SageMaker 피처 스토어로 내보내기

데이터 랭글러를 사용하여 생성한 SageMaker 기능을 Amazon 피처 스토어로 내보낼 수 있습니다. 특성은 데이터 세트의 열입니다. 특성 저장소는 특성 및 관련 메타데이터를 위한 중앙 집중식 저장소입니다. 특성 저장소를 사용하여 기계 학습(ML) 개발을 위해 큐레이션된 데이터를 생성, 공유, 관리할 수 있습니다. 중앙 집중식 저장소를 사용하면 데이터를 더 쉽게 검색하고 재사용할 수 있습니다. 피처 스토어에 대한 자세한 내용은 Amazon SageMaker 피처 스토어를 참조하십시오.

특성 저장소의 핵심 개념은 특성 그룹입니다. 특성 그룹은 특성, 특성 레코드(관측치), 관련 메타데이터의 모음입니다. 데이터베이스의 테이블과 유사합니다.

Data Wrangler를 사용하여 다음 중 하나를 수행할 수 있습니다.

기존 특성 그룹을 새 레코드로 업데이트합니다. 레코드는 데이터 세트의 관측치입니다.
Data Wrangler 흐름의 노드에서 새 특성 그룹을 생성합니다. Data Wrangler는 데이터 세트의 관측치를 특성 그룹의 레코드로 추가합니다.

기존 특성 그룹을 업데이트하는 경우 데이터 세트의 스키마가 특성 그룹의 스키마와 일치해야 합니다. 특성 그룹의 모든 레코드가 데이터 세트의 관측치로 바뀝니다.

Jupyter notebook 또는 대상 노드를 사용하여 데이터 세트의 관측치로 특성 그룹을 업데이트할 수 있습니다.

Iceberg 테이블 형식의 기능 그룹에 사용자 지정 오프라인 스토어 암호화 키가 IAM 있는 경우 Amazon SageMaker Processing 작업에 사용 권한을 부여하여 해당 키를 사용해야 합니다. 최소한, Amazon S3에 쓰는 데이터를 암호화할 권한을 부여해야 합니다. 권한을 부여하려면 IAM 역할에 를 사용할 수 있는 권한을 부여하십시오. GenerateDataKey IAM역할에 AWS KMS 키 사용 권한을 부여하는 방법에 대한 자세한 내용은 을 참조하십시오. https://docs.aws.amazon.com/kms/latest/developerguide/key-policies.html

Destination Node

특성 그룹에 수행한 일련의 데이터 처리 단계를 출력하려는 경우 대상 노드를 생성할 수 있습니다. 대상 노드를 만들고 실행하면 Data Wrangler가 데이터로 특성 그룹을 업데이트합니다. 대상 노드 UI에서 새 특성 그룹을 생성할 수도 있습니다. 대상 노드를 생성한 후 데이터를 출력하는 처리 작업을 생성합니다. 처리 작업은 Amazon SageMaker 처리 작업입니다. 대상 노드를 사용 중인 경우 특성 그룹으로 변환한 데이터를 출력하는 데 필요한 계산 리소스가 실행됩니다.

대상 노드를 사용하여 Data Wrangler 흐름에서 수행한 일부 변환 또는 모든 변환을 내보낼 수 있습니다.

다음 절차에 따라 대상 노드를 만들어 데이터 세트의 관측치로 특성 그룹을 업데이트하세요.

대상 노드를 사용하여 특성 그룹을 업데이트하려면 다음을 수행하세요.

참고

Data Wrangler 흐름에서 작업 생성을 선택하여 처리 작업을 사용하여 특성 그룹을 업데이트하는 지침을 볼 수 있습니다.

내보내려는 데이터 세트가 들어 있는 노드 옆의 + 기호를 선택합니다.
목적지 추가에서 SageMaker 피처 스토어를 선택합니다.
특성 그룹을 선택(두 번 클릭)합니다. Data Wrangler는 특성 그룹의 스키마가 특성 그룹 업데이트에 사용하는 데이터의 스키마와 일치하는지 확인합니다.
(선택 사항) 온라인 저장소와 오프라인 저장소가 모두 있는 특성 그룹에 대해 오프라인 저장소로만 내보내기를 선택합니다. 이 옵션을 선택하면 데이터 세트의 관측치로만 오프라인 저장소가 업데이트됩니다.
Data Wrangler가 데이터 세트의 스키마를 검증한 후 추가를 선택합니다.

데이터 세트의 데이터로 새 특성 그룹을 생성하려면 다음 절차에 따르세요.

다음 방법 중 하나로 특성 그룹을 저장할 수 있습니다.

온라인 – 레코드를 실시간으로 조회할 수 있는 특성 그룹을 위한 지연 시간이 짧고 가용성이 높은 캐시입니다. 온라인 저장소를 사용하면 특성 그룹 내 레코드의 최신 값에 빠르게 액세스할 수 있습니다.
오프라인 – Amazon S3 버킷에 특성 그룹의 데이터를 저장합니다. (1초 미만으로) 짧은 지연 시간의 읽기가 필요하지 않을 때는 데이터를 오프라인으로 저장할 수 있습니다. 데이터 탐색, 모델 훈련, 배치 추론에 사용되는 특성에는 오프라인 저장소를 사용하여 사용할 수 있습니다.
온라인 및 오프라인 모두 – 온라인 저장소와 오프라인 저장소에 모두 데이터를 저장합니다.

대상 노드를 사용하여 특성 그룹을 생성하려면 다음을 수행하세요.

내보내려는 데이터 세트가 들어 있는 노드 옆의 + 기호를 선택합니다.
대상 추가에서 SageMaker 피처 스토어를 선택합니다.
특성 그룹 생성을 선택합니다.
데이터세트에 이벤트 시간 열이 없는 경우 다음 대화 상자에서 "EventTime" 열 만들기를 선택합니다.
Next(다음)를 선택합니다.
JSON스키마 복사를 선택합니다. 특성 그룹을 생성할 때 스키마를 특성 정의에 붙여넣습니다.
생성(Create)을 선택합니다.
특성 그룹 이름에는 특성 그룹의 이름을 지정합니다.
설명(선택 사항)에는 특성 그룹을 더 쉽게 검색할 수 있도록 설명을 지정합니다.
온라인 저장소용 특성 그룹을 생성하려면 다음을 수행합니다.
1. 온라인으로 스토리지 활성화를 선택합니다.
2. 온라인 스토어 암호화 키의 경우 AWS 관리형 암호화 키 또는 자체 암호화 키를 지정합니다.
오프라인 저장소의 특성 그룹을 생성하려면 다음을 수행합니다.
1. 오프라인으로 스토리지 활성화를 선택합니다. 다음 필드의 값을 지정합니다.
  - S3 버킷 이름 – 특성 그룹을 저장하는 Amazon S3 버킷의 이름입니다.
  - (선택 사항) 데이터 세트 디렉터리 이름 – 특성 그룹 저장에 사용하는 Amazon S3 접두사입니다.
  - IAM역할 ARN — 피처 스토어에 액세스할 수 있는 IAM 역할입니다.
  - 테이블 형식 – 오프라인 저장소의 테이블 형식입니다. Glue 또는 Iceberg를 지정할 수 있습니다. 기본 형식은 Glue입니다.
  - 오프라인 저장소 암호화 키 – 기본적으로, 특성 저장소는 AWS Key Management Service 관리형 키를 사용하지만 이 필드를 사용하여 자체 키를 지정할 수 있습니다.
2. 다음 필드의 값을 지정합니다.
  - S3 버킷 이름 – 특성 그룹을 저장하는 버킷의 이름입니다.
  - (선택 사항) 데이터 세트 디렉터리 이름 – 특성 그룹을 저장하는 데 사용하는 Amazon S3 접두사입니다.
  - IAM역할 ARN — 기능 저장소에 액세스할 수 있는 IAM 역할입니다.
  - 오프라인 저장소 암호화 키 – 기본적으로, 특성 저장소는 AWS 관리형 키를 사용하지만 이 필드를 사용하여 자체 키를 지정할 수 있습니다.
계속을 선택합니다.
선택합니다 JSON.
창에서 자리 표시자 대괄호를 제거합니다.
6단계의 JSON 텍스트를 붙여넣습니다.
계속을 선택합니다.
의 경우 RECORDIDENTIFIERFEATURENAME, 데이터세트의 각 레코드에 대해 고유한 식별자가 있는 데이터세트의 열을 선택하세요.
의 EVENTTIMEFEATURENAME경우 타임스탬프 값이 있는 열을 선택하세요.
계속을 선택합니다.
(선택 사항) 특성 그룹을 더 쉽게 찾을 수 있도록 태그를 추가합니다.
계속을 선택합니다.
특성 그룹 생성을 선택합니다.
Data Wrangler 흐름으로 돌아가서 특성 그룹 검색창 옆에 있는 새로 고침 아이콘을 선택합니다.

참고

흐름 내에서 특성 그룹의 대상 노드를 이미 생성한 경우에는 동일한 특성 그룹에 대해 다른 대상 노드를 생성할 수 없습니다. 동일한 특성 그룹에 대해 다른 대상 노드를 생성하려면 다른 흐름 파일을 생성해야 합니다.

Data Wrangler 작업을 생성하려면 다음 절차에 따르세요.

데이터 흐름 페이지에서 작업을 만들고 내보내려는 대상 노드를 선택합니다.

작업 생성을 선택합니다. 다음 이미지는 작업 생성을 선택한 후 나타나는 창을 보여줍니다.
작업 이름에는 내보내기 작업의 이름을 지정합니다.
내보내려는 대상 노드를 선택합니다.
(선택 사항) [출력 KMS 키] 에는 키의ARN, ID 또는 별칭을 지정합니다. AWS KMS KMS키는 암호화 키입니다. 이 키를 사용하여 작업의 출력 데이터를 암호화할 수 있습니다. AWS KMS 키에 대한 자세한 내용은 을 참조하십시오 AWS Key Management Service.
다음 이미지는 작업 구성 탭이 열려 있는 작업 구성 페이지를 보여줍니다.

(선택 사항) 훈련된 파라미터에서 다음을 수행했다면 재구성을 선택하세요.
- 샘플링된 데이터 세트
- 데이터를 사용하여 데이터 세트에 새 열을 만드는 변환을 적용했습니다.
전체 데이터 세트에 대해 수행한 변환을 재구성하는 방법에 대한 자세한 내용은 변환을 전체 데이터 세트로 재구성하고 내보내기 단원을 참조하세요.
작업 구성을 선택합니다.
(선택 사항) Data Wrangler 작업을 구성합니다. 다음과 같이 구성할 수 있습니다.
- 작업 구성
- Spark 메모리 구성
- 네트워크 구성
- 태그
- Parameters
- 일정 연결
Run(실행)을 선택합니다.

Jupyter notebook

다음 절차를 사용하여 Jupyter 노트북을 Amazon SageMaker 피처 스토어로 내보낼 수 있습니다.

다음 절차에 따라 Jupyter notebook을 생성하고 실행하여 Data Wrangler 흐름을 특성 저장소로 내보냅니다.

내보내고자 하는 노드 옆에 있는 +를 선택합니다.
Export to(내보내기)를 선택합니다.
Amazon SageMaker 피처 스토어를 선택하세요 (Jupyter 노트북을 통해).
Jupyter notebook을 실행합니다.

Jupyter notebook을 실행하면 Data Wrangler 작업이 실행됩니다. 데이터 랭글러 작업을 실행하면 처리 작업이 시작됩니다. SageMaker 처리 작업에서는 흐름을 온라인 및 오프라인 특성 저장소에 수집합니다.

중요

이 노트북을 실행하는 데 사용하는 IAM 역할에는 다음과 같은 AWS 관리형 정책이 첨부되어 있어야 합니다. AmazonSageMakerFullAccess 및. AmazonSageMakerFeatureStoreAccess

특성 그룹을 생성할 때 온라인 또는 오프라인 특성 저장소 하나만 활성화하면 됩니다. 둘 다 활성화할 수도 있습니다. 온라인 저장소 생성을 비활성화하려면 EnableOnlineStore를 False로 설정합니다.


# Online Store Configuration
online_store_config = {
    "EnableOnlineStore": False
}

노트북은 내보내는 데이터 프레임의 열 이름과 유형을 사용하여 특성 그룹을 생성하는 데 사용되는 특성 그룹 스키마를 생성합니다. 특성 그룹은 레코드를 설명하기 위해 특성 저장소에서 정의된 특성으로 구성된 그룹입니다. 특성 그룹은 특성 그룹에 포함된 스키마와 특성을 정의합니다. 특성 그룹 정의는 특성 목록, 레코드 식별자 특성 이름, 이벤트 시간 특성 이름, 온라인 저장소와 오프라인 저장소의 구성으로 이루어집니다.

특성 그룹의 각 특성은 문자열, 분수 또는 정수 유형 중 하나를 가질 수 있습니다. 내보낸 데이터 프레임의 열이 이러한 유형에 속하지 않는 경우 기본값은 String입니다.

다음은 특성 그룹 스키마 예제입니다.


column_schema = [
    {
        "name": "Height",
        "type": "long"
    },
    {
        "name": "Input",
        "type": "string"
    },
    {
        "name": "Output",
        "type": "string"
    },
    {
        "name": "Sum",
        "type": "string"
    },
    {
        "name": "Time",
        "type": "string"
    }
]

또한 레코드 식별자 이름과 이벤트 시간 특성 이름을 지정해야 합니다.

레코드 식별자 이름은 특성 저장소에 정의된 레코드를 고유하게 식별하는 값을 가진 특성의 이름입니다. 식별자 값마다 최신 레코드만 온라인 저장소에 저장됩니다. 레코드 식별자 특성 이름은 특성 정의 이름 중 하나여야 합니다.
이벤트 시간 특성 이름은 특성 그룹에 레코드의 EventTime을 저장하는 특성의 이름입니다. EventTime은 특성 내 레코드의 생성 또는 업데이트에 해당하는 새 이벤트가 발생한 시점을 나타냅니다. 특성 그룹의 모든 레코드에는 그에 해당하는 EventTime이 있어야 합니다.

노트북은 이러한 구성을 사용하여 특성 그룹을 생성하고 데이터를 대규모로 처리한 다음, 처리된 데이터를 온라인 및 오프라인 특성 저장소에 수집합니다. 자세히 알아보려면 데이터 소스 및 수집을 참조하세요.

변환을 전체 데이터 세트로 재구성하고 내보내기

데이터를 가져올 때 Data Wrangler는 데이터 샘플을 사용하여 인코딩을 적용합니다. 기본적으로, Data Wrangler는 처음 50,000개 행을 샘플로 사용하지만 전체 데이터 세트를 가져오거나 다른 샘플링 방법을 사용할 수 있습니다. 자세한 내용은 가져오기 단원을 참조하세요.

다음 변환은 데이터를 사용하여 데이터 세트에 열을 생성합니다.

샘플링을 사용하여 데이터를 가져온 경우 이전 변환은 샘플의 데이터만 사용하여 열을 생성합니다. 변환에서 관련 데이터를 모두 사용하지는 않았을 수도 있습니다. 예를 들어 카테고리 인코딩 변환을 사용하는 경우 전체 데이터 세트에 샘플에는 없는 카테고리가 있었을 수 있습니다.

대상 노드나 Jupyter notebook을 사용하여 변환을 전체 데이터 세트에 맞춰 재구성할 수 있습니다. Data Wrangler는 흐름의 변환을 내보낼 때 처리 작업을 생성합니다. SageMaker 처리 작업이 완료될 때 Data Wrangler는 기본 Amazon S3 위치 또는 사용자가 지정한 S3 위치에 다음 파일을 저장합니다.

데이터 세트에 맞게 재구성되는 변환을 지정하는 Data Wrangler 흐름 파일
재구성 변환이 적용된 데이터 세트

Data Wrangler 내에서 Data Wrangler 흐름 파일을 열고 변환을 다른 데이터 세트에 적용할 수 있습니다. 예를 들어 훈련 데이터 세트에 변환을 적용한 경우 Data Wrangler 흐름 파일을 열고 사용하여 추론에 사용되는 데이터 세트에 변환을 적용할 수 있습니다.

대상 노드를 사용하여 변환을 재구성하고 내보내는 방법에 대한 자세한 내용은 다음 페이지를 참조하세요.

Amazon S3로 내보내기
아마존 SageMaker 피처 스토어로 내보내기

다음 절차에 따라 Jupyter notebook을 실행하여 변환을 재구성하고 데이터를 내보냅니다.

Jupyter notebook을 실행하고 변환을 재구성하고 Data Wrangler 흐름을 내보내려면 다음을 수행하세요.

내보내고자 하는 노드 옆에 있는 +를 선택합니다.
내보낼 위치를 선택합니다.
데이터를 내보낼 위치를 선택합니다.
refit_trained_params 객체의 경우 refit을 True로 설정합니다.
output_flow 필드의 경우 재구성 변환이 포함된 출력 흐름 파일의 이름을 지정합니다.
Jupyter notebook을 실행합니다.

새 데이터를 자동으로 처리하는 일정을 생성합니다.

데이터를 주기적으로 처리하는 경우 처리 작업을 자동으로 실행하는 일정을 생성할 수 있습니다. 예를 들어 새 데이터를 받을 때 처리 작업을 자동으로 실행하는 일정을 생성할 수 있습니다. 처리 작업에 대한 자세한 내용은 Amazon S3로 내보내기 및 아마존 SageMaker 피처 스토어로 내보내기 단원을 참조하세요.

작업을 생성할 때 작업을 생성할 권한이 있는 IAM 역할을 지정해야 합니다. 기본적으로 데이터 랭글러에 액세스하는 데 사용하는 IAM 역할은 입니다. SageMakerExecutionRole

데이터 랭글러는 다음과 같은 권한을 통해 처리 작업에 EventBridge 액세스하고 EventBridge 이를 실행할 수 있습니다.

데이터 랭글러에게 사용 권한을 제공하는 Amazon SageMaker Studio Classic 실행 역할에 다음과 같은 AWS 관리형 정책을 추가합니다. EventBridge
```
arn:aws:iam::aws:policy/AmazonEventBridgeFullAccess
                
```
정책에 대한 자세한 내용은 AWS 관리형 정책을 참조하십시오. EventBridge

Data Wrangler에서 작업을 생성할 때 지정하는 IAM 역할에 다음 정책을 추가합니다.



{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Action": "sagemaker:StartPipelineExecution",
            "Resource": "arn:aws:sagemaker:Region:AWS-account-id:pipeline/data-wrangler-*"
        }
    ]
}

기본 IAM 역할을 사용하는 경우 Amazon SageMaker Studio Classic 실행 역할에 위의 정책을 추가합니다.

역할을 맡을 수 EventBridge 있도록 다음 신뢰 정책을 역할에 추가하십시오.



{
    "Effect": "Allow",
    "Principal": {
        "Service": "events.amazonaws.com"
    },
    "Action": "sts:AssumeRole"
}

중요

일정을 만들면 데이터 랭글러가 In을 eventRule 생성합니다. EventBridge 생성한 이벤트 규칙과 처리 작업 실행에 사용되는 인스턴스에 모두 요금이 부과됩니다.

EventBridge 요금에 대한 자세한 내용은 Amazon EventBridge 요금을 참조하십시오. 작업 요금 처리에 대한 자세한 내용은 Amazon SageMaker 요금을 참조하십시오.

다음 방법 중 하나를 사용하여 일정을 설정할 수 있습니다.

CRON표현식
참고
Data Wrangler는 다음 표현식을 지원하지 않습니다.
- LW#
- 요일 약어
- 월 약어
RATE표현
반복 – 작업을 실행할 시간당 또는 일별 간격을 설정합니다.
특정 시간 – 작업을 실행할 특정한 날과 시간을 설정합니다.

다음 단원에는 작업 생성 절차가 나와 있습니다.

CRON

다음 절차에 따라 CRON 표현식이 포함된 일정을 만들 수 있습니다.

CRON표현식으로 일정을 지정하려면 다음과 같이 하십시오.

Data Wrangler 흐름을 엽니다.
작업 생성을 선택합니다.
(선택 사항) 출력 KMS AWS KMS 키에 작업 출력을 구성하는 키를 지정합니다.
다음, 2. 작업 구성을 선택합니다.
일정 연결을 선택합니다.
새 예약 생성을 선택합니다.
일정 이름에는 일정의 이름을 지정합니다.
[실행 빈도] 에서 [실행 빈도] 를 선택합니다 CRON.
유효한 CRON 표현식을 지정하십시오.
생성(Create)을 선택합니다.
(선택 사항) 추가 일정에 따라 작업을 실행하려면 다른 일정 추가를 선택합니다.

참고
최대 두 개의 일정을 연결할 수 있습니다. 일정은 독립적이며 시간이 겹치지 않는 한 서로 영향을 주지 않습니다.
다음 중 하나를 선택합니다.
- 지금 예약 및 실행 – Data Wrangler를 사용하면 작업이 즉시 실행되고 이후에 일정에 따라 실행됩니다.
- 일정만 – Data Wrangler를 사용하면 지정한 일정에 따라서만 작업이 실행됩니다.
실행을 선택합니다.

RATE

다음 절차에 따라 RATE 표현식이 포함된 일정을 만들 수 있습니다.

RATE표현식으로 일정을 지정하려면 다음과 같이 하십시오.

Data Wrangler 흐름을 엽니다.
작업 생성을 선택합니다.
(선택 사항) 출력 KMS AWS KMS 키에 작업 출력을 구성하는 키를 지정합니다.
다음, 2. 작업 구성을 선택합니다.
일정 연결을 선택합니다.
새 예약 생성을 선택합니다.
일정 이름에는 일정의 이름을 지정합니다.
실행 빈도에는 속도를 선택합니다.
값에는 정수를 지정합니다.
단위에는 다음 중 하나를 선택합니다.
- 분
- 시간
- 일
생성(Create)을 선택합니다.
(선택 사항) 추가 일정에 따라 작업을 실행하려면 다른 일정 추가를 선택합니다.

참고
최대 두 개의 일정을 연결할 수 있습니다. 일정은 독립적이며 시간이 겹치지 않는 한 서로 영향을 주지 않습니다.
다음 중 하나를 선택합니다.
- 지금 예약 및 실행 – Data Wrangler를 사용하면 작업이 즉시 실행되고 이후에 일정에 따라 실행됩니다.
- 일정만 – Data Wrangler를 사용하면 지정한 일정에 따라서만 작업이 실행됩니다.
실행을 선택합니다.

Recurring

작업을 반복적으로 실행하는 일정을 만들려면 다음 절차에 따르세요.

CRON표현식으로 일정을 지정하려면 다음과 같이 하십시오.

Data Wrangler 흐름을 엽니다.
작업 생성을 선택합니다.
(선택 사항) 출력 KMS AWS KMS 키에 작업 출력을 구성하는 키를 지정합니다.
다음, 2. 작업 구성을 선택합니다.
일정 연결을 선택합니다.
새 예약 생성을 선택합니다.
일정 이름에는 일정의 이름을 지정합니다.
실행 빈도의 경우 반복이 기본적으로 선택되어 있는지 확인하세요.
x시간마다 하루 동안 작업이 실행되는 시간당 빈도를 지정합니다. 유효한 값은 1 및 23을 포함한 범위의 정수입니다.
지정일에는 다음 옵션 중 하나를 선택합니다.
- 매일
- 주말
- 평일
- 요일 선택
1. (선택 사항) 요일 선택을 선택한 경우 작업을 실행할 요일을 선택합니다.
참고
일정이 매일 재설정됩니다. 작업이 5시간마다 실행되도록 예약하면 하루 중 다음 시간에 작업이 실행됩니다.
- 00:00
- 05:00
- 10:00
- 15:00
- 20:00
생성(Create)을 선택합니다.
(선택 사항) 추가 일정에 따라 작업을 실행하려면 다른 일정 추가를 선택합니다.

참고
최대 두 개의 일정을 연결할 수 있습니다. 일정은 독립적이며 시간이 겹치지 않는 한 서로 영향을 주지 않습니다.
다음 중 하나를 선택합니다.
- 지금 예약 및 실행 – Data Wrangler를 사용하면 작업이 즉시 실행되고 이후에 일정에 따라 실행됩니다.
- 일정만 – Data Wrangler를 사용하면 지정한 일정에 따라서만 작업이 실행됩니다.
실행을 선택합니다.

Specific time

특정 시간에 작업을 실행하는 일정을 생성하려면 다음 절차에 따르세요.

CRON표현식으로 일정을 지정하려면 다음과 같이 하십시오.

Data Wrangler 흐름을 엽니다.
작업 생성을 선택합니다.
(선택 사항) 출력 KMS AWS KMS 키에 작업 출력을 구성하는 키를 지정합니다.
다음, 2. 작업 구성을 선택합니다.
일정 연결을 선택합니다.
새 예약 생성을 선택합니다.
일정 이름에는 일정의 이름을 지정합니다.
생성(Create)을 선택합니다.
(선택 사항) 추가 일정에 따라 작업을 실행하려면 다른 일정 추가를 선택합니다.

참고
최대 두 개의 일정을 연결할 수 있습니다. 일정은 독립적이며 시간이 겹치지 않는 한 서로 영향을 주지 않습니다.
다음 중 하나를 선택합니다.
- 지금 예약 및 실행 – Data Wrangler를 사용하면 작업이 즉시 실행되고 이후에 일정에 따라 실행됩니다.
- 일정만 – Data Wrangler를 사용하면 지정한 일정에 따라서만 작업이 실행됩니다.
실행을 선택합니다.

Amazon SageMaker Studio Classic을 사용하면 실행이 예정된 작업을 볼 수 있습니다. 처리 작업은 SageMaker 파이프라인 내에서 실행됩니다. 각 처리 작업에는 자체적인 파이프라인이 있습니다. 파이프라인 내에서 처리 단계로 실행됩니다. 파이프라인 내에서 생성한 일정을 볼 수 있습니다. 파이프라인을 보는 방법에 대한 자세한 내용은 파이프라인 보기 단원을 참조하세요.

예약한 작업을 보려면 다음 절차를 따르세요.

예약한 작업을 보려면 다음을 수행하세요.

아마존 SageMaker 스튜디오 클래식을 엽니다.
오픈 SageMaker 파이프라인
생성한 작업의 파이프라인을 확인합니다.

작업을 실행 중인 파이프라인은 작업 이름을 접두사로 사용합니다. 예를 들어 housing-data-feature-enginnering이라는 작업을 생성한 경우 파이프라인의 이름은 data-wrangler-housing-data-feature-engineering입니다.
작업이 포함된 파이프라인을 선택합니다.
파이프라인의 상태를 확인합니다. 성공 상태인 파이프라인이 처리 작업을 성공적으로 실행했습니다.

처리 작업의 실행을 중지하려면 다음을 수행하세요.

처리 작업의 실행을 중지하려면 일정을 지정하는 이벤트 규칙을 삭제하세요. 이벤트 규칙을 삭제하면 일정과 관련된 모든 작업의 실행이 중지됩니다. 규칙 삭제에 대한 자세한 내용은 Amazon EventBridge 규칙 비활성화 또는 삭제를 참조하십시오.

일정과 관련된 파이프라인도 중지하고 삭제할 수 있습니다. 파이프라인 중지에 대한 자세한 내용은 을 참조하십시오 StopPipelineExecution. 파이프라인 삭제에 대한 자세한 내용은 을 참조하십시오 DeletePipeline.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

다양한 데이터 세트에 데이터 흐름 재사용

Studio Classic 노트북의 데이터 준비를 사용하여 데이터 통찰력을 얻으십시오.