Studio에서 SQL을 사용하여 데이터를 준비하세요 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Studio에서 SQL을 사용하여 데이터를 준비하세요

Amazon SageMaker Studio는 데이터 과학자가 JupyterLab 노트북에서 샘플링, 탐색적 분석, 기능 엔지니어링과 같은 작업을 수행할 수 있는 내장 SQL 확장을 제공합니다. AWS Glue 연결을 데이터 원본 메타데이터의 중앙 리포지토리로 사용하는 확장 프로그램은 데이터 과학자가 데이터 카탈로그를 탐색하고, 데이터를 탐색하고, 복잡한 SQL 쿼리를 작성하고, Python으로 결과를 추가로 처리하는 데 사용할 수 있는 SQL 환경을 제공합니다.

이 섹션에서는 Studio에서 내장된 SQL 확장을 구성하는 방법을 안내합니다. SQL 통합으로 사용할 수 있는 기능을 설명하고 JupyterLab 노트북에서 SQL 쿼리를 실행하기 위한 지침을 제공합니다.

SQL 데이터 분석을 활성화하려면 관리자는 먼저 데이터 소스를 선택할 수 있도록 AWS Glue 연결을 구성해야 합니다. 이러한 연결을 통해 데이터 과학자는 내부에서 승인된 데이터 세트에 원활하게 액세스할 수 있습니다. JupyterLab 액세스 설정을 통해 JupyterLab 사용자는 다음을 수행할 수 있습니다.

  • 사전 구성된 데이터 원본을 보고 찾아볼 수 있습니다.

  • 테이블, 스키마, 열 등의 데이터베이스 정보 요소를 검색, 필터링 및 검사할 수 있습니다.

  • 데이터 소스에 대한 연결 매개변수를 자동 생성합니다.

  • 확장 프로그램의 SQL 편집기의 구문 강조, 자동 완성 및 SQL 형식 지정 기능을 사용하여 복잡한 SQL 쿼리를 만들 수 있습니다.

  • 노트북 셀에서 SQL 문을 실행합니다. JupyterLab

  • SQL 쿼리 결과를 검색하여 추가 처리, 시각화 및 기타 기계 학습 작업을 수행할 수 있습니다. pandas DataFrames

Studio에서 JupyterLab 애플리케이션의 탐색 창에 있는 SQL extension icon. 아이콘을 선택하여 확장 프로그램에 액세스할 수 있습니다. 아이콘 위에 커서를 올리면 데이터 검색 툴팁이 표시됩니다.

중요
  • SageMaker Studio의 JupyterLab 이미지에는 기본적으로 SageMaker배포 1.6부터 시작하여 SQL 확장이 포함되어 있습니다. 확장 프로그램은 Python과 SparkMagic 커널에서만 작동합니다.

  • 연결 및 데이터 탐색을 위한 확장 프로그램의 사용자 인터페이스는 Studio JupyterLab 내에서만 사용할 수 있습니다. 아마존 Redshift, 아마존 아테나, 스노우플레이크와 호환됩니다.

  • SQL 확장 프로그램의 데이터 소스에 대한 연결을 구성하려는 관리자라면 다음 단계를 따르십시오.

  • SQL 확장을 사용하여 데이터 원본을 찾아보고 쿼리하려는 데이터 과학자인 경우 관리자가 데이터 원본에 대한 연결을 구성했는지 확인하고 다음 단계를 따르십시오.

    • SageMaker 배포 이미지 버전 1.6 이상을 사용하여 Studio에서 JupyterLab 애플리케이션을 실행할 수 있는 전용 공간을 만드십시오.

    • SageMaker 배포 이미지 버전 1.6을 사용하는 경우 JupyterLab 노트북 %load_ext amazon_sagemaker_sql_magic 셀에서 실행하여 노트북에 SQL 확장을 로드하십시오.

      SageMaker 배포 이미지 버전 1.7 이상 사용자의 경우 별도의 조치가 필요 없으며 SQL 확장이 자동으로 로드됩니다.

    • 에서 SQL 확장의 기능을 익히십시오. SQL 확장 기능 및 사용법