Amazon EMR의 이전 AMI 버전에 고유한 Pig 애플리케이션 - Amazon EMR

Amazon EMR의 이전 AMI 버전에 고유한 Pig 애플리케이션

지원되는 Pig 버전

클러스터에 추가할 수 있는 Pig 버전은 사용하는 Amazon EMR AMI 버전 및 Hadoop 버전에 따라 다릅니다. 아래 표에서는 다양한 버전의 Pig와 호환되는 AMI 버전과 하둡 버전을 보여 줍니다. 사용 가능한 최신 버전의 Pig를 사용하여 성능 향상 및 새로운 기능을 활용하는 것이 좋습니다.

API를 사용하여 Pig를 설치할 때 RunJobFlow를 직접 호출하는 동안 클러스터에 Pig를 로드하는 단계의 인수로 --pig-versions를 지정하지 않으면 기본 버전이 사용됩니다.

Pig 버전 AMI 버전 구성 파라미터 Pig 버전 세부 정보
0.12.0

릴리스 정보

설명서

3.1.0 이상

--ami-version 3.1

--ami-version 3.2

--ami-version 3.3

다음에 대한 지원을 추가합니다.

  • JVM 구현 없는 UDF 스트리밍

  • ASSERT 및 IN 연산자

  • CASE 표현식

  • Pig 내장 함수인 AvroStorage.

  • 내장 함수인 ParquetLoader 및 ParquetStorer

  • BigInteger 및 BigDecimal 유형

0.11.1.1

릴리스 정보

설명서

2.2 이상

--pig-versions 0.11.1.1

--ami-version 2.2

입력이 Amazon S3에 상주하는 경우 PigStorage에서 LOAD 명령의 성능을 개선합니다.

0.11.1

릴리스 정보

설명서

2.2 이상

--pig-versions 0.11.1

--ami-version 2.2

JDK 7, Hadoop 2, Groovy 사용자 정의 함수, SchemaTuple 최적화, 새로운 연산자 등에 대한 지원을 추가합니다. 자세한 내용은 Pig 0.11.1 change log를 참조하세요.

0.9.2.2

릴리스 정보

설명서

2.2 이상

--pig-versions 0.9.2.2

--ami-version 2.2

하둡 1.0.3에 대한 지원을 추가합니다.

0.9.2.1

릴리스 정보

설명서

2.2 이상

--pig-versions 0.9.2.1

--ami-version 2.2

MapR에 대한 지원을 추가합니다.

0.9.2

릴리스 정보

설명서

2.2 이상

--pig-versions 0.9.2

--ami-version 2.2

여러 성능 향상과 버그 수정을 포함합니다. Pig 0.9.2 변경에 대한 전체 정보는 Pig 0.9.2 change log를 참조하세요.

0.9.1

릴리스 정보

설명서

2.0

--pig-versions 0.9.1

--ami-version 2.0

0.6

릴리스 정보

1.0

--pig-versions 0.6

--ami-version 1.0

0.3

릴리스 정보

1.0

--pig-versions 0.3

--ami-version 1.0

Pig 버전 세부 정보

Amazon EMR은 추가 Amazon EMR 패치가 적용되어 있을 수 있는 특정 Pig 릴리스를 지원합니다. Amazon EMR 클러스터에서 어떤 버전의 Pig를 실행할지를 구성할 수 있습니다. 이 작업을 수행하는 방법에 대한 자세한 내용은 Apache Pig 단원을 참조하십시오. 다음 섹션에서는 다양한 Pig 버전과 Amazon EMR에서 로드된 버전에 적용되는 패치를 설명합니다.

Pig 패치

이 섹션에서는 Amazon EMR에서 사용할 수 있는 Pig 버전에 적용되는 사용자 지정 패치를 설명합니다.

Pig 0.11.1.1 패치

Amazon EMR의 Pig 0.11.1.1 버전은 입력이 Amazon S3에 상주하는 경우 PigStorage에서 LOAD 명령의 성능을 개선하는 유지 관리 릴리스입니다.

Pig 0.11.1 패치

Amazon EMR 버전의 Pig 0.11.1에는 Apache Software Foundation에서 제공하는 모든 업데이트와 Pig 버전 0.9.2.2 이후의 누적 Amazon EMR 패치가 포함됩니다. 하지만 Pig 0.11.1에는 새로운 Amazon EMR용 패치가 없습니다.

Pig 0.9.2 패치

Apache Pig 0.9.2는 Pig의 유지 관리 릴리스입니다. Amazon EMR 팀은 다음 패치를 Pig 0.9.2의 Amazon EMR 버전에 적용했습니다.

패치 설명
PIG-1429

부울 데이터 형식을 Pig에 첫 번째 클래스 데이터 형식으로 추가합니다. 자세한 내용은 https://issues.apache.org/jira/browse/PIG-1429를 참조하십시오.

상태: 커밋됨

Apache Pig 버전에서 수정됨: 0.10

PIG-1824

Jython UDF에서 모듈 가져오기를 지원합니다. 자세한 내용은 https://issues.apache.org/jira/browse/PIG-1824를 참조하십시오.

상태: 커밋됨

Apache Pig 버전에서 수정됨: 0.10

PIG-2010

분산 캐시에 등록된 JAR을 번들링합니다. 자세한 내용은 https://issues.apache.org/jira/browse/PIG-2010를 참조하십시오.

상태: 커밋됨

Apache Pig 버전에서 수정됨: 0.11

PIG-2456

사용자가 기본 Pig 문을 지정할 수 있는 ~/.pigbootup 파일을 추가합니다. 자세한 내용은 https://issues.apache.org/jira/browse/PIG-2456를 참조하십시오.

상태: 커밋됨

Apache Pig 버전에서 수정됨: 0.11

PIG-2623

Amazon S3 경로를 사용하여 UDF를 등록하는 기능을 지원합니다. 자세한 내용은 https://issues.apache.org/jira/browse/PIG-2623를 참조하십시오.

상태: 커밋됨

Apache Pig 버전에서 수정됨: 0.10, 0.11

Pig 0.9.1 패치

Amazon EMR 팀은 다음 패치를 Pig 0.9.1의 Amazon EMR 버전에 적용했습니다.

패치 설명
dfs에서 JAR 파일 및 Pig 스크립트 지원

HDFS, Amazon S3 또는 기타 분산 파일 시스템에 저장된 스크립트 실행 및 JAR 파일 등록에 대한 지원을 추가했습니다. 자세한 내용은 https://issues.apache.org/jira/browse/PIG-1505를 참조하십시오.

상태: 커밋됨

Apache Pig 버전에서 수정됨: 0.8.0

Pig에서 다중 파일 시스템 지원

한 파일 시스템에서 데이터를 읽고 다른 파일 시스템에 쓰는 Pig 스크립트에 대한 지원을 추가합니다. 자세한 내용은 https://issues.apache.org/jira/browse/PIG-1564를 참조하십시오.

상태: 커밋 안 됨

Apache Pig 버전에서 수정됨: 해당 사항 없음

Piggybank 날짜/시간 및 문자열 UDF 추가

사용자 지정 Pig 스크립트를 지원하기 위해 날짜/시간 및 문자열 UDF를 추가합니다. 자세한 내용은 https://issues.apache.org/jira/browse/PIG-1565를 참조하십시오.

상태: 커밋 안 됨

Apache Pig 버전에서 수정됨: 해당 사항 없음

대화형 및 배치 Pig 클러스터

Amazon EMR을 사용하면 Pig 스크립트를 두 가지 모드로 실행할 수 있습니다.

  • 대화형

  • Batch

AWS CLI 또는 콘솔을 사용하여 장기 실행 클러스터를 시작하면 ssh를 사용하여 마스터 노드에 Hadoop 사용자로 연결할 수 있으며, Grunt 셸을 사용하여 Pig 스크립트를 대화형으로 개발 및 실행할 수 있습니다. Pig를 대화형으로 사용하면 배치 모드보다 더 쉽게 Pig 스크립트를 수정할 수 있습니다. 대화형 모드에서 Pig 스크립트를 수정한 후 스크립트를 Amazon S3에 업로드하고 배치 모드를 사용하여 프로덕션에서 스크립트를 실행할 수 있습니다. 또한 실행 중인 클러스터에서 대화형으로 Pig 명령을 제출하여 필요에 따라 분석하고 변환할 수 있습니다.

배치 모드에서 Pig 스크립트를 Amazon S3에 업로드한 다음, 작업을 클러스터에 하나의 단계로 제출합니다. 장기 실행 클러스터 또는 일시적 클러스터에 Pig 단계를 제출할 수 있습니다.