Amazon EMR의 이전 AMI 버전에 대한 돼지 애플리케이션 세부 사항 - Amazon EMR

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon EMR의 이전 AMI 버전에 대한 돼지 애플리케이션 세부 사항

지원되는 Pig 버전

클러스터에 추가할 수 있는 Pig 버전은 Amazon EMR AMI 버전 및 사용 중인 Hadoop 버전에 따라 다릅니다. 아래 표에서는 다양한 버전의 Pig와 호환되는 AMI 버전과 하둡 버전을 보여 줍니다. 사용 가능한 최신 버전의 Pig를 사용하여 성능 향상 및 새로운 기능을 활용하는 것이 좋습니다.

API를 사용하여 Pig를 설치하는 경우, 사용자가 지정하지 않는 한 기본 버전이 사용됩니다.--pig-versions호출하는 동안 Pig를 클러스터에 로드하는 단계에 대한 인수로RunJobFlow.

Pig 버전 AMI 버전 구성 파라미터 Pig 버전 세부 정보
0.12.0

릴리스 정보

설명서

3.1.0 이상

--ami-version 3.1

--ami-version 3.2

--ami-version 3.3

다음에 대한 지원을 추가합니다.

  • JVM 구현 없는 UDF 스트리밍

  • ASSERT 및 IN 연산자

  • CASE 표현식

  • Pig 내장 함수인 AvroStorage.

  • ParquetLoader 및 ParquetStorer 내장 함수로서

  • BigInteger BigDecimal 유형

0.11.1.1

릴리스 정보

설명서

2.2 이상

--pig-versions 0.11.1.1

--ami-version 2.2

를 사용하여 LOAD 명령의 성능을 향상시킵니다. PigStorage 입력이 Amazon S3 상주하는 경우

0.11.1

릴리스 정보

설명서

2.2 이상

--pig-versions 0.11.1

--ami-version 2.2

JDK 7, Hadoop 2, Groovy 사용자 정의 함수에 대한 지원을 추가합니다. SchemaTuple 최적화, 새로운 연산자 등 자세한 내용은 단원을 참조하십시오.Pig 0.11.1 변경 로그.

0.9.2.2

릴리스 정보

설명서

2.2 이상

--pig-versions 0.9.2.2

--ami-version 2.2

하둡 1.0.3에 대한 지원을 추가합니다.

0.9.2.1

릴리스 정보

설명서

2.2 이상

--pig-versions 0.9.2.1

--ami-version 2.2

MapR에 대한 지원을 추가합니다.

0.9.2

릴리스 정보

설명서

2.2 이상

--pig-versions 0.9.2

--ami-version 2.2

여러 성능 향상과 버그 수정을 포함합니다. Pig 0.9.2의 변경 사항에 대한 자세한 내용은 다음 단원을 참조하십시오.Pig 0.9.2 변경 로그.

0.9.1

릴리스 정보

설명서

2.0

--pig-versions 0.9.1

--ami-version 2.0

0.6

릴리스 정보

1.0

--pig-versions 0.6

--ami-version 1.0

0.3

릴리스 정보

1.0

--pig-versions 0.3

--ami-version 1.0

Pig 버전 세부 정보

Amazon EMR은 추가 Amazon EMR 패치가 적용되어 있을 수 있는 특정 Pig 릴리스를 지원합니다. Amazon EMR 클러스터에서 어떤 버전의 Pig를 실행할지를 구성할 수 있습니다. 이 작업을 수행하는 방법에 대한 자세한 내용은 Apache Pig 단원을 참조하십시오. 다음 단원에서는 다양한 Pig 버전과 Amazon EMR에 로드된 버전에 적용되는 패치에 대해 설명합니다.

Pig 패치

이 단원에서는 Amazon EMR에서 사용할 수 있는 Pig 버전에 적용되는 사용자 지정 패치에 대해 설명합니다.

Pig 0.11.1.1 패치

버전의 Pig 0.11.1.1은 다음을 사용하여 LOAD 명령의 성능을 향상하는 유지 관리 릴리스입니다. PigStorage 입력이 Amazon S3 있는 경우

Pig 0.11.1 패치

버전의 Pig 0.11.1에는 Apache Software Foundation에서 제공하는 모든 업데이트와 Pig 버전 0.9.2.2 이후의 누적 아마존 EMR 패치가 포함됩니다. 하지만 Pig 0.11.1에는 새로운 Amazon EMR 용 패치가 없습니다.

Pig 0.9.2 패치

Apache Pig 0.9.2는 Pig의 유지 관리 릴리스입니다. 아마존 EMR 팀은 다음 패치를 Amazon EMR 버전의 Pig 0.9.2에 적용했습니다.

패치 설명
PIG-1429

부울 데이터 형식을 Pig에 첫 번째 클래스 데이터 형식으로 추가합니다. 자세한 내용은 https://issues.apache.org/jira/browse/PIG-1429를 참조하십시오.

상태: 커밋

Apache Pig 버전에서 수정됨: 0.10

PIG-1824

Jython UDF에서 모듈 가져오기를 지원합니다. 자세한 내용은 https://issues.apache.org/jira/browse/PIG-1824를 참조하십시오.

상태: 커밋

Apache Pig 버전에서 수정됨: 0.10

PIG-2010

분산 캐시에 등록된 JAR을 번들링합니다. 자세한 내용은 https://issues.apache.org/jira/browse/PIG-2010를 참조하십시오.

상태: 커밋

Apache Pig 버전에서 수정됨: 0.11

PIG-2456

사용자가 기본 Pig 문을 지정할 수 있는 ~/.pigbootup 파일을 추가합니다. 자세한 내용은 https://issues.apache.org/jira/browse/PIG-2456를 참조하십시오.

상태: 커밋

Apache Pig 버전에서 수정됨: 0.11

PIG-2623

Amazon S3 경로를 사용하여 UDF를 등록하는 작업을 Support. 자세한 내용은 https://issues.apache.org/jira/browse/PIG-2623를 참조하십시오.

상태: 커밋

Apache Pig 버전에서 수정됨: 0.10, 0.11

Pig 0.9.1 패치

아마존 EMR 팀은 다음 패치를 Pig 0.9.1의 아마존 EMR 버전에 적용했습니다.

패치 설명
dfs에서 JAR 파일 및 Pig 스크립트 지원

HDFS, Amazon S3 또는 기타 분산 파일 시스템에 저장된 스크립트 실행 및 JAR 파일 등록에 대한 지원을 추가했습니다. 자세한 내용은 https://issues.apache.org/jira/browse/PIG-1505를 참조하십시오.

상태: 커밋

Apache Pig 버전에서 수정됨: 0.8.0

Pig에서 다중 파일 시스템 지원

한 파일 시스템에서 데이터를 읽고 다른 파일 시스템에 쓰는 Pig 스크립트에 대한 지원을 추가합니다. 자세한 내용은 https://issues.apache.org/jira/browse/PIG-1564를 참조하십시오.

상태: COMMIT

Apache Pig 버전에서 수정됨: 해당 사항 없음

Piggybank 날짜/시간 및 문자열 UDF 추가

사용자 지정 Pig 스크립트를 지원하기 위해 날짜/시간 및 문자열 UDF를 추가합니다. 자세한 내용은 https://issues.apache.org/jira/browse/PIG-1565를 참조하십시오.

상태: COMMIT

Apache Pig 버전에서 수정됨: 해당 사항 없음

인터랙티브 및 배치 Pig 클러스터

Amazon EMR 사용하면 Pig 스크립트를 두 가지 모드로 실행할 수 있습니다.

  • 대화형

  • Batch

AWS CLI 또는 콘솔을 사용하여 장기 실행 클러스터를 시작하면 ssh를 사용하여 마스터 노드에 Hadoop 사용자로 연결할 수 있으며, Grunt 셸을 사용하여 Pig 스크립트를 대화형으로 개발 및 실행할 수 있습니다. Pig를 대화형으로 사용하면 배치 모드보다 더 쉽게 Pig 스크립트를 수정할 수 있습니다. 대화형 모드에서 Pig 스크립트를 수정한 후에는 스크립트를 Amazon S3 업로드하고 배치 모드를 사용하여 프로덕션에서 스크립트를 실행할 수 있습니다. 또한 실행 중인 클러스터에서 대화형으로 Pig 명령을 제출하여 필요에 따라 분석하고 변환할 수 있습니다.

배치 모드에서는 Pig 스크립트를 Amazon S3 업로드한 다음 작업을 단계로서 클러스터에 제출합니다. 장기 실행 클러스터 또는 일시적 클러스터에 Pig 단계를 제출할 수 있습니다.