이전 AMI 버전의 Amazon에 대한 Pig 애플리케이션 세부 사항 EMR - 아마존 EMR

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

이전 AMI 버전의 Amazon에 대한 Pig 애플리케이션 세부 사항 EMR

지원되는 Pig 버전

클러스터에 추가할 수 있는 Pig 버전은 Amazon EMR AMI 버전과 사용 중인 하둡 버전에 따라 다릅니다. 아래 표는 다양한 AMI 버전의 Pig와 호환되는 Hadoop 버전 및 버전을 보여줍니다. 사용 가능한 최신 버전의 Pig를 사용하여 성능 향상 및 새로운 기능을 활용하는 것이 좋습니다.

를 사용하여 API Pig를 설치할 때는 를 호출하는 동안 클러스터에 Pig를 로드하는 단계를 --pig-versions 인수로 지정하지 않는 한 기본 버전이 사용됩니다. RunJobFlow

Pig 버전 AMI버전 구성 파라미터 Pig 버전 세부 정보
0.12.0

릴리스 정보

설명서

3.1.0 이상

--ami-version 3.1

--ami-version 3.2

--ami-version 3.3

다음에 대한 지원을 추가합니다.

  • JVM구현이 UDFs 필요 없는 스트리밍

  • ASSERT및 IN 연산자

  • CASE표현식

  • AvroStorage Pig 내장 함수로.

  • ParquetLoader 내장 함수로 ParquetStorer

  • BigInteger 및 BigDecimal 유형

0.11.1.1

릴리스 정보

설명서

2.2 이상

--pig-versions 0.11.1.1

--ami-version 2.2

입력이 Amazon S3에 있는 PigStorage 경우 LOAD 명령 성능을 개선합니다.

0.11.1

릴리스 정보

설명서

2.2 이상

--pig-versions 0.11.1

--ami-version 2.2

JDK7, 하둡 2, Groovy 사용자 정의 함수, SchemaTuple 최적화, 새 연산자 등에 대한 지원을 추가합니다. 자세한 내용은 Pig 0.11.1 change log를 참조하세요.

0.9.2.2

릴리스 정보

설명서

2.2 이상

--pig-versions 0.9.2.2

--ami-version 2.2

하둡 1.0.3에 대한 지원을 추가합니다.

0.9.2.1

릴리스 정보

설명서

2.2 이상

--pig-versions 0.9.2.1

--ami-version 2.2

MapR에 대한 지원을 추가합니다.

0.9.2

릴리스 정보

설명서

2.2 이상

--pig-versions 0.9.2

--ami-version 2.2

여러 성능 향상과 버그 수정을 포함합니다. Pig 0.9.2 변경에 대한 전체 정보는 Pig 0.9.2 change log를 참조하세요.

0.9.1

릴리스 정보

설명서

2.0

--pig-versions 0.9.1

--ami-version 2.0

0.6

릴리스 정보

1.0

--pig-versions 0.6

--ami-version 1.0

0.3

릴리스 정보

1.0

--pig-versions 0.3

--ami-version 1.0

Pig 버전 세부 정보

Amazon은 추가 Amazon EMR 패치가 적용될 수 있는 특정 Pig 릴리스를 EMR 지원합니다. Amazon EMR 클러스터에서 실행할 Pig 버전을 구성할 수 있습니다. 이 작업을 수행하는 방법에 대한 자세한 내용은 Apache Pig 단원을 참조하세요. 다음 섹션에서는 Amazon에 로드된 버전에 적용되는 다양한 Pig 버전과 패치에 대해 설명합니다EMR.

Pig 패치

이 섹션에서는 Amazon에서 사용할 수 있는 Pig 버전에 적용되는 사용자 지정 패치를 설명합니다EMR.

Pig 0.11.1.1 패치

Amazon EMR 버전의 Pig 0.11.1.1은 입력이 Amazon S3에 있는 PigStorage 경우 LOAD 명령 성능을 개선하는 유지 관리 릴리스입니다.

Pig 0.11.1 패치

아마존 EMR 버전의 Pig 0.11.1에는 아파치 소프트웨어 재단에서 제공하는 모든 업데이트와 Pig 버전 0.9.2.2의 누적 Amazon EMR 패치가 포함되어 있습니다. 그러나 Pig 0.11.1에는 새로운 아마존 EMR 전용 패치가 없습니다.

Pig 0.9.2 패치

Apache Pig 0.9.2는 Pig의 유지 관리 릴리스입니다. 아마존 EMR 팀은 아마존 EMR 버전의 Pig 0.9.2에 다음 패치를 적용했습니다.

패치 설명
PIG-1429

부울 데이터 형식을 Pig에 첫 번째 클래스 데이터 형식으로 추가합니다. 자세한 내용은 https://issues.apache.org/jira/browse/ -1429를 참조하십시오 PIG.

상태: 커밋됨

Apache Pig 버전에서 수정됨: 0.10

PIG-1824

UDFJython에서 임포트 모듈을 지원합니다. 자세한 내용은 https://issues.apache.org/jira/browse/ -1824를 참조하십시오 PIG.

상태: 커밋됨

Apache Pig 버전에서 수정됨: 0.10

PIG-2010

분산 캐시에 번들이 등록되었습니다JARs. 자세한 내용은 https://issues.apache.org/jira/browse/ PIG -2010을 참조하십시오.

상태: 커밋됨

Apache Pig 버전에서 수정됨: 0.11

PIG-2456

사용자가 기본 Pig 문을 지정할 수 있는 ~/.pigbootup 파일을 추가합니다. 자세한 내용은 https://issues.apache.org/jira/browse/ -2456을 참조하십시오 PIG.

상태: 커밋됨

Apache Pig 버전에서 수정됨: 0.11

PIG-2623

Support는 Amazon S3 경로를 사용하여 등록할 수 있도록 지원합니다UDFs. 자세한 내용은 https://issues.apache.org/jira/browse/ PIG -2623을 참조하십시오.

상태: 커밋됨

Apache Pig 버전에서 수정됨: 0.10, 0.11

Pig 0.9.1 패치

아마존 EMR 팀은 아마존 EMR 버전의 Pig 0.9.1에 다음 패치를 적용했습니다.

패치 설명
JARdfs의 지원 파일 및 Pig 스크립트

Amazon S3 또는 기타 분산 JAR 파일 시스템에 저장된 스크립트 실행 및 파일 등록에 HDFS 대한 지원을 추가합니다. 자세한 내용은 https://issues.apache.org/jira/browse/ PIG -1505를 참조하십시오.

상태: 커밋됨

Apache Pig 버전에서 수정됨: 0.8.0

Pig에서 다중 파일 시스템 지원

한 파일 시스템에서 데이터를 읽고 다른 파일 시스템에 쓰는 Pig 스크립트에 대한 지원을 추가합니다. 자세한 내용은 https://issues.apache.org/jira/browse/ PIG -1564를 참조하십시오.

상태: 커밋 안 됨

Apache Pig 버전에서 수정됨: 해당 사항 없음

피기뱅크 날짜/시간 및 문자열 추가 UDFs

날짜/시간 및 문자열을 UDFs 추가하여 사용자 지정 Pig 스크립트를 지원합니다. 자세한 내용은 https://issues.apache.org/jira/browse/ PIG -1565를 참조하십시오.

상태: 커밋 안 됨

Apache Pig 버전에서 수정됨: 해당 사항 없음

대화형 및 배치 Pig 클러스터

EMRAmazon에서는 Pig 스크립트를 두 가지 모드로 실행할 수 있습니다.

  • 대화형

  • 배치

콘솔 또는 를 사용하여 장기 실행 클러스터를 시작하는 경우 를 Hadoop 사용자로 마스터 노드에 연결하고 Grunt 셸을 사용하여 ssh 대화형 방식으로 Pig 스크립트를 개발하고 실행할 수 있습니다. AWS CLI Pig를 대화형으로 사용하면 배치 모드보다 더 쉽게 Pig 스크립트를 수정할 수 있습니다. 대화형 모드에서 Pig 스크립트를 수정한 후 스크립트를 Amazon S3에 업로드하고 배치 모드를 사용하여 프로덕션에서 스크립트를 실행할 수 있습니다. 또한 실행 중인 클러스터에서 대화형으로 Pig 명령을 제출하여 필요에 따라 분석하고 변환할 수 있습니다.

배치 모드에서 Pig 스크립트를 Amazon S3에 업로드한 다음, 작업을 클러스터에 하나의 단계로 제출합니다. 장기 실행 클러스터 또는 일시적 클러스터에 Pig 단계를 제출할 수 있습니다.