기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
이전 AMI 버전의 Amazon에 대한 Pig 애플리케이션 세부 사항 EMR
지원되는 Pig 버전
클러스터에 추가할 수 있는 Pig 버전은 Amazon EMR AMI 버전과 사용 중인 하둡 버전에 따라 다릅니다. 아래 표는 다양한 AMI 버전의 Pig와 호환되는 Hadoop 버전 및 버전을 보여줍니다. 사용 가능한 최신 버전의 Pig를 사용하여 성능 향상 및 새로운 기능을 활용하는 것이 좋습니다.
를 사용하여 API Pig를 설치할 때는 를 호출하는 동안 클러스터에 Pig를 로드하는 단계를 --pig-versions
인수로 지정하지 않는 한 기본 버전이 사용됩니다. RunJobFlow
Pig 버전 | AMI버전 | 구성 파라미터 | Pig 버전 세부 정보 |
---|---|---|---|
0.12.0 | 3.1.0 이상 |
|
다음에 대한 지원을 추가합니다.
|
0.11.1.1 | 2.2 이상 |
|
입력이 Amazon S3에 있는 PigStorage 경우 LOAD 명령 성능을 개선합니다. |
0.11.1 | 2.2 이상 |
|
JDK7, 하둡 2, Groovy 사용자 정의 함수, SchemaTuple 최적화, 새 연산자 등에 대한 지원을 추가합니다. 자세한 내용은 Pig 0.11.1 change log |
0.9.2.2 | 2.2 이상 |
|
하둡 1.0.3에 대한 지원을 추가합니다. |
0.9.2.1 | 2.2 이상 |
|
MapR에 대한 지원을 추가합니다. |
0.9.2 | 2.2 이상 |
|
여러 성능 향상과 버그 수정을 포함합니다. Pig 0.9.2 변경에 대한 전체 정보는 Pig 0.9.2 change log |
0.9.1 | 2.0 |
|
|
0.6 | 1.0 |
|
|
0.3 | 1.0 |
|
Pig 버전 세부 정보
Amazon은 추가 Amazon EMR 패치가 적용될 수 있는 특정 Pig 릴리스를 EMR 지원합니다. Amazon EMR 클러스터에서 실행할 Pig 버전을 구성할 수 있습니다. 이 작업을 수행하는 방법에 대한 자세한 내용은 Apache Pig 단원을 참조하세요. 다음 섹션에서는 Amazon에 로드된 버전에 적용되는 다양한 Pig 버전과 패치에 대해 설명합니다EMR.
Pig 패치
이 섹션에서는 Amazon에서 사용할 수 있는 Pig 버전에 적용되는 사용자 지정 패치를 설명합니다EMR.
Pig 0.11.1.1 패치
Amazon EMR 버전의 Pig 0.11.1.1은 입력이 Amazon S3에 있는 PigStorage 경우 LOAD 명령 성능을 개선하는 유지 관리 릴리스입니다.
Pig 0.11.1 패치
아마존 EMR 버전의 Pig 0.11.1에는 아파치 소프트웨어 재단에서 제공하는 모든 업데이트와 Pig 버전 0.9.2.2의 누적 Amazon EMR 패치가 포함되어 있습니다. 그러나 Pig 0.11.1에는 새로운 아마존 EMR 전용 패치가 없습니다.
Pig 0.9.2 패치
Apache Pig 0.9.2는 Pig의 유지 관리 릴리스입니다. 아마존 EMR 팀은 아마존 EMR 버전의 Pig 0.9.2에 다음 패치를 적용했습니다.
패치 | 설명 |
---|---|
PIG-1429 |
부울 데이터 형식을 Pig에 첫 번째 클래스 데이터 형식으로 추가합니다. 자세한 내용은 https://issues.apache.org/jira/browse/ -1429를 참조하십시오 PIG 상태: 커밋됨 Apache Pig 버전에서 수정됨: 0.10 |
PIG-1824 |
UDFJython에서 임포트 모듈을 지원합니다. 자세한 내용은 https://issues.apache.org/jira/browse/ -1824를 참조하십시오 PIG 상태: 커밋됨 Apache Pig 버전에서 수정됨: 0.10 |
PIG-2010 |
분산 캐시에 번들이 등록되었습니다JARs. 자세한 내용은 https://issues.apache.org/jira/browse/ PIG -2010을 참조하십시오 상태: 커밋됨 Apache Pig 버전에서 수정됨: 0.11 |
PIG-2456 |
사용자가 기본 Pig 문을 지정할 수 있는 ~/.pigbootup 파일을 추가합니다. 자세한 내용은 https://issues.apache.org/jira/browse/ -2456을 참조하십시오 PIG 상태: 커밋됨 Apache Pig 버전에서 수정됨: 0.11 |
PIG-2623 |
Support는 Amazon S3 경로를 사용하여 등록할 수 있도록 지원합니다UDFs. 자세한 내용은 https://issues.apache.org/jira/browse/ PIG -2623을 참조하십시오 상태: 커밋됨 Apache Pig 버전에서 수정됨: 0.10, 0.11 |
Pig 0.9.1 패치
아마존 EMR 팀은 아마존 EMR 버전의 Pig 0.9.1에 다음 패치를 적용했습니다.
패치 | 설명 |
---|---|
JARdfs의 지원 파일 및 Pig 스크립트 |
Amazon S3 또는 기타 분산 JAR 파일 시스템에 저장된 스크립트 실행 및 파일 등록에 HDFS 대한 지원을 추가합니다. 자세한 내용은 https://issues.apache.org/jira/browse/ PIG -1505를 참조하십시오 상태: 커밋됨 Apache Pig 버전에서 수정됨: 0.8.0 |
Pig에서 다중 파일 시스템 지원 |
한 파일 시스템에서 데이터를 읽고 다른 파일 시스템에 쓰는 Pig 스크립트에 대한 지원을 추가합니다. 자세한 내용은 https://issues.apache.org/jira/browse/ PIG 상태: 커밋 안 됨 Apache Pig 버전에서 수정됨: 해당 사항 없음 |
피기뱅크 날짜/시간 및 문자열 추가 UDFs |
날짜/시간 및 문자열을 UDFs 추가하여 사용자 지정 Pig 스크립트를 지원합니다. 자세한 내용은 https://issues.apache.org/jira/browse/ PIG -1565를 참조하십시오 상태: 커밋 안 됨 Apache Pig 버전에서 수정됨: 해당 사항 없음 |
대화형 및 배치 Pig 클러스터
EMRAmazon에서는 Pig 스크립트를 두 가지 모드로 실행할 수 있습니다.
-
대화형
-
배치
콘솔 또는 를 사용하여 장기 실행 클러스터를 시작하는 경우 를 Hadoop 사용자로 마스터 노드에 연결하고 Grunt 셸을 사용하여 ssh 대화형 방식으로 Pig 스크립트를 개발하고 실행할 수 있습니다. AWS CLI Pig를 대화형으로 사용하면 배치 모드보다 더 쉽게 Pig 스크립트를 수정할 수 있습니다. 대화형 모드에서 Pig 스크립트를 수정한 후 스크립트를 Amazon S3에 업로드하고 배치 모드를 사용하여 프로덕션에서 스크립트를 실행할 수 있습니다. 또한 실행 중인 클러스터에서 대화형으로 Pig 명령을 제출하여 필요에 따라 분석하고 변환할 수 있습니다.
배치 모드에서 Pig 스크립트를 Amazon S3에 업로드한 다음, 작업을 클러스터에 하나의 단계로 제출합니다. 장기 실행 클러스터 또는 일시적 클러스터에 Pig 단계를 제출할 수 있습니다.