Amazon EMR 6.6.0 - Hive 릴리스 정보 - Amazon EMR

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon EMR 6.6.0 - Hive 릴리스 정보

Amazon EMR 6.6.0 - Hive 변경

유형 설명
업그레이드

Parquet을 1.12.1로 업그레이드합니다.

업그레이드

jetty jars 버전을 9.4.43.v20210629로 업그레이드

버그 Hive 클러스터에서 LLAP가 활성화되었을 때 모든 태스크 및 코어 노드에 Hive가 설치되는 문제를 수정했습니다.
백포트 HIVE-25942: CVE-2021-29425 때문에 commons-io를 2.8.0으로 업그레이드
백포트 HIVE-25726: CVE-2020-13936 때문에 velocity를 2.3으로 업그레이드
백포트 HIVE-25680: HiveMetaStore 인증 모델을 사용하도록 #get_table_meta HiveMetaStore Server API에 권한을 부여합니다.
백포트 HIVE-25554: arrow 버전을 0.15로 업그레이드
백포트 HIVE-25242: vectorized.adaptor = chosen으로 쿼리 성능이 매우 저하됨
백포트 HIVE-25085: 메타스토어 클라이언트는 더 이상 세션 간에 공유되지 않음
백포트 HIVE-24827: Hive 집계 쿼리가 텍스트 파일이 아닌 잘못된 결과를 반환합니다.
백포트 HIVE-24683: 존재하지 않는 경로에 대해 Hadoop23Shim getFileId에서 NPE가 발생할 수 있음
백포트 HIVE-24656: 맵 및 배열 유형이 null인 쿼리에서 CBO 실패
백포트 HIVE-24556: 손자 항목이 없는 케이스에 대해 DefaultGraphWalker 최적화
백포트 HIVE-24408: Parquet을 1.11.1로 업그레이드
백포트 HIVE-24391: branch-3.1에서 FIX TestOrcFile 수정
백포트 HIVE-24362: 노드 수가 많은 트리에 대해 AST 트리 처리가 최적화된 상태가 아님
백포트 HIVE-24316: branch-3.1에서 ORC를 1.5.6에서 1.5.8로 업그레이드
백포트 HIVE-24307: property-file 및 -e 파라미터를 포함하는 Beeline 실패
백포트 HIVE-24245: 파티션에서 count 및 distinct를 포함하는 벡터화된 PTF로 인해 잘못된 결과가 생성됩니다.
백포트 HIVE-24224: 압축 파일에서 Tez 기반 Hive에 대한 머리글 및 바닥글을 건너뛰는 문제 수정
백포트 HIVE-24157: CAST 타임스탬프 ↔ 숫자에서 엄격한 모드 실패
백포트 HIVE-24113: GenericUDFToUnixTimeStamp에서 NPE
백포트 HIVE-23987: arrow 버전을 0.11.0으로 업그레이드
백포트 HIVE-23972: LLAP 외부 클라이언트에 외부 클라이언트 ID 추가
백포트 HIVE-23806: 스키마가 확장되는 경우 모든 파티션의 열 통계 상태 지우기 방지 이렇게 하면 alter table add columns 문의 런타임이 향상됩니다.
백포트 HIVE-23779: beeline 콘솔에서 BasicStatsTask 정보가 인쇄되지 않음
백포트 HIVE-23306: System.getProperty에 의해 설정된 구성이 있는 경우 RESET 명령이 작동하지 않음
백포트 HIVE-23164: 대몬(daemon) 스레드가 아니므로 서버가 올바르게 종료되지 않음
백포트 HIVE-22967: Tez 기반 Hive에 대해 hive.reloadable.aux.jars.path 지원
백포트 HIVE-22934: 오류 스트림에 대한 Hive 서버 대화형 로그 카운터
백포트 HIVE-22901: 변수 대체로 순환 참조에서 OOM이 발생할 수 있음
백포트 HIVE-22769: 압축된 텍스트 파일의 분할 생성 중 잘못된 쿼리 결과 및 쿼리 실패
백포트 HIVE-22716: ByteBuffer로의 읽기가 ParquetFooterInputFromCache에서 중단됨
백포트 HIVE-22648: Parquet을 1.11.0으로 업그레이드
백포트 HIVE-22640: Decimal64ColumnVector: 파티션 열 유형이 십진수인 경우 ClassCastException 발생
백포트 HIVE-22621: 불안정한 테스트 케이스: TestLlapSignerImpl.testSigning
백포트 HIVE-22533: 잠재적 LLAP 대몬(daemon) 웹 UI 취약성 수정
백포트 HIVE-22532: PTFPPD가 Rank, DenseRank 함수를 통해 제한을 잘못 푸시할 수 있음
백포트 HIVE-22514: HiveProtoLoggingHook에서 너무 많은 메모리를 소비할 수 있음
백포트 HIVE-22476: hive.fetch.task.conversio이 none으로 설정된 경우 Hive datediff 함수에서 일관되지 않은 결과를 제공함
백포트 HIVE-22429: hive 3에서 bucketing_version 1을 사용하는 마이그레이션된 클러스터형 테이블에서 삽입 시 bucketing_version 2 사용
백포트 HIVE-22412: explain 수행 시 StatsUtils에서 NPE 발생
백포트 HIVE-22360: 로드된 파일이 열이 테이블 스키마의 열보다 많은 경우 MultiDelimitserde가 마지막 열에 잘못된 결과를 반환함
백포트 HIVE-22332: Hive는 ORC-540 이후 유효한 스키마 진화 설정을 보장해야 함
백포트 HIVE-22331: 인수가 없는 unix_timestamp는 타임스탬프를 초 대신 밀리초 단위로 반환함
백포트 HIVE-22275: OperationManager.queryIdOperation이 여러 queryId를 올바르게 정리하지 않음
백포트 HIVE-22273: 임시 디렉터리가 제거되면 액세스 확인이 실패함
백포트 HIVE-22270: commons-io를 2.6으로 업그레이드
백포트 HIVE-22241: 내부 표현과 그레고리력-율리우스력 혼합 캘린더를 사용하여 날짜와 타임스탬프를 해석하도록 UDF 구현
백포트 HIVE-22241: 내부 표현과 그레고리력-율리우스력 혼합 항목을 사용하여 날짜와 타임스탬프를 해석하도록 UDF 구현
백포트 HIVE-22232: hive.order.columnalignment를 false로 설정한 경우 NPE
백포트 HIVE-22231: knox를 통한 큰 Hive쿼리에서 중단된 파이프 쓰기로 실패
백포트 HIVE-22221: LLAP 외부 클라이언트 - LlapBaseInputFormat#getSplits를 줄여야 함
백포트 HIVE-22208: 마스크 열이 있는 테이블에서 조인을 포함한 쿼리를 다시 작성할 때 예약된 키워드가 있는 열 이름의 이스케이프 처리가 해제됨
백포트 HIVE-22197: 일반 병합 조인에서 클래스 캐스트 예외가 발생합니다.
백포트 HIVE-22170: from_unixtime 및 unix_timestamp에서 사용자 세션 시간대를 사용해야 함
백포트 HIVE-22169: Tez: SplitGenerator에서 Tez에 없는 계획 파일을 찾으려고 함
백포트 HIVE-22168: llap cache hotpath에서 비용이 많이 드는 로깅 제거
백포트 HIVE-22161: UDF: org.apache.hadoop.hive.ql.udf.UDFType 클래스에서 FunctionRegistry 동기화
백포트 HIVE-22120: 특정 경계 조건에서 왼쪽 외부 맵 조인의 잘못된 결과 및 ArraOutOfBound 예외 수정
백포트 HIVE-22115: 속성이 false로 설정된 경우 쿼리 라우팅 어펜더 생성 방지
백포트 HIVE-22113: AMReporter 관련 RuntimeException에서 LLAP 종료 방지
백포트 HIVE-22106: 파티션 평가에 대한 교차 쿼리 동기화 제거
백포트 HIVE-22099: HIVE-20007 이후 여러 날짜 관련 UDF에서 율리우스력 날짜를 제대로 처리할 수 없음
백포트 HIVE-22037: OOM으로 인해 종료 시 HS2에서 로깅해야 함
백포트 HIVE-21976: Calcite HiveSortLimit에서 오프셋은 0 대신 null이어야 함
백포트 HIVE-21924: 머리글과 바닥글이 있어도 텍스트 파일 분할
백포트 HIVE-21913: GenericUDTFGetSplits는 LLAP와 동일한 방식으로 사용자 이름을 처리해야 함
백포트 HIVE-21905: FetchOperator 클래스 관련 제네릭 개선
백포트 HIVE-21902: HiveServer2 UI: jetty 응답 헤더에 X-Frame-Options가 필요함
백포트 HIVE-21888: hive.parquet.timestamp.skip.conversion 기본값을 true로 설정
백포트 HIVE-21868: CAST...FORMAT 벡터화
백포트 HIVE-21864: LlapBaseInputFormat#closeAll
백포트 HIVE-21863: WHEN 표현식을 위한 벡터라이저 유형 캐스팅 개선
백포트 HIVE-21862: ORC ppd가 타임스탬프와 함께 잘못된 결과를 생성함
백포트 HIVE-21846: LapDaemon 지표를 주기적으로 가져오는 스레드를 TeZam에 생성
백포트 HIVE-21837: 선택한 열의 값이 모두 null인 경우 MapJoin에서 예외 발생
백포트 HIVE-21834: 필터 조건을 단순화하기 위한 불필요한 직접 호출 방지
백포트 HIVE-21832: 평균 대기열, 지원, 응답 시간을 구하는 새로운 지표
백포트 HIVE-21827: SemanticAnalyzer에서 여러 직접 호출이 getTableObjectByName 메서드를 통과하지 않음
백포트 HIVE-21822: 새 API 메서드를 통해 LlapDaemon 지표 노출
백포트 HIVE-21818: CBO: TableRelOptHiveTable 복사 중 메타스토어 트래픽 포함
백포트 HIVE-21815: ORC 파일의 통계는 두 번 구문 분석됨
백포트 HIVE-21805: HiveServer2: 빠른 ShutdownHookManager API 사용
백포트 HIVE-21799: 조인 키가 집계 열에 있는 경우 DynamicPartitionPruningOptimization에서 NullPointerException 발생
백포트 HIVE-21794: 구체화된 뷰 파라미터를 sqlStdAuthSafeVarNameRegexes에 추가
백포트 HIVE-21768: JDBC: 포함되지 않은 UNION 쿼리의 기본 집합 접두사 제거
백포트 HIVE-21746: CBO가 비활성화된 상태로 동적으로 파티셔닝된 해시 조인 중 ArrayIndexOutOfBoundsException 발생
백포트 HIVE-21717: 이동 작업 중 디렉터리 이름 바꾸기에 실패했습니다.
백포트 HIVE-21685: IN 절이 여러 개 있는 쿼리의 단순화가 잘못됨
백포트 HIVE-21681: 여러 프라이머리 키에 대해 서식이 지정된 설명에 잘못된 정보가 표시됨
백포트 HIVE-21651: protobuf serde를 hive-exec로 이동합니다.
백포트 HIVE-21619: SQL explain extended에서 정밀도가 없는 타임스탬프 유형 인쇄
백포트 HIVE-21592: 표현식에 CONCAT가 포함된 경우 최적화된 SQL이 표시되지 않음
백포트 HIVE-21576: CAST...FORMAT 및 SQL:2016 날짜 시간 형식의 제한된 목록 도입
백포트 HIVE-21573: 인증이 delegationToken으로 설정된 경우 바이너리 전송은 보안 주체를 무시해야 함
백포트 HIVE-21550: TestObjectStore 테스트가 불안정함 - 요청된 시간 안에 잠금을 얻을 수 없음
백포트 HIVE-21544: 접는 동안 일정한 전파에서 coalesce, case, when 표현식 손상
백포트 HIVE-21539: 동일한 열에서 GroupBy + where 절 사용 시 잘못된 쿼리 재작성
백포트 HIVE-21538: Beeline: 콘솔 리더를 통해 암호 소스가 연결 파라미터에 전달되지 않음
백포트 HIVE-21509: LLAP가 손상된 열 벡터를 캐시하고 잘못된 쿼리 결과를 반환할 수 있음
백포트 HIVE-21499: AlreadyExistsException으로 인해 create 명령에 실패한 경우 레지스트리에서 함수를 제거해서는 안 됨
백포트 HIVE-21496: 정렬되지 않은 버퍼의 자동 크기 조정이 오버플로우될 수 있음
백포트 HIVE-21468: JDBC 스토리지 핸들러의 식별자 이름에서 대소문자 구분
백포트 HIVE-21467: 지원 중단된 junit.framework.Assert 가져오기 제거
백포트 HIVE-21435: LlapBaseInputFormat은 SubmitWorkRequestProto 빌드 중 TASK_ATTEMPT_ID conf(있는 경우)에서 작업 번호를 가져와야 함
백포트 HIVE-21389: HIVE-21247 이후 Hive 분배에서 javax.ws.rs-api.jar 누락
백포트 HIVE-21385: 분할할 수 없는 계산을 JDBC 소스로 푸시다운하는 기능을 비활성화할 수 있음
백포트 HIVE-21383: JDBC 스토리지 핸들러: 지정된 경우 카탈로그 및 스키마를 사용하여 테이블 검색
백포트 HIVE-21382: Group by 키 감소 최적화 - query23에서 키가 감소하지 않음
백포트 HIVE-21362: protobuf 파일에서 읽을 수 있도록 입력 형식 및 serde를 추가합니다.
백포트 HIVE-21340: CBO: SemiJoin에 입력되는 키가 아닌 열 정리
백포트 HIVE-21332: 잠긴 버퍼 대신 잠기지 않은 버퍼 제거
백포트 HIVE-21329: 운영자 파이프라인에 따라 사용자 지정 Tex 런타임에서 출력 버퍼 크기를 정렬하지 않음
백포트 HIVE-21295: StorageHandler는 Hive 규칙을 사용하여 날짜를 문자열로 변환해야 함
백포트 HIVE-21294: 벡터화: 1-reducer 셔플에서 객체 해시 함수를 건너뛸 수 있음
백포트 HIVE-21255: JdbcStorageHandler에서 QueryConditionBuilder 제거
백포트 HIVE-21253: JDBC StorageHandler에서 DB2 지원
백포트 HIVE-21232: LLAP: cache-miss 친화적 분할 선호도 공급자 추가
백포트 HIVE-21214: MoveTask : compareTempOrDuplicateFiles 파일 중복 제거에 대한 파일 크기 대신, attemptId 사용
백포트 HIVE-21184: 비용 정보와 함께 explain 및 explain 서식 지정된 CBO 계획 추가
백포트 HIVE-21182: 계획 중에 hive scratch dir 설정 건너뛰기
백포트 HIVE-21171: RPC가 켜져 있는 경우 tez용 스크래치 디렉터리 생성 건너뛰기
백포트 HIVE-21126: LlapBaseInputFormat#getSplit에서 세션 수준 쿼리 허용
백포트 HIVE-21107: 동적으로 분할된 해시 조인 중 'Cannot find field' 오류 발생
백포트 HIVE-21061: 빈 소스에 대해 IllegalStateException으로 CTAS 쿼리 실패
백포트 HIVE-21041: NPE, 논리적 계획에서 스키마를 가져오는 중 ParseException
백포트 HIVE-21013: JdbcStorageHandler가 Oracle에서 파티션 열을 찾지 못함
백포트 HIVE-21006: 재활용 기회가 있을 때 세미조인을 제거하도록 SharedWorkOptimizer 확장
백포트 HIVE-20992: hive.metastore.dbaccess.ssl.properties 구성을 더 유용한 구성으로 분할
백포트 HIVE-20989: JDBC - GetOperationStatus + 로그는 절전 모드를 통해 쿼리 진행을 차단할 수 있음
백포트 HIVE-20988: 프라이머리 키가 여러 열에 있는 group by 쿼리의 잘못된 결과
백포트 HIVE-20985: select 연산자 입력이 임시 열인 경우 벡터화로 일부가 출력으로 재사용될 수 있음
백포트 HIVE-20978: 'hive.jdbc.*'를 sqlStdAuthSafeVarNameRegexes에 추가해야 함
백포트 HIVE-20953: 생성 시 메타스토어에 추가할 수 없는 경우 함수 레지스트리에서 함수를 제거합니다.
백포트 HIVE-20952: VectorizationContext.java 정리
백포트 HIVE-20951: LLAP: 항상 Xms를 50%로 설정
백포트 HIVE-20949: 실제 계획에서 PKFK 카디널리티 추정 개선
백포트 HIVE-20944: 쿼리 컴파일 중에 통계를 검증하지 않음
백포트 HIVE-20940: Calcite의 유형 확인이 Hive보다 더 엄격한 케이스를 연결합니다.
백포트 HIVE-20937: Postgres jdbc 쿼리가 'LIMIT must not be negative'로 실패
백포트 HIVE-20926: bloom 필터 항목이 너무 높거나 통계가 없는 경우 세미조인 감소 힌트 실패
백포트 HIVE-20920: SQL 제약 조건을 사용하여 조인 재정렬 알고리즘 개선
백포트 HIVE-20918: Calcite에서 JDBC 연결로의 계산 푸시다운을 활성화하거나 비활성화하는 플래그
백포트 HIVE-20915: HoS 및 MR에서 동적 정렬 파티션 최적화를 사용할 수 있도록 설정
백포트 HIVE-20910: 동적 파티션 정렬 최적화로 인해 버킷팅된 테이블에서 삽입 실패
백포트 HIVE-20899: LLAP YARN 서비스의 키탭 URI는 HDFS만 지원하도록 제한됨
백포트 HIVE-20898: 시간 관련 함수의 경우 인수를 null을 허용하지 않는 유형으로 캐스팅할 수 없음
백포트 HIVE-20881: 지속적 전파는 투영을 단순화함
백포트 HIVE-20880: hive.stats.filter.in.min.ratio에 대한 기본값 업데이트
백포트 HIVE-20873: VectorHashKeyWrapperTwoLong에 대한 Murmur 해시를 사용하여 해시 충돌 감소
백포트 HIVE-20868: TezDummyOperator의 MapRecordProcessor 내 getFinalOp에 하위 연산자가 있는 경우 간헐적으로 SMB 조인 실패
백포트 HIVE-20853: llap 대몬(daemon) API에서 ShuffleHandler.registerDag 노출
백포트 HIVE-20850: 가능한 경우 프로젝션에서 차원 테이블로 케이스 조건 푸시
백포트 HIVE-20842: group by의 통계를 추정하기 위해 HIVE-20660에 도입된 로직 수정
백포트 HIVE-20839: 동적으로 분할된 해시 조인 중 'Cannot find field' 오류 발생
백포트 HIVE-20835: 제약 조건과 MV 재작성 간의 상호 작용으로 Calcite 플래너에서 루프가 생성될 수 있음
백포트 HIVE-20834: 캐시된 쿼리에서 SemanticAnalyzer에 대한 참조를 유지하는 Hive QueryResultCache 항목
백포트 HIVE-20830: 경우에 따라 JdbcStorageHandler 범위 쿼리 어설션 실패
백포트 HIVE-20829: JdbcStorageHandler 범위 분할에서 NPE 발생
백포트 HIVE-20827: 빈 배열에서 일관되지 않은 결과
백포트 HIVE-20826: 왼쪽의 조인 + group by를 왼쪽 세미 조인으로 변환하도록 HiveSemiJoin 규칙 개선
백포트 HIVE-20821: SUM0을 SUM + COALESCE 조합으로 재작성
백포트 HIVE-20815: JdbcRecordReader.next에서 예외가 발생하지 않아야 함
백포트 HIVE-20813: udf to_epoch_milli는 시간대 없이 타임스탬프를 지원해야 합니다.
백포트 HIVE-20804: 제약 조건이 있는 group by 최적화 추가 개선
백포트 HIVE-20792: 영역이 포함된 타임스탬프를 삽입하면 데이터가 잘림
백포트 HIVE-20788: 확장된 SJ 감소에서 필터 생성 시 열을 잘못 역추적할 수 있음
백포트 HIVE-20778: 계획의 모든 조인이 상관 해제 로직에 의해 생성된 경우 조인 재정렬이 트리거되지 않을 수 있음
백포트 HIVE-20772: LLAP에서 작업별 CPU 카운터 기록
백포트 HIVE-20768: Tumbling Window UDF 추가
백포트 HIVE-20767: 조인 연산자 간의 여러 프로젝트가 제약 조건을 사용한 조인 재정렬에 영향을 미칠 수 있음
백포트 HIVE-20762: NOTIFICATION_LOG 정리 간격이 60초로 하드코딩되어 너무 짧음
백포트 HIVE-20761: notification_sequence 테이블에서 업데이트에 대한 선택에 재시도 간격이 있으며, 재시도 수가 너무 작음
백포트 HIVE-20751: arrow 버전을 0.10.0으로 업그레이드
백포트 HIVE-20746: HiveProtoHookLogger가 하루 마감 시 파일을 닫지 않음
백포트 HIVE-20744: SQL 제약 조건을 사용하여 조인 재정렬 알고리즘 개선
백포트 HIVE-20740: ObjectStore.setConf 메서드에서 글로벌 잠금을 제거합니다. 이 cherrypick은 Hive 3.2 및 4.x에서 3.1.x에 적용 가능한 HIVE-20740을 백포트합니다.
백포트 HIVE-20734: Beeline: beeline-site.xml이 있고 hive CLI가 beeline으로 리디렉션되면 프롬프트를 표시하는 대신, 시스템 사용자 이름, 더미 암호를 사용해야 함
백포트 HIVE-20731: JdbcStorageHandler의 키스토어 파일이 승인되어야 함
백포트 HIVE-20720: JDBC 핸들러에 파티션 열 옵션 추가
백포트 HIVE-20719: hive.optimize.sort.dynamic.partition 최적화 및 벡터화가 켜져 있을 때 SELECT 문이 UPDATE 이후 실패함
백포트 HIVE-20718: 제약 조건이 있는 성능 CLI 드라이버 추가
백포트 HIVE-20716: hive.cbo.stats.correlated.multi.key.joins의 기본값을 true로 설정
백포트 HIVE-20712: HivePointLookupOptimizer에서 딥 케이스를 추출해야 함
백포트 HIVE-20710: 일정한 접기 작업으로 유형이 없는 null 상수를 생성할 수 없음
백포트 HIVE-20706: external_jdbc_table2.q 간헐적 실패
백포트 HIVE-20704: 다른 함수를 지원하도록 HivePreFilteringRule 확장
백포트 HIVE-20703: 동적 정렬 파티션 최적화를 비용 기반 의사 결정에 적용
백포트 HIVE-20702: 맵 조인 선택 중 데이터 구조 인식 추정으로 인한 오버헤드 고려
백포트 HIVE-20692: NOT x IS (NOT) [TRUE|FALSE] 표현식 접기 활성화
백포트 HIVE-20691: org.apache.hadoop.hive.cli.TestMiniLlapCliDriver.testCliDriver[cttl] 수정
백포트 HIVE-20682: 공유 sessionHive가 마스터 스레드에 의해 닫히면 비동기 쿼리 실행이 실패할 수 있음
백포트 HIVE-20676: HiveServer2: PrivilegeSynchronizer가 대몬(daemon) 상태로 설정되지 않음
백포트 HIVE-20660: 총 행 수를 소스 테이블로 바인딩하여 Group by 통계 추정을 개선할 수 있음
백포트 HIVE-20652: 서로 다른 두 데이터 소스를 jdbc 드라이버로 JdbcStorageHandler 푸시 조인
백포트 HIVE-20651: JdbcStorageHandler 암호를 암호화해야 함
백포트 HIVE-20649: Orc 라이터에 대한 LLAP 인식 메모리 관리자
백포트 HIVE-20648: LLAP: 벡터 group by 연산자에서 실행기당 메모리를 사용해야 함
백포트 HIVE-20646: IS NOT NULL인 경우 파티션 필터 조건이 메타스토어 쿼리로 푸시다운되지 않음
백포트 HIVE-20644: Hive 런타임 예외를 통해 민감한 정보 노출 방지
백포트 HIVE-20636: 외부 조인 후 null 값 수 추정 개선
백포트 HIVE-20632: 쿼리된 테이블에 구체화된 뷰를 생성하는 경우 get_splits UDF를 포함한 쿼리 실패
백포트 HIVE-20627: LockException으로 동시 비동기 쿼리가 간헐적으로 실패하고 메모리 누출이 발생함
백포트 HIVE-20623: 공유 작업: LLAP의 맵 조인 캐시 항목 공유 확장
백포트 HIVE-20619: 기본적으로 HiveServer2에 MultiDelimitSerDe 포함
백포트 HIVE-20618: 조인 선택 중 버킷팅되지 않은 테이블에 대해 BucketMapJoin이 선택될 수 있음
백포트 HIVE-20617: IN 표현식의 상수 유형을 올바른 유형으로 수정
백포트 HIVE-20612: CBO에 대한 새 조인 멀티키 상관 관계 플래그 생성
백포트 HIVE-20603: 테이블 위치 파일 시스템을 변경한 후 파티션에 삽입할 때 'Wrong FS' 오류 발생
백포트 HIVE-20601: DbNotificationListener의 ALTER_PARTITION 이벤트에서 EnvironmentContext null
백포트 HIVE-20583: HiveConnection에서 kerberos 인증에만 정식 호스트 이름 사용
백포트 HIVE-20582: hive 프로토 로깅에서 hflush를 구성 가능하도록 설정
백포트 HIVE-20563: 벡터화: THEN/ELSE 유형 및 결과 유형이 다른 경우 CASE WHEN 표현식이 실패함
백포트 HIVE-20558: hive.hashtable.key.count.adjustment의 기본값을 0.99로 변경
백포트 HIVE-20552: LogicalPlan에서 보다 빠르게 스키마 가져오기
백포트 HIVE-20550: Hive 쿼리를 제출하기 위해 beeline을 사용하도록 WebHCat 전환
백포트 HIVE-20537: CBO와 Hive에서 상관되지 않은 다른 열을 포함하여 다중 열 조인 추정
백포트 HIVE-20524: 스키마 진화 검사가 Hive 버전 2에서 버전 3으로 이전 중단됨(ALTER TABLE VARCHAR에서 DECIMAL)
백포트 HIVE-20522: 필드의 null 허용 여부로 인해 HiveFilterSetOpTransposeRule에서 어설션 오류가 발생할 수 있음
백포트 HIVE-20521: HS2 doAs=true에는 hadoop.tmp.dir, MR 및 S3A 파일 시스템 관련 권한 문제가 있음
백포트 HIVE-20515: 결과 캐시 및 쿼리 임시 디렉터리를 사용할 때 쿼리 결과 비어 있음, 다른 파일 시스템의 결과 캐시 디렉터리
백포트 HIVE-20508: Hive는 'user@realm' 유형의 사용자 이름을 지원하지 않음
백포트 HIVE-20507: Beeline: beeline-site.xml의 모든 uris를 검색하도록 유틸리티 명령 추가
백포트 HIVE-20505: org.openjdk.jmh:jmh-core를 1.21로 업그레이드
백포트 HIVE-20503: 맵 조인 선택 시 데이터 구조 인식 추정 사용
백포트 HIVE-20498: 열 통계 자동 수집에 대해 날짜 유형 지원
백포트 HIVE-20496: 벡터화: 벡터화된 PTF IllegalStateException
백포트 HIVE-20494: HIVE-19440 이후 GenericUDFRestrictInformationSchema 손상됨
백포트 HIVE-20477: 표현식에 IN이 포함된 경우 최적화된 SQL이 표시되지 않음
백포트 HIVE-20467: 리소스 계획 및 삭제에서 IF NOT EXISTS/IF EXISTS 허용
백포트 HIVE-20462: 이미 보기가 있는 경우 'CREATE VIEW IF NOT EXISTS' 실패
백포트 HIVE-20455: security.authorization.PrivilegeSynchonizer.run에서 로그 생성
백포트 HIVE-20439: llap의 조인 선택 시 늘어난 메모리 제한 사용
백포트 HIVE-20433: 문자열에서 타임스탬프로의 암시적 변환 속도가 느림
백포트 HIVE-20432: 통계 추정을 위해 정수 유형에서 BETWEEN을 IN으로 재작성
백포트 HIVE-20423: NULLS LAST를 기본 null 정렬로 설정
백포트 HIVE-20418: LLAP IO는 열을 선택하지 않은 쿼리에 대해 행 인덱스가 올바르게 비활성화된 ORC 파일을 처리하지 못할 수 있음
백포트 HIVE-20412: HiveMetaHook의 NPE
백포트 HIVE-20406: 중첩된 Coalesce로 인해 잘못된 결과 생성
백포트 HIVE-20399: 완전히 검증되지 않은 사용자 지정 테이블 위치를 포함하는 CTAS는 MM 테이블에서 실패
백포트 HIVE-20393: 세미조인 감소: markSemiJoinForDPP의 일관되지 않은 동작
백포트 HIVE-20391: 집계 함수를 분해할 때 HiveAggregateReduceFunctionsRule에서 잘못된 반환 유형을 추론할 수 있음
백포트 HIVE-20383: hive 프로토 이벤트 후크에서 잘못된 대기열 이름 및 동기화 문제.
백포트 HIVE-20367: 벡터화: PTF AVG, MAX, MIN, SUM에 대한 스트리밍 지원
백포트 HIVE-20366: TPC-DS query78 통계 추정이 꺼짐, null filte
백포트 HIVE-20364: hive.map.aggr.hash.min.reduction의 기본값 업데이트
백포트 HIVE-20352: 벡터화: 그룹화 기능 지원
백포트 HIVE-20347: hive.optimize.sort.dynamic.partition이 파티셔닝된 CTAS 및 MV에서 작동해야 함
백포트 HIVE-20345: 다른 직접 호출에서 테이블이 삭제되면 데이터베이스 삭제가 중단될 수 있음
백포트 HIVE-20343: Hive 3: CTAS는 transactional_properties를 인식하지 않음
백포트 HIVE-20340: timestamp 함수의 출력을 문자열로 사용할 때 Druid 에는 타임스탬프에서 문자열로의 명시적 CAST가 필요함
백포트 HIVE-20339: 벡터화: 불필요한 제한을 높여 RANK가 있는 일부 PTF가 벡터화되지 않음
백포트 HIVE-20337: CachedStore: getPartitionsByExpr이 파티션 목록을 잘못 채움
백포트 HIVE-20336: 구체화된 뷰에 대한 마스킹 및 필터링 정책
백포트 HIVE-20326: NO RELY 대신 기본값으로 RELY를 포함하는 제약 조건 생성
백포트 HIVE-20321: 벡터화: 1 col VectorHashKeyWrapper의 메모리 크기를 <1 CacheLine로 감소
백포트 HIVE-20320: hive.optimize.remove.sq_count_check 플래크 켜기
백포트 HIVE-20315: 벡터화: 더 많은 NULL 및 잘못된 결과 문제 수정, 불필요한 캐스트 및 변환 방지
백포트 HIVE-20314: 구체화된 뷰 재작성에 파티션 정리 포함
백포트 HIVE-20312: arrow 클라이언트에서 LlapOutputFormatService와 함께 자체 BufferAllocator를 사용하도록 허용
백포트 HIVE-20302: LLAP: IO에서 벡터화되지 않은 실행이 가상 열 무시(ROW__ID 포함)
백포트 HIVE-20300: VectorFileSinkArrowOperator
백포트 HIVE-20299: LLAP 서명자 유닛 테스트에서 잠재적 경합
백포트 HIVE-20296: 더 정교한 컨텍스트에서 추출할 수 있도록 HivePointLookupOptimizerRule 개선
백포트 HIVE-20294: 벡터화: COALESCE 및 ELT에서 NULL 및 잘못된 결과 문제 수정
백포트 HIVE-20292: 기본 제약 조건이 정의된 tpcds query93의 조인 정렬이 잘못됨
백포트 HIVE-20290: GetSplits 중에 버퍼를 할당하지 않도록 ArrowColumnarBatchSerDe 초기화 지연
백포트 HIVE-20281: SharedWorkOptimizer가 'operator cache contents and actual plan differ'로 실패
백포트 HIVE-20277: 벡터화: BOOLEAN을 반환하는 케이스 표현식은 FILTER에서 지원되지 않음
백포트 HIVE-20267: 로그 수준을 동적으로 구성하는 양식을 포함하도록 WebUI 확장
백포트 HIVE-20263: HiveReduceExpressionsWithStatsRule 변수의 오타
백포트 HIVE-20260: 다른 열의 필터로 행 수가 변경될 때 열의 NDV를 조정해서는 안 됨
백포트 HIVE-20252: 세미조인 감소: 작은 테이블에 맵 조인 업스트림이 있는 경우 세미 조인 브랜치로 인한 주기가 감지되지 않을 수 있습니다.
백포트 HIVE-20245: 벡터화: BETWEEN 및 IN에서 NULL 및 잘못된 결과 문제 수정
백포트 HIVE-20241: CTAS 문의 파티셔닝 사양 지원
백포트 HIVE-20240: 세미조인 감소: 로컬 변수를 사용하여 외부 테이블 조건 검사
백포트 HIVE-20226: 요청 maxEvents가 테이블의 max_rows를 초과하므로 HMS getNextNotification에서 예외 발생
백포트 HIVE-20225: 테라데이타 바이너리 형식을 지원하는 Serde
백포트 HIVE-20213: Calcite를 1.17.0으로 업그레이드
백포트 HIVE-20212: http 모드의 Hiveserver2가 default.General.open_connections 지표를 잘못 생성함
백포트 HIVE-20210: 파티션이 아닌 열에 대한 필터 및 변환이 최소일 때 단순 가져오기 최적화 도구에서 MapReduce로 이어져야 함
백포트 HIVE-20209: repl 덤프에서 메타스토어 연결의 첫 번째 시도 실패
백포트 HIVE-20207: 벡터화: 필터 및 비교에서 NULL 및 잘못된 결과 문제 수정
백포트 HIVE-20204: IN 작업 중 유형 변환
백포트 HIVE-20203: Arrow SerDe에서 DirectByteBuffer 누출
백포트 HIVE-20197: 벡터화: DECIMAL_64 테스트 추가, 날짜, 산술, 타임스탬프 산술 추가, GROUP BY 집계 더 추가
백포트 HIVE-20193: explain plan json에 cboInfo가 없음
백포트 HIVE-20192: 메타스토어가 포함된 HS2에서 JDOPersistenceManager 객체 유출
백포트 HIVE-20183: 소스 테이블에 빈 버킷이 있는 경우 버킷팅된 테이블에서 삽입하면 데이터가 손실될 수 있음
백포트 HIVE-20177: 벡터화: GroupBy 스트리밍 모드에서 KeyWrapper 할당 감소
백포트 HIVE-20174: 벡터화: GROUP BY 집계 함수에서 NULL 및 잘못된 결과 문제 수정
백포트 HIVE-20172: 원격 메타스토어에 연결하려는 중 StatsUpdater에서 GSS 예외로 실패
백포트 HIVE-20153: Count 및 Sum UDF가 Hive 2 이상에서 더 많은 메모리를 소비함
백포트 HIVE-20152: repl 덤프가 실패하면 db 상태를 재설정하여 테이블 이름을 바꿀 수 있음
백포트 HIVE-20149: TestHiveCli 실패 또는 제한 시간 초과
백포트 HIVE-20130: 정보 스키마 동기화 도구에 대한 향상된 로깅
백포트 HIVE-20129: orc 테이블의 위치 기반 스키마 진화로 되돌리기
백포트 HIVE-20118: SessionStateUserAuthenticator.getGroupNames
백포트 HIVE-20116: TezTask에서 상위 로거 사용 중
백포트 HIVE-20115: ACID 테이블은 분석을 위해 바닥글 스캔을 사용해서는 안 됨
백포트 HIVE-20103: WM: 하나 이상이 사용된 경우 DAG 카운터만 집계
백포트 HIVE-20101: BloomKFilter: 로컬 byte[] 배열 완전히 사용 금지
백포트 HIVE-20100: OpTraits : 불일치 감지 시 Select Optraits를 중지해야 함
백포트 HIVE-20098: 통계: 날짜 열 파티션 통계를 가져오는 중 NPE
백포트 HIVE-20095: jdbc 외부 테이블로 계산을 푸시하는 기능 수정
백포트 HIVE-20093: LlapOutputFomatService: 회계에 대해 Netty와 함께 ArrowBuf 사용
백포트 HIVE-20090: 새로운 기회를 발견할 수 있도록 세미조인 감소 필터의 생성 확장
백포트 HIVE-20088: Beeline 구성 위치 경로가 잘못 구성됨
백포트 HIVE-20082: HiveDecimal에서 문자열로 변환해도 십진수의 형식이 올바르게 지정되지 않음
백포트 HIVE-20069: DPP 및 Semijoin 최적화의 경우 재최적화 수정
백포트 HIVE-20051: 임시 테이블에 대한 인증 건너뛰기
백포트 HIVE-20044: Arrow Serde는 문자 값을 채우고 빈 문자열을 올바르게 처리해야 함
백포트 HIVE-20028: 메타스토어 클라이언트 캐시 구성이 잘못 사용됨
백포트 HIVE-20025: HiveProtoLoggingHook에서 생성한 이벤트 파일 정리
백포트 HIVE-20020: Hive contrib jar이 라이브러리에 없어야 함
백포트 HIVE-20013: to_date 함수의 날짜 유형에 암시적 캐스트 추가
백포트 HIVE-20011: proto 로깅 후크에서 추가 모드 해제
백포트 HIVE-20005: acid_table_stats, acid_no_buckets 등 - 브랜치에서 쿼리 결과 변경
백포트 HIVE-20004: ConvertDecimal64ToDecimal에 사용된 잘못된 규모로 잘못된 결과 생성
백포트 HIVE-19995: ACID 테이블의 행 트래픽 집계
백포트 HIVE-19993: 열 이름으로도 나타나는 테이블 별칭을 사용할 수 없음
백포트 HIVE-19992: 벡터화: HIVE-19951 후속 조치 --> 데이터 유형 변환이 암시적이지 않은 경우에만 ORC에 대한 인코딩된 LLAP I/O를 비활성화하도록 SchemaEvolution.isOnlyImplicitConversion에 직접 호출 추가
백포트 HIVE-19989: 메타스토어가 HADOOP2 지표에 잘못된 애플리케이션 이름을 사용함
백포트 HIVE-19981: 테이블 삭제 시 데이터를 삭제하도록 HiveStrictManagedMigration 유틸리티에서 외부 테이블로 변환된 관리형 테이블을 설정해야 함
백포트 HIVE-19967: SMB 조인: PTFOperator ala GBY Op에 대한 Optraits 필요
백포트 HIVE-19935: Hive WM 세션 강제 종료: LLAP 작업 수를 업데이트하지 못함
백포트 HIVE-19924: Repl 로드에 의해 실행되는 태그 distcp 작업
백포트 HIVE-19891: 사용자 지정 파티션 디렉터리가 있는 외부 테이블에 삽입하면 데이터가 손실될 수 있음
백포트 HIVE-19850: Tez의 동적 파티션 정리로 인해 'No work found for tablescan' 오류 발생
백포트 HIVE-19806: 테스트 결과에서 불안정 문제를 방지하기 위해 qtests 출력 정렬
백포트 HIVE-19770: select에 동일한 열이 여러 개 있는 쿼리에 대한 CBO 지원
백포트 HIVE-19769: DB 및 테이블 이름에 대한 전용 객체 생성
백포트 HIVE-19765: BlobstoreCliDriver에 Parquet 특정 테스트 추가
백포트 HIVE-19759: 불안정 테스트: TestRpc#testServerPort
백포트 HIVE-19711: Hive 스키마 도구 리팩터링
백포트 HIVE-19701: getDelegationTokenFromMetaStore는 동기화하지 않아도 됨
백포트 HIVE-19694: 구체화된 뷰 생성 문은 MV의 SQL 문을 실행하기 전에 MV 이름 충돌을 확인해야 합니다.
백포트 HIVE-19674: Group by 십진수 상수는 Druid 테이블로 푸시다운
백포트 HIVE-19668: 힙의 30% 넘게 중복 org.antlr.runtime.CommonToken 및 중복 문자열에서 소비
백포트 HIVE-19663: LLAP IO 보고서 생성 리팩터링
백포트 HIVE-19661: Hive UDF를 Re2J 정규식 엔진을 사용하도록 전환
백포트 HIVE-19628: LLAP testSigning에서 잠재적 NPE
백포트 HIVE-19568: 액티브/패시브 HS2 HA: 패시브 HS2 인스턴스에 대한 직접 연결을 허용하지 않음
백포트 HIVE-19564: 벡터화: 산술의 NULL 및 잘못된 결과 문제 수정
백포트 HIVE-19552: TestMiniDruidKafkaCliDriver#druidkafkamini_basic.q 활성화
백포트 HIVE-19432: hive에 데이터베이스 및 테이블이 너무 많은 경우 GetTablesOperation 속도가 느려짐
백포트 HIVE-19360: CBO: QueryPlan 객체에 'optimizedSQL' 추가
백포트 HIVE-19326: 통계 자동 수집: UNION 쿼리 중 잘못된 집계
백포트 HIVE-19313: TestJdbcWithDBTokenStoreNoDoAs 테스트 실패
백포트 HIVE-19285: MetaDataOperation의 하위 클래스에 로그 추가
백포트 HIVE-19235: Minimr 테스트를 위한 골든 파일 업데이트
백포트 HIVE-19104: 재시도를 통해 메타스토어 테스트를 시작하는 경우 인스턴스가 독립적이어야 함
백포트 HIVE-18986: 테이블에 열이 많은 경우 테이블 이름을 바꿀 때 dataNucleus에서 java.lang.StackOverflowError 발생
백포트 HIVE-18920: CBO: 첫 번째 쿼리에 Janino 공급자 초기화
백포트 HIVE-18873: HiveInputFormat에서 MR에 대한 조건자 푸시다운을 자동으로 건너뛰면 스토리지 핸들러에서 잘못된 결과를 생성할 수 있음
백포트 HIVE-18871: hive.aux.jars.path를 hdfs://로 설정했기 때문에 tez 기반 hive에서 실행 오류 발생
백포트 HIVE-18725: 잘못된 열 참조가 있는 경우 하위 쿼리에 대한 오류 처리 개선
백포트 HIVE-18696: 다음과 같은 경우 HiveMetaStore.add_partitions_Core 메서드에서 파티션 폴더가 제대로 정리되지 않을 수 있음
백포트 HIVE-18453: ACID: 'CREATE TRANSACTIONAL TABLE' 구문을 추가하여 ACID ORC 및 Parquet 지원 통합
백포트 HIVE-18201: sq_count_chec에 대해 XPROD_EDGE 비활성화
백포트 HIVE-18140: 기본 통계 혼합 케이스에서 분할된 테이블 통계가 잘못될 수 있음
백포트 HIVE-17921: LLAP에서 구문을 사용한 집계에서 잘못된 결과 생성
백포트 HIVE-17896: TopNKey: 벡터화 가능한 독립 실행형 TopnKey 연산자 생성
백포트 HIVE-17840: transactionalListeners.notifyEvent에 실패한 경우 HiveMetaStore에서 예외 발생
백포트 HIVE-17043: 나중에 참조하지 않을 경우 group by 키에서 고유하지 않은 열 제거
백포트 HIVE-17040: FK 관계가 있는 상태에서 조인 제거
백포트 HIVE-16839: 동일한 파티션을 동시에 변경하는 경우 openTransaction/commitTransaction에 대한 균형이 맞지 않는 직접 호출
백포트 HIVE-16100: 동적 정렬 파티션 최적화 도구에서 형제 연산자 손실
백포트 HIVE-15956: 파티션의 많은 삭제 시 StackOverflowError 발생
백포트 HIVE-15177: kerberos 인증 유형이 fromSubject로 설정되고 보안 주체가 _HOST를 포함하는 경우 hive에서 인증 실패
백포트 HIVE-14898: HS2는 빈 인증 헤더 오류에 대한 콜 스택을 로깅하지 않아야 함
백포트 HIVE-14493: 구체화된 뷰에 대한 파티셔닝 지원
백포트 HIVE-14431: COALESCE를 CASE로 인식
백포트 HIVE-13457: 모니터링 정보를 위한 HS2 REST API 엔드포인트 생성
백포트 HIVE-12342: hive.optimize.index.filter의 기본값을 true로 설정
백포트 HIVE-10296: Hive가 메타스토어에서 다중 조인 쿼리를 실행할 때 캐스트 예외가 관찰됨
백포트 HIVE-6980: direct sql을 사용하여 테이블 삭제

Amazon EMR 6.6.0 - Hive 구성 변경

  • OSS 변경 HIVE-20703의 일환으로 동적 파티션을 정렬하는 속성(hive.optimize.sort.dynamic.partition)이 hive.optimize.sort.dynamic.partition.threshold로 바뀌었습니다.

    hive.optimize.sort.dynamic.partition.threshold 구성에는 다음과 같은 잠재적 값이 있습니다.

    설명

    0

    (기본값)

    ORC 파일을 사용할 때 동적 파티션을 정렬하기 위한 최적화를 비용 기반으로 결정합니다. INSERT 쿼리에 허용되는 최대 라이터 수는 (실행기/컨테이너 메모리) * (orc가 차지하는 메모리 비율) 값을 단일 라이터가 사용한 최대 메모리(스트라이프 크기)로 나눈 값을 기준으로 계산됩니다.

    -1

    동적 파티션을 완전히 정렬하기 위해 최적화를 비활성화합니다.

    1

    동적 파티션의 글로벌 정렬을 활성화합니다. 이렇게 하면 reducer의 각 파티션 값에 대해 레코드 라이터를 하나만 열어 두므로 reducer에 가해지는 메모리 부담을 줄일 수 있습니다.

    2

    (또는 더 큰 정수)

    지정된 정수를 최대 라이터 수의 임계값으로 사용하도록 Hive에 지시합니다.

Amazon EMR 6.6.0 - Hive 알려진 문제

  • 조인과 동일한 열에서 윈도우 함수를 사용하는 쿼리는 HIVE-25278에서 보고된 바와 같이 잘못된 변환으로 이어져 잘못된 결과를 생성하거나 쿼리에 실패할 수 있습니다. 해결 방법으로 이러한 쿼리에 대해 쿼리 수준에서 CBO를 비활성화할 수 있습니다. 자세한 내용은 AWS 지원팀에 문의하십시오.

  • Amazon EMR 6.6.0에는 Hive 소프트웨어 버전 3.1.2가 포함되어 있습니다. Hive 3.1.2에서는 머리글과 바닥글을 포함하는 경우 텍스트 파일을 분할하는 기능을 도입했습니다(HIVE-21924). Apache Tez App Master는 각 파일을 읽고 데이터 범위에서 오프셋 지점을 결정합니다. 쿼리에서 작은 텍스트 파일을 많이 읽을 경우 이러한 동작이 결합되어 성능이 저하될 수 있습니다. 이 문제를 해결하려면 CombineHiveInputFormat을 사용하고 다음 속성을 구성하여 최대 분할 크기를 조정합니다.

    SET hive.tez.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; SET mapreduce.input.fileinputformat.split.maxsize=16777216;
  • Amazon EMR 6.6.0~6.9.x에서는 ORDER BY 또는 SORT BY 절과 동적 파티션에서의 INSERT 쿼리에 항상 두 개의 reducer가 있습니다. 이 문제는 OSS 변경 HIVE-20703 때문에 발생하며, 이로 인해 비용 기반 의사 결정에 따라 동적 정렬 파티션 최적화가 적용됩니다. 워크로드에 동적 파티션 정렬이 필요하지 않은 경우 새 기능을 비활성화하고 올바르게 계산된 reducer 수를 가져오도록 hive.optimize.sort.dynamic.partition.threshold 속성을 -1로 설정하는 것이 좋습니다. 이 문제는 OSS Hive에서 HIVE-22269 일부로 수정되었으며 Amazon EMR 6.10.0에서 수정되었습니다.