기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
입력 데이터 준비
대부분의 클러스터는 입력 데이터를 로드한 다음 해당 데이터를 처리합니다. 데이터를 로드하려면 데이터는 클러스터가 액세스할 수 있는 위치에 있어야 하며 클러스터가 처리할 수 있는 형식이어야 합니다. 가장 일반적인 시나리오는 입력 데이터를 Amazon S3에 업로드하는 것입니다. Amazon EMR은 클러스터가 Amazon S3에서 데이터를 가져오거나 읽을 수 있는 도구를 제공합니다.
하둡에서 기본 입력 형식은 텍스트 파일이지만, 하둡을 사용자 지정할 수 있으며 도구를 사용하여 다른 형식으로 저장된 데이터를 가져올 수 있습니다.