使用爬蟲程式新增資料表

AWS Glue 爬蟲程式可協助探索資料集的結構描述，並將其註冊為 AWS Glue Data Catalog 中的資料表。爬蟲程式可逐一瀏覽您的資料，並判斷結構描述。此外，爬蟲程式可偵測和登錄分割區。如需詳細資訊，請參閱《AWS Glue 開發人員指南》中的定義爬蟲程式。可從 Athena 查詢來自已成功編目的資料的資料表。

注意

Athena 無法辨識排除您為爬蟲程式指定的模式。 AWS Glue 例如，如果您的 Simple Storage Service (Amazon S3) 儲存貯體同時包含 .csv 和 .json 檔案，並且您將 .json 檔案從爬蟲程式中排除，Athena 會查詢這兩個檔案群組。若要避免這種情況，請將您要排除的檔案放在不同的位置。

建立 AWS Glue 爬蟲程式

您可以從 Athena 主控台開始建立爬蟲程式，然後以整合方式使用 AWS Glue 主控台。建立爬蟲程式時，需要在 Amazon S3 中指定要網路爬取的資料位置。

從 Athena 主控台 AWS Glue 開始在中建立爬蟲程式

前往 https://console.aws.amazon.com/athena/ 開啟 Athena 主控台。
在查詢編輯器中，選擇位於資料表和檢視旁的建立，然後選擇 AWS Glue 爬蟲程式。
在 AWS Glue 主控台的 Add crawler (新增爬蟲程式) 頁面上，依照步驟建立爬蟲程式。如需詳細資訊，請參閱本指南中的使用 AWS Glue 爬蟲程式，以及《 AWS Glue 開發人員指南》中的填入 AWS Glue Data Catalog 。

注意

在爬蟲程式之後， AWS Glue 爬蟲程式會自動指派特定資料表中繼資料，以協助使其與其他外部技術相容，例如 Apache Hive、Presto 和 Spark。有時爬蟲程式可能不正確地指派中繼資料屬性。使用 Athena 查詢資料表 AWS Glue 之前，手動更正中的屬性。如需詳細資訊，請參閱《AWS Glue 開發人員指南》中的檢視與編輯資料表詳細資訊。

AWS Glue 當 CSV 檔案在每個資料欄位周圍有引號時，可能會錯誤指派中繼資料，導致 serializationLib 屬性發生錯誤。如需詳細資訊，請參閱處理以引號括住的 CSV 資料。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

使用表單新增資料表

搭配爬蟲程式使用多個資料來源

使用爬蟲程式新增資料表

注意

建立 AWS Glue 爬蟲程式

從 Athena 主控台 AWS Glue 開始在 中建立爬蟲程式

注意

從 Athena 主控台 AWS Glue 開始在中建立爬蟲程式