選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

使用「刪除重複項」

焦點模式
使用「刪除重複項」 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

「刪除重複項」轉換會為您提供兩個選項,以從資料來源中移除資料列。您可以選擇移除完全相同的重複資料列,也可以選擇要比對的欄位,并根据所選欄位僅移除這些資料列。

例如,在此資料集中,您有重複的資料列,其中某些資料列中的所有值與另一資料列完全相同,而資料列中的某些值則相同或不同。

Row Name Email Age State 注意
1 Joy joy@gmail 33 NY
2 Tim tim@gmail 45 OH
3 Rose rose@gmail 23 NJ
4 Tim tim@gmail 42 OH
5 Rose rose@gmail 23 NJ
6 Tim tim@gmail 42 OH 這是一個重複的資料列,並與第 4 資料列的所有值完全相符
7 Rose rose@gmail 23 NJ 這是一個重複的資料列,並與第 5 資料列的所有值完全相符

如果您選擇符合整個資料列,則會從資料集中移除第 6 資料列和第 7 資料列。資料集現在為:

Row Name Email Age State
1 Joy joy@gmail 33 NY
2 Tim tim@gmail 45 OH
3 Rose rose@gmail 23 NJ
4 Tim tim@gmail 42 OH
5 Rose rose@gmail 23 NJ

如果您選擇指定索引鍵,則可以選擇移除與 ‘name’ 和 ‘email’ 相符的資料列。這讓您可以更好地控制資料集的「重複資料列」。透過指定 ‘name’ 和 ‘email’,資料集現在為:

Row Name Email Age State
1 Joy joy@gmail 33 NY
2 Tim tim@gmail 45 OH
3 Rose rose@gmail 23 NJ

需要謹記的一些事項:

  • 為了將資料列識別為重複項,值需區分大小寫。資料列中的所有值都需具有相同的大小寫,這適用於您選擇的任一選項 (符合整個資料列或指定索引鍵)。

  • 所有值都會以字串形式讀入。

  • 刪除重複項轉換使用 Spark dropDuplicates 命令。

  • 使用刪除重複項轉換時,會保留第一個資料列,並刪除其他資料列。

  • 刪除重複項轉換不會變更資料框的結構描述。如果您選擇指定索引鍵,則所有欄位都保留在產生的資料框中。

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。