Cookie の設定を選択する

当社は、当社のサイトおよびサービスを提供するために必要な必須 Cookie および類似のツールを使用しています。当社は、パフォーマンス Cookie を使用して匿名の統計情報を収集することで、お客様が当社のサイトをどのように利用しているかを把握し、改善に役立てています。必須 Cookie は無効化できませんが、[カスタマイズ] または [拒否] をクリックしてパフォーマンス Cookie を拒否することはできます。

お客様が同意した場合、AWS および承認された第三者は、Cookie を使用して便利なサイト機能を提供したり、お客様の選択を記憶したり、関連する広告を含む関連コンテンツを表示したりします。すべての必須ではない Cookie を受け入れるか拒否するには、[受け入れる] または [拒否] をクリックしてください。より詳細な選択を行うには、[カスタマイズ] をクリックしてください。

AWS Glue のドキュメント履歴

フォーカスモード
AWS Glue のドキュメント履歴 - AWS Glue
変更説明日付

AWS Glue 用に、さらに 14 つの新しい SaaS ネイティブコネクタをサポート

さらに 14 つの SaaS ネイティブコネクタが AWS Glue に追加されました。詳細については、「AWS Glue 接続の追加」を参照してください。

2025 年 1 月 30 日

AWS Glue 用のさらに 16 つの新しい SaaS ネイティブコネクタのサポート

さらに 16 個の SaaS ネイティブコネクタが AWS Glue に追加されました。詳細については、「AWS Glue 接続の追加」を参照してください。

2024 年 12 月 17 日

列統計の自動生成

AWS Glue Data Quality は、Data Catalog と ETL で Amazon SageMaker AI LakeHouse テーブルと AWS Lake Formation マネージド Iceberg、Delta、HUDI テーブルをサポートするようになりました。詳細については、「AWS Glue Data Quality」を参照してください。

2024 年 12 月 6 日

ゼロ ETL 統合のサポート

ゼロ ETL は、ETL データパイプラインを構築する必要性を最小限に抑える、AWS によるフルマネージド型の統合のセットです。詳細については、「ゼロ ETL 統合」を参照してください。

2024 年 12 月 3 日

再利用可能な接続のサポート

新しい AWS Glue 接続スキーマでは、AWS Glue、Amazon Athena、Amazon SageMaker Unified Studio などの AWS サービスとアプリケーションとの間のデータ接続を統一された方法で管理できます。詳細については、「データへの接続」を参照してください。

2024 年 12 月 3 日

AWS Glue バージョン 5.0 のサポート。

AWS Glue バージョン 5.0 のサポートに関する情報を追加しました。機能には、Apache Spark の 3.52 への更新、Java の 17 への更新、オープンテーブルフォーマットの更新、Spark ネイティブのきめ細かなアクセスコントロール、Sagemaker Lakehouse とデータウェアハウスの抽象化統合、Sagemaker Unified Studio のサポートなどがあります。詳細については、「AWS Glue リリースノート」および「AWS Glue ジョブの AWS Glue バージョン 5.0 への移行」を参照してください。

2024 年 12 月 3 日

AWS Glue Iceberg REST エンドポイントを使用した AWS Glue Data Catalog への接続方法

AWS Glue の Iceberg REST エンドポイントは、Apache Iceberg REST 仕様で指定された API オペレーションに対応しています。Iceberg REST クライアントを使用すると、分析エンジンで実行されているアプリケーションをデータカタログでホストされている REST カタログに接続することができます。詳細については、「データカタログにアクセスする」を参照してください

2024 年 12 月 3 日

列統計の自動生成

AWS Glue Data Catalog の新しいテーブルで列統計を自動生成 詳細については、「Automatic column statistics generation」を参照してください。

2024 年 12 月 3 日

AWS Glue での Apache Spark の生成 AI アップグレードのサポート

AWS Glue の Spark アップグレードにより、データエンジニアとデベロッパーは、生成 AI を使用して、既存の AWS Glue Spark ジョブをアップグレードおよび移行し、最新の Spark リリースに移行できます。詳細については、「AI を使用したアップグレード分析」を参照してください。

2024 年 11 月 22 日

AWS Glue での Apache Spark の生成 AI トラブルシューティングのサポート

AWS Glue の Apache Spark ジョブ用の生成 AI トラブルシューティングは、データエンジニアや科学者が Spark アプリケーションの問題を簡単に診断して修正するのに役立ちます。詳細については、「AI を使用した Spark ジョブのトラブルシューティング」を参照してください。

2024 年 11 月 22 日

Iceberg オプティマイザーが VPC 内の Amazon S3 バケットにアクセスするためのサポート

AWS Glue Data Catalog は、Iceberg テーブルオプティマイザーをサポートし、AWS Glue ネットワーク接続を使用して特定の仮想プライベートクラウド (VPC) から Amazon S3 バケットにアクセスします。詳細については、「Iceberg テーブルの最適化」を参照してください。

2024 年 11 月 20 日

AWS Glue 用のさらに 9 つの新しい SaaS ネイティブコネクタのサポート

さらに 9 つの SaaS ネイティブコネクタが AWS Glue に追加されました。詳細については、「AWS Glue 接続の追加」を参照してください。

2024 年 11 月 19 日

AWS Glue 用の 10 個の新しい SaaS ネイティブコネクタのサポート

10 個の SaaS ネイティブコネクタが AWS Glue に追加されました。詳細については、「AWS Glue 接続の追加」を参照してください。

2024 年 11 月 15 日

AWS Glue ETL ジョブのジョブ実行キューイングのサポート

サービスクォータが原因でジョブをすぐに実行できないとき、ジョブ実行キューイングを有効にして後でジョブを実行できます。詳細については、「AWS Glue で Spark ジョブに関するジョブプロパティの構成」を参照してください。

2024 年 9 月 3 日

ポリシー変更の更新

[AwsGlueSessionUserRestrictedNotebookPolicy] および [AwsGlueSessionUserRestrictedNotebookServiceRole] ポリシーに対する文書化された変更は、所有者タグキーを持つセッションにタグオン作成をサポートするために必要です。詳細については、「AWS Glue での AWS マネージドポリシーの更新」を参照してください。

2024 年 8 月 30 日

異常検出と動的ルールの一般提供が開始

AWS Glue Data Quality は機械学習アルゴリズムを利用して過去の傾向から学習し、将来の値を予測して異常を検出します。動的ルールは、動的なしきい値を設定できます。詳細については、「Iceberg テーブルのクエリパフォーマンスの最適化」を参照してください。

2024 年 8 月 7 日

ポリシー変更の更新

[AwsGlueSessionUserRestrictedPolicy] および [AwsGlueSessionUserRestrictedServiceRole] ポリシーに対する文書化された変更は、所有者タグキーを持つセッションにタグオン作成をサポートするために必要です。詳細については、「AWS Glue での AWS マネージドポリシーの更新」を参照してください。

2024 年 8 月 5 日

Iceberg テーブルの列統計の生成が一般公開されました

AWS Glue は、Iceberg テーブルの各列における個別値数 (NDV) の計算および更新をサポートします。詳細については、「AWS Glue Data Quality での異常検出」および「動的ルール」を参照してください。

2024 年 7 月 9 日

AWS Glue 使用プロファイルのサポート

管理者は、デベロッパー、テスター、製品チームなど、アカウント内のさまざまなクラスのユーザーの AWS Glue 使用プロファイルを作成できます。この柔軟性により、管理者はユーザーのクラスごとに異なる使用状況とコストの制御を適用できます。詳細については、「AWS Glue 使用プロファイルの設定」を参照してください。

2024 年 6 月 18 日

AWS Glue for Spark 向け Salesforce コネクタのサポート

Salesforce 向けの新しい AWS Glue コネクタに関する情報を追加しました。この機能を使用すると、AWS Glue for Spark を使用して 4.0 以降のバージョンで Salesforce と AWS Glue の間で読み書きを行うことができます。詳細については、「Salesforce への接続」を参照してください。

2024 年 5 月 22 日

AWS Glue の Amazon Q データ統合 (GA)

AWS Glue の Amazon Q データ統合は、データエンジニアや ETL 開発者が自然言語を使用してデータ統合ジョブを構築できるようにする、AWS Glue の新しい生成 AI 機能です。エンジニアや開発者は Q に、ジョブの作成、問題のトラブルシューティング、AWS Glue やデータ統合に関する質問への回答を依頼できます。詳細については、「AWS Glue の Amazon Q データ統合」を参照してください。この機能には、AwsGlueSessionUserRestrictedPolicyAwsGlueSessionUserRestrictedNotebookServiceRoleAwsGlueSessionUserRestrictedServiceRole および AWS のマネージドポリシーの更新が含まれます。詳細については、「AWS Glue での AWS マネージドポリシーの更新」を参照してください。

2024 年 4 月 30 日

AWS Glue で Amazon Q のデータ統合 (プレビュー)

AWS Glue の Amazon Q データ統合は、データエンジニアや ETL 開発者が自然言語を使用してデータ統合ジョブを構築できるようにする、AWS Glue の新しい生成 AI 機能です。エンジニアや開発者は Q に、ジョブの作成、問題のトラブルシューティング、AWS Glue やデータ統合に関する質問への回答を依頼できます。詳細については、「AWS Glue の Amazon Q データ統合」を参照してください。この機能には、AwsGlueSessionUserRestrictedNotebookPolicy AWS マネージドポリシーの更新が含まれます。詳細については、「AWS Glue での AWS マネージドポリシーの更新」を参照してください。

2024 年 1 月 30 日

AWS Glue Streaming のドキュメントの更新

新しい章が追加され、AWS Glue ストリーミングのコンテンツが新しくなって再編成されました。このコンテンツでは、AWS Glue でのストリーミングの仕組み、リアルタイムデータ処理の特徴、ストリーミングジョブのモニタリング方法について説明します。詳細については、「AWS Glue Streaming」を参照してください。

2023 年 12 月 27 日

詳細な機密データ検出の使用をサポート

Detect Sensitive Data は、定義したエンティティ、または AWS Glue によって事前定義されたエンティティを検出、マスキング、削除する機能を提供します。さらに、詳細なアクションを使用することで、エンティティごとに特定のアクションを適用できます。詳細については、「詳細な機密データ検出の使用」を参照してください。

2023 年 11 月 26 日

AWS Glue オブザーバビリティメトリクスによるジョブのモニタリングをサポート

AWS Glue オブザーバビリティメトリクスを使用して、AWS Glue for Apache Spark ジョブの内部で何が起こっているかに関するインサイトを生成し、問題の優先順位付けと分析を改善できます。詳細については、「AWS Glue オブザーバビリティメトリクスを使用したモニタリング」を参照してください。

2023 年 11 月 26 日

AWS Glue Data Quality での異常検出をサポート

AWS Glue Data Quality の異常検出は、時間の経過とともにデータ統計に機械学習 (ML) アルゴリズムを適用して、ルールでは検出が難しい異常パターンや隠れたデータ品質問題を検出します。詳細については、「AWS Glue Data Quality での異常検出」を参照してください。

2023 年 11 月 26 日

デフォルトの Spark UI ログ動作を更新

Spark UI ログを生成する Spark ジョブは、AWS Glue コンソールで Spark UI をサポートするために別のファイル名パターンで書き込まれるようになりました。これによって CloudWatch ログの動作に変更が生じることはありません。ジョブ設定を更新することで、従来の動作に戻すことができます。詳細については、「Apache Spark ウェブ UI を使用したジョブのモニタリング」を参照してください。

2023 年 11 月 17 日

AWS Glue for Spark での新しいデータソースをサポート

Amazon OpenSearch Service、Azure SQL、Azure Cosmos for NoSQL、SAP HANA Teradata Vantage、Vertica への接続が AWS Glue 内でネイティブにサポートされるようになりました。さらに、これらのデータソースへの接続は、MongoDB に加えて、AWS Glue Studio のビジュアルエディターでも使用できるようになりました。詳しくは、AWS Glue for Spark のサポートについては「AWS Glue for Spark での ETL の接続タイプとオプション」を、AWS Glue Studio のビジュアルエディターでの使用については「AWS Glue 接続の追加」を参照してください。

2023 年 11 月 17 日

カラム統計生成のサポート

追加のデータパイプラインを設定することなく、Parquet、ORC、JSON、ION、CSV、XML などのデータ形式で AWS Glue Data Catalog テーブルの列レベルの統計を計算できます。詳細については、「カラム統計の操作」を参照してください。

2023 年 11 月 16 日

Iceberg テーブルのデータ圧縮のサポート

Amazon Athena、Amazon EMR、AWS Glue ETL ジョブなどの AWS 分析サービスによる読み取りパフォーマンスを向上させるために、Data カタログは、Data カタログ内の Iceberg テーブル用にマネージド圧縮 (小さな Amazon S3 オブジェクトを圧縮してより大きなオブジェクトにコンパクト化するプロセス) を提供しています。詳細については、「Iceberg テーブルの最適化」を参照してください。

2023 年 11 月 13 日

ジョブ実行待機動作を更新する

標準の Spark および Python シェルのジョブ実行は、すぐに FAILED に移行するのではなく、特定の状況において WAITING に移行するようになりました。詳細については、「AWS Glue ジョブ実行ステータス」を参照してください。

2023 年 11 月 8 日

AWS Glue Studio ユーザーガイドを AWS Glue デベロッパーガイドに統合

AWS Glue Studio ユーザーガイドがデベロッパーガイドに移され、AWS Glue Studio、AWS Glue コンソール、および AWS Glue Studio プログラムによるアクセスに関する単一の統合ユーザーガイドが作成されました。

2023 年 10 月 25 日

AWSGlueServiceNotebookRole AWS マネージドポリシーのアップデート

AWSGlueServiceNotebookRole AWS マネージドポリシーのマイナーアップデートに関する情報を追加しました。詳細については、「AWS Glue での AWS マネージドポリシーの更新」を参照してください。

2023 年 10 月 9 日

AWS Glue Studio が 5 つの新しい組み込み変換をサポート

AWS Glue Studio は、レコードマッチング、null 行の削除、JSON 列の解析、JSON パスの抽出、正規表現抽出の 5 つの新しい組み込み変換をサポートしています。詳細については、「AWS Glue マネージドデータ変換ノードの編集」を参照してください。

2023 年 8 月 11 日

AWSGlueServiceRole AWS マネージドポリシーのアップデート

AWSGlueServiceRole AWS マネージドポリシーのマイナーアップデートに関する情報を追加しました。詳細については、「AWS Glue での AWS マネージドポリシーの更新」を参照してください。

2023 年 8 月 4 日

Apache Hudi テーブルのクローリングをサポート

AWS Glue を使用した Amazon S3 バケット内の Hudi テーブルのクローリングと、AWS Glue Data Catalog への Hudi テーブルの登録に関する情報を追加しました。詳細については、「クロール可能なデータストア」および「クローラーのプロパティ」を参照してください。

2023 年 7 月 21 日

AWSGlueConsoleFullAccess AWS マネージドポリシーのアップデート

AWSGlueConsoleFullAccess AWS マネージドポリシーのマイナーアップデートに関する情報を追加しました。詳細については、「AWS Glue での AWS マネージドポリシーの更新」を参照してください。

2023 年 7 月 14 日

Apache Iceberg テーブルのクローリングをサポート

AWS Glue を使用した Amazon S3 バケット内の Iceberg テーブルのクローリングと、AWS Glue Data Catalog への Iceberg テーブルの登録に関する情報を追加しました。詳細については、「クロール可能なデータストア」および「クローラーのプロパティ」を参照してください。

2023 年 7 月 7 日

Ray を使用した AWS Glue をサポート

AWS Glue ジョブを強化可能な新しいエンジンである Ray を使用した AWS Glue に関する情報を追加しました。あいまいさを解消するために、Spark を使用した AWS Glue に関する既存の内容を再編成しました。

2023 年 5 月 30 日

AWS Glue Data Quality をサポート (一般提供)

AWS Glue Data Quality の一般提供が開始されました。AWS GlueData Quality は、データの品質を評価およびモニタリングするのに役立ちます。データカタログで AWS Glue Data Quality を使用する方法については、「AWS Glue Data Quality」を参照してください。AWS Glue Studio での AWS Glue Data Quality の詳細については、「AWS Glue Studio によるデータ品質の評価」を参照してください。

2023 年 5 月 24 日

Apache Spark ジョブの大規模ワーカータイプのサポート

Apache Spark ジョブ用に G.4XG.8X のワーカータイプの使用がサポートされるようになりました。これらのワーカータイプは、ワークロードに含まれる変換、集約、結合、クエリへの要求が非常に厳しいジョブに適しています。詳細については、「AWS Glue でジョブを追加する」を参照してください。

2023 年 5 月 8 日

テーブルをクロールするときのパーティションインデックス作成のサポート

クローラーが検出したテーブルのパーティションインデックスの作成をクローラーがどのようにサポートするかについての情報を追加しました。詳細については、「クローラー設定オプションの設定」を参照してください。

2023 年 4 月 24 日

リソースの使用状況メトリクスのサポート

Amazon CloudWatch でのサービスのリソース使用状況の表示と、アラームの設定に関する情報を追加しました。詳細については、「AWS Glue のモニタリング」を参照してください。

2023 年 4 月 7 日

AWSGlueConsoleFullAccess AWS マネージドポリシーのアップデート

AWSGlueConsoleFullAccess AWS マネージドポリシーのマイナーアップデートに関する情報を追加しました。詳細については、「AWS Glue での AWS マネージドポリシーの更新」を参照してください。

2023 年 3 月 28 日

AWS SDK での AWS Glue の使用に関するガイダンスを例付きで追加

AWS Glue デベロッパーガイドに、AWS SDK での AWS Glue の使用に役立つ情報が記載された 2 つのセクションが新たに追加されました。詳細については、「AWS SDK での AWS Glue の使用」および「AWS SDK を使用した AWS Glue のコード例」を参照してください。

2023 年 2 月 23 日

AWS Glue での IAM ドキュメントの更新

AWS Glue での IAM の使用に関する情報を再編成して追加しました。詳細については、「AWS Glue のIdentity and Access Management」を参照してください。

2023 年 2 月 15 日

AWS Glue バージョン 4.0 でストリーミング ETL ジョブをサポート

Glue バージョン 4.0 でのストリーミング ETL ジョブの実行のサポートに関する情報と、Kafka クラスターまたは Amazon Managed Streaming for Apache Kafka クラスター、および Amazon Kinesis Data Streams に接続するための新しいオプションに関する情報が追加されました。詳細については、「AWS Glue でストリーミング ETL ジョブを追加する」および「AWS Glue での ETL の接続タイプとオプション」を参照してください。

2023 年 2 月 8 日

MongoDB Atlas データソースのクローリングをサポート

MongoDB Atlas データソースのクロールに AWS Glue を使用する方法についての情報を追加しました。詳細については、「クロール可能なデータストア」、「MongoDB と MongoDB Atlas の接続プロパティ」、「MongoDB または MongoDB Atlas 接続の使用」を参照してください。

2023 年 2 月 6 日

ネイティブの Delta Lake コネクタを使用した Delta Lake テーブルのクローリングをサポート

AWS Glue での、ネイティブの Delta Lake コネクタを使用した Delta Lake テーブルのクロールリングについての情報を追加しました。この機能により、AWS クエリエンジンを使用して Delta トランザクションログを直接クエリしたり、タイムトラベルや ACID 保証などの機能を使用できます。また、Amazon S3 トランザクションファイルの Delta Lake メタデータをデータカタログに同期して、Lake Formation のクエリに対する列のアクセス許可を有効にできます。詳細については、「Delta Lake データストアの設定オプションを指定する方法」および「Delta Lake テーブルのクエリを実行する」を参照してください。

2022 年 12 月 15 日

AWS Glue Data Quality (プレビュー) のサポート

AWS Glue Data Quality (プレビュー) が利用可能になりました。 AWS GlueData Quality は、AWS Glue 3.0 を使用する際、データの品質の評価とモニタリングを行うのに役立ちます。データカタログで AWS Glue Data Quality を使用する方法については、「AWS Glue Data Quality (プレビュー)」を参照してください。AWS Glue Studio での AWS Glue Data Quality の詳細については、「AWS Glue Studio によるデータ品質の評価」を参照してください。

2022 年 11 月 30 日

新しい機能が追加されパフォーマンスが向上した、新しい Amazon Redshift Spark コネクタのサポート

AWS Glue ETL ジョブで使用できる、新しい Amazon Redshift Spark コネクタおよび JDBC ドライバーがサポートされるようになりました。これにより、データの取り込みおよび変換パイプラインの一部として Amazon Redshift のデータを読み書きする Apache Spark アプリケーションを構築できます。詳細については、「Amazon Redshift との間でのデータの移動」を参照してください。

2022 年 11 月 29 日

AWS Glue バージョン 4.0 のサポート。

AWS Glue バージョン 4.0 のサポートに関する情報を追加しました。機能には、Apache Hudi、Delta Lake、Apache Iceberg でのオープンデータレイクフレームワークのネイティブサポートや、Amazon S3 ベースの Cloud Shuffle Storage Plugin (Apache Spark プラグイン) のネイティブサポートが含まれます。これにより、Amazon S3 を使用してシャッフルと伸縮自在なストレージ容量を実現できます。詳細については、AWS Glue リリースノートおよび「AWS Glue ジョブの AWS Glue バージョン 4.0 への移行」を参照してください。

2022 年 11 月 28 日

AWS Glue Studio がカスタムビジュアル変換機能をリリースしました。

カスタムビジュアル変換機能により、お客様がビジネス固有の ETL ロジックをチーム間で定義、再利用、共有できるようになりました。詳細については、「カスタムビジュアル変更機能」を参照してください。

2022 年 11 月 28 日

AWS Glue クローラーを使用した JDBC データストアのメタデータの公開をサポート

AWS Glue クローラーを使用して、コメントや rawtype などのメタデータを JDBC データストアのデータカタログに公開することができるようになりました。詳細については、「クローラーによって設定されたデータカタログテーブルのパラメータ」、「クローラーのプロパティ」、および「JdbcTarget 構造」を参照してください。

2022 年 11 月 18 日

Snowflake データストアのクローリングをサポート

AWS Glue を使用して、Snowflake のテーブルとビューをクロールしたり、メタデータをテーブルエントリとしてデータカタログに公開できるようになりました。Amazon S3 での Snowflake の外部テーブルの場合、クローラーは Amazon S3 の場所と外部テーブルのファイル形式のタイプもクロールし、テーブルパラメータとして入力します。詳細については、「クロール可能なデータストア」、「AWS Glue 接続プロパティ」および「クローラーによって設定されたデータカタログテーブルのパラメータ」を参照してください。

2022 年 11 月 18 日

Spark アプリケーションのシャッフル管理が改善

Cloud Shuffle Storage Plugin for Apache Spark が利用可能になりました。詳細については、「AWS Glue Spark シャッフルマネージャーと Amazon S3」および「Cloud Shuffle Storage Plugin for Apache Spark」を参照してください。

2022 年 11 月 15 日

Amazon S3 イベント通知のクロールを高速化するときのデータカタログターゲットに対するサポートが追加されました

Amazon S3 ターゲットに対する既存のサポートに加えて、Amazon S3 イベント通知を使用したデータカタログターゲットのクロールの高速化に対するサポートが利用可能になりました。詳細については、「Amazon S3 イベント通知を使用したクロールの高速化」を参照してください。

2022 年 10 月 13 日

クローラーが作成できるテーブルの最大数の指定をサポート

クローラーが作成できるテーブルの最大数を指定できるようになりました。詳細については、「How to specify the maximum number of tables the crawler is allowed to create」(クローラーが作成できるテーブルの最大数を指定する方法) を参照してください。

2022 年 9 月 6 日

AWS Glue 内の Python シェルジョブでの Python 3.9 のサポート

AWS Glue 内の Python シェルジョブで Python 3.9 との互換性のあるスクリプトを実行したり、事前にパッケージ済みのライブラリセットを選択できるようになりました。詳細については、「AWS Glue の Python シェルジョブ」を参照してください。

2022 年 8 月 11 日

緊急性のない、または時間的な制約のない AWS Glue ジョブの、予備の容量上での実行をサポート

実稼働前のジョブ、テスト、1 回限りのデータの読み込みなど、緊急性のないジョブに対する柔軟なジョブ実行を設定できるようになりました。詳細については、「AWS Glue でジョブを追加する」を参照してください。

2022 年 8 月 9 日

ストリーミングジョブ向けの新しいワーカータイプのサポート

少量のストリーミングジョブ用に G.025X ワーカータイプを使用できるようになりました。詳細については、「AWS Glue でジョブを追加する」を参照してください。

2022 年 7 月 14 日

AWS Glue 接続での Kafka SASL の使用のサポート

AWS Glue 接続で Kafka SASL の使用がサポートされるようになりました。詳細については、「AWS Glue Kafka connection properties for client authentication」(クライアント認証用の Kafka 接続プロパティ) を参照してください。

2022 年 7 月 5 日

Protobuf スキーマ用の Apache kafka コネクタサポート

現在、Protobuf スキーマ用の Apache Kafka コネクタサポートがご利用可能です。詳細については、「AWS Glue Schema Registry」を参照してください。

2022 年 6 月 9 日

AWS Glue ジョブ (GA) の Auto Scaling のサポート

AWS Glue バージョン 3.0 のジョブに Auto Scaling を使用して、コンピューティングリソースを動的にスケーリングする方法に関する情報を追加しました。  詳細については、「AWS Glue の Auto Scaling を利用する」を参照してください。

2022 年 4 月 14 日

AWS Glue 開発とAWS Glue ジョブスクリプトのテストに関するドキュメントの更新

Docker での開発手順を含む、AWS Glue 向けとして利用可能な開発とテストの方法に関する情報を再編成して追加しました。詳細については、「AWS Glue ETL ライブラリを使用した ETL スクリプトのローカルでの開発とテスト」を参照してください。

2022 年 3 月 14 日

AWS Glue スキーマレジストリでサポートされるデータ形式に protocol buffers (protobuf) を追加

サポートされているデータ形式として (AVRO および JSON に加えて) Protobuf に関する情報を追加しました。詳細については、「AWS Glue Schema Registry」を参照してください。

2022 年 2 月 25 日

Delta Lake テーブルのクローリングのサポート

AWS Glue を使用して Delta Lake テーブルをクロールする情報を追加しました。詳細については、「Delta Lake データストアの設定オプションを指定する方法」を参照してください。

2022 年 2 月 24 日

AWS Glue ジョブインサイトのサポート

AWS Glue ジョブインサイトの使用に関する情報を追加して、AWS Glue ジョブのジョブのデバッグと最適化を簡素化します。詳細については、「AWS Glue ジョブインサイトを使用したモニタリング」を参照してください。

2022 年 2 月 8 日

VPC エンドポイントを使用した Amazon S3 backedデータカタログテーブルのクロールのサポート

セキュリティ、監査、またはコントロールのために、Amazon Virtual Private Cloud 環境 (Amazon VPC) でのみアクセスするように Amazon S3 backed データカタログテーブルを設定する方法に関する情報を追加しました。詳細については、「Crawling an Amazon S3 Data Store or Amazon S3 backedData Catalog tables using a VPC Endpoint」を参照してください。

2022 年 2 月 3 日

Lake Formation ガバメントテーブルのSupport

ACID トランザクション、自動データ圧縮、および時間移動クエリを AWS Glue サポートするLake Formation 管理テーブルのサポートについての情報を追加しました 詳細については、「AWS Glue API および AWS Lake Formation デベロッパーガイド」を参照してください。

2021 年 11 月 30 日

インタラクティブセッションおよびノートブックに追加された新規の AWS マネージドポリシー

IAM の新しいマネージドポリシーにより、AWS Glue インタラクティブなセッションとノートブックで使用するためのセキュリティが強化されました。詳細については、「AWS Glue の AWS マネージドポリシー」を参照してください。

2021 年 11 月 30 日

Glue スキーマレジストリがストリーミングジョブでサポートされるようになりました

Glue スキーマレジストリの一部であるテーブルにアクセスするストリーミングジョブを作成できます。詳細については、「AWS Glue Schema Registryストリーミング ETL ジョブを追加 AWS Glue」を参照してください。

2021 年 11 月 15 日

新しい機械学習機能のサポート

インクリメンタルマッチングやマッチスコアリングなど、機械学習変換の新機能に関する情報を追加しました。詳細については、「インクリメンタルマッチの検索」と「マッチの信頼度スコアを使用した一致の質の推定」を参照してください。

2021 年 10 月 31 日

(プライベートプレビュー) AWS Glue フレックスジョブをサポート

柔軟な実行クラスを持つ AWS Glue Spark ジョブの設定に関する情報が追加されました。これは、開始時間と完了時間が異なる時間的な制約のあるジョブに適しています。詳細については、「AWS Glue でジョブを追加する」を参照してください。

2021 年 10 月 29 日

Amazon S3 イベント通知を使用したクロールの高速化のサポート

Amazon S3 イベント通知を使用したクロールの高速化のサポート 詳細については「クロールの高速化のサポートを使用した Amazon S3 イベント通知」を参照してください。

2021 年 10 月 15 日

アクセスコントロールおよび VPC に関連するセキュリティ設定オプションの追加

AWS Glue および VPC の設定で新しいアクセス制御アクセス許可を設定する方法についての情報を追加しました。詳細については「AWS のタグ AWS Glue」、「条件キーまたはコンテキストキーを使用して設定を制御する ID ベースのポリシー (IAM ポリシー)」、「すべての設定AWSVPC を通過するためのコール」を参照してください。

2021 年 10 月 13 日

VPC エンドポイントポリシーのサポートが追加されました

AWS Glue でVirtual Private Cloud (VPC) エンドポイントポリシーのサポートに関する情報を追加しました。詳細については、「AWS Glue とインターフェイス VPC エンドポイント (AWS PrivateLink)」を参照してください。

2021 年 10 月 11 日

Glue Studio が中国で利用可能になりました

AWS Glue Studio が北京および寧夏リージョンで利用可能になりました。

2021 年 10 月 11 日

AWS Glue Studio が、インタラクティブなジョブ編集におけるノートブックのオーサリング機能をリリースしました。

ノートブックはコードの記述と実行、結果の可視化、およびインサイトの共有に役立ちます。通常データサイエンティストは、ノートブックを使用して実験やデータ探索のタスクを行います。詳細については、「ノートブックの使用」を参照してください。

2021 年 10 月 1 日

ストリーミングソースへの直接アクセスが可能になりました

ビジュアルエディタで ETL ジョブにデータソースを追加する場合、データカタログデータベースとテーブルを使用せずに、データストリームにアクセスするための情報を指定できます。

2021 年 9 月 30 日

AWS Glue バージョンのサポートポリシーのドキュメント化

AWS Glue バージョンサポートポリシーと、特定の期間終了フェーズ AWS Glue バージョンに関する情報を追加しました。詳細については、「AWS Glue バージョンサポートのポリシー」を参照してください。

2021 年 9 月 24 日

カスタムコネクタをデータプレビューで使用できるようになりました

カスタムコネクタを使用してデータソースノードを編集する場合、[データプレビュー] タブを選択してデータセットをプレビューできます。詳細については、「カスタムコネクタ」を参照してください。

2021 年 9 月 24 日

サポート対象 AWS Glue インタラクティブセッション (プライベートプレビュー)

(プライベートプレビュー) の使用方法に関する情報を追加。任意の Jupyter Notebook から Spark ワークロードをクラウドで実行するための AWS Glue 対話型セッション。インタラクティブセッションは AWS Glue 2.0以降を使用する場合、AWS Glue 抽出、変換、ロード(ETL)のコードを開発するための好ましい方法です。詳細については、「Jupyter Notebook の AWS Glue インタラクティブセッションのセットアップと実行」を参照してください。

2021 年 8 月 24 日

ブループリントからのワークフロー作成のサポート (GA)

ブループリントでの一般的な抽出、変換、ロード (ETL) ユースケースのコーディングと、その後のブループリントからのワークフローの作成に関する情報を追加しました。データアナリストが複雑な ETL プロセスを簡単に作成して実行できるようにしています。詳細については、「Performing Complex ETL Activities Using blueprints and Workflows in AWS Glue」を参照してください。

2021 年 8 月 23 日

AWS Glue バージョン 3.0 のサポート。

AWS Glue バージョン 3.0 のサポートについての情報を追加しました。Apache Spark ETL ジョブを実行するための Apache Spark 3.0 エンジンのアップグレード、およびその他の最適化とアップグレードをサポートしています。詳細については、AWS Glue リリースノートおよび「Migrating AWS Glue jobs to AWS Glue version 3.0」を参照してください。このリリースの特徴には、他に、AWS Glue シャッフルマネージャー、SIMD ベクトル化された CSV リーダー、カタログパーティションの述語などがあります。詳細については、「AWS Glue Spark shuffle manager with Amazon S3」、「Format Options for ETL Inputs and Outputs in AWS Glue」、および「Server-side filtering using catalog partition predicates」を参照してください。

2021 年 8 月 18 日

AWS GovCloud (US) Region

AWS GovCloud (US) Region で、AWS Glue Studio が使用可能になりました

2021 年 8 月 18 日

AWS Glue Studio で Python シェルのオーサリングが使用可能になりました

作成する新しいジョブとして、Python シェルジョブが選択できるようになりました。詳細については、ジョブの作成プロセスの開始 および Editing Python shell jobs in AWS Glue Studio を参照してください。

2021 年 8 月 13 日

Amazon EventBridge イベントでワークフローを開始するためのサポート

イベント駆動型アーキテクチャで AWS Glue がイベントを使用する方法についての情報を追加しました。詳細については、「Starting an AWS Glue Workflow with an Amazon EventBridge Event」および「Viewing the EventBridge Events That Started a Workflow」を参照してください。

2021 年 7 月 14 日

AWS Glue スキーマレジストリでサポートされるデータ形式として JSON を追加

サポートされているデータ形式として JSON に関する情報を追加しました (AVRO に加えて)。詳細については、「AWS Glue Schema Registry」を参照してください。

2021 年 6 月 30 日

データカタログテーブルなしで AWS Glue ストリーミングジョブを作成

create_data_frame_from_options Python 関数または getSource for Scala スクリプトは、データカタログテーブルを必要とせず、データストリームを直接参照するストリーミング ETL ジョブの作成をサポートします。

2021 年 6 月 15 日

AWS Glue 機械学習変換で AWS Key Management Service キーのサポート開始

コンソール、CLI、または AWS Glue API で、AWS Glue 機械学習変換設定時に、セキュリティ設定または AWS KMS キーを指定できます。詳細については、「Using Data Encryption with Machine Learning Transforms」および「AWS Glue Machine Learning API」を参照してください。

2021 年 6 月 15 日

AWSGlueConsoleFullAccess AWS マネージドポリシーのアップデート

AWSGlueConsoleFullAccess AWS マネージドポリシーのマイナーアップデートに関する情報を追加しました。詳細については、「AWS Glue での AWS マネージドポリシーの更新」を参照してください。

2021 年 6 月 10 日

ジョブの作成および編集中にジョブのデータセットを表示する

ジョブダイアグラム内のノードで、新規に追加された [Data preview] (データのプレビュー) タブを使用すると、そのノードによって処理されるデータのサンプルを表示できます。詳細については、「Using data previews in the visual job editor」を参照してください。

2021 年 6 月 7 日

クローラー出力のテーブルの場所を示す値の指定をサポート

クローラーの出力設定時、テーブルの場所を示す値の指定に関する情報を追加しました。詳細については、「How to specify the table location」を参照してください。

2021 年 6 月 4 日

Amazon S3 データストアのクロール時、データセット内のファイルのサンプルのクロールをサポート

Amazon S3 をクロールするときにファイルのサンプルをクロールする方法に関する情報を追加しました。詳細については、「クローラーのプロパティ」を参照してください。

2021 年 5 月 10 日

AWS Glue 最適化された parquet ライターのサポート

DynamicFrames 用の AWS Glue 最適化された parquet ライターを使用して parquet 分類されたテーブルを作成または更新する方法についての情報を追加しました。詳細については、「Creating Tables, Updating Schema, and Adding New Partitions in theデータカタログfrom AWS Glue ETL Jobs」および「Format Options for ETL Inputs and Outputs in AWS Glue」を参照してください。

2021 年 5 月 4 日

Kafka クライアント認証パスワードのサポート

Apache Kafka ストリームプロデューサーを使用した AWS Glue でサポートされる SSL クライアント証明書認証での ETL ジョブのストリーミング方法に関する情報を追加しました。Apache Kafka クラスターへの AWS Glue 接続を定義する際に、カスタム証明書を指定できるようになりました。これは、認証時に AWS Glue で使用されます。詳細については、「AWS Glue Connection Properties」および「Connection API」を参照してください。

2021 年 4 月 28 日

ストリーミング ETL ジョブで、別のアカウントの Amazon Kinesis Data Streams からのデータの使用をサポート

ストリーミング ETL ジョブの作成による別のアカウントの Amazon Kinesis Data Streams からのデータの使用に関する情報を追加しました。詳細については、「AWS Glue でストリーミング ETL ジョブを追加する」を参照してください。

2021 年 3 月 30 日

SQL 変換が使用可能になりました

SQL の変換ノードを使用して、SQL クエリの形式で独自の変換を記述できます。詳細については、「Using a SQL query to transform data」を参照してください。

2021 年 3 月 23 日

ブループリントからのワークフロー作成のサポート (公開プレビュー)

(公開プレビュー) ブループリントでの一般的な抽出、変換、ロード (ETL) のユースケースのコーディングと、その後のブループリントからのワークフローの作成に関する情報を追加しました。データアナリストが複雑な ETL プロセスを簡単に作成して実行できるようにしています。詳細については、「Performing Complex ETL Activities Using blueprints and Workflows in AWS Glue」を参照してください。

2021 年 3 月 22 日

データターゲットでコネクタが使用可能になりました

カスタムまたは AWS Marketplace で提供されたコネクタを、データターゲット用に使用できるようになりました。詳細については、「Authoring jobs with custom connectors」を参照してください。

2021 年 3 月 15 日

AWS Glue 機械学習変換の列重要度メトリクスのサポート

AWS Glue 機械学習変換使用時の列重要度メトリクスの表示に関する情報が追加されました。詳細については、「Working with Machine Learning Transforms on the AWS Glue Console」を参照してください。

2021 年 2 月 5 日

AWS Glue Studio でジョブのスケジューリングが使用可能になりました

AWS Glue Studio で時間ベースのスケジュールをジョブ実行用に定義できます。コンソールを使用して基本的なスケジュールを作成したり、Unix ライクの cron 構文を使用して、より複雑なスケジュールを定義したりできます。詳細については、「Schedule job runs」を参照してください。

2020 年 12 月 21 日

AWS Glue カスタムコネクタがリリースされました

AWS Glue の Custom Connectors を使用すると、AWS Marketplace 内でコネクターを検索およびサブスクライブできます。また、Apache Spark データソース、Athena フェデレーティッドクエリ、および JDBC API 用に構築されたコネクタをプラグインするための、AWS Glue Spark ランタイムインターフェイスもリリースしました。詳細については、「Using connectors and connections with AWS Glue Studio」を参照してください。

2020 年 12 月 21 日

AWS Glue バージョン 2.0でストリーミング ETL ジョブをサポート

Glue バージョン 2.0 でのストリーミング ETL ジョブの実行に関するサポートに関する情報を追加しました。詳細については、「AWS Glue でストリーミング ETL ジョブを追加する」を参照してください。

2020 年 12 月 18 日

実行に上限を設定したワークロードのパーティション化のサポート

ワークロードのパーティション化を有効にして、データセットサイズまたは ETL ジョブ実行で処理されるファイル数の上限を設定する方法に関する情報を追加しました。詳細については、「Workload Partitioning with Bounded Execution」を参照してください。

2020 年 11 月 23 日

拡張パーティション管理のサポート

新しい API を使用して、既存のテーブルに対してパーティションインデックスを追加または削除する方法に関する情報を追加しました。詳細については、「Working with Partition Indexes」を参照してください。

2020 年 11 月 23 日

AWS Glue スキーマレジストリのサポート

AWS Glue スキーマレジストリを使用して、スキーマを一元的に検出し、コントロールし、進化させる方法に関する情報を追加しました。詳細については、「AWS Glue Schema Registry」を参照してください。

2020 年 11 月 19 日

ストリーミング ETL ジョブでの grok 入力フォーマットのサポート

ログファイルなどのストリーミングソースへの Grok パターンの適用に関する情報が追加されました。詳細については、「Applying Grok Patterns to Streaming Sources」を参照してください。

2020 年 11 月 17 日

AWS Glue コンソールでのワークフローへのタグの追加をサポート

AWS Glue コンソールを使用してワークフローを作成するときのタグの追加に関する情報を追加しました。詳細については、「Creating and Building Out a Workflow Using the AWS Glue Console」を参照してください。

2020 年 10 月 27 日

増分クローラー実行のサポート

前回の実行以降に追加された Amazon S3 フォルダのみをクロールする増分クローラー実行のサポートに関する情報を追加しました。詳細については、「Incremental Crawls」を参照してください。

2020 年 10 月 21 日

ストリーミング ETL データソースのスキーマ検出のサポート。Avro ストリーミング ETL データソースとセルフマネージド型の kafkのサポート。

AWS Glue でのストリーミング抽出、変換、ロード (ETL) ジョブで、受信レコードのスキーマを自動的に検出し、レコードごとにスキーマの変更を処理できるようになりました。自己管理型 Kafka データソースがサポートされるようになりました。ストリーミング ETL ジョブで、データソースの Avro 形式がサポートされるようになりました。詳細については、「Streaming ETL in AWS Glue」、「Defining Job Properties for a Streaming ETL Job」、および「Notes and Restrictions for Avro Streaming Sources」を参照してください。

2020 年 10 月 7 日

MongoDB および DocumentDB データソースのクロールのサポート

MongoDB および Amazon DocumentDB (MongoDB 互換) データソースをクロールするためのサポートに関する情報を追加しました。詳細については、「Defining Crawlers」を参照してください。

2020 年 10 月 5 日

FIPS コンプライアンスのサポート

AWS Glue を使用してデータにアクセスするときに FIPS 140-2 検証済みの暗号化モジュールを必要とするお客様のための FIPS エンドポイントに関する情報を追加しました。詳細については、「FIPS Compliance」を参照してください。

2020 年 9 月 23 日

AWS Glue Studio Glue Studio での、ジョブを作成およびモニタリングするための使いやすいビジュアルインターフェイスの提供

シンプルなグラフベースのインターフェイスを使用して、データを移動および変換するジョブを作成し、AWS Glue で実行できるようになりました。その後、AWS Glue Studio Glue Studio のジョブ実行ダッシュボードを使用して ETL の実行をモニタリングし、ジョブが意図したとおりに動作していることを確認できます。詳細については、「AWS Glue Studioユーザーガイド」を参照してください。

2020 年 9 月 23 日

クエリのパフォーマンスを向上させるためのテーブルインデックス作成のサポート

テーブルからパーティションのサブセットを取得できるようにするテーブルインデックスの作成に関する情報が追加されました。詳細については、「Working with Partition Indexes」を参照してください。

2020 年 9 月 9 日

Apache Spark ETL ジョブを実行する際のスタートアップ時間の削減を AWS Glue バージョン 2.0 でサポートしました。

AWS Glue バージョン 2.0 のサポートについての情報を追加しました。このバージョンでは、Apache Spark ETL ジョブを実行するインフラストラクチャがアップグレードされ、スタートアップ時間の短縮、ログ記録の変更、ジョブレベルでの追加の Python モジュール指定のサポートが行われます。詳細については、「AWS Glue Release Notes」および「Running Spark ETL Jobs with Reduced Startup Times」を参照してください。

2020 年 8 月 10 日

同時ワークフロー実行数の制限のサポート。

特定のワークフローの同時ワークフロー実行数を制限する方法に関する情報を追加しました。詳細については、「Creating and Building Out a Workflow Using the AWS Glue Console」を参照してください。

2020 年 8 月 10 日

VPC エンドポイントを使用した Amazon S3 データストアのクロールのサポート

セキュリティ、監査、またはコントロールのために、Amazon Virtual Private Cloud 環境 (Amazon VPC) でのみアクセスするように Amazon S3 データストアを設定する方法に関する情報を追加しました。詳細については、「Crawling an Amazon S3 Data Store using a VPC Endpoint」を参照してください。

2020 年 8 月 7 日

ワークフロー実行再開のサポート

1 つ以上のノード (ジョブまたはクローラー) が正常に完了しなかったために部分的にしか完了しなかったワークフロー実行を再開する方法に関する情報を追加しました。詳細については、「Repairing and Resuming a Workflow Run」を参照してください。

2020 年 7 月 27 日

の kafka 接続でのプライベート CA 証明書の有効化をサポート。AWS Glue

AWS Glue の Kafka 接続のプライベート CA 証明書を有効にすることをサポートする新しい接続オプションに関する情報を追加しました。詳細については、「Connection Types and Options for ETL in AWS Glue」および「Special Parameters Used by AWS Glue」を参照してください。

2020 年 7 月 20 日

別のアカウント内の DynamoDB データ読み取りのサポート

別の AWS アカウントの DynamoDB テーブルからのデータの読み取りの AWS Glue サポートに関する情報を追加しました。詳細については、「Reading from DynamoDB Data in Another Account」を参照してください。

2020 年 7 月 17 日

AWS Glue バージョン 1.0 以降での DynamoDB ライター接続のサポート

DynamoDB ライター、および DynamoDB の読み書き用の新しい接続オプションまたは更新された接続オプションのサポートに関する情報を追加しました。詳細については、「Connection Types and Options for ETL in AWS Glue」を参照してください。

2020 年 7 月 17 日

リソースリンクのサポート AWS Glue およびand Lake Formationを用いたアカウント横断アクセス制御のサポート

リソースリンクと呼ばれる新しいデータカタログオブジェクトに関するコンテンツ、および AWS Glue と AWS Lake Formation の両方でアカウント間のデータカタログリソース共有を管理する方法に関するコンテンツを追加しました。詳細については、「Granting Cross-Account Access」および「Table Resource Links」を参照してください。

2020 年 7 月 7 日

DynamoDB データストアをクロールするときのレコードのサンプリングのサポート

DynamoDB データストアのクロール時に設定できる新しいプロパティに関する情報を追加しました。詳細については、「クローラーのプロパティ」を参照してください。

2020 年 6 月 12 日

ワークフロー実行停止のサポート。

特定のワークフローのワークフロー実行を停止する方法に関する情報を追加しました。詳細については、「ワークフロー実行の停止」を参照してください。

2020 年 5月 14 日

Spark ストリーミング ETL ジョブのサポート

ストリーミングデータソースを使用した抽出/変換/ロード (ETL、Extract/Transform/Load) ジョブの作成に関する情報を追加しました。詳細については、「AWS Glue でストリーミング ETL ジョブを追加する」を参照してください。

2020 年 4 月 27 日

ETL ジョブの実行後のテーブルの作成、スキーマの更新、データカタログ での新規パーティション追加のサポート

テーブルの作成、スキーマの更新、およびデータカタログでの ETL ジョブの結果を確認するための新しいパーティションの追加を有効にする方法についての情報が追加されました。詳細については、「Creating Tables, Updating Schema, and Adding New Partitions in theデータカタログfrom AWS Glue ETL Jobs」を参照してください。

2020 年 4 月 2 日

AWS Glue で、ETL 入力および出力として Apache Avro データ形式のバージョン指定のサポート

Apache Avro データ形式のバージョンを AWS Glue の ETL 入力および出力として指定する方法についての情報を追加しました。デフォルトバージョン 1.7。version フォーマットオプションを使用して、Avro バージョン 1.8 を指定して、論理読み取り / 書き込みを有効にすることができます。詳細については、「Format Options for ETL Inputs and Outputs in AWS Glue」を参照してください。

2020 年 3 月 31 日

Parquet データを Amazon S3 に書き込むための EMRFS S3 最適化コミッターのサポート

AWS Glue ジョブの作成または更新時に、EMRFR S3 向けに最適化されたコミッターが Parquet データを Amazon S3 に書き込むための新しいフラグを設定する方法に関する情報を追加しました。詳細については、「AWS Glue で使用される特別なパラメータ」を参照してください。

2020 年 3 月 30 日

AWS リソースタグによって管理されるリソースとしての機械学習変換のサポート

AWS リソースタグを使用して AWS Glue での機械学習変換へのアクセスを管理およびコントロールする方法に関する情報を追加しました。AWS Glue で、AWS リソースタグをジョブ、トリガー、エンドポイント、クローラー、機械学習変換に割り当てることができます。詳細については、「AWS Tags in AWS Glue」を参照してください。

2020 年 3 月 2 日

上書きできないジョブ引数のサポート

トリガーまたはジョブの実行時に上書きできない特殊なジョブパラメータのサポートに関する情報を追加しました。詳細については、「AWS Glue でジョブを追加する」を参照してください。

2020 年 2 月 12 日

Amazon S3 でデータセットを操作するための新しい変換のサポート

Amazon S3 でデータセットを操作する Apache Spark アプリケーションの新しい変換 (マージ、パージ、遷移) と Amazon S3 ストレージクラスの除外に関する情報を追加しました。Python でのこれらの変換のサポートの詳細については、「mergeDynamicFrame」および「Working with Datasets in Amazon S3」を参照してください。Scala については、「mergeDynamicFrames」および「AWS Glue Scala GlueContext APIs」を参照してください。

2020 年 1 月 16 日

ETL ジョブからの新しいパーティション情報を使用したデータカタログ更新のサポート

新しいパーティション情報で AWS Glue Data Catalog を更新するために、抽出、変換、ロード (ETL) スクリプトをコーディングする方法についての情報を追加しました。この機能を使用すると、新しいパーティションを表示するためにジョブの完了後にクローラーを再実行する必要がなくなります。詳細については、「Updating the Data Catalog with New Partitions」を参照してください。

2020 年 1 月 15 日

新しいチュートリアル: SageMaker AI ノートブックの使用

Amazon SageMaker ノートブックを使用して ETL および機械学習スクリプトを開発する方法を示すチュートリアルを追加しました。「チュートリアル: 開発エンドポイントで Amazon SageMaker ノートブックを使用する」を参照してください。

2020 年 1 月 3 日

MongoDB および Amazon DocumentDB (MongoDB 互換) からの読み取りのサポート

MongoDB と Amazon DocumentDB (MongoDB 互換) との読み書き用の新しい接続タイプと接続オプションに関する情報を追加しました。詳細については、「Connection Types and Options for ETL in AWS Glue」を参照してください。

2019 年 12 月 17 日

さまざまな修正と説明

全体にわたって修正と説明を追加しました。「既知の問題」の章からエントリを削除しました。データカタログの暗号化設定を指定し、セキュリティ設定を作成するときに、AWS Glue は対称カスタマーマスターキー (CMK) のみをサポートすることを知らせる警告が追加されました。AWS Glue が Amazon DynamoDB への書き込みをサポートしていないことを示す注意を追加しました。

2019 年 12 月 9 日

カスタム JDBC ドライバーのサポート

MySQL バージョン 8 や Oracle Database バージョン 18 など、AWS Glue がネイティブでサポートしていない JDBC ドライバーを使用したデータソースおよびターゲットへの接続に関する情報を追加しました。詳細については、「JDBC connectionType の値」を参照してください。

2019 年 11 月 25 日

SageMaker AI ノートブックをさまざまな開発エンドポイント接続するためのサポート

SageMaker AI ノートブックをさまざまな開発エンドポイントに接続する方法に関する情報を追加しました。新しい開発エンドポイントに切り替えるための新しいコンソールアクションと新しい SageMaker AI IAM ポリシーに関する説明を更新しました。詳細については、「Working with Notebooks on the AWS Glue Console」および「Amazon SageMaker ノートブック用に IAM ポリシーを作成する」を参照してください。

2019 年 11 月 21 日

機械学習変換での AWS Glue バージョンのサポート

機械学習変換と互換性のある AWS Glue のバージョンを示すため、機械学習変換での AWS Glue バージョンの定義に関する情報を追加しました。詳細については、「Working with Machine Learning Transforms on the AWS Glue Console」を参照してください。

2019 年 11 月 21 日

ジョブブックマークの巻き戻しのサポート

ジョブのブックマークを以前のジョブ実行に巻き戻すことに関する情報を追加しました。その結果、後続のジョブ実行ではブックマークされたジョブ実行からのデータだけが再処理されます。2 つのブックマーク間でジョブを実行できる job-bookmark-pause オプションの 2 つの新しいサブオプションについて説明しました。詳細については、「Tracking Processed Data Using Job Bookmarks」および「Special Parameters Used by AWS Glue」を参照してください。

2019 年 10 月 22 日

データストアに接続するためのカスタム JDBC 証明書のサポート

AWS Glue データソースまたはターゲットへの SSL 接続用のカスタム JDBC 証明書の AWS Glue サポートに関する情報を追加しました。詳細については、「Working with Connections on the AWS Glue Console」を参照してください。

2019 年 10 月 10 日

Python Wheel のサポート

Python シェルジョブの依存関係として wheel ファイル (egg ファイルと併用) の AWS Glue サポートに関する情報を追加しました。詳細については、「独自の Python ライブラリの提供」を参照してください。

2019 年 9 月 26 日

AWS Glue での開発エンドポイントのバージョニングのサポート

開発エンドポイントでの Glue version の定義に関する情報を追加しました。Glue version により、AWS Glue がサポートする Apache Spark および Python のバージョンが決定されます。詳細については、「開発エンドポイントの追加」を参照してください。

2019 年 9 月 19 日

Spark UI を使用した AWS Glue モニタリングのサポート

Apache Spark UI を使用して、AWS Glue ジョブシステムで実行されている AWS Glue ETL ジョブと AWS Glue 開発エンドポイントの Spark アプリケーションのモニタリングとデバッグに関する情報を追加しました。詳細については、「Monitoring AWS Glue Using Spark UI」を参照してください。

2019 年 9 月 19 日

パブリック AWS Glue ETL ライブラリを使用したローカル ETL スクリプト開発のサポートの強化

AWS Glue ETL ライブラリのコンテンツを更新して、AWS Glue バージョン 1.0 がサポートされたことを反映しました。詳細については、「Developing and Testing ETL Scripts Locally Using the AWS Glue ETL Library」を参照してください。

2019 年 9 月 18 日

ジョブ実行時の Amazon S3 ストレージクラス除外のサポート

Amazon S3 からファイルまたはパーティションを読み取る AWS Glue ETL ジョブを実行する際の Amazon S3 ストレージクラスの除外に関する情報を追加しました。詳細については、「Excluding Amazon S3 Storage Classes」を参照してください。

2019 年 8 月 29 日

パブリック AWS Glue ETL ライブラリを使用したローカル ETL スクリプト開発のサポート

ネットワーク接続を必要とせずに Python および Scala ETL スクリプトをローカルで開発およびテストする方法に関する情報を追加しました。詳細については、「Developing and Testing ETL Scripts Locally Using the AWS Glue ETL Library」を参照してください。

2019 年 8 月 28 日

既知の問題

AWS Glue の既知の問題に関する情報を追加しました。詳細については、「AWS Glue の既知の問題」を参照してください。

2019 年 8 月 28 日

AWS Glueでの機械学習変換のサポート

カスタム変換を作成するために AWS Glue によって提供される機械学習機能に関する情報を追加しました。これらの変換は、ジョブの作成時に作成できます。機械学習変換の詳細については、「AWS Glue の機械学習変換」を参照してください。

2019 年 8 月 8 日

共有 Amazon Virtual Private Cloud のサポート

共有 Amazon Virtual Private Cloud の AWS Glue サポートに関する情報を追加しました。詳細については、「共有 Amazon VPC」を参照してください。

2019 年 8 月 6 日

AWS Glue でのバージョニングのサポート

ジョブプロパティでの Glue version の定義に関する情報を追加しました。AWS Glue バージョンにより、AWS Glue がサポートする Apache Spark および Python のバージョンが決定されます。詳細については、「AWS Glue でジョブを追加する」を参照してください。

2019 年 7 月 24 日

開発エンドポイントの追加設定オプションのサポート

メモリを大量に使用するワークロードがある開発エンドポイントの設定オプションに関する情報を追加しました。エグゼキュターあたりのメモリを増強した新しい 2 つの設定からも選択できます。詳細については、「AWS Glue コンソールでの開発エンドポイントの使用」を参照してください。

2019 年 7 月 24 日

ワークフローを使用した ETL (抽出、変換、ロード) アクティビティの実行のサポート

ワークフローと呼ばれる新しい構成を使用して、複雑なマルチジョブの抽出、変換、ロード (ETL) アクティビティを設計し、これを AWS Glue で単一のエンティティとして実行および追跡する機能に関する情報を追加しました。詳細については、「Performing Complex ETL Activities Using Workflows in AWS Glue」を参照してください。

2019 年 6 月 20 日

Python シェルジョブでの Python 3.6 のサポート

Python シェルジョブでの Python 3.6 のサポートに関する情報を追加しました。Python 3.6 または Python 2.7 をジョブプロパティとして指定できます。詳細については、「Adding Python Shell Jobs in AWS Glue」を参照してください。

2019 年 6 月 5 日

Virtual Private Cloud (VPC) エンドポイントのサポート

VPC のインターフェイスエンドポイントを介した AWS Glue への直接接続に関する情報を追加しました。VPC インターフェイスエンドポイントを使用すると、AWS ネットワーク内で VPC と AWS Glue 間の通信が完全かつ安全に実施されます。詳細については、「Using AWS Glue with VPC Endpoints」を参照してください。

2019 年 6 月 4 日

AWS Glue ジョブのリアルタイムの連続ログ記録のサポート。

CloudWatch でのリアルタイムの Apache Spark ジョブログの有効化と表示に関する情報を追加しました。これには、ドライバーログ、各エグゼキュターログ、および Spark ジョブの進行状況バーが含まれます。詳細については、「AWS Glue ジョブの連続ログ記録」を参照してください。

2019 年 5 月 28 日

クローラーのソースとして既存のデータカタログテーブルをサポート

既存のデータカタログテーブルのリストをクローラーのソースとして指定することに関する情報を追加しました。新しいデータが利用可能になると、クローラーは、テーブルスキーマの変更を検出し、テーブル定義を更新して、新しいパーティションを登録できます。詳細については、「クローラーのプロパティ」を参照してください。

2019 年 5 月 10 日

メモリ大量使用ジョブ向け追加設定オプションのサポート

メモリを集中的に使用する作業での Apache Spark ジョブの設定オプションに関する情報を追加しました。エグゼキュターあたりのメモリを増強した新しい 2 つの設定からも選択できます。詳細については、「AWS Glue でジョブを追加する」を参照してください。

2019 年 4 月 5 日

CSV カスタム分類子のサポート

カスタム CSV 分類子を使用して、さまざまな種類の CSV データのスキーマを推測することに関する情報を追加しました。詳細については、「カスタム分類子の書き込み」を参照してください。

2019 年 3 月 26 日

AWS リソースタグのサポート

AWS Glue リソースへのアクセスを管理およびコントロールするのに役立つ AWS リソースタグの使用に関する情報を追加しました。AWS リソースタグを AWS Glue のジョブ、トリガー、エンドポイント、およびクローラーに割り当てることができます。詳細については、「AWS Tags in AWS Glue」を参照してください。

2019 年 3 月 20 日

Spark SQL ジョブ用データカタログのサポート

AWS Glue Data Catalog を外部の Apache Hive メタストアとして使用するための AWS Glue ジョブと開発エンドポイントの設定に関する情報を追加しました。これにより、ジョブおよび開発エンドポイントは AWS Glue Data Catalog に格納されているテーブルに対して Apache Spark SQL クエリを直接実行できます。詳細については、「AWS Glue Data Catalog Support for Spark SQL Jobs」を参照してください。

2019 年 3 月 14 日

Python シェルジョブのサポート

Python シェルジョブと新しいフィールド [最小キャパシティー] についての情報を追加しました。詳細については、「Adding Python Shell Jobs in AWS Glue」を参照してください。

2019 年 1 月 18 日

データベースおよびテーブル変更通知のサポート

データベース、テーブル、およびパーティション API 呼び出しへの変更対して生成されるイベントに関する情報を追加しました。CloudWatch Events で、これらのイベントに応答するようにアクションを設定できます。詳細については、「Automating AWS Glue with CloudWatch Events」を参照してください。

2019 年 1 月 16 日

接続パスワード暗号化のサポート

接続オブジェクトで使用されるパスワードの暗号化についての情報を追加しました。詳細については、「接続パスワードの暗号化と復号」を参照してください。

2018 年 12 月 11 日

リソースレベルのアクセス許可とリソースに基づくポリシーのサポート

AWS Glue でリソースレベルのアクセス許可とリソースに基づくポリシーを使用することに関する情報を追加しました。詳細については、「AWS Glue でのセキュリティ」のトピックを参照してください。

2018 年 10 月 15 日

SageMaker AI ノートブックのサポート

AWS Glue 開発エンドポイントで SageMaker AI ノートブックを使用することに関する情報を追加しました。詳細については、「ノートブックの管理」を参照してください。

2018 年 10 月 5 日

暗号化のサポート

AWS Glue で暗号化を使用することに関する情報を追加しました。詳細については、「Encryption at Rest」、「Encryption in Transit」、および「Setting Up Encryption in AWS Glue」を参照してください。

2018 年 8 月 24 日

Apache Spark ジョブメトリクスのサポート

ETL のデバッグとプロファイリングを強化するため、Apache Spark メトリクスの使用に関する情報を追加しました。読み取りおよび書き込みされたバイト数、ドライバーとエグゼキュターのメモリ使用量と CPU 負荷、エグゼキュター間のデータシャッフルなどのランタイムメトリクスを AWS Glue コンソールから簡単に追跡できます。詳細については、「Monitoring AWS Glue Using CloudWatch Metrics」、「Job Monitoring and Debugging」、および「Working with Jobs on the AWS Glue Console」を参照してください。

2018 年 7 月 13 日

データソースとしての DynamoDB のサポート

DynamoDB をクロールし、ETL ジョブのデータソースとして使用する方法に関する情報を追加しました。詳細については、「クローラーを使用してテーブルを分類する」と「接続パラメータ」を参照してください。

2018 年 7 月 10 日

ノートブックサーバー作成手順の更新

開発エンドポイントに関連付けられた Amazon EC2 インスタンスでノートブックサーバーを作成する方法に関する情報を更新しました。詳細については、「開発エンドポイントに関連付けられているノートブックサーバーを作成する」を参照してください。

2018 年 7 月 9 日

更新を RSS で今すぐ入手可能

RSS フィードにサブスクライブすると、AWS Glue デベロッパーガイドの更新に関する通知を受け取れるようになりました。

2018 年 6 月 25 日

ジョブ遅延通知のサポート

ジョブ実行時の遅延しきい値の設定に関する情報を追加しました。詳細については、「AWS Glue でジョブを追加する」を参照してください。

2018 年 5 月 25 日

新しい列を追加するようにクローラーを設定する

クローラー、MergeNewColumns の新しい設定オプションについての情報を追加しました。詳細については、「クローラーの設定」を参照してください。

2018 年 5 月 7 日

ジョブタイムアウトのサポート

ジョブ実行時のタイムアウトしきい値の設定に関する情報を追加しました。詳細については、「AWS Glue でジョブを追加する」を参照してください。

2018 年 4 月 10 日

Scala ETL スクリプトと追加の実行条件に基づくジョブのトリガーのサポート

Scala を ETL プログラミング言語として使用することについての追加の情報。さらに、トリガー API は、(すべての条件に加えて) いずれかの条件が満たされたときの発生をサポートするようになりました。また、ジョブは、(「succeeded」ジョブ実行に加えて)「failed」または「stopped」のジョブ実行に基づいてトリガーすることができます。

2018 年 1 月 12 日

以前の更新

次の表に、2018 年 1 月以前の AWS Glue 開発者ガイドの各リリースにおける重要な変更点を示します。

変更 説明 日付
XML データソースと新しいクローラー設定オプションをサポート XML データソースとパーティション変更の新しいクローラーオプションについての情報を追加しました。 2017 年 11 月 16 日
新しい変換、追加の Amazon RDS データベースエンジンのサポート、および開発エンドポイントの機能強化 マップとフィルターの変換、Amazon RDS Microsoft SQL Server と Amazon RDS Oracle のサポート、および開発エンドポイントの新機能に関する情報を追加しました。 2017 年 9 月 29 日
AWS Glue 初回リリース これは AWS Glue デベロッパーガイドの最初のリリースです。 2017 年 8 月 14 日

このページの内容

プライバシーサイト規約Cookie の設定
© 2025, Amazon Web Services, Inc. or its affiliates.All rights reserved.