精度とコストのトレードオフ - AWS Glue

精度とコストのトレードオフ

FindMatches 変換には、accuracy-cost パラメータが含まれています。このパラメータを使用して、次のいずれかを指定できます。

  • 変換で 2 つのレコードの一致が正確に報告されることをより重視する場合は、精度を強調します。

  • 変換を実行するコストまたはスピードをより重視する場合は、より低いコストを強調します。

このトレードオフを行うには、AWS Glue コンソールまたは AWS Glue 機械学習 API オペレーションを使用できます。

精度を優先する場合

find matches の結果に一致が含まれないリスクに対処するには、精度を優先します。精度を優先するには、精度-コストトレードオフのより高い値を選択します。値が高いほど、FindMatches 変換でレコードを正しく一致させるために、より詳細な検索を行う時間を増やす必要があります。このパラメータは、一致しないレコードのペアを誤って一致と判断する可能性を減らすものではありません。変換は調整されて、一致の検索に費やす時間が増加されます。

コストを優先する場合

一致の検索数よりも find matches 変換を実行するコストをより重視する場合は、コストを優先します。コストを優先するには、精度-コストトレードオフのより低い値を選択します。値を低くするほど、 FindMatches 変換で実行する必要があるリソース数が減ります。一致の検索数を減らすように、変換が調整されます。より低いコストを優先したときの結果が許容できるものであれば、この設定を使用します。

精度とより低いコストの両方を優先する方法

レコードが一致するかどうかを判断するためにより多くのレコードのペアを調査するには、より多くのマシン時間が必要になります。品質を下げずにコストを削減するには、以下を実行できます。

  • 一致の対象としないレコードをデータソースから除外します。

  • 一致/不一致の判断に役立たないことが確実な列をデータソースから除外します。これを決める適切な方法としては、一連のレコードが「同じ」であるかどうかの判断に影響しないと思われる列を除外します。