FillWithMode
変換は、指定した電話番号形式に従って列をフォーマットします。値の一部が同じ場合、タイブレーカーロジックを指定することもできます。例えば、次の値を考えてみます: 1 2 2 3 3 4
MINIMUM
の modeType の場合、FillWithMode
はモード値として 2 を返します。modeType が MAXIMUM
の場合、モードは 3 です。AVERAGE
の場合、モードは 2.5 です。
例
from awsglue.context import *
from pyspark.sql import SparkSession
from awsgluedi.transforms import *
sc = SparkContext()
spark = SparkSession(sc)
input_df = spark.createDataFrame(
[
(105.111, 13.12),
(1055.123, 13.12),
(None, 13.12),
(13.12, 13.12),
(None, 13.12),
],
["source_column_1", "source_column_2"],
)
try:
df_output = data_quality.FillWithMode.apply(
data_frame=input_df,
spark_context=sc,
source_column="source_column_1",
mode_type="MAXIMUM"
)
df_output.show()
except:
print("Unexpected Error happened ")
raise
出力
コードの出力は次のようになります。
```
+---------------+---------------+
|source_column_1|source_column_2|
+---------------+---------------+
| 105.111| 13.12|
| 1055.123| 13.12|
| 1055.123| 13.12|
| 13.12| 13.12|
| 1055.123| 13.12|
+---------------+---------------+
```
「awsglue.data_quality」モジュールからの FillWithMode
変換は、「input_df」DataFrame に適用されます。これは、source_column_1
列の「null」値を、その列の非 null 値からの最大値 (「mode_type="MAXIMUM"」) に置き換えます。
この場合、source_column_1
列の最大値は「1055.123」です。したがって、source_column_1
の「null」値は、出力 DataFrame の「df_output」で「1055.123」に置き換えられます。
方法
__call__(spark_context、data_frame、source_column、mode_type)
FillWithMode
変換は、列内の文字列のケースをフォーマットします。
-
source_column
- 既存の列の名前。 -
mode_type
– データ内のタイ値を解決する方法。この値は、MINIMUM
、NONE
、AVERAGE
、またはMAXIMUM
のいずれかである必要があります。
apply(cls, *args, **kwargs)
継承元は GlueTransform
apply。
name(cls)
継承元は GlueTransform
name。
describeArgs(cls)
継承元は GlueTransform
describeArgs。
describeReturn(cls)
継承元は GlueTransform
describeReturn。
describeTransform(cls)
継承元は GlueTransform
describeTransform。
describeErrors(cls)
継承元は GlueTransform
describeErrors。
describe(cls)
継承元は GlueTransform
説明。