PySpark
Funções Úteis
Ler arquivo csv e entregar dados em dataframe
def json_to_df(path_filename: str) -> DataFrame:
df = spark.read\
.option("sep", ";")\
.option("header", "true")\
.option("encoding", "UTF-8")\
.csv(path_filename)
return df
Ler arquivo json e entregar dados em dataframe
def csv_to_df(path_filename: str) -> DataFrame:
df spark.read\
.option("multiline", "true")\
.option("encoding", "UTF-8")\
.json(path_filename)
return df
Retirar colunas duplicadas de um DataFrame
def drop_cols_duplicates(df):
dup_cols = df.columns
dup_cols = [col for col in dup_cols if df.select(col).distinct().count() == 1]
df = df.drop(*dup_cols)
return df
Verificar registros duplicados a partir de colunas
df = df_input.groupBy("name", "email").count().filter("count > 1")
df.show(truncate=False)