Skip to content

PySpark

Funções Úteis

Ler arquivo csv e entregar dados em dataframe

def json_to_df(path_filename: str) -> DataFrame:

    df = spark.read\
        .option("sep", ";")\
        .option("header", "true")\
        .option("encoding", "UTF-8")\
        .csv(path_filename)

    return df

Ler arquivo json e entregar dados em dataframe

def csv_to_df(path_filename: str) -> DataFrame:

    df spark.read\
        .option("multiline", "true")\
        .option("encoding", "UTF-8")\
        .json(path_filename)

    return df

Retirar colunas duplicadas de um DataFrame

def drop_cols_duplicates(df):

    dup_cols = df.columns
    dup_cols = [col for col in dup_cols if df.select(col).distinct().count() == 1]
    df = df.drop(*dup_cols)

    return df

Verificar registros duplicados a partir de colunas

df = df_input.groupBy("name", "email").count().filter("count > 1")
df.show(truncate=False)