Skip to content

Pandas

Carregando Dados de Arquivos

Lendo dados de um arquivo CSV

import pandas as pd

df_output = pd.read_csv("file_name.csv")

Lendo dados de um arquivo Excel

import pandas as pd

df_output = pd.read_excel("file_name.csv")

Carregando Dados de Bancos de Dados

Lendo dados do MySQL

import mysql.connector
import pandas as pd

connection = mysql.connector.connect(
    host=host,
    user=user,
    password=password,
    database=database
)

cursor = connection.cursor()
query = "SELECT * FROM table_name"
df_output = pd.read_sql(query, connection)
cursor.close()
connection.close()

Lendo dados do Microsoft SQL Server

import pymssql
import pandas as pd

connection = pymssql.connect(
    server=server, 
    user=user, 
    password=password, 
    database=database
)

query = "SELECT * FROM table_name"
df = pd.read_sql(query, connection)
connection.close()

Inspeções Básicas dos Dados

Mostra primeiras linhas

df.head()

Mostra últimas linhas

df.tail()

Mostra tipos dos dados

df.dtypes()

Mostra sumário estatistico

df.describe()

Mostra indice, colunas e dados

df.info()

Limpeza de Dados

Verifica valores null

df.isnull().sum()

Modifica valores null

Exemplo: Preenche valores nulos com um valor específico (valor igual a 0)

df.fillna(0)

Remove valores null

df.dropna()

Renomeia colunas

df.rename(columns={'old_name': 'new_name'})

Remove colunas

df.drop(columns=['column_name'])

Funções Úteis

Manipulando planilhas do Excel

A função abaixo compara dois arquivos excel afim de descobrir se a estrutura de colunas (schema) entre os dois arquivos é a mesma.

import pandas as pd

def compare_excel_structure(model_file, new_file):

    df_model = pd.read_excel(model_file)
    df_new = pd.read_excel(new_file)

    if set(df_model.columns) == set(df_new.columns):
        print("A estrutura de arquivos é a mesma.")
    else:
        missing_columns = set(df_model.columns) - set(df_new.columns)
        additional_columns = set(df_new.columns) - set(df_model.columns)

        if missing_columns:
            print(f"As colunas {missing_columns} estão ausentes no arquivo: ", new_file)
        if missing_columns:
            print(f"As colunas {additional_columns} foram adicionadas no novo arquivo: ", new_file)