Skip to content

Spark

Comandos Úteis

Identificar diretório de instalação do Spark

echo 'sc.getConf("spark.home")' | spark-shell

Configurações Úteis

spark.driver.memory

Define a quantidade de memória que o driver (o processo principal do aplicativo Spark) pode usar. Aumentar essa configuração pode ajudar a melhorar o desempenho em casos de dados grandes ou operações complexas.

spark.executor.memory

Define a quantidade de memória que cada executor pode usar. Isso pode afetar o número de tarefas que podem ser executadas simultaneamente. Aumentar essa configuração pode ajudar a melhorar o desempenho em casos de dados grandes ou operações complexas.

spark.executor.instances

Define o número de executores que serão criados na inicialização da sessão. Aumentar esse número pode ajudar a aumentar o paralelismo e a velocidade de processamento do aplicativo.

spark.executor.cores

Define o número de núcleos de CPU que cada executor pode usar. Aumentar esse número pode ajudar a melhorar o desempenho em casos de operações que usam muitos recursos de CPU.

spark.task.cpus

Define o número de núcleos de CPU que cada tarefa pode usar. Aumentar esse número pode ajudar a melhorar o desempenho em casos de operações que usam muitos recursos de CPU.

spark.sql.shuffle.partitions

Define o número de partições usadas para operações de shuffle, como groupByKey e reduceByKey. Aumentar esse número pode ajudar a melhorar o desempenho em casos de dados grandes ou operações complexas

spark.default.parallelism

Define o número de partições usadas para operações como parallelize, union, intersection, cartesian e sortByKey. Aumentar esse número pode ajudar a melhorar o desempenho em casos de dados grandes ou operações complexas.

spark.memory.fraction

Define a fração da memória total que é usada para a memória de execução. Aumentar esse número pode ajudar a melhorar o desempenho em casos de dados grandes ou operações complexas.

spark.memory.storageFraction

Define a fração da memória total que é usada para a memória de armazenamento. Aumentar esse número pode ajudar a melhorar o desempenho em casos de dados grandes ou operações complexas.

spark.network.timeout

Define o tempo limite de rede em segundos. Aumentar esse número pode ajudar a melhorar o desempenho em casos de operações que exigem mais tempo para serem concluídas.

spark.speculation

Ativa ou desativa a especulação de tarefa. A especulação de tarefa é usada para executar novamente tarefas que podem estar atrasadas, aumentando assim a velocidade de processamento do aplicativo.

spark.sql.adaptive.enabled

Ativa ou desativa o modo adaptativo do Spark SQL. O modo adaptativo pode ajudar a melhorar o desempenho do aplicativo ajustando dinamicamente o tamanho da memória e o número de partições usadas para operações de shuffle e join.

spark.sql.adaptive.coalescePartitions.enabled

Ativa ou desativa a redução dinâmica do número de partições em operações de shuffle e join.