Skip to content

Spark

Você sabe como o Spark funciona internamente?

Ele foi projetado para trabalhar com big data e permite o processamento paralelo e distribuído de dados em várias máquinas.

O processo básico do funcionamento interno do Sparké o seguinte:

  • Os dados são carregados no cluster Spark, seja de um sistema de arquivos (por exemplo, HDFS, S3) ou de fontes de dados externas (por exemplo, Kafka, flume).

  • Spark cria um plano de execução lógico para as tarefas de processamento de dados, usando um gráfico acíclico direcionado (DAG) para representar as etapas do trabalho.

  • O plano lógico é então dividido em uma série de tarefas menores que podem ser executadas em paralelo no cluster.

  • O Spark então agenda as tarefas a serem executadas no cluster, levando em conta fatores como a localidade dos dados e os recursos disponíveis em cada nó.

  • Conforme as tarefas são executadas, o Spark gerencia o fluxo de dados entre elas e acompanha seu status.

  • Depois de concluídas todas as tarefas, o Spark retorna os resultados para o usuário.