Gerenciamento de memória Spark

Este pool de memória é gerenciado pelo Spark. Este é responsável por armazenar o estado intermediário ao fazer a execução de tarefas como junções ou para armazenar as variáveis de transmissão. Todos os dados em cache / persistentes serão armazenados neste segmento, especificamente na memória de armazenamento deste segmento.

Como funciona a memória de faísca?
O faísca pode ficar sem memória?
Como a memória é dividida em faísca?
Como faço para sintonizar minha memória de faísca?

Como funciona a memória de faísca?

Apache Spark é uma plataforma de computação em cluster que fornece uma API para programação distribuída semelhante ao modelo MapReduce, mas foi projetada para ser rápida para consultas interativas e algoritmos iterativos. Ele consegue isso principalmente armazenando em cache os dados necessários para a computação na memória dos nós do cluster.

O faísca pode ficar sem memória?

Sem memória no nível do motorista

Um driver no Spark é a JVM onde o fluxo de controle principal do aplicativo é executado. Na maioria das vezes, o driver falha com um erro OutOfMemory devido ao uso incorreto do Spark.

Como a memória é dividida em faísca?

Na memória heap

Por padrão, o Spark usa apenas heap na memória. A área de memória On-heap no Executor pode ser dividida aproximadamente nos quatro blocos a seguir: Memória de armazenamento: é usada principalmente para armazenar dados de cache do Spark, como cache RDD, dados de desenrolar e assim por diante.

Como faço para sintonizar minha memória de faísca?

Aqui estão algumas maneiras de fazer isso:

Caso o tamanho da RAM seja inferior a 32 GB, o sinalizador JVM deve ser definido como –xx: + UseCompressedOops. ...
Estruturas aninhadas podem ser evitadas usando vários objetos pequenos, bem como ponteiros.
Em vez de usar strings para chaves, você pode usar IDs numéricos e objetos enumerados.