Este pool de memória é gerenciado pelo Spark. Este é responsável por armazenar o estado intermediário ao fazer a execução de tarefas como junções ou para armazenar as variáveis de transmissão. Todos os dados em cache / persistentes serão armazenados neste segmento, especificamente na memória de armazenamento deste segmento.
- Como funciona a memória de faísca?
- O faísca pode ficar sem memória?
- Como a memória é dividida em faísca?
- Como faço para sintonizar minha memória de faísca?
Como funciona a memória de faísca?
Apache Spark é uma plataforma de computação em cluster que fornece uma API para programação distribuída semelhante ao modelo MapReduce, mas foi projetada para ser rápida para consultas interativas e algoritmos iterativos. Ele consegue isso principalmente armazenando em cache os dados necessários para a computação na memória dos nós do cluster.
O faísca pode ficar sem memória?
Sem memória no nível do motorista
Um driver no Spark é a JVM onde o fluxo de controle principal do aplicativo é executado. Na maioria das vezes, o driver falha com um erro OutOfMemory devido ao uso incorreto do Spark.
Como a memória é dividida em faísca?
Na memória heap
Por padrão, o Spark usa apenas heap na memória. A área de memória On-heap no Executor pode ser dividida aproximadamente nos quatro blocos a seguir: Memória de armazenamento: é usada principalmente para armazenar dados de cache do Spark, como cache RDD, dados de desenrolar e assim por diante.
Como faço para sintonizar minha memória de faísca?
Aqui estão algumas maneiras de fazer isso:
- Caso o tamanho da RAM seja inferior a 32 GB, o sinalizador JVM deve ser definido como –xx: + UseCompressedOops. ...
- Estruturas aninhadas podem ser evitadas usando vários objetos pequenos, bem como ponteiros.
- Em vez de usar strings para chaves, você pode usar IDs numéricos e objetos enumerados.