Estoy usando Cloud Dataproc como un servicio en la nube para mi investigación. Ejecutar Hadoop y Spark Job en esta plataforma (nube) es un poco más lento que ejecutar el mismo trabajo en una máquina virtual de menor capacidad. Estoy ejecutando mi trabajo de Hadoop en un clúster de 3 nodos (cada uno con 7.5gb de RAM y 50GB de disco) en la nube que tomó 4min49sec, mientras que el mismo trabajo tomó 3min20sec en la máquina virtual de un solo nodo (mi PC) que tiene 3gb de RAM y 27GB de disco . ¿Por qué el resultado es más lento en la nube con la agrupación en clústeres de varios nodos que en una PC normal?

0
santobedi 6 sep. 2017 a las 15:37

2 respuestas

La mejor respuesta

En primer lugar: no es fácil responder sin conocer la configuración completa y el tipo de trabajo que está ejecutando.

Las posibles razones son:

  1. mala configuración

http: // HOSTNAME: 8080 abra la aplicación web ressourcemanager y compare los vcores y la memoria disponibles

  1. el tipo de trabajo

El trabajo agrega más sobrecarga cuando se ejecuta en paralelo, por lo que es más lento

  1. hardware El hardware virtual seleccionado es más lento que el local. Thourgh bajo io de disco y sobrecarga de red

Yo diría que es algo así como 1. y 2.

Para una respuesta más detallada, hágamelo saber:

  • tamaño y tipo del trabajo y cómo lo ejecuta.
  • configuración de hadoop
  • arquitectura en la nube

Br

1
kf2 6 sep. 2017 a las 13:24

Para ser un poco más detallado aquí, los números / hechos que son interesantes para descubrir la razón del entorno de nube "más lento":

  1. tipo y tamaño de trabajo:

    • tamaño de los datos 1 MB o 1 TB
    • xml, parquet ....
    • qué tipo de proceso (por ejemplo, recuento de palabras, cambio de formato, ml, ....) y por supuesto las opciones (ejecutores y controladores) para su Spark-Submit o Spark-Shell
  2. Configuración de Hadoop:

    • ¿utiliza una distribución (hortonworks o cloudera?)
    • chispa independiente o en modo hilo
    • ¿cómo se configuran los administradores de nodos?
0
kf2 6 sep. 2017 a las 15:53