Según sqoop.apache.org, Sqoop 2 no tiene características completas y no debe usarse para sistemas de producción. Es justo que algunas personas quieran probar las nuevas funciones de Sqoop 2 en sus entornos de prueba.

Cloudera tiene una comparación de características entre Sqoop 1 y Sqoop 2 (https://www.cloudera.com/documentation/enterprise/5-8-x/topics/cdh_ig_sqoop_vs_sqoop2.html), pero según la página no hay nada que Sqoop 2 proporcione que Sqoop 1 no proporcione también .

Entonces, ¿por qué alguien usaría Sqoop 2 en su forma actual? ¿Ofrece alguna ventaja sobre Sqoop 1? Si no, ¿por qué está disponible para su uso? ¡Gracias por adelantado!

4
Andrew C. 30 dic. 2016 a las 03:15

3 respuestas

La mejor respuesta

Solo como una nota rápida:

De acuerdo con Cloudera (a partir de noviembre de 2017)

Nota: Sqoop 2 está en desuso. Cloudera recomienda usar Sqoop 1.

9
Mehdi LAMRANI 10 nov. 2017 a las 13:56

Algunas de las características esperadas en la versión estable de Sqoop2:

  1. Una GUI fácil de usar que sería adicional a la línea de comando existente.
  2. Correcciones de seguridad como contraseñas abiertamente compartidas para corregir
  3. Depuración más fácil con mejor registro.
  4. Proporcionando soporte a conectores que no siguen el modelo JDBC.

Actualmente no hay versiones estables de sqoop 2 disponibles. Pero puede crear el último proyecto para probar el producto y comprometerse con el proyecto abierto (si está interesado).


Referir:

Propuesta Sqoop2

Características y lanzamientos

4
Ani Menon 30 dic. 2016 a las 06:42

Apache Sqoop utiliza un modelo de cliente donde el usuario necesita instalar Sqoop junto con conectores / controladores en el cliente. Sqoop2 utiliza un modelo basado en servicios, donde los conectores / controladores se instalan en el servidor Sqoop2. Además, todas las configuraciones deben hacerse en el servidor Sqoop2.

Desde una perspectiva de MR, otra diferencia es que Sqoop envía un trabajo de Map only, mientras que Sqoop2 envía un trabajo de MapReduce donde los Mappers transportarían los datos desde la fuente, mientras que los Reductores transformarían los datos de acuerdo con la fuente especificada. Esto proporciona una abstracción limpia. En Sqoop, tanto el transporte como las transformaciones fueron proporcionados solo por Mappers.

Otra diferencia importante en Sqoop2 es desde una perspectiva de seguridad. El administrador configuraría las conexiones a la fuente y a los destinos, mientras que el usuario operador utiliza las conexiones ya establecidas, por lo que el usuario operador no necesita conocer los detalles sobre las conexiones. Y los operadores tendrán acceso a solo algunos de los conectores según sea necesario.

4
Aditya Agarwal 30 dic. 2016 a las 06:41