Apache Spark es un motor de procesamiento de datos distribuidos de código abierto escrito en Scala que proporciona una API unificada y conjuntos de datos distribuidos a los usuarios. Los casos de uso para Apache Spark a menudo están relacionados con el aprendizaje automático / profundo y el procesamiento de gráficos.

apache-spark...

Tengo este marco de datos en PySpark: +--------+--------------------+--------------------+------+--------+----------+-----------+---+ |indirizzo |radius|traffico|utmeasting|utmnorthing|cum_traffico| lat_lng | +--------+--------------------+--------------------+------+--------+--....
25 ago. 2020 a las 16:36
Tengo la siguiente trama de datos val input = Seq(("ZZ","a","a","b","b"), ("ZZ","a","b","c","d"), ("YY","b","e",null,"f"), ("YY","b","b",null,"f"), ("XX","j","i","h",null)) .toDF("main","value1","value2","value3","value4") input.show() +----+------+------+------+------+ |main|value1|value2|value3|v....
23 ago. 2020 a las 17:09
En la Databricks referencia de visualización indica Los DataFrames de PySpark, pandas y koalas tienen un método de visualización que llama a la función de visualización de Databricks. Puede llamarlo después de una simple operación de DataFrame Con ejemplo diamonds_df = spark.read.csv("/databricks-da....
18 ago. 2020 a las 15:34
Tengo dos marcos de datos Máximo de columna de fecha de un marco de datos: una columna, una fila - df1, columna: fecha máxima Varios registros con columna de fecha :: columnas df2: col1, col2, col3..colDate Quiero filtro df2 basado en df1.maxdate, df2.colDate > df1.maxdate Si especifico como a c....
10 ago. 2020 a las 21:07
Intentando extraer registros con la última fecha para valores distintos de la columna A y la columna B (abajo) Resultado ideal: Solución actual: from pyspark.sql import functions as f test = df.groupBy(df['A'], df['B']).agg(f.first(df['C']), f.first(df['D']), f.max(df['E'])) ¿Alguna laguna para b....
10 ago. 2020 a las 20:39
Necesito obtener el valor de un atributo con un punto en su nombre. Estoy luchando por escapar del punto. get_json_object($"AColumn", "$.something.id") He probado "$. something.id", "$. ['Something.id']", "$ .something`.id" y ninguno de estos parece funcionar. Desafortunadamente, la documentación e....
10 ago. 2020 a las 16:20
Tratando de escribir el programa Spark java para agregar una columna en el conjunto de datos según la fecha. Estoy usando la base de datos Oracle. Es necesario agregar una nueva columna (trimestre de año) según la fecha de publicación utilizando Spark Java. Por ejemplo ... Si la fecha de publicación....
9 ago. 2020 a las 06:22
Estoy escribiendo una aplicación en Spark usando java. Me metí en un problema en el que tengo que concatear cadenas de diferentes filas después de agrupar filas por columna en particular. Se agradece cualquier ayuda !! Gracias. Conjunto de datos de entrada Conjunto de datos de salida esperado ....
7 ago. 2020 a las 15:15
Perdón por un título confuso, no sé cómo expresarlo con claridad. Esto es lo que quiero lograr usando PySpark SQL: Cuando el valor de la variable 'Z' está entre 2000 y 3000, devuelve filas para ese ID específico, pero solo devuelve datos para las variables Y y Z. No sé cómo ir más allá de la consult....
7 ago. 2020 a las 12:08
Me gustaría realizar la partición sin ningún orden, para que los datos puedan mantener su clasificación natural en el marco de datos. Comparta cualquier consejo, gracias de antemano. Considere que hay los siguientes datos en un marco de datos de Spark raw data ---------------------------- ....
7 ago. 2020 a las 07:37
Cuando consulto mi base de datos como: spark.sql("SELECT * FROM MyBase") Tengo "MyBase". delante de todos los nombres de mi columna. ¿Podemos simplemente evitar eso? Si no es así, ¿cuál es la mejor manera de eliminarlo? Ejemplo: df = spark.sql("SELECT name, price FROM MyBase") df.show(2) +--------....
6 ago. 2020 a las 12:50
Soy nuevo en la chispa y trato de comprender sus partes internas. Entonces, estoy leyendo un pequeño archivo de parquet de 50 MB de s3 y realizando un grupo y luego volviendo a guardar en s3. Cuando observo la interfaz de usuario de Spark, puedo ver 3 etapas creadas para esto, Etapa 0: carga (1 tare....
6 ago. 2020 a las 11:05
Estoy usando Spark 3.0.0 con Python. Tengo un test_topic en Kafka que estoy produciendo desde un csv. El siguiente código consume de ese tema en Spark, pero leí en alguna parte que debe estar en un DStream antes de que pueda hacer ML en él. import json from json import loads from kafka import KafkaC....
6 ago. 2020 a las 10:30
Estoy tratando de definir un esquema para mi json en Spark. Tengo este error: org.apache.spark.sql.AnalysisException: no se puede resolver Columnas de entrada dadas 'sport_details': [user_agent, modified_at, datamatrix_content, player_id, created_by, device_advertisers_id, device_type, betslips, cre....
5 ago. 2020 a las 12:06
Estoy uniendo dos marcos de datos site_bs y site_wrk_int1 y creando site_wrk usando una condición de unión dinámica. Mi código es el siguiente: join_cond=[ col(v_col) == col('wrk_'+v_col) for v_col in primaryKeyCols] #result would be site_wrk=site_bs.join(site_wrk_int1,join_cond,'inner').select(*s....
5 ago. 2020 a las 07:31
¿Cómo puedo agregar una matriz vacía cuando uso df.withColomn when() y otherwise(***empty_array***) El nuevo tipo de columna es T.ArrayType(T.StringType()) de UDF Quiero evitar terminar con valores NaN.....
4 ago. 2020 a las 12:52
Tengo el siguiente marco de datos / conjunto de datos Spark. Column_2 tiene fechas en formato de cadena. Column_1 Column_2 A 2020-08-05 B 2020-08-01 B 2020-09-20 B 2020-12-31 C 2020-05-10 Mi marco de datos de salida esperado debe tener solo una fila por valor en C....
4 ago. 2020 a las 10:17
Tengo un marco de datos que tiene pocas filas entre ellos, algunos ya existen en db. Quiero actualizar algunas columnas de filas existentes. ¿Cómo podemos hacer eso? Veo que tenemos SaveModes: append y override que pueden servir para el propósito, pero hay una limitación en ambos casos. Con append, ....
4 ago. 2020 a las 08:00
Spark con scala 2.4 Mis datos de origen se ven como se indica a continuación. Salesperson_21: Customer_575,Customer_2703,Customer_2682,Customer_2615 Salesperson_11: Customer_454,Customer_158,Customer_1859,Customer_2605 Salesperson_10: Customer_1760,Customer_613,Customer_3008,Customer_1265 Salesperso....
4 ago. 2020 a las 06:57
Tengo columnas duplicadas en el archivo de texto y cuando intento cargar ese archivo de texto usando el código Spark Scala, se carga correctamente en el marco de datos y puedo ver las primeras 20 filas por df.Show () Código completo: - val sc = new SparkContext(conf) val hivesql = new org.apache.s....
3 ago. 2020 a las 14:05
Esto debería ser simple, pero soy nuevo en el trabajo en Python. ¿Alguna sugerencia por favor? #original dataframe df = pd.DataFrame({'year':[1,1,1,1,1], 'month':[4,4,4,4,4], 'mode': ['a','b','a','a','b']}, columns=['year','month','mode']) #pi....
3 ago. 2020 a las 12:14
Estoy usando spark-sql-2.4.1v cómo hacer varias uniones depende del valor de la columna Necesito obtener múltiples valores de búsqueda de la columna map_val para las columnas de valor dadas como se muestra a continuación. Datos de muestra: val data = List( ("20", "score", "school", "2018-03-31",....
3 ago. 2020 a las 08:24
En un marco de datos pyspark, necesito crear una nueva columna de ArrayType (StringType ()) cuyos valores provienen de una columna StringType () y sus longitudes provienen de la longitud de otra columna ArrayType (StringType ()). Algo así como un array_repeat con longitud dinámica. entrada : +-----....
3 ago. 2020 a las 05:09
En Spark es posible establecer explícitamente el nivel de almacenamiento para RDD y Dataframes, pero ¿es posible cambiar el nivel de almacenamiento predeterminado? Si es así, ¿cómo se puede lograr? Si no es así, ¿por qué no es posible? Se hacen preguntas similares aquí y allá, pero las respuestas so....
31 jul. 2020 a las 16:28
Estoy tratando de entender por qué Spark se comporta de manera diferente en el mismo escenario. Cambié el nombre de dos columnas e intenté usar ambas en algún cálculo, pero una declaración arroja un error sin poder encontrar la columna renombrada. Debajo está el código intermediateDF = intermediateD....
31 jul. 2020 a las 07:56