Apache Spark es un motor de procesamiento de datos distribuidos de código abierto escrito en Scala que proporciona una API unificada y conjuntos de datos distribuidos a los usuarios para el procesamiento por lotes y de transmisión. Los casos de uso de Apache Spark a menudo están relacionados con el aprendizaje profundo / máquina y el procesamiento de gráficos.

Más sobre apache-spark...

No entiendo por qué esto no funciona en PySpark... Estoy tratando de dividir los datos en un marco de datos approved y un marco de datos rejected según los valores de las columnas. Entonces rejected mira los valores de la columna language en approved y solo devuelve las filas donde language no exis....
18 ene. 2022 a las 19:09
Mis datos están particionados como Año, mes, día en s3 Bucket. Tengo el requisito de leer los datos de los últimos seis meses todos los días. Estoy usando el siguiente código para leer los datos, pero está seleccionando un valor negativo en meses. ¿Hay alguna forma de leer los datos correctos de l....
Tengo un marco de datos pyspark Place Month Sector Estimate Profit USA 1/1/2020 Sector1 5944 Col 1/1/2020 Sector1 398 IND 1/1/2020 Sector1 25 USA 1/1/2020 Sector2 6.9% Col 1/1/2020 Sector2 0.4% China 1....
10 ene. 2022 a las 13:27
Estoy tratando de entender el concepto subyacente en Spark desde aquí. Por lo que he entendido, la transformación estrecha produce RDD secundarios que se transforman a partir de un único RDD principal (pueden ser múltiples particiones del mismo RDD). Sin embargo, tanto la unión como la intersecció....
9 ene. 2022 a las 19:03
df1 = spark.read.csv('/content/drive/MyDrive/BigData2021/Lecture23/datasets/cities.csv', header = True, inferSchema= True) import pyspark.sql.functions as F for name in df1.columns: df1 = df1.withColumn(name, F.trim(df1[name])) df1.show() Aquí está mi pieza de código. Trato de recortar c....
9 ene. 2022 a las 16:20
avgsalary_df = spark.read.csv('/content/drive/MyDrive/BigData2021/Lecture23/datasets/data_scientist_salaries.csv', header = True) avgsalary_df = df.selectExpr('Job Title' ,'Location', 'salary', 'spark') avgsalary_df.show() Aquí está mi código, pero no devolverá la columna Título del trabajo debido ....
9 ene. 2022 a las 11:37
Tengo un marco de datos pyspark con estas columnas y valores: |employee|department|salary| +--------+----------+------+ | James| Sales| 90000| | Michael| Sales| 86000| | Robert| Sales| 81000| | Maria| Finance| 90000| | Raman| Finance| 99000| | Scott| Finance| 83000| | J....
9 ene. 2022 a las 03:24
s = ["abcd:{'name':'john'}","defasdf:{'num':123}"] df = spark.createDataFrame(s, "string").toDF("request") display(df) +--------------------+ | request| +--------------------+ |abcd:{'name':'john'}| | defasdf:{'num':123}| +--------------------+ Me gustaria llegar como +----------------....
8 ene. 2022 a las 21:39
Estaba buscando arquitecturas para hacer análisis de sentimientos en streaming con Spark y me encontré con esta arquitectura. Me preguntaba cuáles son las ventajas de usar Nifi + Kafka con la API de Twitter en lugar de conectar Spark directamente a ella. Supongo que sería más tolerante a fallas de ....
8 ene. 2022 a las 20:17
Tengo un DataFrame que incluye algunas columnas con StructType y ArrayType. Quiero enviar todas las columnas IntegerType a DoubleType. Encontré algunas soluciones para este problema. Por ejemplo, esta respuesta hace algo similar a lo que quiero. Pero el problema es que no cambia los tipos de dat....
Soy un aficionado a las chispas como notarás en la pregunta. Estoy tratando de ejecutar un código muy básico en un grupo de chispas. (creado en dataproc) Yo SSH en el maestro Cree un shell pyspark con pyspark --master yarn y ejecute el código - Éxito Ejecute exactamente el mismo código con spark-s....
Estoy tratando de ejecutar la función de generador de datos proporcionada por mi Microsoft para probar la transmisión de datos a Event Hubs. Desafortunadamente, sigo recibiendo el error. Processing failure: No such file or directory Cuando intento ejecutar la función: %scala DummyDataGenerator.star....
Nuevo en Pyspark, me gustaría eliminar algunas palabras vacías en francés de la columna pyspark. Debido a alguna restricción, no puedo usar NLTK/Spacy, StopWordsRemover es la única opción que tengo. A continuación se muestra lo que he intentado hasta ahora sin éxito from pyspark.ml import * from py....
Estoy tratando de anonimizar/hacer hash de una columna anidada, pero no he tenido éxito. El esquema se parece a esto: -- abc: struct (nullable = true) | |-- xyz: struct (nullable = true) | | |-- abc123: string (nullable = true) | | |-- services: struct (nullable = true) | | | ....
Recibo un error del compilador si intento esto df.filter($"foo" == lit(0)) Olvidando que necesito un triple igual en Spark. Sin embargo, si hago esto, obtengo la respuesta incorrecta pero no hay error: df.filter($"foo".between(baz, quux) || $"foo" == lit(0)) ¿Alguien puede explicar por qué las ver....
7 ene. 2022 a las 17:55
Sé que hay información que vale 10 páginas de Google sobre esto, pero todas me dicen que simplemente ponga --master yarn en el comando spark-submit. Pero, en el modo de clúster, ¿cómo puede mi computadora portátil local saber lo que eso significa? Digamos que tengo mi computadora portátil y un clú....
Tengo 2 formatos de fecha (MM/dd/yy HH:mm y yyyy-mm-dd HH:mm:ss) en la hora de inicio que deben convertirse al formato yyyy-mm-dd HH:mm. ¿Cómo manejo ambos formatos de datos en una sola declaración de selección a continuación para convertirlos al formato deseado? df1 = spark.sql("""select from_unix....
6 ene. 2022 a las 23:29
Estoy tratando con el marco de datos de PySpark que tiene una columna de tipo struct como se muestra a continuación: df.printSchema() #root #|-- timeframe: struct (nullable = false) #| |-- start: timestamp (nullable = true) #| |-- end: timestamp (nullable = true) Así que traté de collect() y....
6 ene. 2022 a las 18:13
Escribí el código para el problema a continuación, pero tiene los siguientes problemas. Por favor, sugiérame si se puede hacer algún ajuste. Se necesita más tiempo, creo. Hay 3 marcas a partir de ahora. Está codificado. Si se agregaran más marcas, necesito agregar el código manualmente. Esquema d....
Tengo una fuente de datos como la siguiente: order_id,order_date,order_customer_id,order_status 1,2013-07-25 00:00:00.0,11599,CLOSED 2,2013-07-25 00:00:00.0,256,PENDING_PAYMENT 3,2013-07-25 00:00:00.0,12111,COMPLETE 4,2013-07-25 00:00:00.0,8827,CLOSED Estoy tratando de convertir a mm/dd/yyyy solo p....
6 ene. 2022 a las 08:58
Tengo dos DF Df1: +---+-----+--------+ |key|price| date| +---+-----+--------+ | 1| 1.0|20210101| | 2| 2.0|20210101| | 3| 3.0|20210101| +---+-----+--------+ Df2: +---+-----+ |key|price| +---+-----+ | 1| 1.1| | 2| 2.2| | 3| 3.3| +---+-----+ Me gustaría reemplazar los valores de la col....
6 ene. 2022 a las 01:00
Ni siquiera estoy seguro de por dónde empezar. Quiero analizar una columna que actualmente es una cadena en una marca de tiempo. Los registros tienen el siguiente aspecto: Thu, 28 Jan 2021 02:54:17 +0000 ¿Cuál es la mejor manera de analizar esto como una marca de tiempo? Ni siquiera estaba segur....
Las transformaciones de transmisión en Apache Spark con Databricks generalmente se codifican en Scala o Python. Sin embargo, ¿alguien puede decirme si también es posible codificar Streaming en SQL en Delta? Por ejemplo, para el siguiente código de muestra, se usa PySpark para la transmisión estruct....
Disculpas, esto es probablemente algo muy obvio. No entiendo por qué esto no funciona: val df = spark.createDataFrame([("A",1),("B",2),("C",3)],["Letter","Number"]) Cuando ejecuto esto, aparece el siguiente error: error: inicio ilegal de una expresión simple ¿Por qué no funciona esto?....
5 ene. 2022 a las 14:30
Suponga que tiene un marco de datos y desea filtrar los patrones por filas agregando una nueva columna pattern_name. El tipo de la columna pattern_name debe ser una matriz, porque cada fila puede coincidir potencialmente con varios patrones. # Input df = spark.createDataFrame( [(1, 21, 'A foo ....
5 ene. 2022 a las 14:21