La API de Spark Python (PySpark) expone el modelo de programación apache-spark a Python.

Más sobre pyspark...

No entiendo por qué esto no funciona en PySpark... Estoy tratando de dividir los datos en un marco de datos approved y un marco de datos rejected según los valores de las columnas. Entonces rejected mira los valores de la columna language en approved y solo devuelve las filas donde language no exis....
18 ene. 2022 a las 19:09
Necesito ayuda con la siguiente tarea: Obtuve un grupo mediante el cual tengo una lista de varias direcciones (aquí solo un recorte con una dirección) con personas que ocupan esas direcciones. Necesito calcular la proporción de uso de la aplicación, de modo que estoy dividiendo [nombre] + Recuento ....
18 ene. 2022 a las 11:44
Utilizo clústeres de 3 nodos Cassandra y ScyllaDB y uso PySpark para leer datos. Me preguntaba si alguno de ellos no se repara para siempre, si hay algún desafío al leer los datos si hay inconsistencias en los nodos. ¿Se leerán los datos correctos y, en caso afirmativo, por qué necesitamos reparar....
12 ene. 2022 a las 09:16
Mis datos están particionados como Año, mes, día en s3 Bucket. Tengo el requisito de leer los datos de los últimos seis meses todos los días. Estoy usando el siguiente código para leer los datos, pero está seleccionando un valor negativo en meses. ¿Hay alguna forma de leer los datos correctos de l....
Tengo un marco de datos pyspark Place Month Sector Estimate Profit USA 1/1/2020 Sector1 5944 Col 1/1/2020 Sector1 398 IND 1/1/2020 Sector1 25 USA 1/1/2020 Sector2 6.9% Col 1/1/2020 Sector2 0.4% China 1....
10 ene. 2022 a las 13:27
Estoy tratando de entender el concepto subyacente en Spark desde aquí. Por lo que he entendido, la transformación estrecha produce RDD secundarios que se transforman a partir de un único RDD principal (pueden ser múltiples particiones del mismo RDD). Sin embargo, tanto la unión como la intersecció....
9 ene. 2022 a las 19:03
df1 = spark.read.csv('/content/drive/MyDrive/BigData2021/Lecture23/datasets/cities.csv', header = True, inferSchema= True) import pyspark.sql.functions as F for name in df1.columns: df1 = df1.withColumn(name, F.trim(df1[name])) df1.show() Aquí está mi pieza de código. Trato de recortar c....
9 ene. 2022 a las 16:20
avgsalary_df = spark.read.csv('/content/drive/MyDrive/BigData2021/Lecture23/datasets/data_scientist_salaries.csv', header = True) avgsalary_df = df.selectExpr('Job Title' ,'Location', 'salary', 'spark') avgsalary_df.show() Aquí está mi código, pero no devolverá la columna Título del trabajo debido ....
9 ene. 2022 a las 11:37
Tengo un marco de datos pyspark con estas columnas y valores: |employee|department|salary| +--------+----------+------+ | James| Sales| 90000| | Michael| Sales| 86000| | Robert| Sales| 81000| | Maria| Finance| 90000| | Raman| Finance| 99000| | Scott| Finance| 83000| | J....
9 ene. 2022 a las 03:24
s = ["abcd:{'name':'john'}","defasdf:{'num':123}"] df = spark.createDataFrame(s, "string").toDF("request") display(df) +--------------------+ | request| +--------------------+ |abcd:{'name':'john'}| | defasdf:{'num':123}| +--------------------+ Me gustaria llegar como +----------------....
8 ene. 2022 a las 21:39
Tengo un DataFrame que incluye algunas columnas con StructType y ArrayType. Quiero enviar todas las columnas IntegerType a DoubleType. Encontré algunas soluciones para este problema. Por ejemplo, esta respuesta hace algo similar a lo que quiero. Pero el problema es que no cambia los tipos de dat....
Soy un aficionado a las chispas como notarás en la pregunta. Estoy tratando de ejecutar un código muy básico en un grupo de chispas. (creado en dataproc) Yo SSH en el maestro Cree un shell pyspark con pyspark --master yarn y ejecute el código - Éxito Ejecute exactamente el mismo código con spark-s....
Estoy tratando de ejecutar la función de generador de datos proporcionada por mi Microsoft para probar la transmisión de datos a Event Hubs. Desafortunadamente, sigo recibiendo el error. Processing failure: No such file or directory Cuando intento ejecutar la función: %scala DummyDataGenerator.star....
Nuevo en Pyspark, me gustaría eliminar algunas palabras vacías en francés de la columna pyspark. Debido a alguna restricción, no puedo usar NLTK/Spacy, StopWordsRemover es la única opción que tengo. A continuación se muestra lo que he intentado hasta ahora sin éxito from pyspark.ml import * from py....
Estoy tratando de anonimizar/hacer hash de una columna anidada, pero no he tenido éxito. El esquema se parece a esto: -- abc: struct (nullable = true) | |-- xyz: struct (nullable = true) | | |-- abc123: string (nullable = true) | | |-- services: struct (nullable = true) | | | ....
Sé que hay información que vale 10 páginas de Google sobre esto, pero todas me dicen que simplemente ponga --master yarn en el comando spark-submit. Pero, en el modo de clúster, ¿cómo puede mi computadora portátil local saber lo que eso significa? Digamos que tengo mi computadora portátil y un clú....
Estoy usando la siguiente función para analizar la cadena hasta la fecha en PySpark. func = udf(lambda x: parser.parse(x), DateType()) Mi formato de fecha es: "22-Jan-2021 00:00" Aunque esta función no funciona con ninguno de los tipos Tengo el siguiente marco de datos de chispa date ---- "22-Jan-....
7 ene. 2022 a las 02:19
Tengo 2 formatos de fecha (MM/dd/yy HH:mm y yyyy-mm-dd HH:mm:ss) en la hora de inicio que deben convertirse al formato yyyy-mm-dd HH:mm. ¿Cómo manejo ambos formatos de datos en una sola declaración de selección a continuación para convertirlos al formato deseado? df1 = spark.sql("""select from_unix....
6 ene. 2022 a las 23:29
Estoy tratando con el marco de datos de PySpark que tiene una columna de tipo struct como se muestra a continuación: df.printSchema() #root #|-- timeframe: struct (nullable = false) #| |-- start: timestamp (nullable = true) #| |-- end: timestamp (nullable = true) Así que traté de collect() y....
6 ene. 2022 a las 18:13
Tengo una fuente de datos como la siguiente: order_id,order_date,order_customer_id,order_status 1,2013-07-25 00:00:00.0,11599,CLOSED 2,2013-07-25 00:00:00.0,256,PENDING_PAYMENT 3,2013-07-25 00:00:00.0,12111,COMPLETE 4,2013-07-25 00:00:00.0,8827,CLOSED Estoy tratando de convertir a mm/dd/yyyy solo p....
6 ene. 2022 a las 08:58
Tengo este conjunto de datos: Quiero tomar un subconjunto de 3 meses (por ejemplo, los meses: abril, mayo y agosto) usando pyspark. Todavía no he encontrado nada que me permita acercarme a este marco de datos usando pyspark.....
5 ene. 2022 a las 20:44
Ni siquiera estoy seguro de por dónde empezar. Quiero analizar una columna que actualmente es una cadena en una marca de tiempo. Los registros tienen el siguiente aspecto: Thu, 28 Jan 2021 02:54:17 +0000 ¿Cuál es la mejor manera de analizar esto como una marca de tiempo? Ni siquiera estaba segur....
Las transformaciones de transmisión en Apache Spark con Databricks generalmente se codifican en Scala o Python. Sin embargo, ¿alguien puede decirme si también es posible codificar Streaming en SQL en Delta? Por ejemplo, para el siguiente código de muestra, se usa PySpark para la transmisión estruct....
Suponga que tiene un marco de datos y desea filtrar los patrones por filas agregando una nueva columna pattern_name. El tipo de la columna pattern_name debe ser una matriz, porque cada fila puede coincidir potencialmente con varios patrones. # Input df = spark.createDataFrame( [(1, 21, 'A foo ....
5 ene. 2022 a las 14:21
Soy bastante nuevo en PySpark, pero estoy tratando de usar las mejores prácticas en mi código. Tengo un marco de datos PySpark y me gustaría retrasar varias columnas, reemplazando los valores originales con los valores retrasados. Ejemplo: ID date value1 value2 value3 1 202....
4 ene. 2022 a las 20:06