Apache Spark SQL es una herramienta para el "procesamiento de datos estructurados y SQL" en Spark, un sistema de computación en clúster rápido y de uso general. Se puede utilizar para recuperar datos de Hive, Parquet, etc. y ejecutar consultas SQL sobre RDD y conjuntos de datos existentes.

Más sobre apache-spark-sql...

Los datos ROW YEAR PROD KEY DATE 1 2011 APPLE TIME 2011-11-18 00:00:00.000 2 2011 APPLE TIME 2011-11-19 00:00:00.000 3 2013 APPLE NULL 2011-11-18 00:00:00.000 4 2013 APPLE NULL 2011-11-19 00:00:00.000 5 2013 APPLE TIME 2014-04-08 00:00:00.0....
Tengo un marco de datos pyspark Place Month Sector Estimate Profit USA 1/1/2020 Sector1 5944 Col 1/1/2020 Sector1 398 IND 1/1/2020 Sector1 25 USA 1/1/2020 Sector2 6.9% Col 1/1/2020 Sector2 0.4% China 1....
10 ene. 2022 a las 13:27
df1 = spark.read.csv('/content/drive/MyDrive/BigData2021/Lecture23/datasets/cities.csv', header = True, inferSchema= True) import pyspark.sql.functions as F for name in df1.columns: df1 = df1.withColumn(name, F.trim(df1[name])) df1.show() Aquí está mi pieza de código. Trato de recortar c....
9 ene. 2022 a las 16:20
avgsalary_df = spark.read.csv('/content/drive/MyDrive/BigData2021/Lecture23/datasets/data_scientist_salaries.csv', header = True) avgsalary_df = df.selectExpr('Job Title' ,'Location', 'salary', 'spark') avgsalary_df.show() Aquí está mi código, pero no devolverá la columna Título del trabajo debido ....
9 ene. 2022 a las 11:37
Tengo un marco de datos pyspark con estas columnas y valores: |employee|department|salary| +--------+----------+------+ | James| Sales| 90000| | Michael| Sales| 86000| | Robert| Sales| 81000| | Maria| Finance| 90000| | Raman| Finance| 99000| | Scott| Finance| 83000| | J....
9 ene. 2022 a las 03:24
s = ["abcd:{'name':'john'}","defasdf:{'num':123}"] df = spark.createDataFrame(s, "string").toDF("request") display(df) +--------------------+ | request| +--------------------+ |abcd:{'name':'john'}| | defasdf:{'num':123}| +--------------------+ Me gustaria llegar como +----------------....
8 ene. 2022 a las 21:39
Tengo un DataFrame que incluye algunas columnas con StructType y ArrayType. Quiero enviar todas las columnas IntegerType a DoubleType. Encontré algunas soluciones para este problema. Por ejemplo, esta respuesta hace algo similar a lo que quiero. Pero el problema es que no cambia los tipos de dat....
Estoy tratando de anonimizar/hacer hash de una columna anidada, pero no he tenido éxito. El esquema se parece a esto: -- abc: struct (nullable = true) | |-- xyz: struct (nullable = true) | | |-- abc123: string (nullable = true) | | |-- services: struct (nullable = true) | | | ....
Recibo un error del compilador si intento esto df.filter($"foo" == lit(0)) Olvidando que necesito un triple igual en Spark. Sin embargo, si hago esto, obtengo la respuesta incorrecta pero no hay error: df.filter($"foo".between(baz, quux) || $"foo" == lit(0)) ¿Alguien puede explicar por qué las ver....
7 ene. 2022 a las 17:55
Tengo 2 formatos de fecha (MM/dd/yy HH:mm y yyyy-mm-dd HH:mm:ss) en la hora de inicio que deben convertirse al formato yyyy-mm-dd HH:mm. ¿Cómo manejo ambos formatos de datos en una sola declaración de selección a continuación para convertirlos al formato deseado? df1 = spark.sql("""select from_unix....
6 ene. 2022 a las 23:29
Estoy tratando con el marco de datos de PySpark que tiene una columna de tipo struct como se muestra a continuación: df.printSchema() #root #|-- timeframe: struct (nullable = false) #| |-- start: timestamp (nullable = true) #| |-- end: timestamp (nullable = true) Así que traté de collect() y....
6 ene. 2022 a las 18:13
Escribí el código para el problema a continuación, pero tiene los siguientes problemas. Por favor, sugiérame si se puede hacer algún ajuste. Se necesita más tiempo, creo. Hay 3 marcas a partir de ahora. Está codificado. Si se agregaran más marcas, necesito agregar el código manualmente. Esquema d....
Tengo una fuente de datos como la siguiente: order_id,order_date,order_customer_id,order_status 1,2013-07-25 00:00:00.0,11599,CLOSED 2,2013-07-25 00:00:00.0,256,PENDING_PAYMENT 3,2013-07-25 00:00:00.0,12111,COMPLETE 4,2013-07-25 00:00:00.0,8827,CLOSED Estoy tratando de convertir a mm/dd/yyyy solo p....
6 ene. 2022 a las 08:58
Tengo dos DF Df1: +---+-----+--------+ |key|price| date| +---+-----+--------+ | 1| 1.0|20210101| | 2| 2.0|20210101| | 3| 3.0|20210101| +---+-----+--------+ Df2: +---+-----+ |key|price| +---+-----+ | 1| 1.1| | 2| 2.2| | 3| 3.3| +---+-----+ Me gustaría reemplazar los valores de la col....
6 ene. 2022 a las 01:00
Ni siquiera estoy seguro de por dónde empezar. Quiero analizar una columna que actualmente es una cadena en una marca de tiempo. Los registros tienen el siguiente aspecto: Thu, 28 Jan 2021 02:54:17 +0000 ¿Cuál es la mejor manera de analizar esto como una marca de tiempo? Ni siquiera estaba segur....
Disculpas, esto es probablemente algo muy obvio. No entiendo por qué esto no funciona: val df = spark.createDataFrame([("A",1),("B",2),("C",3)],["Letter","Number"]) Cuando ejecuto esto, aparece el siguiente error: error: inicio ilegal de una expresión simple ¿Por qué no funciona esto?....
5 ene. 2022 a las 14:30
Suponga que tiene un marco de datos y desea filtrar los patrones por filas agregando una nueva columna pattern_name. El tipo de la columna pattern_name debe ser una matriz, porque cada fila puede coincidir potencialmente con varios patrones. # Input df = spark.createDataFrame( [(1, 21, 'A foo ....
5 ene. 2022 a las 14:21
Soy bastante nuevo en PySpark, pero estoy tratando de usar las mejores prácticas en mi código. Tengo un marco de datos PySpark y me gustaría retrasar varias columnas, reemplazando los valores originales con los valores retrasados. Ejemplo: ID date value1 value2 value3 1 202....
4 ene. 2022 a las 20:06
Tengo un archivo de registro y quiero informar las direcciones IP que iniciaron más de un (al menos dos) tipo de conexiones protocol, mientras se muestran estos protocolos. Estoy tratando de obtener estos resultados usando tanto la API de DataFrames como SparkSQL. Aquí está una muestra de mis dat....
4 ene. 2022 a las 16:08
Estoy tratando de lograr lo siguiente en PYSPARK. La fuente de muestra se proporciona a continuación. Tendremos más registros en origen. Fuente: Salida esperada: ....
4 ene. 2022 a las 10:15
Quiero unir dos conjuntos de datos con deseo como a continuación: CONJUNTO DE DATOS 1: PIN LOCATION 1234 Germany 2356 Poland 2894 England 3452 Bloomberg CONJUNTO DE DATOS 2: MAIL STARTLOCATION ENDLOCATION ami@test.com 1234 ....
Tengo un marco de datos enorme que se parece a esto: +----+-------+-------+-----+ |name|level_A|level_B|hours| +----+-------+-------+-----+ | Bob| 10| 3| 5| | Bob| 10| 3| 15| | Bob| 20| 3| 25| | Sue| 30| 3| 35| | Sue| 30| 7| 45| +----+-------+-....
Tengo una fecha en mi marco de datos en un tipo de datos de cadena con formato - dd/MM/yyyy como se muestra a continuación: Cuando intento convertir la cadena al formato de fecha, todas las funciones devuelven valores nulos. Buscando convertir el tipo de datos a DateType.....
3 ene. 2022 a las 21:32
Tengo el siguiente código de preludio que se comparte entre mis dos escenarios: from pyspark.sql import SparkSession from pyspark.sql.types import * import pyspark.sql.functions as F import pandas as pd import numpy as np spark = SparkSession.builder.getOrCreate() df = pd.DataFrame({"col1....
Tengo algunos datos en el marco de datos que se ve así: +-----------+--------+-----------+--------------------------------+ | Noun| Pronoun| Adjective|Metadata | +-----------+--------+-----------+--------------------------------+ | Homer| Simpson|Engineer |{"Age"....