Apache Spark - это механизм распределенной обработки данных с открытым исходным кодом, написанный на Scala, который предоставляет унифицированный API и распределенные наборы данных пользователям. Примеры использования Apache Spark часто связаны с машинным / глубоким обучением, обработкой графиков.

С https://spark.apache.org/:

Apache Spark - это кластерная вычислительная система с открытым исходным кодом, целью которой является быстрое выполнение анализа и быстрое написание данных.

Для более быстрого запуска программ Spark предлагает общую модель выполнения, основанную на абстракции данных RDD, которая может помочь в оптимизации произвольных длинных графов операторов, и поддерживает вычисления в памяти, что позволяет запрашивать данные быстрее, чем дисковые механизмы, такие как hadoop.

Spark не привязан к двухступенчатой парадигме mapreduceи обещает производительность в 100 раз выше, чем Hadoop MapReduce.

Spark предоставляет примитивы для кластерных вычислений в памяти, которые позволяют пользовательским программам загружать данные в память кластера и многократно запрашивать их, что делает их хорошо подходящими для интерактивных, а также итеративных алгоритмов в машинном обучении или графических вычислениях.

Spark можно использовать для решения проблем с обработкой потоков с помощью многих подходов (микропакетная обработка, непрерывная обработка начиная с версии 2.3, выполнение запросов SQL, управление окнами данных и потоков, запуск библиотек ML для изучения потоковых данных и т. Д.) ,

Чтобы ускорить программирование, Spark предоставляет чистые и лаконичные API-интерфейсы в scala, java, pythonи r. Вы также можете использовать Spark в интерактивном режиме из scala, pythonи rоболочки для быстрого запроса больших наборов данных.

Spark работает на yarn, mesos, kubernetes, автономно или в облаке. Он может получить доступ к различным источникам данных, включая hdfs, cassandra, hbase, amazon-s3и google-cloud-platform .

Задавая вопрос, связанный с Spark, не забудьте привести воспроизводимый пример (a.k.a MVCE), если это применимо. Вы можете обратиться к Как создать хорошие воспроизводимые примеры Apache Sparkдля получения общих рекомендаций и предложений.

Последняя версия

Примечания к выпуску для стабильных выпусков

Рекомендуемые справочные источники: