JDK 1.8, Scala 2.11.12, sbt 1.2.3 and Spark 2.3.2
Этот проект содержит фрагменты кода Scala для иллюстрации различных концепций Apache Spark. Он поможет вам начать изучение Apache Spark (как программист Scala).
Примеры можно найти в разделе src/main/scala
. Лучший способ использовать их - начать с чтения кода и его комментариев.
Затем, поскольку каждый файл содержит определение объекта основным методом, запустите его и рассмотрите вывод.
Соответствующие сообщения в блогах и ответы StackOverflow
перечислены в файлах README.md
в различных пакетах.
Пакет или файл | Что иллюстрирует |
---|---|
Ex1_SimpleRDD | Как выполнить свой первый, очень простой, Spark Job . Смотрите также: An easy way to start learning Spark. |
Ex2_Computations | Как RDD работают в более сложных вычислениях. Смотрите также: Spark computations. |
Ex3_CombiningRDDs | Операции с несколькими RDD |
Ex4_MoreOperationsOnRDDs | Более сложные операции на отдельных RDD |
Ex5_Partitions | Явный контроль над разбиением на разделы для производительности и масштабируемости |
Ex6_Accumulators | Как использовать аккумуляторы Spark для эффективного сбора результатов распределенных вычислений |
hiveql | Использование функций HiveQL в HiveContext . Подробные сведения см. В локальном README.md в этом каталоге |
special | Специальные/предварительные примеры RDD |
dataset | Ряд примеров Dataset (запрашиваемая коллекция, которая статически типизирована) |
dataframe | Ряд примеров DataFrame (запрашиваемая коллекция, которая динамически - и слабо типизирована) |
sql | Ряд примеров SQL |
streaming | Примеры потоковой передачи |
streaming/structured | Примеры структурированных потоков Spark 2.0 |
graphx | Ряд примеров GraphX |
datasource_v2 | * Новый экспериментальный API для разработки внешних источников данных, начиная с Spark 2.3.0 - удаляется в пользу нового репозитория [https://github.com/spirom/spark-data-sources](https://github.com/ spirom / spark-data-sources), который подробно изучает новый API. |