ODBIERZ TWÓJ BONUS :: »

PySpark. Kurs video. Przetwarzanie i analiza danych w procesach ETL

Video Player is loading.
Current Time 0:00
Duration -:-
Loaded: 0%
Stream Type LIVE
Remaining Time -:-
 
1x
  • subtitles off, selected
Podstawowe informacje:
Czas trwania: 03:50:54
Poziom: średnio zaawansowany
Autor: Piotr Chudzik
Liczba lekcji: 38
Technologia: JupyterLab, Python 3.10, PySpark 3.4
Dla firm
Rozwiń umiejętności swoich pracowników dzięki kursom video
Dowiedz się więcej
  • Monitorowanie postępów pracowników. Przejrzyste raporty i imienne certyfikaty ukończenia kursów
  • Atrakcyjne rabaty dla zespołów. Im więcej pracowników liczy zespół, tym większy uzyskasz rabat
  • Doradztwo w wyborze tematyki szkoleń. Mamy setki kursów, dostosujemy program nauczania pod Twój zespół
Indywidualnie
104,30 zł 149,00 zł (-30%)
59,59 zł najniższa cena z 30 dni Dodaj do koszyka Za zakup otrzymasz 104 punktów
Korzyści:
  • Certyfikat ukończenia
  • Materiały dodatkowe do kursu
  • Test online
  • Dożywotni dostęp
  • Dostęp w aplikacji (także offline)
  • Napisy w języku polskim
Ten kurs należy do ścieżki Analityk danych z Pythonem
Czas trwania: 28 godz.
DOWIEDZ SIĘ WIĘCEJ
Ten kurs należy do ścieżki Analityk danych z Pythonem »

Czego się nauczysz?

  • Konfigurowania środowiska pracy z PySpark
  • Tworzenia DataFrame i wykonywania selekcji oraz sortowania danych
  • Budowania schematów i pracy z różnymi typami danych
  • Łączenia zbiorów danych i stosowania agregacji
  • Przekształcania danych (konkatenacja, rzutowanie, explode)
  • Tworzenia własnych funkcji i stosowania mapowania w PySpark
  • Zapisywania i odczytywania danych z plików, w tym w formacie Parquet
  • Realizacji pierwszych procesów ETL z wykorzystaniem PySpark

Spis lekcji

1. Wprowadzenie 00:22:30
1.1. Wstęp
00:03:38
1.2. Przygotowanie środowiska Python
00:05:31
1.3. Przygotowanie środowiska JupyterLab
00:05:04
1.4. Konfiguracja 'Hello World!'
00:08:17
2. Początki z PySpark 00:12:40
2.1. Tworzenie DataFrame
00:04:23
2.2. Czytanie danych z .csv
00:04:42
2.3. Konfiguracja odczytu .csv
00:03:35
3. Schematy 00:15:16
3.1. Wyświetlanie schematu DF
00:02:46
3.2. Tworzenie schematu
00:06:01
3.3. Implementacja schematu
00:06:29
4. Selekcja danych 00:20:53
4.1. Wyświetlanie wybranych kolumn
00:03:50
4.2. Sortowanie danych
00:04:45
4.3. limit i collect
00:07:32
4.4. Dodawanie kolumny
00:04:46
5. Kolekcje, daty i funkcje 00:48:57
5.1. Lista i słownik w DataFrame
OGLĄDAJ » 00:08:28
5.2. getItem oraz size
00:05:21
5.3. lit i explode
00:06:02
5.4. Konkatenacja
00:05:05
5.5. substring
00:05:32
5.6. DateType i TimestampType
00:04:16
5.7. datediff
00:04:56
5.8. date_add/date_sub
00:04:34
5.9. Ekstrakcja danej jednostki czasu
00:04:43
6. Filtrowanie danych 00:37:36
6.1. Unikatowe wiersze
00:08:25
6.2. Filtrowanie danych cz. 1
00:10:47
6.3. Filtrowanie danych cz. 2
00:10:09
6.4. Łączanie warunków
00:08:15
7. Grupowanie danych 00:26:40
7.1. Funkcje agregujące/alias
00:08:26
7.2. Grupowanie danych
00:08:22
7.3. JOIN
00:05:34
7.4. Union/UnionAll
00:04:18
8. Mapowanie i funkcje użytkownika 00:28:34
8.1. Funkcje użytkownika UDF
OGLĄDAJ » 00:07:43
8.2. Funkcja when
00:06:29
8.3. Funkcja map
00:09:47
8.4. Funkcja flatMap
00:04:35
9. Zapisywanie danych do pliku 00:17:48
9.1. Omówienie formatów danych
00:05:24
9.2. Zapis do pliku
00:06:47
9.3. Spark SQL
00:05:37

Obierz kurs na... pracę z dużymi zbiorami danych

Czy znane są Ci nazwy Apache Spark i PySpark? Jeśli pracujesz z danymi i do tej pory nie poznałeś tej technologii, najwyższy czas to nadrobić - na przykład w trakcie proponowanego przez nas szkolenia wideo. Apache Spark to otwarta platforma programistyczna służąca do obliczeń rozproszonych. Opracowana i rozwijana początkowo na Uniwersytecie Kalifornijskim, dziś zarządzana przez Apache Software Foundation, świetnie nadaje się do analizy dużych zbiorów danych. Jej interfejs API, znany jako PySpark, skutecznie ułatwia integrację Sparka ze specjalistycznymi narzędziami PyData.

W ostatnich latach PySpark stał się najpopularniejszym narzędziem służącym przetwarzaniu danych; może swobodnie zastąpić w tym zakresie SQL czy biblioteki pandas/numpy. Ze Sparka korzystają między innymi Databricks, DeepNote czy JupyterLab. Szczególną cechą i zaletą tego rozwiązania jest to, że umożliwia ono przetwarzanie danych w sposób rozproszony. Nasz kurs pozwala zdobyć bazową wiedzę z zakresu pracy z danymi za pomocą Apache Spark (PySpark). W jego trakcie będziemy przygotowywać dane, selekcjonować je, sortować, agregować, łączyć i grupować, a także stworzymy własne funkcje do mapowania ich i nauczymy się zapisywać je do pliku.

Co Cię czeka podczas naszego profesjonalnego szkolenia

W ramach nauki z proponowanym przez nas kursem między innymi:

  • Skonfigurujesz środowisko pracy
  • Dowiesz się, czym jest SparkSession i jak ją uruchomić
  • Stworzysz podstawową DataFrame
  • Dokonasz selekcję danych i je posortujesz
  • Zbudujesz schemat dla danych
  • Poznasz podstawowe operacje związane z agregacją danych i łączeniem zbiorów w jeden
  • Przetransformujesz dane za pomocą takich metod jak konkatenacja, rzutowanie czy explode
  • Wykreujesz własne funkcje dla PySpark
  • Wykonasz mapowanie
  • Zapiszesz dane i odczytasz je z pliku - także w formacie parquet

PySpark. Kurs video. Przetwarzanie i analiza danych w procesach ETL kończy się na poziomie podstawowym. Otrzymana wiedza pozwoli Ci na samodzielne tworzenie pierwszych procesów związanych z transformacją i przetwarzaniem danych. Ułatwi Ci również ich mapowanie i zmianę typów danych. Po ukończeniu szkolenia bez problemu przygotujesz zadania z zakresu ETL.

Apache Spark

Apache Spark jest silnikiem zbudowanym specjalnie w celu przetwarzania danych. Został wyposażony w całą masę służących do tego bibliotek. Co ważne, dane w Sparku można przetwarzać równolegle, co stało się jednym z powodów, dla których technologia ta zdominowała świat big data. Apache Spark obsługuje wiele języków programowania, takich jak SQL, Scala, Python czy R, i pozwala rozwiązywać problemy na różne sposoby z zastosowaniem SQL, transmisji danych i uczenia maszynowego. Przydaje się wszędzie tam, gdzie ilość danych, które wymagają przetworzenia, przekracza możliwości tradycyjnych narzędzi.

Wybrane bestsellery

O autorze kursu video

Piotr Chudzik - absolwent Politechniki Łódzkiej, jego specjalizacja zawodowa to technologie big data oraz administracja nowoczesnymi środowiskami IT (wykorzystującymi między innymi cloud computing, konteneryzację czy IaC - infrastructure as code). Pracuje jako wykładowca na Uniwersytecie Łódzkim, gdzie przekazuje studentom wiedzę na temat Linuksa, baz danych i programowania w języku Python. Jest również trenerem w Software Development Academy. Na co dzień zatrudniony jako menadżer techniczny w dużym zagranicznym banku, odpowiada za prawidłowe i nieprzerwane działanie aplikacji opartych na Google Cloud Platform. Zawsze otwarty na nowe doświadczenia oraz wiedzę, którą w przyszłości mógłby się podzielić z innymi. Interesuje się grami komputerowymi, światem nowych technologii i fantastyką. Jest fanem serii Wiedźmin i uniwersum Warhammera.

Sukces wymaga wcześniejszego przygotowania, bez niego z pewnością osiągniemy porażkę.

Konfucjusz

Piotr Chudzik - pozostałe kursy

Oceny i opinie klientów: PySpark. Kurs video. Przetwarzanie i analiza danych w procesach ETL Piotr Chudzik (1)

Informacja o opiniach
Weryfikacja opinii następuje na podstawie historii zamowień na koncie Użytkownika umiejszczającego opinię. Użytkownik mógł otrzymać punkty za opublikowanie opinii uprawniającej do uzyskania rabatu w ramach Programu Kadr.
5.0
  • 6 (0)
  • 5 (1)
  • 4 (0)
  • 3 (0)
  • 2 (0)
  • 1 (0)
  • Bardzo dobry kurs podstaw Pyspark

    Opinia: anonimowa Opinia dodana: 2025-09-26 Ocena: 5   
    Opinia potwierdzona zakupem
    Opinia dotyczy produktu: kurs video
    Czy opinia była pomocna:

Szczegóły kursu

Dane producenta » Dane producenta:

Helion SA
ul. Kościuszki 1C
41-100 Gliwice
e-mail: [wyświetl email]@helion.pl
Format: Online
Data aktualizacji: 2023-10-10
ISBN: 978-83-289-0401-9, 9788328904019
Numer z katalogu: 214833

Videopoint - inne kursy

Kurs video
104,30 zł
Dodaj do koszyka