PySpark. Kurs video. Przetwarzanie i analiza danych w procesach ETL

Promocja

Piotr Chudzik

5.0

1 opinii

Podstawowe informacje:

Czas trwania: 03:50:54

Poziom: średnio zaawansowany

Autor: Piotr Chudzik

Liczba lekcji: 38

Technologia: JupyterLab, Python 3.10, PySpark 3.4

Dla firm

Rozwiń umiejętności swoich pracowników dzięki kursom video

Dowiedz się więcej

Monitorowanie postępów pracowników. Przejrzyste raporty i imienne certyfikaty ukończenia kursów
Atrakcyjne rabaty dla zespołów. Im więcej pracowników liczy zespół, tym większy uzyskasz rabat
Doradztwo w wyborze tematyki szkoleń. Mamy setki kursów, dostosujemy program nauczania pod Twój zespół

Indywidualnie

111,75 zł ~~149,00 zł~~ (-25%)

39,90 zł najniższa cena z 30 dni Dodaj do koszyka

Dostępny natychmiast po opłaceniu zakupu

Do przechowalni

Korzyści:

Certyfikat ukończenia
Materiały dodatkowe do kursu
Test online
Dożywotni dostęp
Dostęp w aplikacji (także offline)
Napisy w języku polskim

Ten kurs należy do ścieżki Analityk danych z Pythonem

Czas trwania: 28 godz.

DOWIEDZ SIĘ WIĘCEJ

Ten kurs należy do ścieżki Analityk danych z Pythonem »

Czego się nauczysz?

Konfigurowania środowiska pracy z PySpark
Tworzenia DataFrame i wykonywania selekcji oraz sortowania danych
Budowania schematów i pracy z różnymi typami danych
Łączenia zbiorów danych i stosowania agregacji
Przekształcania danych (konkatenacja, rzutowanie, explode)
Tworzenia własnych funkcji i stosowania mapowania w PySpark
Zapisywania i odczytywania danych z plików, w tym w formacie Parquet
Realizacji pierwszych procesów ETL z wykorzystaniem PySpark

Spis lekcji

1. Wprowadzenie 00:22:30

1.1. Wstęp

00:03:38

1.2. Przygotowanie środowiska Python

00:05:31

1.3. Przygotowanie środowiska JupyterLab

00:05:04

1.4. Konfiguracja 'Hello World!'

00:08:17

2. Początki z PySpark 00:12:40

2.1. Tworzenie DataFrame

00:04:23

2.2. Czytanie danych z .csv

00:04:42

2.3. Konfiguracja odczytu .csv

00:03:35

3. Schematy 00:15:16

3.1. Wyświetlanie schematu DF

00:02:46

3.2. Tworzenie schematu

00:06:01

3.3. Implementacja schematu

00:06:29

4. Selekcja danych 00:20:53

4.1. Wyświetlanie wybranych kolumn

00:03:50

4.2. Sortowanie danych

00:04:45

4.3. limit i collect

00:07:32

4.4. Dodawanie kolumny

00:04:46

5. Kolekcje, daty i funkcje 00:48:57

5.1. Lista i słownik w DataFrame

OGLĄDAJ » 00:08:28

5.2. getItem oraz size

00:05:21

5.3. lit i explode

00:06:02

5.4. Konkatenacja

00:05:05

5.5. substring

00:05:32

5.6. DateType i TimestampType

00:04:16

5.7. datediff

00:04:56

5.8. date_add/date_sub

00:04:34

5.9. Ekstrakcja danej jednostki czasu

00:04:43

6. Filtrowanie danych 00:37:36

6.1. Unikatowe wiersze

00:08:25

6.2. Filtrowanie danych cz. 1

00:10:47

6.3. Filtrowanie danych cz. 2

00:10:09

6.4. Łączanie warunków

00:08:15

7. Grupowanie danych 00:26:40

7.1. Funkcje agregujące/alias

00:08:26

7.2. Grupowanie danych

00:08:22

7.3. JOIN

00:05:34

7.4. Union/UnionAll

00:04:18

8. Mapowanie i funkcje użytkownika 00:28:34

8.1. Funkcje użytkownika UDF

OGLĄDAJ » 00:07:43

8.2. Funkcja when

00:06:29

8.3. Funkcja map

00:09:47

8.4. Funkcja flatMap

00:04:35

9. Zapisywanie danych do pliku 00:17:48

9.1. Omówienie formatów danych

00:05:24

9.2. Zapis do pliku

00:06:47

9.3. Spark SQL

00:05:37

Obierz kurs na... pracę z dużymi zbiorami danych

Czy znane są Ci nazwy Apache Spark i PySpark? Jeśli pracujesz z danymi i do tej pory nie poznałeś tej technologii, najwyższy czas to nadrobić - na przykład w trakcie proponowanego przez nas szkolenia wideo. Apache Spark to otwarta platforma programistyczna służąca do obliczeń rozproszonych. Opracowana i rozwijana początkowo na Uniwersytecie Kalifornijskim, dziś zarządzana przez Apache Software Foundation, świetnie nadaje się do analizy dużych zbiorów danych. Jej interfejs API, znany jako PySpark, skutecznie ułatwia integrację Sparka ze specjalistycznymi narzędziami PyData.

W ostatnich latach PySpark stał się najpopularniejszym narzędziem służącym przetwarzaniu danych; może swobodnie zastąpić w tym zakresie SQL czy biblioteki pandas/numpy. Ze Sparka korzystają między innymi Databricks, DeepNote czy JupyterLab. Szczególną cechą i zaletą tego rozwiązania jest to, że umożliwia ono przetwarzanie danych w sposób rozproszony. Nasz kurs pozwala zdobyć bazową wiedzę z zakresu pracy z danymi za pomocą Apache Spark (PySpark). W jego trakcie będziemy przygotowywać dane, selekcjonować je, sortować, agregować, łączyć i grupować, a także stworzymy własne funkcje do mapowania ich i nauczymy się zapisywać je do pliku.

Co Cię czeka podczas naszego profesjonalnego szkolenia

W ramach nauki z proponowanym przez nas kursem między innymi:

Skonfigurujesz środowisko pracy
Dowiesz się, czym jest SparkSession i jak ją uruchomić
Stworzysz podstawową DataFrame
Dokonasz selekcję danych i je posortujesz
Zbudujesz schemat dla danych
Poznasz podstawowe operacje związane z agregacją danych i łączeniem zbiorów w jeden
Przetransformujesz dane za pomocą takich metod jak konkatenacja, rzutowanie czy explode
Wykreujesz własne funkcje dla PySpark
Wykonasz mapowanie
Zapiszesz dane i odczytasz je z pliku - także w formacie parquet

PySpark. Kurs video. Przetwarzanie i analiza danych w procesach ETL kończy się na poziomie podstawowym. Otrzymana wiedza pozwoli Ci na samodzielne tworzenie pierwszych procesów związanych z transformacją i przetwarzaniem danych. Ułatwi Ci również ich mapowanie i zmianę typów danych. Po ukończeniu szkolenia bez problemu przygotujesz zadania z zakresu ETL.

Apache Spark

Apache Spark jest silnikiem zbudowanym specjalnie w celu przetwarzania danych. Został wyposażony w całą masę służących do tego bibliotek. Co ważne, dane w Sparku można przetwarzać równolegle, co stało się jednym z powodów, dla których technologia ta zdominowała świat big data. Apache Spark obsługuje wiele języków programowania, takich jak SQL, Scala, Python czy R, i pozwala rozwiązywać problemy na różne sposoby z zastosowaniem SQL, transmisji danych i uczenia maszynowego. Przydaje się wszędzie tam, gdzie ilość danych, które wymagają przetworzenia, przekracza możliwości tradycyjnych narzędzi.

Wybrane bestsellery

O autorze kursu video

Piotr Chudzik - absolwent Politechniki Łódzkiej, jego specjalizacja zawodowa to technologie big data oraz administracja nowoczesnymi środowiskami IT (wykorzystującymi między innymi cloud computing, konteneryzację czy IaC - infrastructure as code). Pracuje jako wykładowca na Uniwersytecie Łódzkim, gdzie przekazuje studentom wiedzę na temat Linuksa, baz danych i programowania w języku Python. Jest również trenerem w Software Development Academy. Na co dzień zatrudniony jako menadżer techniczny w dużym zagranicznym banku, odpowiada za prawidłowe i nieprzerwane działanie aplikacji opartych na Google Cloud Platform. Zawsze otwarty na nowe doświadczenia oraz wiedzę, którą w przyszłości mógłby się podzielić z innymi. Interesuje się grami komputerowymi, światem nowych technologii i fantastyką. Jest fanem serii Wiedźmin i uniwersum Warhammera.

Sukces wymaga wcześniejszego przygotowania, bez niego z pewnością osiągniemy porażkę.

Konfucjusz

Piotr Chudzik - pozostałe kursy

Oceny i opinie klientów: PySpark. Kurs video. Przetwarzanie i analiza danych w procesach ETL Piotr Chudzik (1)

5.0

6 (0)
5 (1)
4 (0)
3 (0)
2 (0)
1 (0)

Bardzo dobry kurs podstaw Pyspark

Opinia: anonimowa Opinia dodana: 2025-09-26 Ocena: 5

Opinia potwierdzona zakupem

Opinia dotyczy produktu: kurs video

Czy opinia była pomocna:

TAK (0) NIE (0)

Szczegóły kursu

Dane producenta » Dane producenta:

Helion SA
ul. Kościuszki 1C
41-100 Gliwice
e-mail: gpsr@helion.pl

Format: Online

Data aktualizacji: 2023-10-10

ISBN: 978-83-289-0401-9, 9788328904019

Numer z katalogu: 214833

Kategorie:

Programowanie » Python - Programowanie

Big Data » Analiza danych

PySpark. Kurs video. Przetwarzanie i analiza danych w procesach ETL

Spis lekcji

Wybrane bestsellery

Snowflake. Nowoczesna inżynieria danych w praktyce

Power BI w praktyce. Przejdź na wyższy poziom analizy danych

Designing Data-Intensive Applications. The Big Ideas Behind Reliable, Scalable, and Maintainable Systems. 2nd Edition

Python. Uczenie maszynowe w przykładach. Najlepsze praktyki w realnych zastosowaniach. Wydanie IV

Ekstrakcja danych w Pythonie. Teoria i praktyka

Wysoko wydajny Python. Efektywne programowanie w praktyce. Wydanie III

Zaawansowane aplikacje webowe BACK-END dla studenta i technika programisty

Tworzenie aplikacji LLM i agentów AI. Kurs video. Poznaj biblioteki LangChain i LangGraph

Programuj ze sztuczną inteligencją. Twórz kod w Pythonie z wykorzystaniem GitHub Copilot i ChatGPT. Wydanie II

Pandas. Receptury. Obliczenia naukowe, szeregi czasowe i eksploracyjna analiza danych w Pythonie. Wydanie III

O autorze kursu video

Piotr Chudzik - pozostałe kursy

PySpark. Kurs video. Optymalizacja i procesowanie danych

Python od zera. Kurs video. Programuj wydajnie!

Architektura danych. Kurs video. Zarządzanie, przechowywanie i przetwarzanie danych

Hurtownie danych. Kurs video. Relacyjne i nierelacyjne systemy danych w analityce

Airflow. Kurs video. Zaawansowane operatory przetwarzania danych

Airflow. Monitorowanie przepływu danych

Databricks. Kurs video. Wstęp do architektury Data Lakehouse

Airflow. Kurs video. Zarządzanie i monitorowanie przepływu danych

Python dla zaawansowanych. Kurs video. Podnieś efektywność i jakość kodu

Konteneryzacja z wykorzystaniem Dockera. Podstawy

Oceny i opinie klientów: PySpark. Kurs video. Przetwarzanie i analiza danych w procesach ETL Piotr Chudzik (1)

Szczegóły kursu

Videopoint - inne kursy

Matura z informatyki. Kurs video. Powtórka do egzaminu i strategie rozwiązywania zadań

Teoria grafów. Kurs video. Od podstaw po sztuczną inteligencję i agentów AI

Bug Bounty i testy penetracyjne aplikacji webowych. Kurs video. Pierwsze kroki

Deep Web bez tajemnic. Kurs video. Pozyskiwanie ukrytych danych

Zostań inżynierem cyberbezpieczeństwa. Kurs video. 100 podstawowych pytań z branży cybersecurity

Dashboardy w Excelu. Kurs video. Od surowych danych do perfekcyjnych raportów

Inteligencja obliczeniowa. Kurs video. Algorytmy genetyczne i programowanie równoległe

Techniki zapamiętywania. Kurs video. Active recall i mechanizmy pamięciowe

Power BI w praktyce. Kurs video. Od wymagań klienta po końcowy raport

Wireshark. Kurs video. Podstawy analizy ruchu sieciowego i wykrywania włamań

Wydawnictwo Naukowe Helion »