PySpark. Kurs video. Przetwarzanie i analiza danych w procesach ETL

Promocja

Piotr Chudzik

5.0

1 opinii

Video Player is loading.

Current Time 0:00

Duration -:-

Loaded: 0%

Stream Type LIVE

Remaining Time -:-

Podstawowe informacje:

Czas trwania: 03:50:54

Poziom: średnio zaawansowany

Autor: Piotr Chudzik

Liczba lekcji: 38

Technologia: JupyterLab, Python 3.10, PySpark 3.4

Dla firm

Rozwiń umiejętności swoich pracowników dzięki kursom video

Dowiedz się więcej

Monitorowanie postępów pracowników. Przejrzyste raporty i imienne certyfikaty ukończenia kursów
Atrakcyjne rabaty dla zespołów. Im więcej pracowników liczy zespół, tym większy uzyskasz rabat
Doradztwo w wyborze tematyki szkoleń. Mamy setki kursów, dostosujemy program nauczania pod Twój zespół

Indywidualnie

104,30 zł ~~149,00 zł~~ (-30%)

59,59 zł najniższa cena z 30 dni Dodaj do koszyka Za zakup otrzymasz 104 punktów

Do przechowalni

Korzyści:

Certyfikat ukończenia
Materiały dodatkowe do kursu
Test online
Dożywotni dostęp
Dostęp w aplikacji (także offline)
Napisy w języku polskim

Ten kurs należy do ścieżki Analityk danych z Pythonem

Czas trwania: 28 godz.

DOWIEDZ SIĘ WIĘCEJ

Ten kurs należy do ścieżki Analityk danych z Pythonem »

Czego się nauczysz?

Konfigurowania środowiska pracy z PySpark
Tworzenia DataFrame i wykonywania selekcji oraz sortowania danych
Budowania schematów i pracy z różnymi typami danych
Łączenia zbiorów danych i stosowania agregacji
Przekształcania danych (konkatenacja, rzutowanie, explode)
Tworzenia własnych funkcji i stosowania mapowania w PySpark
Zapisywania i odczytywania danych z plików, w tym w formacie Parquet
Realizacji pierwszych procesów ETL z wykorzystaniem PySpark

Spis lekcji

1. Wprowadzenie 00:22:30

1.1. Wstęp

00:03:38

1.2. Przygotowanie środowiska Python

00:05:31

1.3. Przygotowanie środowiska JupyterLab

00:05:04

1.4. Konfiguracja 'Hello World!'

00:08:17

2. Początki z PySpark 00:12:40

2.1. Tworzenie DataFrame

00:04:23

2.2. Czytanie danych z .csv

00:04:42

2.3. Konfiguracja odczytu .csv

00:03:35

3. Schematy 00:15:16

3.1. Wyświetlanie schematu DF

00:02:46

3.2. Tworzenie schematu

00:06:01

3.3. Implementacja schematu

00:06:29

4. Selekcja danych 00:20:53

4.1. Wyświetlanie wybranych kolumn

00:03:50

4.2. Sortowanie danych

00:04:45

4.3. limit i collect

00:07:32

4.4. Dodawanie kolumny

00:04:46

5. Kolekcje, daty i funkcje 00:48:57

5.1. Lista i słownik w DataFrame

OGLĄDAJ » 00:08:28

5.2. getItem oraz size

00:05:21

5.3. lit i explode

00:06:02

5.4. Konkatenacja

00:05:05

5.5. substring

00:05:32

5.6. DateType i TimestampType

00:04:16

5.7. datediff

00:04:56

5.8. date_add/date_sub

00:04:34

5.9. Ekstrakcja danej jednostki czasu

00:04:43

6. Filtrowanie danych 00:37:36

6.1. Unikatowe wiersze

00:08:25

6.2. Filtrowanie danych cz. 1

00:10:47

6.3. Filtrowanie danych cz. 2

00:10:09

6.4. Łączanie warunków

00:08:15

7. Grupowanie danych 00:26:40

7.1. Funkcje agregujące/alias

00:08:26

7.2. Grupowanie danych

00:08:22

7.3. JOIN

00:05:34

7.4. Union/UnionAll

00:04:18

8. Mapowanie i funkcje użytkownika 00:28:34

8.1. Funkcje użytkownika UDF

OGLĄDAJ » 00:07:43

8.2. Funkcja when

00:06:29

8.3. Funkcja map

00:09:47

8.4. Funkcja flatMap

00:04:35

9. Zapisywanie danych do pliku 00:17:48

9.1. Omówienie formatów danych

00:05:24

9.2. Zapis do pliku

00:06:47

9.3. Spark SQL

00:05:37

Obierz kurs na... pracę z dużymi zbiorami danych

Czy znane są Ci nazwy Apache Spark i PySpark? Jeśli pracujesz z danymi i do tej pory nie poznałeś tej technologii, najwyższy czas to nadrobić - na przykład w trakcie proponowanego przez nas szkolenia wideo. Apache Spark to otwarta platforma programistyczna służąca do obliczeń rozproszonych. Opracowana i rozwijana początkowo na Uniwersytecie Kalifornijskim, dziś zarządzana przez Apache Software Foundation, świetnie nadaje się do analizy dużych zbiorów danych. Jej interfejs API, znany jako PySpark, skutecznie ułatwia integrację Sparka ze specjalistycznymi narzędziami PyData.

W ostatnich latach PySpark stał się najpopularniejszym narzędziem służącym przetwarzaniu danych; może swobodnie zastąpić w tym zakresie SQL czy biblioteki pandas/numpy. Ze Sparka korzystają między innymi Databricks, DeepNote czy JupyterLab. Szczególną cechą i zaletą tego rozwiązania jest to, że umożliwia ono przetwarzanie danych w sposób rozproszony. Nasz kurs pozwala zdobyć bazową wiedzę z zakresu pracy z danymi za pomocą Apache Spark (PySpark). W jego trakcie będziemy przygotowywać dane, selekcjonować je, sortować, agregować, łączyć i grupować, a także stworzymy własne funkcje do mapowania ich i nauczymy się zapisywać je do pliku.

Co Cię czeka podczas naszego profesjonalnego szkolenia

W ramach nauki z proponowanym przez nas kursem między innymi:

Skonfigurujesz środowisko pracy
Dowiesz się, czym jest SparkSession i jak ją uruchomić
Stworzysz podstawową DataFrame
Dokonasz selekcję danych i je posortujesz
Zbudujesz schemat dla danych
Poznasz podstawowe operacje związane z agregacją danych i łączeniem zbiorów w jeden
Przetransformujesz dane za pomocą takich metod jak konkatenacja, rzutowanie czy explode
Wykreujesz własne funkcje dla PySpark
Wykonasz mapowanie
Zapiszesz dane i odczytasz je z pliku - także w formacie parquet

PySpark. Kurs video. Przetwarzanie i analiza danych w procesach ETL kończy się na poziomie podstawowym. Otrzymana wiedza pozwoli Ci na samodzielne tworzenie pierwszych procesów związanych z transformacją i przetwarzaniem danych. Ułatwi Ci również ich mapowanie i zmianę typów danych. Po ukończeniu szkolenia bez problemu przygotujesz zadania z zakresu ETL.

Apache Spark

Apache Spark jest silnikiem zbudowanym specjalnie w celu przetwarzania danych. Został wyposażony w całą masę służących do tego bibliotek. Co ważne, dane w Sparku można przetwarzać równolegle, co stało się jednym z powodów, dla których technologia ta zdominowała świat big data. Apache Spark obsługuje wiele języków programowania, takich jak SQL, Scala, Python czy R, i pozwala rozwiązywać problemy na różne sposoby z zastosowaniem SQL, transmisji danych i uczenia maszynowego. Przydaje się wszędzie tam, gdzie ilość danych, które wymagają przetworzenia, przekracza możliwości tradycyjnych narzędzi.

Wybrane bestsellery

O autorze kursu video

Piotr Chudzik - absolwent Politechniki Łódzkiej, jego specjalizacja zawodowa to technologie big data oraz administracja nowoczesnymi środowiskami IT (wykorzystującymi między innymi cloud computing, konteneryzację czy IaC - infrastructure as code). Pracuje jako wykładowca na Uniwersytecie Łódzkim, gdzie przekazuje studentom wiedzę na temat Linuksa, baz danych i programowania w języku Python. Jest również trenerem w Software Development Academy. Na co dzień zatrudniony jako menadżer techniczny w dużym zagranicznym banku, odpowiada za prawidłowe i nieprzerwane działanie aplikacji opartych na Google Cloud Platform. Zawsze otwarty na nowe doświadczenia oraz wiedzę, którą w przyszłości mógłby się podzielić z innymi. Interesuje się grami komputerowymi, światem nowych technologii i fantastyką. Jest fanem serii Wiedźmin i uniwersum Warhammera.

Sukces wymaga wcześniejszego przygotowania, bez niego z pewnością osiągniemy porażkę.

Konfucjusz

Piotr Chudzik - pozostałe kursy

Oceny i opinie klientów: PySpark. Kurs video. Przetwarzanie i analiza danych w procesach ETL Piotr Chudzik (1)

5.0

6 (0)
5 (1)
4 (0)
3 (0)
2 (0)
1 (0)

Bardzo dobry kurs podstaw Pyspark

Opinia: anonimowa Opinia dodana: 2025-09-26 Ocena: 5

Opinia potwierdzona zakupem

Opinia dotyczy produktu: kurs video

Czy opinia była pomocna:

TAK (0) NIE (0)

Szczegóły kursu

Dane producenta » Dane producenta:

Helion SA
ul. Kościuszki 1C
41-100 Gliwice
e-mail: [wyświetl email]@helion.pl

Format: Online

Data aktualizacji: 2023-10-10

ISBN: 978-83-289-0401-9, 9788328904019

Numer z katalogu: 214833

Kategorie:

Programowanie » Python - Programowanie

Big Data » Analiza danych

PySpark. Kurs video. Przetwarzanie i analiza danych w procesach ETL

Spis lekcji

Wybrane bestsellery

Ekscytujący internet rzeczy. Realizuj praktyczne projekty IoT z wykorzystaniem Raspberry Pi 5, Raspberry Pi Pico oraz Pythona. Wydanie II

Uczenie przez wzmacnianie w finansach. Wprowadzenie z wykorzystaniem Pythona

Kompletny przewodnik po Power Query (M). Opanuj wykonywanie złożonych przekształceń danych

Efektywny Python. 125 sposobów na lepszy kod. Wydanie III

Biznes oparty na danych. Zespół ekspertów, sztuczna inteligencja i analityka jako klucz do sukcesu

OSINT w praktyce. Jak gromadzić i analizować dane dostępne w sieci

LLM w projektowaniu oprogramowania. Tworzenie inteligentnych aplikacji i agentów z wykorzystaniem dużych modeli językowych

Dashboardy w Excelu. Kurs video. Od surowych danych do perfekcyjnych raportów

Zaawansowane techniki przetwarzania języka naturalnego. Od podstaw do modeli LLM i zastosowań biznesowych w Pythonie

Django 5. Praktyczne tworzenie aplikacji internetowych w Pythonie. Wydanie V

O autorze kursu video

Piotr Chudzik - pozostałe kursy

Airflow. Monitorowanie przepływu danych

Databricks. Kurs video. Wstęp do architektury Data Lakehouse

Airflow. Kurs video. Zarządzanie i monitorowanie przepływu danych

Python dla zaawansowanych. Kurs video. Podnieś efektywność i jakość kodu

Python od zera. Kurs video. Programuj wydajnie!

Konteneryzacja z wykorzystaniem Dockera. Podstawy

Linux. Kurs video. Wprowadzenie do pracy z konsolą

Scala 3. Kurs video. Programowanie funkcyjne

Kubernetes. Kurs video. Wdrażanie zaawansowanych aplikacji

Kubernetes. Kurs video. Uruchamianie, skalowanie i zarządzanie aplikacjami w kontenerach

Oceny i opinie klientów: PySpark. Kurs video. Przetwarzanie i analiza danych w procesach ETL Piotr Chudzik (1)

Szczegóły kursu

Videopoint - inne kursy

Burp Suite. Kurs video. Testowanie bezpieczeństwa aplikacji webowych

Bezpieczeństwo w chmurze. Kurs video. Microsoft 365 i Azure

Deep Web bez tajemnic. Kurs video. Pozyskiwanie ukrytych danych

Zostań inżynierem cyberbezpieczeństwa. Kurs video. 100 podstawowych pytań z branży cybersecurity

PLC i TIA Portal. Kurs video. Techniki programowania SIMATIC S7-1200

PLC i TIA Portal. Kurs video. Logika sterowania w automatyce przemysłowej

PLC i TIA Portal. Kurs video. Pierwsze kroki z SIMATIC S7-1200

VPN. Kurs video. Bezpieczeństwo zasobów w sieci

Informatyka śledcza. Kurs video. Pozyskiwanie, analiza i zabezpieczanie dowodów cyfrowych

Web scraping w Pythonie. Kurs video. Od pobrania kodu źródłowego do analizy danych

Wydawnictwo Naukowe Helion »