×
Dodano do koszyka:
Pozycja znajduje się w koszyku, zwiększono ilość tej pozycji:
Zakupiłeś już tę pozycję:
Książkę możesz pobrać z biblioteki w panelu użytkownika
Pozycja znajduje się w koszyku
Przejdź do koszyka

Zawartość koszyka

ODBIERZ TWÓJ BONUS :: »
Play
PySpark. Kurs video. Przetwarzanie i analiza danych w procesach ETL
Autor:
Piotr Chudzik
Długość
liczba lekcji: 38, czas trwania: 03:50:54
Ocena

Kup kurs 67,05 zł

Kurs video

PySpark. Kurs video. Przetwarzanie i analiza danych w procesach ETL Piotr Chudzik

(ebook) (audiobook) (audiobook)
  • Promocja Przejdź
  • Poziom średnio zaawansowany
PySpark. Kurs video. Przetwarzanie i analiza danych w procesach ETL Piotr Chudzik - okladka książki

PySpark. Kurs video. Przetwarzanie i analiza danych w procesach ETL Piotr Chudzik - okladka książki

PySpark. Kurs video. Przetwarzanie i analiza danych w procesach ETL Piotr Chudzik - audiobook MP3

PySpark. Kurs video. Przetwarzanie i analiza danych w procesach ETL Piotr Chudzik - audiobook CD

Autor:
Piotr Chudzik
Wydawnictwo:
Videopoint
Wersja:
Online
Czas trwania:
3 godz. 50 min.
Technologia:
JupyterLab, Python 3.10, PySpark 3.4
Ocena:
Bądź pierwszym, który oceni ten kurs
  1. 1. Wprowadzenie 00:22:30

  2. 2. Początki z PySpark 00:12:40

  3. 3. Schematy 00:15:16

  4. 4. Selekcja danych 00:20:53

  5. 5. Kolekcje, daty i funkcje 00:48:57

  6. 6. Filtrowanie danych 00:37:36

  7. 7. Grupowanie danych 00:26:40

  8. 8. Mapowanie i funkcje użytkownika 00:28:34

  9. 9. Zapisywanie danych do pliku 00:17:48

Obierz kurs na... pracę z dużymi zbiorami danych

Czy znane są Ci nazwy Apache Spark i PySpark? Jeśli pracujesz z danymi i do tej pory nie poznałeś tej technologii, najwyższy czas to nadrobić - na przykład w trakcie proponowanego przez nas szkolenia wideo. Apache Spark to otwarta platforma programistyczna służąca do obliczeń rozproszonych. Opracowana i rozwijana początkowo na Uniwersytecie Kalifornijskim, dziś zarządzana przez Apache Software Foundation, świetnie nadaje się do analizy dużych zbiorów danych. Jej interfejs API, znany jako PySpark, skutecznie ułatwia integrację Sparka ze specjalistycznymi narzędziami PyData.

W ostatnich latach PySpark stał się najpopularniejszym narzędziem służącym przetwarzaniu danych; może swobodnie zastąpić w tym zakresie SQL czy biblioteki pandas/numpy. Ze Sparka korzystają między innymi Databricks, DeepNote czy JupyterLab. Szczególną cechą i zaletą tego rozwiązania jest to, że umożliwia ono przetwarzanie danych w sposób rozproszony. Nasz kurs pozwala zdobyć bazową wiedzę z zakresu pracy z danymi za pomocą Apache Spark (PySpark). W jego trakcie będziemy przygotowywać dane, selekcjonować je, sortować, agregować, łączyć i grupować, a także stworzymy własne funkcje do mapowania ich i nauczymy się zapisywać je do pliku.

Co Cię czeka podczas naszego profesjonalnego szkolenia

W ramach nauki z proponowanym przez nas kursem między innymi:

  • Skonfigurujesz środowisko pracy
  • Dowiesz się, czym jest SparkSession i jak ją uruchomić
  • Stworzysz podstawową DataFrame
  • Dokonasz selekcję danych i je posortujesz
  • Zbudujesz schemat dla danych
  • Poznasz podstawowe operacje związane z agregacją danych i łączeniem zbiorów w jeden
  • Przetransformujesz dane za pomocą takich metod jak konkatenacja, rzutowanie czy explode
  • Wykreujesz własne funkcje dla PySpark
  • Wykonasz mapowanie
  • Zapiszesz dane i odczytasz je z pliku - także w formacie parquet

PySpark. Kurs video. Przetwarzanie i analiza danych w procesach ETL kończy się na poziomie podstawowym. Otrzymana wiedza pozwoli Ci na samodzielne tworzenie pierwszych procesów związanych z transformacją i przetwarzaniem danych. Ułatwi Ci również ich mapowanie i zmianę typów danych. Po ukończeniu szkolenia bez problemu przygotujesz zadania z zakresu ETL.

Apache Spark

Apache Spark jest silnikiem zbudowanym specjalnie w celu przetwarzania danych. Został wyposażony w całą masę służących do tego bibliotek. Co ważne, dane w Sparku można przetwarzać równolegle, co stało się jednym z powodów, dla których technologia ta zdominowała świat big data. Apache Spark obsługuje wiele języków programowania, takich jak SQL, Scala, Python czy R, i pozwala rozwiązywać problemy na różne sposoby z zastosowaniem SQL, transmisji danych i uczenia maszynowego. Przydaje się wszędzie tam, gdzie ilość danych, które wymagają przetworzenia, przekracza możliwości tradycyjnych narzędzi.

Wybrane bestsellery

O autorze książki

Piotr Chudzik - absolwent Politechniki Łódzkiej, jego specjalizacja zawodowa to technologie big data oraz administracja nowoczesnymi środowiskami IT (wykorzystującymi między innymi cloud computing, konteneryzację czy IaC - infrastructure as code). Pracuje jako wykładowca na Uniwersytecie Łódzkim, gdzie przekazuje studentom wiedzę na temat Linuksa, baz danych i programowania w języku Python. Jest również trenerem w Software Development Academy. Na co dzień zatrudniony jako menadżer techniczny w dużym zagranicznym banku, odpowiada za prawidłowe i nieprzerwane działanie aplikacji opartych na Google Cloud Platform. Zawsze otwarty na nowe doświadczenia oraz wiedzę, którą w przyszłości mógłby się podzielić z innymi. Interesuje się grami komputerowymi, światem nowych technologii i fantastyką. Jest fanem serii Wiedźmin i uniwersum Warhammera.

Sukces wymaga wcześniejszego przygotowania, bez niego z pewnością osiągniemy porażkę.

Konfucjusz

Piotr Chudzik - pozostałe kursy

Videopoint - inne kursy

Zamknij

Przenieś na półkę

Proszę czekać...
ajax-loader

Zamknij

Wybierz metodę płatności

Kurs video
67,05 zł
Dodaj do koszyka
Zamknij Pobierz aplikację mobilną Ebookpoint
Zabrania się wykorzystania treści strony do celów eksploracji tekstu i danych (TDM), w tym eksploracji w celu szkolenia technologii AI i innych systemów uczenia maszynowego. It is forbidden to use the content of the site for text and data mining (TDM), including mining for training AI technologies and other machine learning systems.