Advanced Analytics with PySpark

- Autorzy:
- Akash Tandon, Sandy Ryza, Uri Laserson
- Promocja Przejdź


- Ocena:
- Bądź pierwszym, który oceni tę książkę
- Stron:
- 236
- Dostępne formaty:
-
ePubMobi
Opis książki: Advanced Analytics with PySpark
The amount of data being generated today is staggering and growing. Apache Spark has emerged as the de facto tool to analyze big data and is now a critical part of the data science toolbox. Updated for Spark 3.0, this practical guide brings together Spark, statistical methods, and real-world datasets to teach you how to approach analytics problems using PySpark, Spark's Python API, and other best practices in Spark programming.
Data scientists Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, and Josh Wills offer an introduction to the Spark ecosystem, then dive into patterns that apply common techniques-including classification, clustering, collaborative filtering, and anomaly detection, to fields such as genomics, security, and finance. This updated edition also covers NLP and image processing.
If you have a basic understanding of machine learning and statistics and you program in Python, this book will get you started with large-scale data analysis.
- Familiarize yourself with Spark's programming model and ecosystem
- Learn general approaches in data science
- Examine complete implementations that analyze large public datasets
- Discover which machine learning tools make sense for particular problems
- Explore code that can be adapted to many uses
Wybrane bestsellery
-
Oto praktyczny przewodnik po wersji 3.0 systemu Spark, metodach statystycznych i rzeczywistych zbiorach danych. Omówiono w nim zasady rozwiązywania problemów analitycznych za pomocą interfejsu PySpark, z wykorzystaniem dobrych praktyk programowania w systemie Spark. Po lekturze można bezproblemow...
Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark
Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
(0,00 zł najniższa cena z 30 dni)44.16 zł
69.00 zł(-36%) -
In the second edition of this practical book, four Cloudera data scientists present a set of self-contained patterns for performing large-scale data analysis with Spark. The authors bring Spark, statistical methods, and real-world data sets together to teach you how to approach analytics problems...
Advanced Analytics with Spark. Patterns for Learning from Data at Scale. 2nd Edition Advanced Analytics with Spark. Patterns for Learning from Data at Scale. 2nd Edition
(0,00 zł najniższa cena z 30 dni)169.15 zł
199.00 zł(-15%) -
Autor porusza tu zaawansowane kwestie związane z analizą statystyczną danych, wykrywaniem anomalii oraz analizą obrazów. Jednak zanim przejdziesz do tych tematów, zapoznasz się z podstawami — wprowadzeniem do analizy danych za pomocą języka Scala oraz Apache Spark.(0,00 zł najniższa cena z 30 dni)
24.50 zł
49.00 zł(-50%) -
To drugie, zaktualizowane i poprawione wydanie bestsellerowego podręcznika Programowania w Pythonie pozwoli Ci błyskawicznie zacząć tworzyć kod, który działa! Zaczniesz od zrozumienia podstawowych koncepcji programistycznych, następnie nauczysz się zapewniać programom interaktywność i wykształcis...(0,00 zł najniższa cena z 30 dni)
51.48 zł
99.00 zł(-48%) -
Prezentowana książka jest drugim, zaktualizowanym i uzupełnionym, wydaniem klasycznego podręcznika napisanego z myślą o analitykach, którzy dotychczas nie pracowali w Pythonie, oraz o programistach Pythona, którzy nie zajmowali się dotąd analizą danych ani obliczeniami naukowymi. Przedstawiono tu...
Python w analizie danych. Przetwarzanie danych za pomocą pakietów Pandas i NumPy oraz środowiska IPython. Wydanie II Python w analizie danych. Przetwarzanie danych za pomocą pakietów Pandas i NumPy oraz środowiska IPython. Wydanie II
(0,00 zł najniższa cena z 30 dni)45.39 zł
89.00 zł(-49%) -
To kompleksowy podręcznik do nauki programowania w Pythonie. Jego piąte wydanie zostało gruntownie zaktualizowane i rozbudowane o dodatkowe treści. Omówiono tu najnowsze wersje Pythona w liniach 3.X i 2.X, czyli 3.3 i 2.7, i dodano opisy nowych lub rozszerzonych mechanizmów, takich jak obsługa fo...(0,00 zł najniższa cena z 30 dni)
123.38 zł
199.00 zł(-38%) -
Jeżeli jednak chcesz mieć zawsze pod ręką sprawdzone źródło informacji, które pozwoli Ci w każdej sytuacji rozwiać wątpliwości, to trafiłeś na doskonałą pozycję. Należy ona do serii Leksykon kieszonkowy i charakteryzuje się niezwykle zwięzłym, przejrzystym układem najważniejszych treści oraz porę...
-
Skoro sięgasz po tę książkę, pewnie chcesz się uczyć programowania. To świetnie! Ta umiejętność z pewnością Ci się przyda ― choćby do tego, by już dziś znakomicie się bawić „w towarzystwie” komputera, ale też jako inwestycja w przyszłość, podjęta z myślą o studiach i pracy.
Zacznij od Pythona. Programowanie dla młodzieży w praktyce Zacznij od Pythona. Programowanie dla młodzieży w praktyce
(0,00 zł najniższa cena z 30 dni)23.68 zł
37.00 zł(-36%) -
Pierwsza odpowiedź, jaka się nasuwa, jest dość oczywista: ponieważ Python to jeden z najprostszych do nauki języków programowania. Najkrótszy program zajmuje tylko JEDNĄ linijkę. Z małą pomocą nauczyciela i naszego praktycznego zeszytu ćwiczeń każdy młody adept sztuki programowania zdoła szybko o...
Zacznij od Pythona. Pierwsze kroki w programowaniu Zacznij od Pythona. Pierwsze kroki w programowaniu
(0,00 zł najniższa cena z 30 dni)24.74 zł
39.90 zł(-38%) -
To drugie wydanie bestsellerowego przewodnika po technikach uczenia maszynowego. Wystarczą minimalne umiejętności programistyczne, aby dzięki tej książce nauczyć się budowania i trenowania głębokiej sieci neuronowej. Zawarto tu minimum teorii, a proces nauki jest ułatwiony przez liczne przykłady ...
Uczenie maszynowe z użyciem Scikit-Learn i TensorFlow. Wydanie II Uczenie maszynowe z użyciem Scikit-Learn i TensorFlow. Wydanie II
(0,00 zł najniższa cena z 30 dni)79.98 zł
129.00 zł(-38%)
O autorach książki
3 Akash Tandon, Sandy Ryza, Uri LasersonAkash Tandon jest inżynierem danych i przedsiębiorcą, a także współzałożycielem i dyrektorem technicznym firmy Looppanel.
Sandy Ryza jest starszym analitykiem w Cloudera i aktywnym uczestnikiem projektu Apache Spark.
Uri Laserson jest starszym analitykiem w Cloudera, gdzie pracuje nad językiem Python w środowisku Hadoop.
Kup polskie wydanie:
Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark
- Autor:
- Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
44,16 zł
69,00 zł
(41.40 zł najniższa cena z 30 dni)
Ebooka przeczytasz na:
-
czytnikach Inkbook, Kindle, Pocketbook, Onyx Boox i innych
-
systemach Windows, MacOS i innych
-
systemach Windows, Android, iOS, HarmonyOS
-
na dowolnych urządzeniach i aplikacjach obsługujących formaty: PDF, EPub, Mobi
Masz pytania? Zajrzyj do zakładki Pomoc »
Audiobooka posłuchasz:
-
w aplikacji Ebookpoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych
-
na dowolnych urządzeniach i aplikacjach obsługujących format MP3 (pliki spakowane w ZIP)
Masz pytania? Zajrzyj do zakładki Pomoc »
Kurs Video zobaczysz:
-
w aplikacji Ebookpoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych
-
na dowolnych urządzeniach i aplikacjach obsługujących format MP4 (pliki spakowane w ZIP)
Szczegóły książki
- ISBN Ebooka:
- 978-10-981-0360-6, 9781098103606
- Data wydania ebooka:
-
2022-06-14
Data wydania ebooka często jest dniem wprowadzenia tytułu do sprzedaży i może nie być równoznaczna z datą wydania książki papierowej. Dodatkowe informacje możesz znaleźć w darmowym fragmencie. Jeśli masz wątpliwości skontaktuj się z nami sklep@helion.pl.
- Język publikacji:
- angielski
- Rozmiar pliku ePub:
- 4.6MB
- Rozmiar pliku Mobi:
- 9.3MB
- Kategorie:
Programowanie » Python - Programowanie
Spis treści książki
- Preface
- Why Did We Write This Book Now?
- How This Book Is Organized
- Conventions Used in This Book
- Using Code Examples
- OReilly Online Learning
- How to Contact Us
- Acknowledgments
- 1. Analyzing Big Data
- Working with Big Data
- Introducing Apache Spark and PySpark
- Components
- PySpark
- Ecosystem
- Spark 3.0
- PySpark Addresses Challenges of Data Science
- Where to Go from Here
- 2. Introduction to Data Analysis with PySpark
- Spark Architecture
- Installing PySpark
- Setting Up Our Data
- Analyzing Data with the DataFrame API
- Fast Summary Statistics for DataFrames
- Pivoting and Reshaping DataFrames
- Joining DataFrames and Selecting Features
- Scoring and Model Evaluation
- Where to Go from Here
- 3. Recommending Music and the Audioscrobbler Dataset
- Setting Up the Data
- Our Requirements for a Recommender System
- Alternating Least Squares Algorithm
- Preparing the Data
- Building a First Model
- Spot Checking Recommendations
- Evaluating Recommendation Quality
- Computing AUC
- Hyperparameter Selection
- Making Recommendations
- Where to Go from Here
- 4. Making Predictions with Decision Trees
and Decision Forests
- Decision Trees and Forests
- Preparing the Data
- Our First Decision Tree
- Decision Tree Hyperparameters
- Tuning Decision Trees
- Categorical Features Revisited
- Random Forests
- Making Predictions
- Where to Go from Here
- 5. Anomaly Detection with K-means Clustering
- K-means Clustering
- Identifying Anomalous Network Traffic
- KDD Cup 1999 Dataset
- A First Take on Clustering
- Choosing k
- Visualization with SparkR
- Feature Normalization
- Categorical Variables
- Using Labels with Entropy
- Clustering in Action
- Where to Go from Here
- 6. Understanding Wikipedia
with LDA and Spark NLP
- Latent Dirichlet Allocation
- LDA in PySpark
- Latent Dirichlet Allocation
- Getting the Data
- Spark NLP
- Setting Up Your Environment
- Parsing the Data
- Preparing the Data Using Spark NLP
- TF-IDF
- Computing the TF-IDFs
- Creating Our LDA Model
- Where to Go from Here
- 7. Geospatial and Temporal Data Analysis
on Taxi Trip Data
- Preparing the Data
- Converting Datetime Strings to Timestamps
- Handling Invalid Records
- Preparing the Data
- Geospatial Analysis
- Intro to GeoJSON
- GeoPandas
- Sessionization in PySpark
- Building Sessions: Secondary Sorts in PySpark
- Where to Go from Here
- 8. Estimating Financial Risk
- Terminology
- Methods for Calculating VaR
- Variance-Covariance
- Historical Simulation
- Monte Carlo Simulation
- Our Model
- Getting the Data
- Preparing the Data
- Determining the Factor Weights
- Sampling
- The Multivariate Normal Distribution
- Running the Trials
- Visualizing the Distribution of Returns
- Where to Go from Here
- 9. Analyzing Genomics Data
and the BDG Project
- Decoupling Storage from Modeling
- Setting Up ADAM
- Introduction to Working with Genomics Data Using ADAM
- File Format Conversion with the ADAM CLI
- Ingesting Genomics Data Using PySpark and ADAM
- Predicting Transcription Factor Binding Sites from ENCODE Data
- Where to Go from Here
- 10. Image Similarity Detection with
Deep Learning and PySpark LSH
- PyTorch
- Installation
- PyTorch
- Preparing the Data
- Resizing Images Using PyTorch
- Deep Learning Model for Vector Representation of Images
- Image Embeddings
- Import Image Embeddings into PySpark
- Image Similarity Search Using PySpark LSH
- Nearest Neighbor Search
- Where to Go from Here
- 11. Managing the Machine Learning
Lifecycle with MLflow
- Machine Learning Lifecycle
- MLflow
- Experiment Tracking
- Managing and Serving ML Models
- Creating and Using MLflow Projects
- Where to Go from Here
- Index
O'Reilly Media - inne książki
-
Between major privacy regulations like the GDPR and CCPA and expensive and notorious data breaches, there has never been so much pressure to ensure data privacy. Unfortunately, integrating privacy into data systems is still complicated. This essential guide will give you a fundamental understandi...(0,00 zł najniższa cena z 30 dni)
220.15 zł
259.00 zł(-15%) -
This essential guide covers all aspects of Linux system administration, from user maintenance, backups, filesystem housekeeping, storage management, and network setup to hardware and software troubleshooting and some application management. It's both a practical daily reference manual for sysadmi...(0,00 zł najniższa cena z 30 dni)
262.65 zł
309.00 zł(-15%) -
The past decade has witnessed the broad adoption of artificial intelligence and machine learning (AI/ML) technologies. However, a lack of oversight in their widespread implementation has resulted in some incidents and harmful outcomes that could have been avoided with proper risk management. Befo...(0,00 zł najniższa cena z 30 dni)
262.65 zł
309.00 zł(-15%) -
Docker and Linux containers have fundamentally changed the way that organizations develop, deliver, and run software at scale. But understanding why these tools are important and how they can be successfully integrated into your organization's ecosystem can be challenging. This fully updated guid...(0,00 zł najniższa cena z 30 dni)
220.15 zł
259.00 zł(-15%) -
Continuous delivery doesn't stop with deployment. Modern software teams rely on an emerging set of best practices postdeployment to continuously improve their software. With this practical guide, CTOs, software architects, and senior engineering leaders will learn what these practices are and how...(0,00 zł najniższa cena z 30 dni)
152.15 zł
179.00 zł(-15%) -
As data management continues to evolve rapidly, managing all of your data in a central place, such as a data warehouse, is no longer scalable. Today's world is about quickly turning data into value. This requires a paradigm shift in the way we federate responsibilities, manage data, and make it a...(0,00 zł najniższa cena z 30 dni)
228.65 zł
269.00 zł(-15%) -
Get up to speed with Prometheus, the metrics-based monitoring system used in production by tens of thousands of organizations. This updated second edition provides site reliability engineers, Kubernetes administrators, and software developers with a hands-on introduction to the most important asp...(0,00 zł najniższa cena z 30 dni)
220.15 zł
259.00 zł(-15%) -
The exponential growth of data combined with the need to derive real-time business value is a critical issue today. An event-driven data mesh can power real-time operational and analytical workloads, all from a single set of data product streams. With practical real-world examples, this book show...(0,00 zł najniższa cena z 30 dni)
220.15 zł
259.00 zł(-15%) -
Cybersecurity is broken. Year after year, attackers remain unchallenged and undeterred, while engineering teams feel pressure to design, build, and operate "secure" systems. Failure can't be prevented, mental models of systems are incomplete, and our digital world constantly evolves. How can we v...(0,00 zł najniższa cena z 30 dni)
220.15 zł
259.00 zł(-15%) -
The way developers design, build, and run software has changed significantly with the evolution of microservices and containers. These modern architectures offer new distributed primitives that require a different set of practices than many developers, tech leads, and architects are accustomed to...(0,00 zł najniższa cena z 30 dni)
220.15 zł
259.00 zł(-15%)
Dzieki opcji "Druk na żądanie" do sprzedaży wracają tytuły Grupy Helion, które cieszyły sie dużym zainteresowaniem, a których nakład został wyprzedany.
Dla naszych Czytelników wydrukowaliśmy dodatkową pulę egzemplarzy w technice druku cyfrowego.
Co powinieneś wiedzieć o usłudze "Druk na żądanie":
- usługa obejmuje tylko widoczną poniżej listę tytułów, którą na bieżąco aktualizujemy;
- cena książki może być wyższa od początkowej ceny detalicznej, co jest spowodowane kosztami druku cyfrowego (wyższymi niż koszty tradycyjnego druku offsetowego). Obowiązująca cena jest zawsze podawana na stronie WWW książki;
- zawartość książki wraz z dodatkami (płyta CD, DVD) odpowiada jej pierwotnemu wydaniu i jest w pełni komplementarna;
- usługa nie obejmuje książek w kolorze.
W przypadku usługi "Druk na żądanie" termin dostarczenia przesyłki może obejmować także czas potrzebny na dodruk (do 10 dni roboczych)
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.
Książka, którą chcesz zamówić pochodzi z końcówki nakładu. Oznacza to, że mogą się pojawić drobne defekty (otarcia, rysy, zagięcia).
Co powinieneś wiedzieć o usłudze "Końcówka nakładu":
- usługa obejmuje tylko książki oznaczone tagiem "Końcówka nakładu";
- wady o których mowa powyżej nie podlegają reklamacji;
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.


Oceny i opinie klientów: Advanced Analytics with PySpark Akash Tandon, Sandy Ryza, Uri Laserson (0)
Weryfikacja opinii następuję na podstawie historii zamówień na koncie Użytkownika umieszczającego opinię. Użytkownik mógł otrzymać punkty za opublikowanie opinii uprawniające do uzyskania rabatu w ramach Programu Punktowego.