Opis książki: Hands-On Data Preprocessing in Python
Hands-On Data Preprocessing is a primer on the best data cleaning and preprocessing techniques, written by an expert who's developed college-level courses on data preprocessing and related subjects.
With this book, you'll be equipped with the optimum data preprocessing techniques from multiple perspectives, ensuring that you get the best possible insights from your data.
You'll learn about different technical and analytical aspects of data preprocessing - data collection, data cleaning, data integration, data reduction, and data transformation - and get to grips with implementing them using the open source Python programming environment.
The hands-on examples and easy-to-follow chapters will help you gain a comprehensive articulation of data preprocessing, its whys and hows, and identify opportunities where data analytics could lead to more effective decision making. As you progress through the chapters, you'll also understand the role of data management systems and technologies for effective analytics and how to use APIs to pull data.
By the end of this Python data preprocessing book, you'll be able to use Python to read, manipulate, and analyze data; perform data cleaning, integration, reduction, and transformation techniques, and handle outliers or missing values to effectively prepare data for analytic tools.
Wybrane bestsellery
-
Oto intuicyjny przewodnik dla średnio zaawansowanych programistów Pythona, pomyślany tak, by przyswajać zasady programowania zorientowanego obiektowo podczas praktycznych ćwiczeń. Dowiesz się, jakie problemy wiążą się z zastosowaniem podejścia proceduralnego i jak dzięki podejściu obiektowemu pis...
Python zorientowany obiektowo. Programowanie gier i graficznych interfejsów użytkownika Python zorientowany obiektowo. Programowanie gier i graficznych interfejsów użytkownika
(0,00 zł najniższa cena z 30 dni)57.85 zł
89.00 zł(-35%) -
To drugie, zaktualizowane i poprawione wydanie bestsellerowego podręcznika Programowania w Pythonie pozwoli Ci błyskawicznie zacząć tworzyć kod, który działa! Zaczniesz od zrozumienia podstawowych koncepcji programistycznych, następnie nauczysz się zapewniać programom interaktywność i wykształcis...(0,00 zł najniższa cena z 30 dni)
64.35 zł
99.00 zł(-35%) -
To kompleksowy podręcznik do nauki programowania w Pythonie. Jego piąte wydanie zostało gruntownie zaktualizowane i rozbudowane o dodatkowe treści. Omówiono tu najnowsze wersje Pythona w liniach 3.X i 2.X, czyli 3.3 i 2.7, i dodano opisy nowych lub rozszerzonych mechanizmów, takich jak obsługa fo...(0,00 zł najniższa cena z 30 dni)
129.35 zł
199.00 zł(-35%) -
Dzięki tej książce przekonasz się, jak wspaniałą przygodą jest programowanie i jak łatwo ją zacząć! Poznasz podstawy Pythona, dowiesz się, jak pisać i formatować kod, a także szybko nauczysz się uruchamiać swoje programy. Instrukcje sterujące, operatory, typy danych, funkcje, klasy i moduły nie b...
Python 3. Projekty dla początkujących i pasjonatów Python 3. Projekty dla początkujących i pasjonatów
(0,00 zł najniższa cena z 30 dni)38.94 zł
59.90 zł(-35%) -
Ta książka jest przystępnym wprowadzeniem do kryptografii i bibliotek kryptograficznych Pythona. Omówiono tu podstawowe koncepcje z tej dziedziny, najważniejsze algorytmy i niezbędny zakres podstaw matematycznych: liczby pierwsze, teorię grup czy generatory liczb pseudolosowych. Wyjaśniono, czym ...
Algorytmy kryptograficzne w Pythonie. Wprowadzenie Algorytmy kryptograficzne w Pythonie. Wprowadzenie
(0,00 zł najniższa cena z 30 dni)44.85 zł
69.00 zł(-35%) -
Metody statystyczne są kluczowym elementem data science, mimo to niewielu specjalistów data science posiada formalne wykształcenie statystyczne. Kursy i podręczniki o podstawach statystyki, rzadko kiedy omawiają temat z perspektywy data science. W drugim wydaniu tego popularnego podręcznika zosta...
Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python. Wydanie II Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python. Wydanie II
(0,00 zł najniższa cena z 30 dni)44.85 zł
69.00 zł(-35%) -
To kolejne wydanie lubianego samouczka, dzięki któremu w ramach 24 godzinnych lekcji przyswoisz solidne podstawy programowania. Zrozumiesz, jak działają programy, i nauczysz się reguł stosowanych przez profesjonalistów przy ich projektowaniu. Dowiesz się, jak wygląda świat programistów i na czym ...
Programowanie dla początkujących w 24 godziny. Wydanie IV Programowanie dla początkujących w 24 godziny. Wydanie IV
(0,00 zł najniższa cena z 30 dni)41.40 zł
69.00 zł(-40%) -
Ta książka jest zwięzłym, skupionym na praktyce przewodnikiem po Pythonie w wersji 3.6 i nowszych. Dzięki niej skoncentrujesz się na rdzeniu języka i podstawowych zagadnieniach, które musisz doskonale opanować, jeśli chcesz pisać w nim dobry kod. Dowiesz się zatem, jak działa Python i jakich zasa...(0,00 zł najniższa cena z 30 dni)
44.85 zł
69.00 zł(-35%) -
Wiernym czytelnikom publikacji spod znaku wydawnictwa Helion Piotra Wróblewskiego przedstawiać nie trzeba. Dość wspomnieć, że jest on autorem wielu publikacji poświęconych głównie programowaniu i obsłudze komputerów. Jego najnowsza książka, Algorytmy w Pythonie. Techniki programowania dla praktyk...
Algorytmy w Pythonie. Techniki programowania dla praktyków Algorytmy w Pythonie. Techniki programowania dla praktyków
(0,00 zł najniższa cena z 30 dni)77.35 zł
119.00 zł(-35%) -
Ta książka jest drugim wydaniem nietypowego podręcznika programowania w Pythonie. Dzięki niej nie zostaniesz mistrzem świata w kodowaniu, za to nauczysz się tworzyć programy, które oszczędzą Ci mnóstwo czasu i wysiłku. Nawet jeśli nigdy nie programowałeś, błyskawicznie opanujesz podstawy i zapozn...
Automatyzacja nudnych zadań z Pythonem. Nauka programowania. Wydanie II Automatyzacja nudnych zadań z Pythonem. Nauka programowania. Wydanie II
(0,00 zł najniższa cena z 30 dni)70.85 zł
109.00 zł(-35%)
Ebooka przeczytasz na:
-
czytnikach Inkbook, Kindle, Pocketbook i innych
-
systemach Windows, MacOS i innych
-
systemach Windows, Android, iOS, HarmonyOS
-
na dowolnych urządzeniach i aplikacjach obsługujących formaty: PDF, EPub, Mobi
Masz pytania? Zajrzyj do zakładki Pomoc »
Audiobooka posłuchasz:
-
w aplikacji Ebookpoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych
-
na dowolonych urządzeniach i aplikacjach obsługujących format MP3 (pliki spakowane w ZIP)
Masz pytania? Zajrzyj do zakładki Pomoc »
Kurs Video zobaczysz:
-
w aplikacji Ebookpoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych
-
na dowolonych urządzeniach i aplikacjach obsługujących format MP4 (pliki spakowane w ZIP)
Szczegóły książki
- Tytuł oryginału:
- Hands-On Data Preprocessing in Python
- ISBN Ebooka:
- 978-18-010-7995-2, 9781801079952
- Data wydania ebooka:
-
2022-01-21
Data wydania ebooka często jest dniem wprowadzenia tytułu do sprzedaży i może nie być równoznaczna z datą wydania książki papierowej. Dodatkowe informacje możesz znaleźć w darmowym fragmencie. Jeśli masz wątpliwości skontaktuj się z nami sklep@helion.pl.
- Język publikacji:
- angielski
- Rozmiar pliku Pdf:
- 48.5MB
- Rozmiar pliku ePub:
- 37.8MB
- Kategorie:
Programowanie » Python - Programowanie
Big Data
Spis treści książki
- Hands-On Data Preprocessing in Python
- Contributors
- About the author
- About the reviewers
- Preface
- Who this book is for
- What this book covers
- To get the most out of this book
- Download the example code files
- Download the color images
- Conventions used
- Get in touch
- Share Your Thoughts
- Part 1:Technical Needs
- Chapter 1: Review of the Core Modules of NumPy and Pandas
- Technical requirements
- Overview of the Jupyter Notebook
- Are we analyzing data via computer programming?
- Overview of the basic functions of NumPy
- The np.arange() function
- The np.zeros() and np.ones() functions
- The np.linspace() function
- Overview of Pandas
- Pandas data access
- Boolean masking for filtering a DataFrame
- Pandas functions for exploring a DataFrame
- Pandas applying a function
- The Pandas groupby function
- Pandas multi-level indexing
- Pandas pivot and melt functions
- Summary
- Exercises
- Chapter 2: Review of Another Core Module Matplotlib
- Technical requirements
- Drawing the main plots in Matplotlib
- Summarizing numerical attributes using histograms or boxplots
- Observing trends in the data using a line plot
- Relating two numerical attributes using a scatterplot
- Modifying the visuals
- Adding a title to visuals and labels to the axis
- Adding legends
- Modifying ticks
- Modifying markers
- Subplots
- Resizing visuals and saving them
- Resizing
- Saving
- Example of Matplotilb assisting data preprocessing
- Summary
- Exercises
- Chapter 3: Data What Is It Really?
- Technical requirements
- What is data?
- Why this definition?
- DIKW pyramid
- Data preprocessing for data analytics versus data preprocessing for machine learning
- The most universal data structure a table
- Data objects
- Data attributes
- Types of data values
- Analytics standpoint
- Programming standpoint
- Information versus pattern
- Understanding everyday use of the word "information"
- Statistical use of the word "information"
- Statistical meaning of the word "pattern"
- Summary
- Exercises
- References
- Chapter 4: Databases
- Technical requirements
- What is a database?
- Understanding the difference between a database and a dataset
- Types of databases
- The differentiating elements of databases
- Relational databases (SQL databases)
- Unstructured databases (NoSQL databases)
- A practical example that requires a combination of both structured and unstructured databases
- Distributed databases
- Blockchain
- Connecting to, and pulling data from, databases
- Direct connection
- Web page connection
- API connection
- Request connection
- Publicly shared
- Summary
- Exercises
- Part 2: Analytic Goals
- Chapter 5: Data Visualization
- Technical requirements
- Summarizing a population
- Example of summarizing numerical attributes
- Example of summarizing categorical attributes
- Comparing populations
- Example of comparing populations using boxplots
- Example of comparing populations using histograms
- Example of comparing populations using bar charts
- Investigating the relationship between two attributes
- Visualizing the relationship between two numerical attributes
- Visualizing the relationship between two categorical attributes
- Visualizing the relationship between a numerical attribute and a categorical attribute
- Adding visual dimensions
- Example of a five-dimensional scatter plot
- Showing and comparing trends
- Example of visualizing and comparing trends
- Summary
- Exercise
- Chapter 6: Prediction
- Technical requirements
- Predictive models
- Forecasting
- Regression analysis
- Linear regression
- Example of applying linear regression to perform regression analysis
- MLP
- How does MLP work?
- Example of applying MLP to perform regression analysis
- Summary
- Exercises
- Chapter 7: Classification
- Technical requirements
- Classification models
- Example of designing a classification model
- Classification algorithms
- KNN
- Example of using KNN for classification
- Decision Trees
- Example of using Decision Trees for classification
- Summary
- Exercises
- Chapter 8: Clustering Analysis
- Technical requirements
- Clustering model
- Clustering example using a two-dimensional dataset
- Clustering example using a three-dimensional dataset
- K-Means algorithm
- Using K-Means to cluster a two-dimensional dataset
- Using K-Means to cluster a dataset with more than two dimensions
- Centroid analysis
- Summary
- Exercises
- Part 3: The Preprocessing
- Chapter 9: Data Cleaning Level I Cleaning Up the Table
- Technical requirements
- The levels, tools, and purposes of data cleaning a roadmap to chapters 9, 10, and 11
- Purpose of data analytics
- Tools for data analytics
- Levels of data cleaning
- Mapping the purposes and tools of analytics to the levels of data cleaning
- Data cleaning level I cleaning up the table
- Example 1 unwise data collection
- Example 2 reindexing (multi-level indexing)
- Example 3 intuitive but long column titles
- Summary
- Exercises
- Chapter 10: Data Cleaning Level II Unpacking, Restructuring, and Reformulating the Table
- Technical requirements
- Example 1 unpacking columns and reformulating the table
- Unpacking FileName
- Unpacking Content
- Reformulating a new table for visualization
- The last step drawing the visualization
- Example 2 restructuring the table
- Example 3 level I and II data cleaning
- Level I cleaning
- Level II cleaning
- Doing the analytics using linear regression to create a predictive model
- Summary
- Exercises
- Chapter 11: Data Cleaning Level III Missing Values, Outliers, and Errors
- Technical requirements
- Missing values
- Detecting missing values
- Example of detecting missing values
- Causes of missing values
- Types of missing values
- Diagnosis of missing values
- Dealing with missing values
- Outliers
- Detecting outliers
- Dealing with outliers
- Errors
- Types of errors
- Dealing with errors
- Detecting systematic errors
- Summary
- Exercises
- Chapter 12: Data Fusion and Data Integration
- Technical requirements
- What are data fusion and data integration?
- Data fusion versus data integration
- Directions of data integration
- Frequent challenges regarding data fusion and integration
- Challenge 1 entity identification
- Challenge 2 unwise data collection
- Challenge 3 index mismatched formatting
- Challenge 4 aggregation mismatch
- Challenge 5 duplicate data objects
- Challenge 6 data redundancy
- Example 1 (challenges 3 and 4)
- Example 2 (challenges 2 and 3)
- Example 3 (challenges 1, 3, 5, and 6)
- Checking for duplicate data objects
- Designing the structure for the result of data integration
- Filling songIntegrate_df from billboard_df
- Filling songIntegrate_df from songAttribute_df
- Filling songIntegrate_df from artist_df
- Checking for data redundancy
- The analysis
- Example summary
- Summary
- Exercise
- Chapter 13: Data Reduction
- Technical requirements
- The distinction between data reduction and data redundancy
- The objectives of data reduction
- Types of data reduction
- Performing numerosity data reduction
- Random sampling
- Stratified sampling
- Random over/undersampling
- Performing dimensionality data reduction
- Linear regression as a dimension reduction method
- Using a decision tree as a dimension reduction method
- Using random forest as a dimension reduction method
- Brute-force computational dimension reduction
- PCA
- Functional data analysis
- Summary
- Exercises
- Chapter 14: Data Transformation and Massaging
- Technical requirements
- The whys of data transformation and massaging
- Data transformation versus data massaging
- Normalization and standardization
- Binary coding, ranking transformation, and discretization
- Example one binary coding of nominal attribute
- Example two binary coding or ranking transformation of ordinal attributes
- Example three discretization of numerical attributes
- Understanding the types of discretization
- Discretization the number of cut-off points
- A summary from numbers to categories and back
- Attribute construction
- Example construct one transformed attribute from two attributes
- Feature extraction
- Example extract three attributes from one attribute
- Example Morphological feature extraction
- Feature extraction examples from the previous chapters
- Log transformation
- Implementation doing it yourself
- Implementation the working module doing it for you
- Smoothing, aggregation, and binning
- Smoothing
- Aggregation
- Binning
- Summary
- Exercise
- Part 4: Case Studies
- Chapter 15: Case Study 1 Mental Health in Tech
- Technical requirements
- Introducing the case study
- The audience of the results of analytics
- Introduction to the source of the data
- Integrating the data sources
- Cleaning the data
- Detecting and dealing with outliers and errors
- Detecting and dealing with missing values
- Analyzing the data
- Analysis question one is there a significant difference between the mental health of employees across the attribute of gender?
- Analysis question two is there a significant difference between the mental health of employees across the Age attribute?
- Analysis question three do more supportive companies have mentally healthier employees?
- Analysis question four does the attitude of individuals toward mental health influence their mental health and their seeking of treatments?
- Summary
- Chapter 16: Case Study 2 Predicting COVID-19 Hospitalizations
- Technical requirements
- Introducing the case study
- Introducing the source of the data
- Preprocessing the data
- Designing the dataset to support the prediction
- Filling up the placeholder dataset
- Supervised dimension reduction
- Analyzing the data
- Summary
- Chapter 17: Case Study 3: United States Counties Clustering Analysis
- Technical requirements
- Introducing the case study
- Introduction to the source of the data
- Preprocessing the data
- Transforming election_df to partisan_df
- Cleaning edu_df, employ_df, pop_df, and pov_df
- Data integration
- Data cleaning level III missing values, errors, and outliers
- Checking for data redundancy
- Analyzing the data
- Using PCA to visualize the dataset
- K-Means clustering analysis
- Summary
- Chapter 18: Summary, Practice Case Studies, and Conclusions
- A summary of the book
- Part 1 Technical requirements
- Part 2 Analytics goals
- Part 3 The preprocessing
- Part 4 Case studies
- A summary of the book
- Practice case studies
- Google Covid-19 mobility dataset
- Police killings in the US
- US accidents
- San Francisco crime
- Data analytics job market
- FIFA 2018 player of the match
- Hot hands in basketball
- Wildfires in California
- Silicon Valley diversity profile
- Recognizing fake job posting
- Hunting more practice case studies
- Conclusions
- Why subscribe?
- Other Books You May Enjoy
- Packt is searching for authors like you
- Share Your Thoughts
Packt Publishing - inne książki
-
Save time and effort when building 3D scenes with this essential guide to creating stunning photorealistic 3D environments in Blender
-
Solve classic computer science problems from fundamental algorithms, such as sorting and searching, to modern algorithms in machine learning and cryptography
40 Algorithms Every Programmer Should Know - Second Edition 40 Algorithms Every Programmer Should Know - Second Edition
-
Use modern Python libraries such as pandas, NumPy, and scikit-learn and popular machine learning and deep learning methods to solve financial modeling problems
-
Get up to speed with Oracle's Autonomous Databases and implementation strategies for any workload or use case, including transactional, data warehousing, and non-relational databases
Oracle Autonomous Database in Enterprise Architecture Oracle Autonomous Database in Enterprise Architecture
-
Design, build, and deploy performant and maintainable web applications using Spring, Spring Boot, and Angular
-
Build CD pipelines following GitOps principles like declarative and immutable changes stored in version control, all continuously reconciled by Argo CD, and minimize the failure of deployments.
Dzieki opcji "Druk na żądanie" do sprzedaży wracają tytuły Grupy Helion, które cieszyły sie dużym zainteresowaniem, a których nakład został wyprzedany.
Dla naszych Czytelników wydrukowaliśmy dodatkową pulę egzemplarzy w technice druku cyfrowego.
Co powinieneś wiedzieć o usłudze "Druk na żądanie":
- usługa obejmuje tylko widoczną poniżej listę tytułów, którą na bieżąco aktualizujemy;
- cena książki może być wyższa od początkowej ceny detalicznej, co jest spowodowane kosztami druku cyfrowego (wyższymi niż koszty tradycyjnego druku offsetowego). Obowiązująca cena jest zawsze podawana na stronie WWW książki;
- zawartość książki wraz z dodatkami (płyta CD, DVD) odpowiada jej pierwotnemu wydaniu i jest w pełni komplementarna;
- usługa nie obejmuje książek w kolorze.
W przypadku usługi "Druk na żądanie" termin dostarczenia przesyłki może obejmować także czas potrzebny na dodruk (do 10 dni roboczych)
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.
Książka, którą chcesz zamówić pochodzi z końcówki nakładu. Oznacza to, że mogą się pojawić drobne defekty (otarcia, rysy, zagięcia).
Co powinieneś wiedzieć o usłudze "Końcówka nakładu":
- usługa obejmuje tylko książki oznaczone tagiem "Końcówka nakładu";
- wady o których mowa powyżej nie podlegają reklamacji;
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.


Oceny i opinie klientów: Hands-On Data Preprocessing in Python Roy Jafari (0)
Weryfikacja opinii następuję na podstawie historii zamówień na koncie Użytkownika umieszczającego opinię. Użytkownik mógł otrzymać punkty za opublikowanie opinii uprawniające do uzyskania rabatu w ramach Programu Punktowego.