Big Data for Chimps. A Guide to Massive-Scale Data Processing in Practice

- Autorzy:
- Philip (flip) Kromer, Russell Jurney
- Promocja Przejdź


- Ocena:
- Bądź pierwszym, który oceni tę książkę
- Stron:
- 220
- Dostępne formaty:
-
ePubMobi
Opis książki: Big Data for Chimps. A Guide to Massive-Scale Data Processing in Practice
Finding patterns in massive event streams can be difficult, but learning how to find them doesn’t have to be. This unique hands-on guide shows you how to solve this and many other problems in large-scale data processing with simple, fun, and elegant tools that leverage Apache Hadoop. You’ll gain a practical, actionable view of big data by working with real data and real problems.
Perfect for beginners, this book’s approach will also appeal to experienced practitioners who want to brush up on their skills. Part I explains how Hadoop and MapReduce work, while Part II covers many analytic patterns you can use to process any data. As you work through several exercises, you’ll also learn how to use Apache Pig to process data.
- Learn the necessary mechanics of working with Hadoop, including how data and computation move around the cluster
- Dive into map/reduce mechanics and build your first map/reduce job in Python
- Understand how to run chains of map/reduce jobs in the form of Pig scripts
- Use a real-world dataset—baseball performance statistics—throughout the book
- Work with examples of several analytic patterns, and learn when and where you might use them
Wybrane bestsellery
-
Data science teams looking to turn research into useful analytics applications require not only the right tools, but also the right approach if they’re to succeed. With the revised second edition of this hands-on guide, up-and-coming data scientists will learn how to use the Agile Data Scie...
Agile Data Science 2.0. Building Full-Stack Data Analytics Applications with Spark Agile Data Science 2.0. Building Full-Stack Data Analytics Applications with Spark
(0,00 zł najniższa cena z 30 dni)152.15 zł
179.00 zł(-15%) -
Duże zbiory danych dla każdego! W dobie Big Data klasyczne podejście do analizy danych nie przynosi już pożądanych wyników. Skuteczna analiza gigantycznych zbiorów informacji, wyciąganie interesujących wniosków i prezentowanie ich w przejrzystej formie użytkownikowi wymagają...(0,00 zł najniższa cena z 30 dni)
23.94 zł
39.90 zł(-40%) -
Znakomite szkolenie Excel — tabele przestawne. Kurs video. Raporty i analiza danych zostało zaprojektowane tak, byś po jego zakończeniu potrafił samodzielnie analizować dane za pomocą tabel przestawnych oraz przedstawiać je w formie graficznej na wykresach przestawnych. Przekonaj się, jaki ...
Excel - tabele przestawne. Kurs video. Raporty i analiza danych Excel - tabele przestawne. Kurs video. Raporty i analiza danych
(0,00 zł najniższa cena z 30 dni)19.95 zł
39.90 zł(-50%) -
Tę książkę napisał wytrawny znawca i współtwórca Hadoopa. Przedstawia w niej wszystkie istotne mechanizmy działania platformy i pokazuje, jak efektywnie jej używać. Dowiesz się stąd, do czego służą model MapReduce oraz systemy HDFS i YARN. Nauczysz się budować aplikacje oraz klastry.
Hadoop. Komplety przewodnik. Analiza i przechowywanie danych Hadoop. Komplety przewodnik. Analiza i przechowywanie danych
(0,00 zł najniższa cena z 30 dni)53.40 zł
89.00 zł(-40%) -
Niniejsza książka jest lekturą obowiązkową dla każdego, kto chce rozwinąć swoją wiedzę o danych naukowych i zamierza w tym celu wykorzystać język Python. Przystępnie opisano tu teoretyczne podstawy dziedziny i przedstawiono wyczerpujące informacje o działaniu algorytmów uczenia maszynowego, sposo...(0,00 zł najniższa cena z 30 dni)
41.40 zł
69.00 zł(-40%) -
Niniejsza książka jest doskonałym wprowadzeniem do nauki o danych. Jej autorzy wskażą Ci prostą i szybką drogę do rozwiązywania różnych problemów z tego obszaru za pomocą Pythona oraz powiązanych z nim pakietów do analizy danych i uczenia maszynowego. Dzięki lekturze przejdziesz przez kolejne eta...(0,00 zł najniższa cena z 30 dni)
35.40 zł
59.00 zł(-40%) -
Niniejsza książka to zaktualizowane wydanie kultowego podręcznika, przeznaczonego dla wszystkich użytkowników Excela, niezależnie od stopnia wtajemniczenia. Uwzględniono w nim zmiany wprowadzone w Excelu 2016. Przedstawiono poszczególne możliwości programu, od stosowania szablonów, przez obsługę ...(0,00 zł najniższa cena z 30 dni)
65.40 zł
109.00 zł(-40%) -
Niniejsza książka uchyla rąbka tajemnicy i pokazuje, jak działają maszyny uczące, dzięki którym funkcjonują Google, Amazon i nasze smartfony. Autor prezentuje pięć głównych szkół uczenia maszynowego, z których każda daje różne odpowiedzi na te same, fundamentalne pytania o uczenie się, o pozyskiw...
Naczelny Algorytm. Jak jego odkrycie zmieni nasz świat Naczelny Algorytm. Jak jego odkrycie zmieni nasz świat
(0,00 zł najniższa cena z 30 dni)29.40 zł
49.00 zł(-40%) -
Dzięki tej książce nauczysz się budować tego rodzaju architekturę. Zapoznasz się z technologią wykorzystywania klastrów maszyn. Dowiesz się, jak działają narzędzia przeznaczone specjalnie do przechwytywania i analizy danych na wielką skalę. W książce zaprezentowano łatwe do zrozumienia podejście ...
Big Data. Najlepsze praktyki budowy skalowalnych systemów obsługi danych w czasie rzeczywistym Big Data. Najlepsze praktyki budowy skalowalnych systemów obsługi danych w czasie rzeczywistym
-
Jeżeli sięgniesz po tę książkę, będziesz mieć niepowtarzalną okazję błyskawicznego poznania jego potencjału. Na kolejnych stronach znajdziesz informacje na temat podstaw pracy z PL/SQL, a następnie przejdziesz do bardziej zaawansowanych zagadnień. Zdobędziesz wiedzę na temat struktur sterujących,...
Oracle Database 12c. Programowanie w języku PL/SQL Oracle Database 12c. Programowanie w języku PL/SQL
(0,00 zł najniższa cena z 30 dni)89.40 zł
149.00 zł(-40%)
Ebooka przeczytasz na:
-
czytnikach Inkbook, Kindle, Pocketbook i innych
-
systemach Windows, MacOS i innych
-
systemach Windows, Android, iOS, HarmonyOS
-
na dowolnych urządzeniach i aplikacjach obsługujących formaty: PDF, EPub, Mobi
Masz pytania? Zajrzyj do zakładki Pomoc »
Audiobooka posłuchasz:
-
w aplikacji Ebookpoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych
-
na dowolonych urządzeniach i aplikacjach obsługujących format MP3 (pliki spakowane w ZIP)
Masz pytania? Zajrzyj do zakładki Pomoc »
Kurs Video zobaczysz:
-
w aplikacji Ebookpoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych
-
na dowolonych urządzeniach i aplikacjach obsługujących format MP4 (pliki spakowane w ZIP)
Szczegóły książki
- ISBN Ebooka:
- 978-14-919-2390-0, 9781491923900
- Data wydania ebooka:
-
2015-09-28
Data wydania ebooka często jest dniem wprowadzenia tytułu do sprzedaży i może nie być równoznaczna z datą wydania książki papierowej. Dodatkowe informacje możesz znaleźć w darmowym fragmencie. Jeśli masz wątpliwości skontaktuj się z nami sklep@helion.pl.
- Język publikacji:
- angielski
- Rozmiar pliku ePub:
- 4.0MB
- Rozmiar pliku Mobi:
- 4.0MB
- Kategorie:
Bazy danych
Big Data
Spis treści książki
- Preface
- What This Book Covers
- Who This Book Is For
- Who This Book Is Not For
- What This Book Does Not Cover
- Theory: Chimpanzee and Elephant
- Practice: Hadoop
- Example Code
- A Note on Python and MrJob
- Helpful Reading
- Feedback
- Conventions Used in This Book
- Using Code Examples
- Safari Books Online
- How to Contact Us
- I. Introduction: Theory and Tools
- 1. Hadoop Basics
- Chimpanzee and Elephant Start a Business
- Map-Only Jobs: Process Records Individually
- Pig Latin Map-Only Job
- Setting Up a Docker Hadoop Cluster
- Run the Job
- Wrapping Up
- 2. MapReduce
- Chimpanzee and Elephant Save Christmas
- Trouble in Toyland
- Chimpanzees Process Letters into Labeled Toy Forms
- Chimpanzee and Elephant Save Christmas
- Pygmy Elephants Carry Each Toy Form to the Appropriate Workbench
- Example: Reindeer Games
- UFO Data
- Group the UFO Sightings by Reporting Delay
- Mapper
- Reducer
- Plot the Data
- Reindeer Conclusion
- Hadoop Versus Traditional Databases
- The MapReduce Haiku
- Map Phase, in Light Detail
- Group-Sort Phase, in Light Detail
- Reduce Phase, in Light Detail
- Wrapping Up
- 3. A Quick Look into Baseball
- The Data
- Acronyms and Terminology
- The Rules and Goals
- Performance Metrics
- Wrapping Up
- 4. Introduction to Pig
- Pig Helps Hadoop Work with Tables, Not Records
- Wikipedia Visitor Counts
- Pig Helps Hadoop Work with Tables, Not Records
- Fundamental Data Operations
- Control Operations
- Pipelinable Operations
- Structural Operations
- LOAD Locates and Describes Your Data
- Simple Types
- Complex Type 1, Tuples: Fixed-Length Sequence of Typed Fields
- Complex Type 2, Bags: Unbounded Collection of Tuples
- Defining the Schema of a Transformed Record
- STORE Writes Data to Disk
- Development Aid Commands
- DESCRIBE
- DUMP
- SAMPLE
- ILLUSTRATE
- EXPLAIN
- Pig Functions
- Piggybank
- Apache DataFu
- Wrapping Up
- II. Tactics: Analytic Patterns
- 5. Map-Only Operations
- Pattern in Use
- Eliminating Data
- Selecting Records That Satisfy a Condition: FILTER and Friends
- Selecting Records That Satisfy Multiple Conditions
- Selecting or Rejecting Records with a null Value
- Selecting Records That Match a Regular Expression (MATCHES)
- Pattern in use
- Matching Records Against a Fixed List of Lookup Values
- Pattern in use
- Project Only Chosen Columns by Name
- Using a FOREACH to Select, Rename, and Reorder fields
- Pattern in use
- Using a FOREACH to Select, Rename, and Reorder fields
- Extracting a Random Sample of Records
- Pattern in use
- Extracting a Consistent Sample of Records by Key
- Pattern in use
- Sampling Carelessly by Only Loading Some part- Files
- Selecting a Fixed Number of Records with LIMIT
- Other Data Elimination Patterns
- Transforming Records
- Transforming Records Individually Using FOREACH
- A Nested FOREACH Allows Intermediate Expressions
- Formatting a String According to a Template
- Assembling Literals with Complex Types
- Parsing a date
- Assembling a bag
- Manipulating the Type of a Field
- Ints and Floats and Rounding, Oh My!
- Calling a User-Defined Function from an External Package
- Operations That Break One Table into Many
- Directing Data Conditionally into Multiple Dataflows (SPLIT)
- Demonstration in Pig
- Directing Data Conditionally into Multiple Dataflows (SPLIT)
- Operations That Treat the Union of Several Tables as One
- Treating Several Pig Relation Tables as a Single Table (Stacking Rowsets)
- Wrapping Up
- 6. Grouping Operations
- Grouping Records into a Bag by Key
- Pattern in Use
- Counting Occurrences of a Key
- Pattern in use
- Representing a Collection of Values with a Delimited String
- Pattern in use
- Grouping Records into a Bag by Key
- Representing a Complex Data Structure with a Delimited String
- Pattern in use
- Representing a Complex Data Structure with a JSON-Encoded String
- Pattern in use
- Does God hate Cleveland?
- Group and Aggregate
- Aggregating Statistics of a Group
- Pattern in use
- Aggregating Statistics of a Group
- Completely Summarizing a Field
- Pattern in use
- Summarizing Aggregate Statistics of a Full Table
- Pattern in use
- Summarizing a String Field
- Pattern in use
- Calculating the Distribution of Numeric Values with a Histogram
- Pattern in Use
- Binning Data for a Histogram
- Histogram of career games played
- Choosing a Bin Size
- Bin size too large
- Bin size too small
- Bin size just right
- Interpreting Histograms and Quantiles
- Games played: linear
- Games played: log-log plot
- Binning Data into Exponentially Sized Buckets
- Pattern in use
- Creating Pig Macros for Common Stanzas
- Distribution of Games Played
- Extreme Populations and Confounding Factors
- Distribution of birth and death day of year
- Baseball player deaths
- Baseball player births
- Dont Trust Distributions at the Tails
- Calculating a Relative Distribution Histogram
- Pattern in use
- Reinjecting Global Values
- Calculating a Histogram Within a Group
- Pattern in use
- Dumping Readable Results
- Pattern in use
- The Summing Trick
- Counting Conditional Subsets of a GroupThe Summing Trick
- Summarizing Multiple Subsets of a Group Simultaneously
- Pattern in use
- Testing for Absence of a Value Within a Group
- Pattern in use
- Wrapping Up
- References
- 7. Joining Tables
- Matching Records Between Tables (Inner Join)
- Joining Records in a Table with Directly Matching Records from Another Table (Direct Inner Join)
- Disambiguating field names with ::
- Body type versus slugging average
- Joining Records in a Table with Directly Matching Records from Another Table (Direct Inner Join)
- Matching Records Between Tables (Inner Join)
- How a Join Works
- A Join Is a COGROUP+FLATTEN
- A Join Is a MapReduce Job with a Secondary Sort on the Table Name
- Pattern in use
- Handling nulls and Nonmatches in Joins and Groups
- Pattern in use: inner join
- Enumerating a Many-to-Many Relationship
- Joining a Table with Itself (Self-Join)
- Joining Records Without Discarding Nonmatches (Outer Join)
- Pattern in Use
- Joining Tables That Do Not Have a Foreign-Key Relationship
- Pattern in use
- Joining on an Integer Table to Fill Holes in a List
- Pattern in use
- Selecting Only Records That Lack a Match in Another Table (Anti-Join)
- Selecting Only Records That Possess a Match in Another Table (Semi-Join)
- An Alternative to Anti-Join: Using a COGROUP
- Wrapping Up
- 8. Ordering Operations
- Preparing Career Epochs
- Sorting All Records in Total Order
- Sorting by Multiple Fields
- Sorting on an Expression (You Cant)
- Sorting Case-Insensitive Strings
- Dealing with nulls When Sorting
- Floating Values to the Top or Bottom of the Sort Order
- Pattern in use
- Sorting Records Within a Group
- Pattern in Use
- Selecting Rows with the Top-K Values for a Field
- Top K Within a Group
- Numbering Records in Rank Order
- Finding Records Associated with Maximum Values
- Shuffling a Set of Records
- Wrapping Up
- 9. Duplicate and Unique Records
- Handling Duplicates
- Eliminating Duplicate Records from a Table
- Eliminating Duplicate Records from a Group
- Eliminating All But One Duplicate Based on a Key
- Selecting Records with Unique (or with Duplicate) Values for a Key
- Handling Duplicates
- Set Operations
- Set Operations on Full Tables
- Distinct Union
- Distinct Union (Alternative Method)
- Set Intersection
- Set Difference
- Symmetric Set Difference: (AB)+(BA)
- Set Equality
- Set Operations Within Groups
- Constructing a Sequence of Sets
- Set Operations Within a Group
- Wrapping Up
- Index
O'Reilly Media - inne książki
-
FinOps brings financial accountability to the variable spend model of cloud. Used by the majority of global enterprises, this management practice has grown from a fringe activity to the de facto discipline managing cloud spend. In this book, authors J.R. Storment and Mike Fuller outline the proce...(0,00 zł najniższa cena z 30 dni)
262.65 zł
309.00 zł(-15%) -
Edge AI is transforming the way computers interact with the real world, allowing IoT devices to make decisions using the 99% of sensor data that was previously discarded due to cost, bandwidth, or power limitations. With techniques like embedded machine learning, developers can capture human intu...(0,00 zł najniższa cena z 30 dni)
262.65 zł
309.00 zł(-15%) -
Why is it difficult for so many companies to get digital identity right? If you're still wrestling with even simple identity problems like modern website authentication, this practical book has the answers you need. Author Phil Windley provides conceptual frameworks to help you make sense of all ...(0,00 zł najniższa cena z 30 dni)
186.15 zł
219.00 zł(-15%) -
Python was recently ranked as today's most popular programming language on the TIOBE index, thanks to its broad applicability to design and prototyping to testing, deployment, and maintenance. With this updated fourth edition, you'll learn how to get the most out of Python, whether you're a profe...(0,00 zł najniższa cena z 30 dni)
296.65 zł
349.00 zł(-15%) -
With the accelerating speed of business and the increasing dependence on technology, companies today are significantly changing the way they build in-house business solutions. Many now use low-code and no code technologies to help them deal with specific issues, but that's just the beginning. Wit...
Building Solutions with the Microsoft Power Platform Building Solutions with the Microsoft Power Platform
(0,00 zł najniższa cena z 30 dni)262.65 zł
309.00 zł(-15%) -
Companies are scrambling to integrate AI into their systems and operations. But to build truly successful solutions, you need a firm grasp of the underlying mathematics. This accessible guide walks you through the math necessary to thrive in the AI field such as focusing on real-world application...(0,00 zł najniższa cena z 30 dni)
262.65 zł
309.00 zł(-15%) -
DevOps engineers, developers, and security engineers have ever-changing roles to play in today's cloud native world. In order to build secure and resilient applications, you have to be equipped with security knowledge. Enter security as code.In this book, authors BK Sarthak Das and Virginia Chu d...(0,00 zł najniższa cena z 30 dni)
186.15 zł
219.00 zł(-15%) -
With the increasing use of AI in high-stakes domains such as medicine, law, and defense, organizations spend a lot of time and money to make ML models trustworthy. Many books on the subject offer deep dives into theories and concepts. This guide provides a practical starting point to help develop...(0,00 zł najniższa cena z 30 dni)
262.65 zł
309.00 zł(-15%) -
Why are so many companies adopting GitOps for their DevOps and cloud native strategy? This reliable framework is quickly becoming the standard method for deploying apps to Kubernetes. With this practical, developer-oriented book, DevOps engineers, developers, IT architects, and SREs will learn th...(0,00 zł najniższa cena z 30 dni)
262.65 zł
309.00 zł(-15%) -
Learn the essentials of working with Flutter and Dart to build full stack applications that meet the needs of a cloud-driven world. Together, the Flutter open source UI software development kit and the Dart programming language for client development provide a unified solution to building applica...(0,00 zł najniższa cena z 30 dni)
220.15 zł
259.00 zł(-15%)
Dzieki opcji "Druk na żądanie" do sprzedaży wracają tytuły Grupy Helion, które cieszyły sie dużym zainteresowaniem, a których nakład został wyprzedany.
Dla naszych Czytelników wydrukowaliśmy dodatkową pulę egzemplarzy w technice druku cyfrowego.
Co powinieneś wiedzieć o usłudze "Druk na żądanie":
- usługa obejmuje tylko widoczną poniżej listę tytułów, którą na bieżąco aktualizujemy;
- cena książki może być wyższa od początkowej ceny detalicznej, co jest spowodowane kosztami druku cyfrowego (wyższymi niż koszty tradycyjnego druku offsetowego). Obowiązująca cena jest zawsze podawana na stronie WWW książki;
- zawartość książki wraz z dodatkami (płyta CD, DVD) odpowiada jej pierwotnemu wydaniu i jest w pełni komplementarna;
- usługa nie obejmuje książek w kolorze.
W przypadku usługi "Druk na żądanie" termin dostarczenia przesyłki może obejmować także czas potrzebny na dodruk (do 10 dni roboczych)
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.
Książka, którą chcesz zamówić pochodzi z końcówki nakładu. Oznacza to, że mogą się pojawić drobne defekty (otarcia, rysy, zagięcia).
Co powinieneś wiedzieć o usłudze "Końcówka nakładu":
- usługa obejmuje tylko książki oznaczone tagiem "Końcówka nakładu";
- wady o których mowa powyżej nie podlegają reklamacji;
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.


Oceny i opinie klientów: Big Data for Chimps. A Guide to Massive-Scale Data Processing in Practice Philip (flip) Kromer, Russell Jurney (0)
Weryfikacja opinii następuję na podstawie historii zamówień na koncie Użytkownika umieszczającego opinię. Użytkownik mógł otrzymać punkty za opublikowanie opinii uprawniające do uzyskania rabatu w ramach Programu Punktowego.