Programming Hive. Data Warehouse and Query Language for Hadoop

- Autorzy:
- Edward Capriolo, Dean Wampler, Jason Rutherglen
- Promocja Przejdź


- Ocena:
- Bądź pierwszym, który oceni tę książkę
- Stron:
- 350
- Dostępne formaty:
-
ePubMobi
Opis książki: Programming Hive. Data Warehouse and Query Language for Hadoop
Need to move a relational database application to Hadoop? This comprehensive guide introduces you to Apache Hive, Hadoop’s data warehouse infrastructure. You’ll quickly learn how to use Hive’s SQL dialect—HiveQL—to summarize, query, and analyze large datasets stored in Hadoop’s distributed filesystem.
This example-driven guide shows you how to set up and configure Hive in your environment, provides a detailed overview of Hadoop and MapReduce, and demonstrates how Hive works within the Hadoop ecosystem. You’ll also find real-world case studies that describe how companies have used Hive to solve unique problems involving petabytes of data.
- Use Hive to create, alter, and drop databases, tables, views, functions, and indexes
- Customize data formats and storage options, from files to external databases
- Load and extract data from tables—and use queries, grouping, filtering, joining, and other conventional query methods
- Gain best practices for creating user defined functions (UDFs)
- Learn Hive patterns you should use and anti-patterns you should avoid
- Integrate Hive with other data processing programs
- Use storage handlers for NoSQL databases and other datastores
- Learn the pros and cons of running Hive on Amazon’s Elastic MapReduce
Wybrane bestsellery
-
Get up to speed on Scala--the JVM, JavaScript, and natively compiled language that offers all the benefits of functional programming, a modern object model, and an advanced type system. Packed with code examples, this comprehensive book shows you how to be productive with the language and ecosyst...(0,00 zł najniższa cena z 30 dni)
237.15 zł
279.00 zł(-15%) -
Software development today is embracing functional programming (FP), whether it's for writing concurrent programs or for managing Big Data. Where does that leave Java developers? This concise book offers a pragmatic, approachable introduction to FP for Java developers or anyone who uses an object...
Functional Programming for Java Developers. Tools for Better Concurrency, Abstraction, and Agility Functional Programming for Java Developers. Tools for Better Concurrency, Abstraction, and Agility
(0,00 zł najniższa cena z 30 dni)67.92 zł
79.90 zł(-15%) -
Ta książka jest kolejnym, zaktualizowanym i uzupełnionym wydaniem kultowego podręcznika dla profesjonalnych programistów Javy. To pierwszy tom, w którym opisano podstawy języka i najważniejsze zagadnienia związane z programowaniem interfejsu użytkownika, a także kolekcje, wyrażenia lambda, techni...(0,00 zł najniższa cena z 30 dni)
83.85 zł
129.00 zł(-35%) -
Znalezienie odpowiedzi na zaprzątające umysł pytania z zakresu automatyzacji zwykle wiąże się ze spędzeniem długich godzin na wertowaniu niespójnej dokumentacji lub przeszukiwaniu forum Atlassian Community, gdzie swoimi problemami (a także autorskimi pomysłami na ich rozwiązanie) dzielą się inni ...
Atlassian Jira Server & Data Center. Programowanie rozwiązań w projektach biznesowych Atlassian Jira Server & Data Center. Programowanie rozwiązań w projektach biznesowych
(0,00 zł najniższa cena z 30 dni)44.85 zł
69.00 zł(-35%) -
Język Java jest konsekwentnie udoskonalany i unowocześniany dzięki zaangażowaniu wielu ludzi. Nowoczesny język Java staje się coraz bardziej wieloparadygmatowy, co oznacza, że stosowanie najlepszych praktyk w coraz większym stopniu determinuje jakość kodu. Obecnie napisanie kodu, który prawidłowo...(0,00 zł najniższa cena z 30 dni)
64.35 zł
99.00 zł(-35%) -
To dwunaste, rozszerzone wydanie znakomitego podręcznika do nauki Javy, w pełni przejrzane, poprawione i zaktualizowane (uwzględnia nowości wprowadzone w Javie SE 9, 10 i 11). Ułatwia zdobycie solidnych podstaw języka i płynne przejście do tworzenia programów służących do rozwiązywania konkretnyc...
Wprowadzenie do Javy. Programowanie i struktury danych. Wydanie XII Wprowadzenie do Javy. Programowanie i struktury danych. Wydanie XII
(0,00 zł najniższa cena z 30 dni)59.90 zł
199.00 zł(-70%) -
Ta książka jest ósmym wydaniem znakomitego podręcznika programowania dla początkujących, starannie zaktualizowanym i uzupełnionym o informacje dotyczące edycji 11. Zawiera podstawową wiedzę o kompilacji i uruchamianiu programu w Javie oraz o słowach kluczowych i istotnych konstrukcjach w tym języ...(0,00 zł najniższa cena z 30 dni)
64.35 zł
99.00 zł(-35%) -
To kolejne, uzupełnione i zaktualizowane wydanie przewodnika po frameworku Spring. Książka jest napisana w zwięzłym, przejrzystym i jasnym stylu, dzięki czemu szybko zrozumiesz zasady pracy ze Springiem i zbudujesz nowoczesną aplikację internetową współpracującą z bazą danych. Pokazano tu technik...(0,00 zł najniższa cena z 30 dni)
57.85 zł
89.00 zł(-35%) -
Ta książka jest jedenastym wydaniem wyczerpującego kompendium programisty Javy, w pełni zaktualizowanym, uzupełnionym o nowości wprowadzone w Java SE 11. Opisuje język kompleksowo: jego składnię, słowa kluczowe oraz najistotniejsze zasady programowania. Zawiera także informacje o najważniejszych ...(0,00 zł najniższa cena z 30 dni)
129.35 zł
199.00 zł(-35%) -
Oto kolejne, przejrzane, zaktualizowane i uzupełnione wydanie znakomitego podręcznika dla zawodowych programistów Javy. Znalazł się tu dokładny opis sposobów tworzenia interfejsu użytkownika, stosowania rozwiązań korporacyjnych, sieciowych i zabezpieczeń, a także nowości wprowadzonych w JDK 11. P...(0,00 zł najniższa cena z 30 dni)
96.85 zł
149.00 zł(-35%)
Ebooka przeczytasz na:
-
czytnikach Inkbook, Kindle, Pocketbook i innych
-
systemach Windows, MacOS i innych
-
systemach Windows, Android, iOS, HarmonyOS
-
na dowolnych urządzeniach i aplikacjach obsługujących formaty: PDF, EPub, Mobi
Masz pytania? Zajrzyj do zakładki Pomoc »
Audiobooka posłuchasz:
-
w aplikacji Ebookpoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych
-
na dowolonych urządzeniach i aplikacjach obsługujących format MP3 (pliki spakowane w ZIP)
Masz pytania? Zajrzyj do zakładki Pomoc »
Kurs Video zobaczysz:
-
w aplikacji Ebookpoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych
-
na dowolonych urządzeniach i aplikacjach obsługujących format MP4 (pliki spakowane w ZIP)
Szczegóły książki
- ISBN Ebooka:
- 978-14-493-2697-5, 9781449326975
- Data wydania ebooka:
-
2012-09-19
Data wydania ebooka często jest dniem wprowadzenia tytułu do sprzedaży i może nie być równoznaczna z datą wydania książki papierowej. Dodatkowe informacje możesz znaleźć w darmowym fragmencie. Jeśli masz wątpliwości skontaktuj się z nami sklep@helion.pl.
- Język publikacji:
- angielski
- Rozmiar pliku ePub:
- 2.7MB
- Rozmiar pliku Mobi:
- 7.5MB
- Kategorie:
Programowanie » Java - Programowanie
Spis treści książki
- Programming Hive
- Preface
- Conventions Used in This Book
- Using Code Examples
- Safari Books Online
- How to Contact Us
- What Brought Us to Hive?
- Edward Capriolo
- Dean Wampler
- Jason Rutherglen
- Acknowledgments
- 1. Introduction
- An Overview of Hadoop and MapReduce
- MapReduce
- An Overview of Hadoop and MapReduce
- Hive in the Hadoop Ecosystem
- Pig
- HBase
- Cascading, Crunch, and Others
- Java Versus Hive: The Word Count Algorithm
- Whats Next
- 2. Getting Started
- Installing a Preconfigured Virtual Machine
- Detailed Installation
- Installing Java
- Linux-specific Java steps
- Mac OS Xspecific Java steps
- Installing Java
- Installing Hadoop
- Local Mode, Pseudodistributed Mode, and Distributed Mode
- Testing Hadoop
- Installing Hive
- What Is Inside Hive?
- Starting Hive
- Configuring Your Hadoop Environment
- Local Mode Configuration
- Distributed and Pseudodistributed Mode Configuration
- Metastore Using JDBC
- The Hive Command
- Command Options
- The Command-Line Interface
- CLI Options
- Variables and Properties
- Hive One Shot Commands
- Executing Hive Queries from Files
- The .hiverc File
- More on Using the Hive CLI
- Autocomplete
- Command History
- Shell Execution
- Hadoop dfs Commands from Inside Hive
- Comments in Hive Scripts
- Query Column Headers
- 3. Data Types and File Formats
- Primitive Data Types
- Collection Data Types
- Text File Encoding of Data Values
- Schema on Read
- 4. HiveQL: Data Definition
- Databases in Hive
- Alter Database
- Creating Tables
- Managed Tables
- External Tables
- Partitioned, Managed Tables
- External Partitioned Tables
- Customizing Table Storage Formats
- Dropping Tables
- Alter Table
- Renaming a Table
- Adding, Modifying, and Dropping a Table Partition
- Changing Columns
- Adding Columns
- Deleting or Replacing Columns
- Alter Table Properties
- Alter Storage Properties
- Miscellaneous Alter Table Statements
- 5. HiveQL: Data Manipulation
- Loading Data into Managed Tables
- Inserting Data into Tables from Queries
- Dynamic Partition Inserts
- Creating Tables and Loading Them in One Query
- Exporting Data
- 6. HiveQL: Queries
- SELECT FROM Clauses
- Specify Columns with Regular Expressions
- Computing with Column Values
- Arithmetic Operators
- Using Functions
- Mathematical functions
- Aggregate functions
- Table generating functions
- Other built-in functions
- LIMIT Clause
- Column Aliases
- Nested SELECT Statements
- CASE WHEN THEN Statements
- When Hive Can Avoid MapReduce
- SELECT FROM Clauses
- WHERE Clauses
- Predicate Operators
- Gotchas with Floating-Point Comparisons
- LIKE and RLIKE
- GROUP BY Clauses
- HAVING Clauses
- JOIN Statements
- Inner JOIN
- Join Optimizations
- LEFT OUTER JOIN
- OUTER JOIN Gotcha
- RIGHT OUTER JOIN
- FULL OUTER JOIN
- LEFT SEMI-JOIN
- Cartesian Product JOINs
- Map-side Joins
- ORDER BY and SORT BY
- DISTRIBUTE BY with SORT BY
- CLUSTER BY
- Casting
- Casting BINARY Values
- Queries that Sample Data
- Block Sampling
- Input Pruning for Bucket Tables
- UNION ALL
- 7. HiveQL: Views
- Views to Reduce Query Complexity
- Views that Restrict Data Based on Conditions
- Views and Map Type for Dynamic Tables
- View Odds and Ends
- 8. HiveQL: Indexes
- Creating an Index
- Bitmap Indexes
- Creating an Index
- Rebuilding the Index
- Showing an Index
- Dropping an Index
- Implementing a Custom Index Handler
- 9. Schema Design
- Table-by-Day
- Over Partitioning
- Unique Keys and Normalization
- Making Multiple Passes over the Same Data
- The Case for Partitioning Every Table
- Bucketing Table Data Storage
- Adding Columns to a Table
- Using Columnar Tables
- Repeated Data
- Many Columns
- (Almost) Always Use Compression!
- 10. Tuning
- Using EXPLAIN
- EXPLAIN EXTENDED
- Limit Tuning
- Optimized Joins
- Local Mode
- Parallel Execution
- Strict Mode
- Tuning the Number of Mappers and Reducers
- JVM Reuse
- Indexes
- Dynamic Partition Tuning
- Speculative Execution
- Single MapReduce MultiGROUP BY
- Virtual Columns
- 11. Other File Formats and Compression
- Determining Installed Codecs
- Choosing a Compression Codec
- Enabling Intermediate Compression
- Final Output Compression
- Sequence Files
- Compression in Action
- Archive Partition
- Compression: Wrapping Up
- 12. Developing
- Changing Log4J Properties
- Connecting a Java Debugger to Hive
- Building Hive from Source
- Running Hive Test Cases
- Execution Hooks
- Setting Up Hive and Eclipse
- Hive in a Maven Project
- Unit Testing in Hive with hive_test
- The New Plugin Developer Kit
- 13. Functions
- Discovering and Describing Functions
- Calling Functions
- Standard Functions
- Aggregate Functions
- Table Generating Functions
- A UDF for Finding a Zodiac Sign from a Day
- UDF Versus GenericUDF
- Permanent Functions
- User-Defined Aggregate Functions
- Creating a COLLECT UDAF to Emulate GROUP_CONCAT
- User-Defined Table Generating Functions
- UDTFs that Produce Multiple Rows
- UDTFs that Produce a Single Row with Multiple Columns
- UDTFs that Simulate Complex Types
- Accessing the Distributed Cache from a UDF
- Annotations for Use with Functions
- Deterministic
- Stateful
- DistinctLike
- Macros
- 14. Streaming
- Identity Transformation
- Changing Types
- Projecting Transformation
- Manipulative Transformations
- Using the Distributed Cache
- Producing Multiple Rows from a Single Row
- Calculating Aggregates with Streaming
- CLUSTER BY, DISTRIBUTE BY, SORT BY
- GenericMR Tools for Streaming to Java
- Calculating Cogroups
- 15. Customizing Hive File and Record Formats
- File Versus Record Formats
- Demystifying CREATE TABLE Statements
- File Formats
- SequenceFile
- RCFile
- Example of a Custom Input Format: DualInputFormat
- Record Formats: SerDes
- CSV and TSV SerDes
- ObjectInspector
- Think Big Hive Reflection ObjectInspector
- XML UDF
- XPath-Related Functions
- JSON SerDe
- Avro Hive SerDe
- Defining Avro Schema Using Table Properties
- Defining a Schema from a URI
- Evolving Schema
- Binary Output
- 16. Hive Thrift Service
- Starting the Thrift Server
- Setting Up Groovy to Connect to HiveService
- Connecting to HiveServer
- Getting Cluster Status
- Result Set Schema
- Fetching Results
- Retrieving Query Plan
- Metastore Methods
- Example Table Checker
- Finding tables not marked as external
- Example Table Checker
- Administrating HiveServer
- Productionizing HiveService
- Cleanup
- Hive ThriftMetastore
- ThriftMetastore Configuration
- Client Configuration
- 17. Storage Handlers and NoSQL
- Storage Handler Background
- HiveStorageHandler
- HBase
- Cassandra
- Static Column Mapping
- Transposed Column Mapping for Dynamic Columns
- Cassandra SerDe Properties
- DynamoDB
- 18. Security
- Integration with Hadoop Security
- Authentication with Hive
- Authorization in Hive
- Users, Groups, and Roles
- Privileges to Grant and Revoke
- Partition-Level Privileges
- Automatic Grants
- 19. Locking
- Locking Support in Hive with Zookeeper
- Explicit, Exclusive Locks
- 20. Hive Integration with Oozie
- Oozie Actions
- Hive Thrift Service Action
- Oozie Actions
- A Two-Query Workflow
- Oozie Web Console
- Variables in Workflows
- Capturing Output
- Capturing Output to Variables
- 21. Hive and Amazon Web Services (AWS)
- Why Elastic MapReduce?
- Instances
- Before You Start
- Managing Your EMR Hive Cluster
- Thrift Server on EMR Hive
- Instance Groups on EMR
- Configuring Your EMR Cluster
- Deploying hive-site.xml
- Deploying a .hiverc Script
- Deploying .hiverc using a config step
- Deploying a .hiverc using a bootstrap action
- Setting Up a Memory-Intensive Configuration
- Persistence and the Metastore on EMR
- HDFS and S3 on EMR Cluster
- Putting Resources, Configs, and Bootstrap Scripts on S3
- Logs on S3
- Spot Instances
- Security Groups
- EMR Versus EC2 and Apache Hive
- Wrapping Up
- 22. HCatalog
- Introduction
- MapReduce
- Reading Data
- Writing Data
- Command Line
- Security Model
- Architecture
- 23. Case Studies
- m6d.com (Media6Degrees)
- Data Science at M6D Using Hive and R
- M6D UDF Pseudorank
- M6D Managing Hive Data Across Multiple MapReduce Clusters
- Cross deployment queries with Hive
- Replicating Hive data between deployments
- m6d.com (Media6Degrees)
- Outbrain
- In-Site Referrer Identification
- Cleaning up the URLs
- Determining referrer type
- Multiple URLs
- In-Site Referrer Identification
- Counting Uniques
- Why this is a problem
- Load a temp table
- Querying the temp table
- Sessionization
- Setting it up
- Finding origin pageviews
- Bucketing PVs to origins
- Aggregating on origins
- Aggregating on origin type
- Measure engagement
- NASAs Jet Propulsion Laboratory
- The Regional Climate Model Evaluation System
- Our Experience: Why Hive?
- Some Challenges and How We Overcame Them
- Conclusion
- Photobucket
- Big Data at Photobucket
- What Hardware Do We Use for Hive?
- Whats in Hive?
- Who Does It Support?
- SimpleReach
- Experiences and Needs from the Customer Trenches
- A Karmasphere Perspective
- Introduction
- Use Case Examples from the Customer Trenches
- Customer trenches #1: Optimal data formatting for Hive
- Customer trenches #2: Partitions and performance
- Customer trenches #3: Text analytics with Regex, Lateral View Explode, Ngram, and other UDFs
- Apache Hive in production: Incremental needs and capabilities
- About Karmasphere
- Glossary
- A. References
- Index
- About the Authors
- Colophon
- Copyright
O'Reilly Media - inne książki
-
FinOps brings financial accountability to the variable spend model of cloud. Used by the majority of global enterprises, this management practice has grown from a fringe activity to the de facto discipline managing cloud spend. In this book, authors J.R. Storment and Mike Fuller outline the proce...(0,00 zł najniższa cena z 30 dni)
262.65 zł
309.00 zł(-15%) -
Edge AI is transforming the way computers interact with the real world, allowing IoT devices to make decisions using the 99% of sensor data that was previously discarded due to cost, bandwidth, or power limitations. With techniques like embedded machine learning, developers can capture human intu...(0,00 zł najniższa cena z 30 dni)
262.65 zł
309.00 zł(-15%) -
Why is it difficult for so many companies to get digital identity right? If you're still wrestling with even simple identity problems like modern website authentication, this practical book has the answers you need. Author Phil Windley provides conceptual frameworks to help you make sense of all ...(0,00 zł najniższa cena z 30 dni)
186.15 zł
219.00 zł(-15%) -
Python was recently ranked as today's most popular programming language on the TIOBE index, thanks to its broad applicability to design and prototyping to testing, deployment, and maintenance. With this updated fourth edition, you'll learn how to get the most out of Python, whether you're a profe...(0,00 zł najniższa cena z 30 dni)
296.65 zł
349.00 zł(-15%) -
With the accelerating speed of business and the increasing dependence on technology, companies today are significantly changing the way they build in-house business solutions. Many now use low-code and no code technologies to help them deal with specific issues, but that's just the beginning. Wit...
Building Solutions with the Microsoft Power Platform Building Solutions with the Microsoft Power Platform
(0,00 zł najniższa cena z 30 dni)262.65 zł
309.00 zł(-15%) -
Companies are scrambling to integrate AI into their systems and operations. But to build truly successful solutions, you need a firm grasp of the underlying mathematics. This accessible guide walks you through the math necessary to thrive in the AI field such as focusing on real-world application...(0,00 zł najniższa cena z 30 dni)
262.65 zł
309.00 zł(-15%) -
DevOps engineers, developers, and security engineers have ever-changing roles to play in today's cloud native world. In order to build secure and resilient applications, you have to be equipped with security knowledge. Enter security as code.In this book, authors BK Sarthak Das and Virginia Chu d...(0,00 zł najniższa cena z 30 dni)
186.15 zł
219.00 zł(-15%) -
With the increasing use of AI in high-stakes domains such as medicine, law, and defense, organizations spend a lot of time and money to make ML models trustworthy. Many books on the subject offer deep dives into theories and concepts. This guide provides a practical starting point to help develop...(0,00 zł najniższa cena z 30 dni)
262.65 zł
309.00 zł(-15%) -
Why are so many companies adopting GitOps for their DevOps and cloud native strategy? This reliable framework is quickly becoming the standard method for deploying apps to Kubernetes. With this practical, developer-oriented book, DevOps engineers, developers, IT architects, and SREs will learn th...(0,00 zł najniższa cena z 30 dni)
262.65 zł
309.00 zł(-15%) -
Learn the essentials of working with Flutter and Dart to build full stack applications that meet the needs of a cloud-driven world. Together, the Flutter open source UI software development kit and the Dart programming language for client development provide a unified solution to building applica...(0,00 zł najniższa cena z 30 dni)
220.15 zł
259.00 zł(-15%)
Dzieki opcji "Druk na żądanie" do sprzedaży wracają tytuły Grupy Helion, które cieszyły sie dużym zainteresowaniem, a których nakład został wyprzedany.
Dla naszych Czytelników wydrukowaliśmy dodatkową pulę egzemplarzy w technice druku cyfrowego.
Co powinieneś wiedzieć o usłudze "Druk na żądanie":
- usługa obejmuje tylko widoczną poniżej listę tytułów, którą na bieżąco aktualizujemy;
- cena książki może być wyższa od początkowej ceny detalicznej, co jest spowodowane kosztami druku cyfrowego (wyższymi niż koszty tradycyjnego druku offsetowego). Obowiązująca cena jest zawsze podawana na stronie WWW książki;
- zawartość książki wraz z dodatkami (płyta CD, DVD) odpowiada jej pierwotnemu wydaniu i jest w pełni komplementarna;
- usługa nie obejmuje książek w kolorze.
W przypadku usługi "Druk na żądanie" termin dostarczenia przesyłki może obejmować także czas potrzebny na dodruk (do 10 dni roboczych)
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.
Książka, którą chcesz zamówić pochodzi z końcówki nakładu. Oznacza to, że mogą się pojawić drobne defekty (otarcia, rysy, zagięcia).
Co powinieneś wiedzieć o usłudze "Końcówka nakładu":
- usługa obejmuje tylko książki oznaczone tagiem "Końcówka nakładu";
- wady o których mowa powyżej nie podlegają reklamacji;
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.


Oceny i opinie klientów: Programming Hive. Data Warehouse and Query Language for Hadoop Edward Capriolo, Dean Wampler, Jason Rutherglen (0)
Weryfikacja opinii następuję na podstawie historii zamówień na koncie Użytkownika umieszczającego opinię. Użytkownik mógł otrzymać punkty za opublikowanie opinii uprawniające do uzyskania rabatu w ramach Programu Punktowego.