Opis książki: The Cloud Data Lake
More organizations than ever understand the importance of data lake architectures for deriving value from their data. Building a robust, scalable, and performant data lake remains a complex proposition, however, with a buffet of tools and options that need to work together to provide a seamless end-to-end pipeline from data to insights.
This book provides a concise yet comprehensive overview on the setup, management, and governance of a cloud data lake. Author Rukmani Gopalan, a product management leader and data enthusiast, guides data architects and engineers through the major aspects of working with a cloud data lake, from design considerations and best practices to data format optimizations, performance optimization, cost management, and governance.
- Learn the benefits of a cloud-based big data strategy for your organization
- Get guidance and best practices for designing performant and scalable data lakes
- Examine architecture and design choices, and data governance principles and strategies
- Build a data strategy that scales as your organizational and business needs increase
- Implement a scalable data lake in the cloud
- Use cloud-based advanced analytics to gain more value from your data
Wybrane bestsellery
-
W tej książce omówiono techniki wdrażania systemów na platformie AWS i zasady zarządzania nimi. Zaprezentowano podstawy korzystania z usługi Identity and Access Management oraz narzędzia sieciowe i monitorujące chmury AWS. Poruszono tematy Virtual Private Cloud, Elastic Compute Cloud, równoważeni...
AWS dla administratorów systemów. Tworzenie i utrzymywanie niezawodnych aplikacji chmurowych AWS dla administratorów systemów. Tworzenie i utrzymywanie niezawodnych aplikacji chmurowych
(0,00 zł najniższa cena z 30 dni)47.40 zł
79.00 zł(-40%) -
Trzech poważanych architektów oprogramowania omawia cały cykl życia, prezentując praktyczne wskazówki, metody stosowane przez ekspertów i sprawdzone modele przydatne w każdym projekcie niezależnie od poziomu jego złożoności. Dowiesz się, jak za pomocą architektury radzić sobie z coraz większymi w...
Architektura oprogramowania w praktyce. Wydanie IV Architektura oprogramowania w praktyce. Wydanie IV
(0,00 zł najniższa cena z 30 dni)59.40 zł
99.00 zł(-40%) -
To książka przeznaczona dla osób, które chcą poszerzyć swoją wiedzę i umiejętności potrzebne do pracy z klastrami. Omówiono tu podstawy dotyczące konteneryzacji, Dockera i Kubernetesa, jednak więcej miejsca poświęcono bardziej zaawansowanym zagadnieniom, między innymi integracji kontenera z platf...
Kubernetes i Docker w środowisku produkcyjnym przedsiębiorstwa. Konteneryzacja i skalowanie aplikacji oraz jej integracja z systemami korporacyjnymi Kubernetes i Docker w środowisku produkcyjnym przedsiębiorstwa. Konteneryzacja i skalowanie aplikacji oraz jej integracja z systemami korporacyjnymi
(0,00 zł najniższa cena z 30 dni)59.40 zł
99.00 zł(-40%) -
To praktyczny przewodnik dla inżynierów, którzy chcą planować i wdrażać usługi Amazon Web Services. Przyda się również osobom planującym zdobycie certyfikatu AWS. Przedstawiono tu zasady pracy zgodne z najlepszymi praktykami Well-Architected Framework firmy Amazon, wprowadzono kluczowe koncepcje,...
Amazon Web Services. Podstawy korzystania z chmury AWS Amazon Web Services. Podstawy korzystania z chmury AWS
(0,00 zł najniższa cena z 30 dni)53.40 zł
89.00 zł(-40%) -
Dzięki tej książce dowiesz się, jak sobie z tym poradzić. Znalazło się w niej krótkie wprowadzenie do Pythona oraz do automatyzacji przetwarzania tekstu i obsługi systemu plików, a także do pisania własnych narzędzi wiersza poleceń. Zaprezentowano również przydatne narzędzia linuksowe, systemy za...
Python dla DevOps. Naucz się bezlitośnie skutecznej automatyzacji Python dla DevOps. Naucz się bezlitośnie skutecznej automatyzacji
(0,00 zł najniższa cena z 30 dni)53.40 zł
89.00 zł(-40%) -
W tym wyczerpującym i praktycznym przewodniku opisano, jak działają kontenery Kubernetes, jak je budować i nimi zarządzać oraz jak projektować usługi i infrastrukturę cloud native. Wyjaśniono różnice między budowaniem swoich klastrów a korzystaniem z usług zarządzanych takich firm jak Amazon, Goo...
Kubernetes - rozwiązania chmurowe w świecie DevOps. Tworzenie, wdrażanie i skalowanie nowoczesnych aplikacji chmurowych Kubernetes - rozwiązania chmurowe w świecie DevOps. Tworzenie, wdrażanie i skalowanie nowoczesnych aplikacji chmurowych
(0,00 zł najniższa cena z 30 dni)41.40 zł
69.00 zł(-40%) -
Platforma Amazon Web Services jest uważana za największą i najdojrzalszą chmurę obliczeniową. Oferuje ponad setkę gotowych usług, praktycznie niewyczerpywalne zasoby mocy obliczeniowej, nieograniczone bezpieczne magazynowanie oraz pierwszorzędne możliwości automatyzacji. Jest przy tym nieustannie...(0,00 zł najniższa cena z 30 dni)
59.40 zł
99.00 zł(-40%) -
Ta książka pomoże Ci w uzyskaniu certyfikatu profesjonalisty Google (GCP) w specjalności architekta chmury Google. Znajdziesz tu wszystkie niezbędne materiały, dzięki którym przygotujesz się do egzaminu. Swoją wiedzę będziesz mógł skontrolować za pomocą stu przykładowych pytań sprawdzających. Jeś...
Google Cloud Certified Professional Cloud Architect. Wprowadzenie do platformy i materiały egzaminacyjne. Wydanie II Google Cloud Certified Professional Cloud Architect. Wprowadzenie do platformy i materiały egzaminacyjne. Wydanie II
(0,00 zł najniższa cena z 30 dni)53.40 zł
89.00 zł(-40%) -
Ta książka jest drugim, wzbogaconym i uzupełnionym wydaniem praktycznego samouczka, dzięki któremu rozpoczęcie pracy z Terraform stanie się bardzo łatwe. Zapoznasz się z językiem programowania Terraform i zasadami tworzenia kodu. Szybko zaczniesz go wdrażać i zarządzać infrastrukturą za pomocą za...
Terraform. Krótkie wprowadzenie. Tworzenie infrastruktury za pomocą kodu. Wydanie II Terraform. Krótkie wprowadzenie. Tworzenie infrastruktury za pomocą kodu. Wydanie II
(0,00 zł najniższa cena z 30 dni)34.50 zł
69.00 zł(-50%) -
Jeśli jesteś użytkownikiem internetu i sądzisz, że korzystanie z modnych aktualnie chmur obliczeniowych Cię nie dotyczy - to najprawdopodobniej jesteś w błędzie. Jeżeli współdzielisz jakiekolwiek dokumenty na Google Drive, oglądasz filmy i seriale na Netfliksie, robisz backupy, hostujesz aplikacj...
Amazon Web Services (AWS). Kurs video. Zostań administratorem systemów IT Amazon Web Services (AWS). Kurs video. Zostań administratorem systemów IT
(0,00 zł najniższa cena z 30 dni)99.50 zł
199.00 zł(-50%)
Ebooka przeczytasz na:
-
czytnikach Inkbook, Kindle, Pocketbook, Onyx Boox i innych
-
systemach Windows, MacOS i innych
-
systemach Windows, Android, iOS, HarmonyOS
-
na dowolnych urządzeniach i aplikacjach obsługujących formaty: PDF, EPub, Mobi
Masz pytania? Zajrzyj do zakładki Pomoc »
Audiobooka posłuchasz:
-
w aplikacji Ebookpoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych
-
na dowolonych urządzeniach i aplikacjach obsługujących format MP3 (pliki spakowane w ZIP)
Masz pytania? Zajrzyj do zakładki Pomoc »
Kurs Video zobaczysz:
-
w aplikacji Ebookpoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych
-
na dowolonych urządzeniach i aplikacjach obsługujących format MP4 (pliki spakowane w ZIP)
Szczegóły książki
- ISBN Ebooka:
- 978-10-981-1654-5, 9781098116545
- Data wydania ebooka:
-
2022-12-12
Data wydania ebooka często jest dniem wprowadzenia tytułu do sprzedaży i może nie być równoznaczna z datą wydania książki papierowej. Dodatkowe informacje możesz znaleźć w darmowym fragmencie. Jeśli masz wątpliwości skontaktuj się z nami sklep@helion.pl.
- Język publikacji:
- angielski
- Rozmiar pliku ePub:
- 7.9MB
- Rozmiar pliku Mobi:
- 14.8MB
- Kategorie:
Programowanie » Programowanie w chmurze
Spis treści książki
- Preface
- Why I Wrote This Book
- Who Should Read This Book?
- Introducing Klodars Corporation
- Navigating the Book
- Conventions Used in This Book
- OReilly Online Learning
- How to Contact Us
- Acknowledgments
- 1. Big DataBeyond the Buzz
- What Is Big Data?
- Elastic Data InfrastructureThe Challenge
- Cloud Computing Fundamentals
- Cloud Computing Terminology
- Value Proposition of the Cloud
- Cloud Data Lake Architecture
- Limitations of On-Premises Data Warehouse Solutions
- What Is a Cloud Data Lake Architecture?
- Benefits of a Cloud Data Lake Architecture
- Defining Your Cloud Data Lake Journey
- Summary
- 2. Big Data Architectures on the Cloud
- Why Klodars Corporation Moves to the Cloud
- Fundamentals of Cloud Data Lake Architectures
- A Word on Variety of Data
- Cloud Data Lake Storage
- Big Data Analytics Engines
- MapReduce
- Apache Hadoop
- Apache Spark
- Real-time stream processing pipelines
- Cloud Data Warehouses
- Modern Data Warehouse Architecture
- Reference Architecture
- Sample Use Case for a Modern Data Warehouse Architecture
- Benefits and Challenges of Modern Data Warehouse Architecture
- Data Lakehouse Architecture
- Reference Architecture for the Data Lakehouse
- Data formats
- Metadata
- Compute engines
- Reference Architecture for the Data Lakehouse
- Sample Use Case for Data Lakehouse Architecture
- Benefits and Challenges of the Data Lakehouse Architecture
- Data Warehouses and Unstructured Data
- Data Mesh
- Reference Architecture
- Sample Use Case for a Data Mesh Architecture
- Challenges and Benefits of a Data Mesh Architecture
- What Is the Right Architecture for Me?
- Know Your Customers
- Know Your Business Drivers
- Consider Your Growth and Future Scenarios
- Design Considerations
- Hybrid Approaches
- Summary
- 3. Design Considerations for Your Data Lake
- Setting Up the Cloud Data Lake Infrastructure
- Identify Your Goals
- How Klodars Corporation defined the data lake goals
- Identify Your Goals
- Plan Your Architecture and Deliverables
- How Klodars Corporation planned their architecture and deliverables
- Setting Up the Cloud Data Lake Infrastructure
- Implement the Cloud Data Lake
- Release and Operationalize
- Organizing Data in Your Data Lake
- A Day in the Life of Data
- Data Lake Zones
- Organization Mechanisms
- Introduction to Data Governance
- Actors Involved in Data Governance
- Data Classification
- Metadata Management, Data Catalog, and Data Sharing
- Data Access Management
- Data Quality and Observability
- Data Governance at Klodars Corporation
- Data Governance Wrap-Up
- Manage Data Lake Costs
- Demystifying Data Lake Costs on the Cloud
- Data Lake Cost Strategy
- Data Lake Environments and Associated Costs
- Cost strategy based on data
- Transactions and impact on costs
- Summary
- 4. Scalable Data Lakes
- A Sneak Peek into Scalability
- What Is Scalability?
- Scale in Our Day-to-Day Life
- Scalability in Data Lake Architectures
- A Sneak Peek into Scalability
- Internals of Data Lake Processing Systems
- Data Copy Internals
- Components of a data copy solution
- Understanding resource utilization of a data copy job
- Data Copy Internals
- ELT/ETL Processing Internals
- Components of an Apache Spark application
- Understanding resource utilization of a Spark job
- A Note on Other Interactive Queries
- Considerations for Scalable Data Lake Solutions
- Pick the Right Cloud Offerings
- Hybrid and multicloud solutions
- IaaS versus PaaS versus SaaS solutions
- Cloud offerings for Klodars Corporation
- Pick the Right Cloud Offerings
- Plan for Peak Capacity
- Data Formats and Job Profile
- Summary
- 5. Optimizing Cloud Data Lake
Architectures for Performance
- Basics of Measuring Performance
- Goals and Metrics for Performance
- Measuring Performance
- Optimizing for Faster Performance
- Basics of Measuring Performance
- Cloud Data Lake Performance
- SLAs, SLOs, and SLIs
- Example: How Klodars Corporation Managed Its SLAs, SLOs, and SLIs
- Drivers of Performance
- Performance Drivers for a Copy Job
- Performance Drivers for a Spark Job
- Optimization Principles and Techniques for
Performance Tuning
- Data Formats
- Exploring Apache Parquet
- Other popular data formats
- How Klodars Corporation picked their data formats
- Data Formats
- Data Organization and Partitioning
- Optimal data organization strategy for Klodars Corporation
- Choosing the Right Configurations on Apache Spark
- Minimize Overheads with Data Transfer
- Premium Offerings and Performance
- The Case of Bigger Virtual Machines
- The Case of Flash Storage
- Summary
- 6. Deep Dive on Data Formats
- Why Do We Need These Open Data Formats?
- Why Do We Need to Store Tabular Data?
- Why Is It a Problem to Store Tabular Data in a Cloud Data Lake Storage?
- Delta Lake
- Why Was Delta Lake Founded?
- Eliminate data silos across business analysts, data scientists, and data engineers
- Provide a unified data and computational system for batch and real-time streaming data
- Support bulk updates or changes to existing data
- Handle errors due to schema changes and incorrect data
- Why Was Delta Lake Founded?
- How Does Delta Lake Work?
- When Do You Use Delta Lake?
- Why Do We Need These Open Data Formats?
- Apache Iceberg
- Why Was Apache Iceberg Founded?
- How Does Apache Iceberg Work?
- When Do You Use Apache Iceberg?
- Apache Hudi
- Why Was Apache Hudi Founded?
- How Does Apache Hudi Work?
- Copy-on-write tables
- Merge-on-read tables
- When Do You Use Apache Hudi?
- Summary
- 7. Decision Framework for Your Architecture
- Cloud Data Lake Assessment
- Cloud Data Lake Assessment Questionnaire
- Cloud Data Lake Assessment
- Analysis for Your Cloud Data Lake Assessment
- Starting from Scratch
- Migrating an Existing Data Lake or Data Warehouse to the Cloud
- Improving an Existing Cloud Data Lake
- Phase 1 of Decision Framework: Assess
- Understand Customer Requirements
- Understand Opportunities for Improvement
- Know Your Business Drivers
- Complete the Assess Phase by Prioritizing the Requirements
- Phase 2 of Decision Framework: Define
- Finalize the Design Choices for the Cloud Data Lake
- Picking your architecture
- Picking your cloud provider
- Decision points for data lake migrations
- Finalize the Design Choices for the Cloud Data Lake
- Plan Your Cloud Data Lake Project Deliverables
- Phase 3 of Decision Framework: Implement
- Phase 4 of Decision Framework: Operationalize
- Summary
- 8. Six Lessons for a Data Informed Future
- Lesson 1: Focus on the How and When, Not the If and Why, When It Comes to Cloud Data Lakes
- Lesson 2: With Great Power Comes Great ResponsibilityData Is No Exception
- Lesson 3: Customers Lead Technology, Not the Other Way Around
- Lesson 4: Change Is Inevitable, so Be Prepared
- Lesson 5: Build Empathy and Prioritize Ruthlessly
- Lesson 6: Big Impact Does Not Happen Overnight
- Summary
- A. Cloud Data Lake Decision
Framework Template
- Phase 1: Assess Framework
- Phase 2: Define Framework
- Planning the Cloud Data Lake Deliverables
- Phase 3: Implement Framework
- Index
O'Reilly Media - inne książki
-
Combing the web is simple, but how do you search for data at work? It's difficult and time-consuming, and can sometimes seem impossible. This book introduces a practical solution: the data catalog. Data analysts, data scientists, and data engineers will learn how to create true data discovery in ...(0,00 zł najniższa cena z 30 dni)
228.65 zł
269.00 zł(-15%) -
This updated edition of the Nutshell guide not only helps experienced Java programmers get the most out of versions through Java 17, it also serves as a learning path for new developers. Chock-full of examples that demonstrate how to take complete advantage of modern Java APIs and development bes...(0,00 zł najniższa cena z 30 dni)
228.65 zł
269.00 zł(-15%) -
Get started with Ray, the open source distributed computing framework that simplifies the process of scaling compute-intensive Python workloads. With this practical book, Python programmers, data engineers, and data scientists will learn how to leverage Ray locally and spin up compute clusters. Y...(0,00 zł najniższa cena z 30 dni)
228.65 zł
269.00 zł(-15%) -
Remove your doubts about AI and explore how this technology can be future-proofed using blockchain's smart contracts and tamper-evident ledgers. With this practical book, system architects, software engineers, and systems solution specialists will learn how enterprise blockchain provides permanen...(0,00 zł najniższa cena z 30 dni)
271.15 zł
319.00 zł(-15%) -
FinOps brings financial accountability to the variable spend model of cloud. Used by the majority of global enterprises, this management practice has grown from a fringe activity to the de facto discipline managing cloud spend. In this book, authors J.R. Storment and Mike Fuller outline the proce...(0,00 zł najniższa cena z 30 dni)
271.15 zł
319.00 zł(-15%) -
Edge AI is transforming the way computers interact with the real world, allowing IoT devices to make decisions using the 99% of sensor data that was previously discarded due to cost, bandwidth, or power limitations. With techniques like embedded machine learning, developers can capture human intu...(0,00 zł najniższa cena z 30 dni)
271.15 zł
319.00 zł(-15%) -
Why is it difficult for so many companies to get digital identity right? If you're still wrestling with even simple identity problems like modern website authentication, this practical book has the answers you need. Author Phil Windley provides conceptual frameworks to help you make sense of all ...(0,00 zł najniższa cena z 30 dni)
194.65 zł
229.00 zł(-15%) -
Python was recently ranked as today's most popular programming language on the TIOBE index, thanks to its broad applicability to design and prototyping to testing, deployment, and maintenance. With this updated fourth edition, you'll learn how to get the most out of Python, whether you're a profe...(0,00 zł najniższa cena z 30 dni)
305.15 zł
359.00 zł(-15%) -
With the accelerating speed of business and the increasing dependence on technology, companies today are significantly changing the way they build in-house business solutions. Many now use low-code and no code technologies to help them deal with specific issues, but that's just the beginning. Wit...
Building Solutions with the Microsoft Power Platform Building Solutions with the Microsoft Power Platform
(0,00 zł najniższa cena z 30 dni)271.15 zł
319.00 zł(-15%) -
Companies are scrambling to integrate AI into their systems and operations. But to build truly successful solutions, you need a firm grasp of the underlying mathematics. This accessible guide walks you through the math necessary to thrive in the AI field such as focusing on real-world application...(0,00 zł najniższa cena z 30 dni)
271.15 zł
319.00 zł(-15%)
Dzieki opcji "Druk na żądanie" do sprzedaży wracają tytuły Grupy Helion, które cieszyły sie dużym zainteresowaniem, a których nakład został wyprzedany.
Dla naszych Czytelników wydrukowaliśmy dodatkową pulę egzemplarzy w technice druku cyfrowego.
Co powinieneś wiedzieć o usłudze "Druk na żądanie":
- usługa obejmuje tylko widoczną poniżej listę tytułów, którą na bieżąco aktualizujemy;
- cena książki może być wyższa od początkowej ceny detalicznej, co jest spowodowane kosztami druku cyfrowego (wyższymi niż koszty tradycyjnego druku offsetowego). Obowiązująca cena jest zawsze podawana na stronie WWW książki;
- zawartość książki wraz z dodatkami (płyta CD, DVD) odpowiada jej pierwotnemu wydaniu i jest w pełni komplementarna;
- usługa nie obejmuje książek w kolorze.
W przypadku usługi "Druk na żądanie" termin dostarczenia przesyłki może obejmować także czas potrzebny na dodruk (do 10 dni roboczych)
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.
Książka, którą chcesz zamówić pochodzi z końcówki nakładu. Oznacza to, że mogą się pojawić drobne defekty (otarcia, rysy, zagięcia).
Co powinieneś wiedzieć o usłudze "Końcówka nakładu":
- usługa obejmuje tylko książki oznaczone tagiem "Końcówka nakładu";
- wady o których mowa powyżej nie podlegają reklamacji;
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.


Oceny i opinie klientów: The Cloud Data Lake Rukmani Gopalan (0)
Weryfikacja opinii następuję na podstawie historii zamówień na koncie Użytkownika umieszczającego opinię. Użytkownik mógł otrzymać punkty za opublikowanie opinii uprawniające do uzyskania rabatu w ramach Programu Punktowego.