Site Reliability Engineering. How Google Runs Production Systems
![Książka w języku angielskim Książka w języku angielskim](https://static01.helion.com.pl/global/flagi/1.png)
- Autorzy:
- Niall Richard Murphy, Betsy Beyer, Chris Jones
- Promocja Przejdź
![Site Reliability Engineering. How Google Runs Production Systems Niall Richard Murphy, Betsy Beyer, Chris Jones - okladka książki](https://static01.helion.com.pl/global/okladki/vbig/e_e08b.jpg)
- Ocena:
- Bądź pierwszym, który oceni tę książkę
- Stron:
- 552
- Dostępne formaty:
-
ePubMobi
Opis
książki
:
Site Reliability Engineering. How Google Runs Production Systems
The overwhelming majority of a software systemâ??s lifespan is spent in use, not in design or implementation. So, why does conventional wisdom insist that software engineers focus primarily on the design and development of large-scale computing systems?
In this collection of essays and articles, key members of Googleâ??s Site Reliability Team explain how and why their commitment to the entire lifecycle has enabled the company to successfully build, deploy, monitor, and maintain some of the largest software systems in the world. Youâ??ll learn the principles and practices that enable Google engineers to make systems more scalable, reliable, and efficientâ??lessons directly applicable to your organization.
This book is divided into four sections:
- Introductionâ??Learn what site reliability engineering is and why it differs from conventional IT industry practices
- Principlesâ??Examine the patterns, behaviors, and areas of concern that influence the work of a site reliability engineer (SRE)
- Practicesâ??Understand the theory and practice of an SREâ??s day-to-day work: building and operating large distributed computing systems
- Managementâ??Explore Google's best practices for training, communication, and meetings that your organization can use
Wybrane bestsellery
-
Promocja
Publikacjami poświęconymi zarządzaniu projektami można wypełnić całe biblioteki. Dostępne są niemal encyklopedyczne kompendia wiedzy na ten temat, wyjaśniające metodologie prowadzenia projektów, sposoby ich klasyfikacji czy też przewagi i niedociągnięcia poszczególnych z nich. Z licznych pozycji dowiemy się wszystkiego o metodykach, narzędziach i konkretnych obszarach zarządzania projektami. Są specjalnie podręczniki przygotowujące do certyfikacji PMI, Prince2, IPMA i innych…- Druk
- PDF + ePub + Mobi
- Audiobook MP3 pkt
10 zasad dowożenia projektów nierealnych. Jak odnosić sukcesy w trudnych i złożonych projektach informatycznych 10 zasad dowożenia projektów nierealnych. Jak odnosić sukcesy w trudnych i złożonych projektach informatycznych
(35,40 zł najniższa cena z 30 dni)
38.35 zł
59.00 zł (-35%) -
Promocja
Książka stanowi zbiór praktycznych informacji dotyczących najpopularniejszych wzorców projektowych. Lekturę rozpoczniesz od zapoznania się z możliwościami korzystania z wzorców projektowych na platformie Javy. Dowiesz się także, jakich zasad trzeba przestrzegać, aby zapewnić czytelność i łatwość utrzymania kodu Javy. W kolejnych rozdziałach znajdziesz praktyczne wskazówki i przykłady dotyczące stosowania wzorców kreacyjnych, strukturalnych, operacyjnych, a także wzorców współbieżności. Nauczysz się ich używać do praktycznego rozwiązywania problemów często spotykanych podczas projektowania oprogramowania. Końcowy rozdział został poświęcony antywzorcom, a zawarte w nim informacje pomogą Ci w ich identyfikacji i podjęciu najlepszych środków zaradczych.- Druk
- PDF + ePub + Mobi pkt
Wzorce projektowe dla programistów Javy. Udoskonal swoje umiejętności projektowania oprogramowania Wzorce projektowe dla programistów Javy. Udoskonal swoje umiejętności projektowania oprogramowania
(40,20 zł najniższa cena z 30 dni)
43.55 zł
67.00 zł (-35%) -
Bestseller Promocja
Oto zwięzłe i równocześnie praktyczne kompendium, w którym znajdziesz 20 praktyk udanego planowania, analizy, specyfikacji, walidacji i zarządzania wymaganiami. Praktyki te są odpowiednie dla projektów zarządzanych zarówno w tradycyjny, jak i zwinny sposób, niezależnie od branży. Sprawią, że zespół lepiej zrozumie problemy biznesowe, zaangażuje właściwych uczestników, poprawi komunikację, by wdrożyć najbardziej wartościową funkcjonalność we właściwej kolejności, a później dostosować oprogramowanie do zmian i wzrostu. Dzięki metodom opisanym w tej książce zespół może wypracować wspólne zrozumienie kluczowych koncepcji, terminologii, technik i racjonalnych podstaw, aby efektywniej współpracować nad każdym projektem.- Druk
- PDF + ePub + Mobi pkt
Specyfikacja wymagań oprogramowania. Kluczowe praktyki analizy biznesowej Specyfikacja wymagań oprogramowania. Kluczowe praktyki analizy biznesowej
(40,20 zł najniższa cena z 30 dni)
43.55 zł
67.00 zł (-35%) -
Promocja
Książka obejmuje tematykę inżynierii wymagań według programu certyfikacji IREB® CPRE® Foundation Level na poziomie podstawowym. Omawia zagadnienia wyszczególnione w planie nauczania IREB® CPRE® z naciskiem na aspekt praktyczny, a także przygotowuje do egzaminu certyfikacyjnego. Co ważne, zagadnienia teoretyczne zostały zobrazowane przykładami w stopniu określonym przez poziom poznawczy (K1, K2, K3).- Druk
- PDF + ePub + Mobi pkt
Certyfikowany inżynier wymagań. Opracowanie na podstawie planu nauczania IREB® CPRE®. Przykładowe pytania egzaminacyjne z odpowiedziami Certyfikowany inżynier wymagań. Opracowanie na podstawie planu nauczania IREB® CPRE®. Przykładowe pytania egzaminacyjne z odpowiedziami
(41,40 zł najniższa cena z 30 dni)
44.85 zł
69.00 zł (-35%) -
Promocja
Dzięki tej książce dowiesz się, w jaki sposób uczynić architekturę oprogramowania wystarczająco plastyczną, aby mogła odzwierciedlać zachodzące zmiany biznesowe i technologiczne. W nowym wydaniu rozbudowano pojęcia zmiany kierowanej i przyrostowej, a także przedstawiono najnowsze techniki dotyczące funkcji dopasowania, automatycznego zarządzania architekturą i danych ewolucyjnych. Zaprezentowano praktyki inżynieryjne umożliwiające ewoluowanie systemów oprogramowania, jak również podejścia strukturalne, w tym zasady projektowe, które ułatwiają zarządzanie tą ewolucją. Opisano ponadto, w jaki sposób zasady i praktyki architektury ewolucyjnej wiążą się z różnymi elementami procesu tworzenia oprogramowania.- Druk
- PDF + ePub + Mobi pkt
Architektura ewolucyjna. Projektowanie oprogramowania i wsparcie zmian. Wydanie II Architektura ewolucyjna. Projektowanie oprogramowania i wsparcie zmian. Wydanie II
(40,20 zł najniższa cena z 30 dni)
43.55 zł
67.00 zł (-35%) -
Promocja
Dzięki tej książce dowiesz się, jak tworzyć niezawodne, skalowalne i odporne rozwiązania, a także jak projektować systemy następnej generacji przeznaczone dla środowiska chmury. Poznasz efektywne strategie dla produktu i nauczysz się je w pełni implementować w swojej organizacji. Zrozumiesz też, w jaki sposób architekt rozwiązań wpisuje się w środowisko elastycznie działającej firmy. W tym wydaniu pojawiły się również nowe rozdziały, poświęcone takim technologiom jak internet rzeczy, obliczenia kwantowe, inżynieria danych i uczenie maszynowe. Znajdziesz tu uaktualnione informacje dotyczące architektury natywnej chmury i magazynu danych łańcucha bloków. W efekcie lektury nauczysz się tworzyć projekty efektywnych rozwiązań, spełniających zdefiniowane wymagania biznesowe.- Druk
- PDF + ePub + Mobi pkt
Podręcznik architekta rozwiązań. Poznaj reguły oraz strategie projektu architektury i rozpocznij niezwykłą karierę. Wydanie II Podręcznik architekta rozwiązań. Poznaj reguły oraz strategie projektu architektury i rozpocznij niezwykłą karierę. Wydanie II
(77,40 zł najniższa cena z 30 dni)
83.85 zł
129.00 zł (-35%) -
Promocja
Tę książkę docenią programiści, menedżerowie, inżynierowie i liderzy techniczni. Znajdziesz w niej cenne informacje o filozofii inżynierii oprogramowania, jak również o postępach w sposobie myślenia na jej temat. Na tej bazie oparto zestaw zasad ułatwiających skuteczne radzenie sobie z dwoma podstawowymi procesami inżynierii oprogramowania: uczenia się i eksploracji oraz radzenia sobie ze złożonością. W ten sposób dowiesz się, jak usprawnić wszystkie aspekty swojej pracy, a także jak stosować sprawdzone podejścia prowadzące do sukcesu z uwzględnieniem uwarunkowań ekonomicznych. Dzięki tej przełomowej publikacji nauczysz się technik rozwiązywania problemów z wykorzystaniem zarówno obecnych, jak i przyszłych technologii. W efekcie będziesz szybciej tworzyć lepsze oprogramowanie, i to w bardziej przyjemny i satysfakcjonujący sposób.- Druk
- PDF + ePub + Mobi pkt
Nowoczesna inżynieria oprogramowania. Stosowanie skutecznych technik szybszego rozwoju oprogramowania wyższej jakości Nowoczesna inżynieria oprogramowania. Stosowanie skutecznych technik szybszego rozwoju oprogramowania wyższej jakości
(41,40 zł najniższa cena z 30 dni)
44.85 zł
69.00 zł (-35%) -
Promocja
Ta książka szczegółowo wyjaśnia paradygmat siatki danych, a przy tym koncentruje się na jego praktycznym zastosowaniu. Zgodnie z tym nowatorskim podejściem dane należy traktować jako produkt, a dziedziny — jako główne zagadnienie. Poza wyjaśnieniem paradygmatu opisano tu zasady projektowania wysokopoziomowej architektury komponentów siatki danych, a także przedstawiono wskazówki i porady dotyczące ewolucyjnej realizacji siatki danych w organizacji. Tematyka ta została potraktowana wszechstronnie: omówiono kwestie technologiczne, organizacyjne, jak również socjologiczne i kulturowe. Dzięki temu jest to cenna lektura zarówno dla architektów i inżynierów, jak i dla badaczy, analityków danych, wreszcie dla liderów i kierowników zespołów.- Druk
- PDF + ePub + Mobi pkt
Siatka danych. Nowoczesna koncepcja samoobsługowej infrastruktury danych Siatka danych. Nowoczesna koncepcja samoobsługowej infrastruktury danych
(53,40 zł najniższa cena z 30 dni)
57.84 zł
89.00 zł (-35%) -
Promocja
Ta książka pomoże Ci odkryć jedną z największych tajemnic sukcesu, zawiera bowiem opis strategii umożliwiającej doświadczanie wolności, spełnienia i radości z osiągania najbardziej ambitnych celów. Dowiesz się, że nie musisz samemu zajmować się wszystkim, jeśli tylko znajdziesz odpowiednie osoby i przekonasz je do współdziałania, a także ― że jeśli zrezygnujesz ze ścisłej kontroli wykonywanych przez zespół zadań, Twoi ludzie staną się bardziej kreatywni i samodzielni. Nauczysz się też otaczać się skutecznymi mentorami i kompetentnymi współpracownikami, przez co wzrośnie Twoja pewność siebie i poczujesz, że masz wpływ na przyszłość. Przekonasz się, że możesz stawiać sobie coraz ambitniejsze cele i je osiągać — i nie być przy tym niewolnikiem pracy.- Druk
- PDF + ePub + Mobi
- Audiobook MP3 pkt
Nie JAK, lecz KTO. Osiąganie ambitniejszych celów dzięki pracy zespołowej Nie JAK, lecz KTO. Osiąganie ambitniejszych celów dzięki pracy zespołowej
(14,90 zł najniższa cena z 30 dni)
14.90 zł
49.00 zł (-70%) -
Bestseller Promocja
Tę książkę docenią ci, którzy opanowali już podstawową składnię Pythona i palą się do pisania własnych programów. Zawiera 81 projektów, które możesz napisać w tym języku. Programy składają się z maksymalnie 256 linii kodu i pozwolą Ci stopniowo nabierać umiejętności programisty - a zupełnie przy okazji dostarczą mnóstwo zabawy! Twoja nauka będzie polegała nie tylko na analizowaniu działania kodu i jego wpisywaniu w edytorze, ale także na samodzielnym eksperymentowaniu i modyfikowaniu kodu, aby dopasować program do własnych potrzeb i pomysłów. W efekcie - niepostrzeżenie, ćwicząc praktyczne kodowanie - nabierzesz biegłości i sporego doświadczenia w posługiwaniu się Pythonem!- Druk
- PDF + ePub + Mobi pkt
Wielka księga małych projektów w Pythonie. 81 łatwych praktycznych programów Wielka księga małych projektów w Pythonie. 81 łatwych praktycznych programów
(47,40 zł najniższa cena z 30 dni)
51.35 zł
79.00 zł (-35%)
O autorze książki
Chris Jones jest inżynierem SRE odpowiedzialnym za Google App Engine. Wcześniej odpowiadał za statystyki reklam, hurtownie danych i system pomocy technicznej w Google.
Niall Richard Murphy, Betsy Beyer, Chris Jones - pozostałe książki
-
Promocja
W tej książce znajdziesz wszystkie informacje, które są Ci potrzebne do stworzenia środowiska sprzyjającego tworzeniu innowacyjnych rozwiązań. Dowiesz się, jak dostrzegać i wykorzystywać naturalne talenty każdego członka zespołu. Zapoznasz się z szeregiem praktycznych wskazówek, dzięki którym zidentyfikujesz wszelkie kwestie organizacyjne i kulturowe utrudniające pracę zespołu produktowego. Prześledzisz też liczne przykłady ułatwiające zrozumienie omawianych przez autorów koncepcji i wdrażanie ich we własnej organizacji. Przede wszystkim jednak nauczysz się tego, co najważniejsze: funkcjonowania przywództwa produktowego.- Druk
- PDF + ePub + Mobi pkt
Decyzyjni. Jak zwykli ludzie kreują niezwykłe produkty Decyzyjni. Jak zwykli ludzie kreują niezwykłe produkty
(41,40 zł najniższa cena z 30 dni)
44.85 zł
69.00 zł (-35%) -
Jeśli chcesz zrozumieć filozofię SRE, trzymasz w ręku właściwą, choć nietypową książkę. Jest to zbiór najciekawszych esejów i artykułów autorstwa osób odpowiedzialnych za SRE w Google. Z lektury tych esejów dowiesz się, w jaki sposób zaangażowanie w cały cykl życia oprogramowania umożliwił skuteczne budowanie, wdrażanie, monitorowanie i konserwowanie jednych z największych systemów informatycznych świata. Poznasz zasady i praktyki, które pozwalają inżynierom z Google tworzyć bardziej skalowalne i niezawodne oraz wydajniejsze systemy. Zaprezentowane tu podejście SRE możesz naturalnie bezpośrednio wdrożyć w swojej organizacji.
- Druk
- PDF + ePub + Mobi pkt
Site Reliability Engineering. Jak Google zarządza systemami producyjnymi Site Reliability Engineering. Jak Google zarządza systemami producyjnymi
Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy
Niedostępna
-
Promocja
Whether you're part of a small startup or a multinational corporation, this practical book shows data scientists, software and site reliability engineers, product managers, and business owners how to run and establish ML reliably, effectively, and accountably within your organization. You'll gain insight into everything from how to do model monitor-
- ePub + Mobi pkt
(211,65 zł najniższa cena z 30 dni)
217.95 zł
259.00 zł (-16%) -
-
Promocja
Can a system be considered truly reliable if it isn't fundamentally secure? Or can it be considered secure if it's unreliable? Security is crucial to the design and operation of scalable systems in production, as it plays an important part in product quality, performance, and availability. In this book, experts from Google share best practices to h-
- ePub + Mobi pkt
Building Secure and Reliable Systems. Best Practices for Designing, Implementing, and Maintaining Systems Building Secure and Reliable Systems. Best Practices for Designing, Implementing, and Maintaining Systems
(211,65 zł najniższa cena z 30 dni)
218.15 zł
259.00 zł (-16%) -
-
Promocja
In 2016, Google’s Site Reliability Engineering book ignited an industry discussion on what it means to run production services today—and why reliability considerations are fundamental to service design. Now, Google engineers who worked on that bestseller introduce The Site Reliability Workbook, a hands-on companion that uses concrete examples to sh-
- ePub + Mobi pkt
The Site Reliability Workbook. Practical Ways to Implement SRE The Site Reliability Workbook. Practical Ways to Implement SRE
(152,15 zł najniższa cena z 30 dni)
158.85 zł
189.00 zł (-16%) -
-
Promocja
What once seemed nearly impossible has turned into reality. The number of available Internet addresses is now nearly exhausted, due mostly to the explosion of commercial websites and entries from an expanding number of countries. This growing shortage has effectively put the Internet community--and some of its most brilliant engineers--on alert for-
- ePub + Mobi pkt
(143,65 zł najniższa cena z 30 dni)
150.15 zł
179.00 zł (-16%) -
Kup polskie wydanie:
Site Reliability Engineering. Jak Google zarządza systemami producyjnymi
39,50 zł
79,00 zł
Ebooka "Site Reliability Engineering. How Google Runs Production Systems" przeczytasz na:
-
czytnikach Inkbook, Kindle, Pocketbook, Onyx Booxs i innych
-
systemach Windows, MacOS i innych
-
systemach Windows, Android, iOS, HarmonyOS
-
na dowolnych urządzeniach i aplikacjach obsługujących formaty: PDF, EPub, Mobi
Masz pytania? Zajrzyj do zakładki Pomoc »
Audiobooka "Site Reliability Engineering. How Google Runs Production Systems" posłuchasz:
-
w aplikacji Ebookpoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych
-
na dowolonych urządzeniach i aplikacjach obsługujących format MP3 (pliki spakowane w ZIP)
Masz pytania? Zajrzyj do zakładki Pomoc »
Kurs Video "Site Reliability Engineering. How Google Runs Production Systems" zobaczysz:
-
w aplikacjach Ebookpoint i Videopoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych z dostępem do najnowszej wersji Twojej przeglądarki internetowej
Szczegóły książki
- ISBN Ebooka:
- 978-14-919-5117-0, 9781491951170
- Data wydania ebooka :
-
2016-03-23
Data wydania ebooka często jest dniem wprowadzenia tytułu do sprzedaży i może nie być równoznaczna z datą wydania książki papierowej. Dodatkowe informacje możesz znaleźć w darmowym fragmencie. Jeśli masz wątpliwości skontaktuj się z nami sklep@helion.pl.
- Język publikacji:
- angielski
- Rozmiar pliku ePub:
- 6.4MB
- Rozmiar pliku Mobi:
- 15.6MB
- Zgłoś erratę
- Kategorie:
Biznes IT » Zarządzanie projektami IT
Programowanie » Wzorce projektowe
Spis treści książki
- Foreword
- Preface
- Conventions Used in This Book
- Using Code Examples
- Safari Books Online
- How to Contact Us
- Acknowledgments
- I. Introduction
- 1. Introduction
- The Sysadmin Approach to Service Management
- Googles Approach to Service Management: Site Reliability Engineering
- Tenets of SRE
- Ensuring a Durable Focus on Engineering
- Pursuing Maximum Change Velocity Without Violating a Services SLO
- Monitoring
- Emergency Response
- Change Management
- Demand Forecasting and Capacity Planning
- Provisioning
- Efficiency and Performance
- The End of the Beginning
- 2. The Production Environment at Google, from the Viewpoint of an SRE
- Hardware
- System Software That Organizes the Hardware
- Managing Machines
- Storage
- Networking
- Other System Software
- Lock Service
- Monitoring and Alerting
- Our Software Infrastructure
- Our Development Environment
- Shakespeare: A Sample Service
- Life of a Request
- Job and Data Organization
- II. Principles
- 3. Embracing Risk
- Managing Risk
- Measuring Service Risk
- Risk Tolerance of Services
- Identifying the Risk Tolerance of Consumer Services
- Target level of availability
- Types of failures
- Cost
- Other service metrics
- Identifying the Risk Tolerance of Infrastructure Services
- Target level of availability
- Types of failures
- Cost
- Example: Frontend infrastructure
- Identifying the Risk Tolerance of Consumer Services
- Motivation for Error Budgets
- Forming Your Error Budget
- Benefits
- 4. Service Level Objectives
- Service Level Terminology
- Indicators
- Objectives
- Agreements
- Indicators in Practice
- What Do You and Your Users Care About?
- Collecting Indicators
- Aggregation
- Standardize Indicators
- Objectives in Practice
- Defining Objectives
- Choosing Targets
- Control Measures
- SLOs Set Expectations
- Agreements in Practice
- Service Level Terminology
- 5. Eliminating Toil
- Toil Defined
- Why Less Toil Is Better
- What Qualifies as Engineering?
- Is Toil Always Bad?
- Conclusion
- 6. Monitoring Distributed Systems
- Definitions
- Why Monitor?
- Setting Reasonable Expectations for Monitoring
- Symptoms Versus Causes
- Black-Box Versus White-Box
- The Four Golden Signals
- Worrying About Your Tail (or, Instrumentation and Performance)
- Choosing an Appropriate Resolution for Measurements
- As Simple as Possible, No Simpler
- Tying These Principles Together
- Monitoring for the Long Term
- Bigtable SRE: A Tale of Over-Alerting
- Gmail: Predictable, Scriptable Responses from Humans
- The Long Run
- Conclusion
- 7. The Evolution of Automation at Google
- The Value of Automation
- Consistency
- A Platform
- Faster Repairs
- Faster Action
- Time Saving
- The Value for Google SRE
- The Use Cases for Automation
- Google SREs Use Cases for Automation
- A Hierarchy of Automation Classes
- Automate Yourself Out of a Job: Automate ALL the Things!
- Soothing the Pain: Applying Automation to Cluster Turnups
- Detecting Inconsistencies with Prodtest
- Resolving Inconsistencies Idempotently
- The Inclination to Specialize
- Service-Oriented Cluster-Turnup
- Borg: Birth of the Warehouse-Scale Computer
- Reliability Is the Fundamental Feature
- Recommendations
- The Value of Automation
- 8. Release Engineering
- The Role of a Release Engineer
- Philosophy
- Self-Service Model
- High Velocity
- Hermetic Builds
- Enforcement of Policies and Procedures
- Continuous Build and Deployment
- Building
- Branching
- Testing
- Packaging
- Rapid
- Deployment
- Configuration Management
- Conclusions
- Its Not Just for Googlers
- Start Release Engineering at the Beginning
- 9. Simplicity
- System Stability Versus Agility
- The Virtue of Boring
- I Wont Give Up My Code!
- The Negative Lines of Code Metric
- Minimal APIs
- Modularity
- Release Simplicity
- A Simple Conclusion
- III. Practices
- 10. Practical Alerting from Time-Series Data
- The Rise of Borgmon
- Instrumentation of Applications
- Collection of Exported Data
- Storage in the Time-Series Arena
- Labels and Vectors
- Rule Evaluation
- Alerting
- Sharding the Monitoring Topology
- Black-Box Monitoring
- Maintaining the Configuration
- Ten Years On
- 11. Being On-Call
- Introduction
- Life of an On-Call Engineer
- Balanced On-Call
- Balance in Quantity
- Balance in Quality
- Compensation
- Feeling Safe
- Avoiding Inappropriate Operational Load
- Operational Overload
- A Treacherous Enemy: Operational Underload
- Conclusions
- 12. Effective Troubleshooting
- Theory
- In Practice
- Problem Report
- Triage
- Examine
- Diagnose
- Simplify and reduce
- Ask what, where, and why
- What touched it last
- Specific diagnoses
- Test and Treat
- Negative Results Are Magic
- Cure
- Case Study
- Making Troubleshooting Easier
- Conclusion
- 13. Emergency Response
- What to Do When Systems Break
- Test-Induced Emergency
- Details
- Response
- Findings
- What went well
- What we learned
- Change-Induced Emergency
- Details
- Response
- Findings
- What went well
- What we learned
- Process-Induced Emergency
- Details
- Response
- Findings
- What went well
- What we learned
- All Problems Have Solutions
- Learn from the Past. Dont Repeat It.
- Keep a History of Outages
- Ask the Big, Even Improbable, Questions: What If?
- Encourage Proactive Testing
- Conclusion
- 14. Managing Incidents
- Unmanaged Incidents
- The Anatomy of an Unmanaged Incident
- Sharp Focus on the Technical Problem
- Poor Communication
- Freelancing
- Elements of Incident Management Process
- Recursive Separation of Responsibilities
- A Recognized Command Post
- Live Incident State Document
- Clear, Live Handoff
- A Managed Incident
- When to Declare an Incident
- In Summary
- 15. Postmortem Culture: Learning from Failure
- Googles Postmortem Philosophy
- Collaborate and Share Knowledge
- Introducing a Postmortem Culture
- Conclusion and Ongoing Improvements
- 16. Tracking Outages
- Escalator
- Outalator
- Aggregation
- Tagging
- Analysis
- Reporting and communication
- Unexpected Benefits
- 17. Testing for Reliability
- Types of Software Testing
- Traditional Tests
- Unit tests
- Integration tests
- System tests
- Production Tests
- Configuration test
- Stress test
- Canary test
- Traditional Tests
- Creating a Test and Build Environment
- Testing at Scale
- Testing Scalable Tools
- Testing Disaster
- The Need for Speed
- Pushing to Production
- Expect Testing Fail
- Integration
- Production Probes
- Conclusion
- Types of Software Testing
- 18. Software Engineering in SRE
- Why Is Software Engineering Within SRE Important?
- Auxon Case Study: Project Background and Problem Space
- Traditional Capacity Planning
- Brittle by nature
- Laborious and imprecise
- Our Solution: Intent-Based Capacity Planning
- Traditional Capacity Planning
- Intent-Based Capacity Planning
- Precursors to Intent
- Dependencies
- Performance metrics
- Prioritization
- Introduction to Auxon
- Requirements and Implementation: Successes and Lessons Learned
- Approximation
- Raising Awareness and Driving Adoption
- Set expectations
- Identify appropriate customers
- Customer service
- Designing at the right level
- Team Dynamics
- Precursors to Intent
- Fostering Software Engineering in SRE
- Successfully Building a Software Engineering Culture in SRE: Staffing and Development Time
- Getting There
- Conclusions
- 19. Load Balancing at the Frontend
- Power Isnt the Answer
- Load Balancing Using DNS
- Load Balancing at the Virtual IP Address
- 20. Load Balancing in the Datacenter
- The Ideal Case
- Identifying Bad Tasks: Flow Control and Lame Ducks
- A Simple Approach to Unhealthy Tasks: Flow Control
- A Robust Approach to Unhealthy Tasks: Lame Duck State
- Limiting the Connections Pool with Subsetting
- Picking the Right Subset
- A Subset Selection Algorithm: Random Subsetting
- A Subset Selection Algorithm: Deterministic Subsetting
- Load Balancing Policies
- Simple Round Robin
- Small subsetting
- Varying query costs
- Machine diversity
- Unpredictable performance factors
- Least-Loaded Round Robin
- Weighted Round Robin
- Simple Round Robin
- 21. Handling Overload
- The Pitfalls of Queries per Second
- Per-Customer Limits
- Client-Side Throttling
- Criticality
- Utilization Signals
- Handling Overload Errors
- Deciding to Retry
- Load from Connections
- Conclusions
- 22. Addressing Cascading Failures
- Causes of Cascading Failures and Designing to Avoid Them
- Server Overload
- Resource Exhaustion
- CPU
- Memory
- Threads
- File descriptors
- Dependencies among resources
- Service Unavailability
- Preventing Server Overload
- Queue Management
- Load Shedding and Graceful Degradation
- Retries
- Latency and Deadlines
- Picking a deadline
- Missing deadlines
- Deadline propagation
- Bimodal latency
- Slow Startup and Cold Caching
- Always Go Downward in the Stack
- Triggering Conditions for Cascading Failures
- Process Death
- Process Updates
- New Rollouts
- Organic Growth
- Planned Changes, Drains, or Turndowns
- Request profile changes
- Resource limits
- Testing for Cascading Failures
- Test Until Failure and Beyond
- Test Popular Clients
- Test Noncritical Backends
- Immediate Steps to Address Cascading Failures
- Increase Resources
- Stop Health Check Failures/Deaths
- Restart Servers
- Drop Traffic
- Enter Degraded Modes
- Eliminate Batch Load
- Eliminate Bad Traffic
- Closing Remarks
- Causes of Cascading Failures and Designing to Avoid Them
- 23. Managing Critical State: Distributed Consensus for Reliability
- Motivating the Use of Consensus: Distributed Systems Coordination Failure
- Case Study 1: The Split-Brain Problem
- Case Study 2: Failover Requires Human Intervention
- Case Study 3: Faulty Group-Membership Algorithms
- How Distributed Consensus Works
- Paxos Overview: An Example Protocol
- System Architecture Patterns for Distributed Consensus
- Reliable Replicated State Machines
- Reliable Replicated Datastores and Configuration Stores
- Highly Available Processing Using Leader Election
- Distributed Coordination and Locking Services
- Reliable Distributed Queuing and Messaging
- Distributed Consensus Performance
- Multi-Paxos: Detailed Message Flow
- Scaling Read-Heavy Workloads
- Quorum Leases
- Distributed Consensus Performance and Network Latency
- Reasoning About Performance: Fast Paxos
- Stable Leaders
- Batching
- Disk Access
- Deploying Distributed Consensus-Based Systems
- Number of Replicas
- Location of Replicas
- Capacity and Load Balancing
- Quorum composition
- Monitoring Distributed Consensus Systems
- Conclusion
- Motivating the Use of Consensus: Distributed Systems Coordination Failure
- 24. Distributed Periodic Scheduling with Cron
- Cron
- Introduction
- Reliability Perspective
- Cron Jobs and Idempotency
- Cron at Large Scale
- Extended Infrastructure
- Extended Requirements
- Building Cron at Google
- Tracking the State of Cron Jobs
- The Use of Paxos
- The Roles of the Leader and the Follower
- The leader
- The follower
- Resolving partial failures
- Storing the State
- Running Large Cron
- Summary
- Cron
- 25. Data Processing Pipelines
- Origin of the Pipeline Design Pattern
- Initial Effect of Big Data on the Simple Pipeline Pattern
- Challenges with the Periodic Pipeline Pattern
- Trouble Caused By Uneven Work Distribution
- Drawbacks of Periodic Pipelines in Distributed Environments
- Monitoring Problems in Periodic Pipelines
- Thundering Herd Problems
- Moiré Load Pattern
- Introduction to Google Workflow
- Workflow as Model-View-Controller Pattern
- Stages of Execution in Workflow
- Workflow Correctness Guarantees
- Ensuring Business Continuity
- Summary and Concluding Remarks
- 26. Data Integrity: What You Read Is What You Wrote
- Data Integritys Strict Requirements
- Choosing a Strategy for Superior Data Integrity
- Backups Versus Archives
- Requirements of the Cloud Environment in Perspective
- Google SRE Objectives in Maintaining Data Integrity and Availability
- Data Integrity Is the Means; Data Availability Is the Goal
- Delivering a Recovery System, Rather Than a Backup System
- Types of Failures That Lead to Data Loss
- Challenges of Maintaining Data Integrity Deep and Wide
- Scaling issues: Fulls, incrementals, and the competing forces of backups and restores
- Retention
- How Google SRE Faces the Challenges of Data Integrity
- The 24 Combinations of Data Integrity Failure Modes
- First Layer: Soft Deletion
- Second Layer: Backups and Their Related Recovery Methods
- Overarching Layer: Replication
- 1T Versus 1E: Not Just a Bigger Backup
- Third Layer: Early Detection
- Challenges faced by cloud developers
- Out-of-band data validation
- Knowing That Data Recovery Will Work
- Case Studies
- GmailFebruary, 2011: Restore from GTape
- Sunday, February 27, 2011, late in the evening
- Google MusicMarch 2012: Runaway Deletion Detection
- Tuesday, March 6th, 2012, mid-afternoon
- Discovering the problem
- Assessing the damage
- Resolving the issue
- Parallel bug identification and recovery efforts
- First wave of recovery
- Second wave of recovery
- Addressing the root cause
- GmailFebruary, 2011: Restore from GTape
- General Principles of SRE as Applied to Data Integrity
- Beginners Mind
- Trust but Verify
- Hope Is Not a Strategy
- Defense in Depth
- Conclusion
- Data Integritys Strict Requirements
- 27. Reliable Product Launches at Scale
- Launch Coordination Engineering
- The Role of the Launch Coordination Engineer
- Setting Up a Launch Process
- The Launch Checklist
- Driving Convergence and Simplification
- Launching the Unexpected
- Developing a Launch Checklist
- Architecture and Dependencies
- Example checklist questions
- Example action items
- Integration
- Example action items
- Capacity Planning
- Example checklist questions
- Failure Modes
- Example checklist questions
- Example action items
- Client Behavior
- Example checklist question
- Example action items
- Processes and Automation
- Example checklist question
- Example action items
- Development Process
- Example action items
- External Dependencies
- Example checklist questions
- Rollout Planning
- Example action items
- Architecture and Dependencies
- Selected Techniques for Reliable Launches
- Gradual and Staged Rollouts
- Feature Flag Frameworks
- Dealing with Abusive Client Behavior
- Overload Behavior and Load Tests
- Development of LCE
- Evolution of the LCE Checklist
- Problems LCE Didnt Solve
- Scalability changes
- Growing operational load
- Infrastructure churn
- Conclusion
- Launch Coordination Engineering
- IV. Management
- 28. Accelerating SREs to On-Call and Beyond
- Youve Hired Your Next SRE(s), Now What?
- Initial Learning Experiences: The Case for Structure Over Chaos
- Learning Paths That Are Cumulative and Orderly
- Targeted Project Work, Not Menial Work
- Creating Stellar Reverse Engineers and Improvisational Thinkers
- Reverse Engineers: Figuring Out How Things Work
- Statistical and Comparative Thinkers: Stewards of the Scientific Method Under Pressure
- Improv Artists: When the Unexpected Happens
- Tying This Together: Reverse Engineering a Production Service
- Five Practices for Aspiring On-Callers
- A Hunger for Failure: Reading and Sharing Postmortems
- Disaster Role Playing
- Break Real Things, Fix Real Things
- Documentation as Apprenticeship
- Shadow On-Call Early and Often
- On-Call and Beyond: Rites of Passage, and Practicing Continuing Education
- Closing Thoughts
- 29. Dealing with Interrupts
- Managing Operational Load
- Factors in Determining How Interrupts Are Handled
- Imperfect Machines
- Cognitive Flow State
- Cognitive flow state: Creative and engaged
- Cognitive flow state: Angry Birds
- Do One Thing Well
- Distractibility
- Polarizing time
- Seriously, Tell Me What to Do
- General suggestions
- On-call
- Tickets
- Ongoing responsibilities
- Be on interrupts, or dont be
- Reducing Interrupts
- Actually analyze tickets
- Respect yourself, as well as your customers
- Cognitive Flow State
- 30. Embedding an SRE to Recover from Operational Overload
- Phase 1: Learn the Service and Get Context
- Identify the Largest Sources of Stress
- Identify Kindling
- Phase 2: Sharing Context
- Write a Good Postmortem for the Team
- Sort Fires According to Type
- Phase 3: Driving Change
- Start with the Basics
- Get Help Clearing Kindling
- Explain Your Reasoning
- Ask Leading Questions
- Conclusion
- Phase 1: Learn the Service and Get Context
- 31. Communication and Collaboration in SRE
- Communications: Production Meetings
- Agenda
- Attendance
- Collaboration within SRE
- Team Composition
- Techniques for Working Effectively
- Case Study of Collaboration in SRE: Viceroy
- The Coming of the Viceroy
- Challenges
- Recommendations
- Collaboration Outside SRE
- Case Study: Migrating DFP to F1
- Conclusion
- Communications: Production Meetings
- 32. The Evolving SRE Engagement Model
- SRE Engagement: What, How, and Why
- The PRR Model
- The SRE Engagement Model
- Alternative Support
- Documentation
- Consultation
- Alternative Support
- Production Readiness Reviews: Simple PRR Model
- Engagement
- Analysis
- Improvements and Refactoring
- Training
- Onboarding
- Continuous Improvement
- Evolving the Simple PRR Model: Early Engagement
- Candidates for Early Engagement
- Benefits of the Early Engagement Model
- Design phase
- Build and implementation
- Launch
- Post-launch
- Disengaging from a service
- Evolving Services Development: Frameworks and SRE Platform
- Lessons Learned
- External Factors Affecting SRE
- Toward a Structural Solution: Frameworks
- New Service and Management Benefits
- Significantly lower operational overhead
- Universal support by design
- Faster, lower overhead engagements
- A new engagement model based on shared responsibility
- Conclusion
- V. Conclusions
- 33. Lessons Learned from Other Industries
- Meet Our Industry Veterans
- Preparedness and Disaster Testing
- Relentless Organizational Focus on Safety
- Attention to Detail
- Swing Capacity
- Simulations and Live Drills
- Training and Certification
- Focus on Detailed Requirements Gathering and Design
- Defense in Depth and Breadth
- Postmortem Culture
- Automating Away Repetitive Work and Operational Overhead
- Structured and Rational Decision Making
- Conclusions
- 34. Conclusion
- A. Availability Table
- B. A Collection of Best Practices for Production Services
- Fail Sanely
- Progressive Rollouts
- Define SLOs Like a User
- Error Budgets
- Monitoring
- Postmortems
- Capacity Planning
- Overloads and Failure
- SRE Teams
- C. Example Incident State Document
- D. Example Postmortem
- Lessons Learned
- What went well
- What went wrong
- Where we got lucky
- Timeline
- Supporting information:
- Lessons Learned
- E. Launch Coordination Checklist
- F. Example Production Meeting Minutes
- Bibliography
- Index
O'Reilly Media - inne książki
-
Nowość Promocja
Keeping up with the Python ecosystem can be daunting. Its developer tooling doesn't provide the out-of-the-box experience native to languages like Rust and Go. When it comes to long-term project maintenance or collaborating with others, every Python project faces the same problem: how to build reliable workflows beyond local development while stayi-
- ePub + Mobi pkt
(203,15 zł najniższa cena z 30 dni)
209.79 zł
249.00 zł (-16%) -
-
Nowość Promocja
Bringing a deep-learning project into production at scale is quite challenging. To successfully scale your project, a foundational understanding of full stack deep learning, including the knowledge that lies at the intersection of hardware, software, data, and algorithms, is required.This book illustrates complex concepts of full stack deep learnin-
- ePub + Mobi pkt
(237,15 zł najniższa cena z 30 dni)
252.15 zł
289.00 zł (-13%) -
-
Nowość Promocja
Frontend developers have to consider many things: browser compatibility, usability, performance, scalability, SEO, and other best practices. But the most fundamental aspect of creating websites is one that often falls short: accessibility. Accessibility is the cornerstone of any website, and if a website is inaccessible, users won't be able to inte-
- ePub + Mobi pkt
(194,65 zł najniższa cena z 30 dni)
208.90 zł
249.00 zł (-16%) -
-
Nowość Promocja
In this insightful and comprehensive guide, Addy Osmani shares more than a decade of experience working on the Chrome team at Google, uncovering secrets to engineering effectiveness, efficiency, and team success. Engineers and engineering leaders looking to scale their effectiveness and drive transformative results within their teams and organizati-
- ePub + Mobi pkt
(118,15 zł najniższa cena z 30 dni)
123.64 zł
149.00 zł (-17%) -
-
Nowość Promocja
Data modeling is the single most overlooked feature in Power BI Desktop, yet it's what sets Power BI apart from other tools on the market. This practical book serves as your fast-forward button for data modeling with Power BI, Analysis Services tabular, and SQL databases. It serves as a starting point for data modeling, as well as a handy refresher-
- ePub + Mobi pkt
(194,65 zł najniższa cena z 30 dni)
208.65 zł
249.00 zł (-16%) -
-
Nowość Promocja
C# is undeniably one of the most versatile programming languages available to engineers today. With this comprehensive guide, you'll learn just how powerful the combination of C# and .NET can be. Author Ian Griffiths guides you through C# 12.0 and .NET 8 fundamentals and techniques for building cloud, web, and desktop applications.Designed for expe-
- ePub + Mobi pkt
(228,65 zł najniższa cena z 30 dni)
252.20 zł
289.00 zł (-13%) -
-
Nowość Promocja
Learn how to get started with Futures Thinking. With this practical guide, Phil Balagtas, founder of the Design Futures Initiative and the global Speculative Futures network, shows you how designers and futurists have made futures work at companies such as Atari, IBM, Apple, Disney, Autodesk, Lufthansa, and McKinsey & Company.This book demystifies-
- ePub + Mobi pkt
(152,15 zł najniższa cena z 30 dni)
158.05 zł
189.00 zł (-16%) -
-
Nowość Promocja
Augmented Analytics isn't just another book on data and analytics; it's a holistic resource for reimagining the way your entire organization interacts with information to become insight-driven.Moving beyond traditional, limited ways of making sense of data, Augmented Analytics provides a dynamic, actionable strategy for improving your organization'-
- ePub + Mobi pkt
(177,65 zł najniższa cena z 30 dni)
184.05 zł
219.00 zł (-16%) -
-
Nowość Promocja
Learn how to prepare for—and pass—the Kubernetes and Cloud Native Associate (KCNA) certification exam. This practical guide serves as both a study guide and point of entry for practitioners looking to explore and adopt cloud native technologies. Adrián González Sánchez and Jorge Valenzuela Jiménez teach you not only the core technology fundamentals-
- ePub + Mobi pkt
Kubernetes and Cloud Native Associate (KCNA) Study Guide Kubernetes and Cloud Native Associate (KCNA) Study Guide
(160,65 zł najniższa cena z 30 dni)
177.65 zł
209.00 zł (-15%) -
-
Nowość Promocja
Python is an excellent way to get started in programming, and this clear, concise guide walks you through Python a step at a time—beginning with basic programming concepts before moving on to functions, data structures, and object-oriented design. This revised third edition reflects the growing role of large language models (LLMs) in programming an-
- ePub + Mobi pkt
(150,77 zł najniższa cena z 30 dni)
150.72 zł
179.00 zł (-16%) -
Dzięki opcji "Druk na żądanie" do sprzedaży wracają tytuły Grupy Helion, które cieszyły sie dużym zainteresowaniem, a których nakład został wyprzedany.
Dla naszych Czytelników wydrukowaliśmy dodatkową pulę egzemplarzy w technice druku cyfrowego.
Co powinieneś wiedzieć o usłudze "Druk na żądanie":
- usługa obejmuje tylko widoczną poniżej listę tytułów, którą na bieżąco aktualizujemy;
- cena książki może być wyższa od początkowej ceny detalicznej, co jest spowodowane kosztami druku cyfrowego (wyższymi niż koszty tradycyjnego druku offsetowego). Obowiązująca cena jest zawsze podawana na stronie WWW książki;
- zawartość książki wraz z dodatkami (płyta CD, DVD) odpowiada jej pierwotnemu wydaniu i jest w pełni komplementarna;
- usługa nie obejmuje książek w kolorze.
Masz pytanie o konkretny tytuł? Napisz do nas: sklep@helion.pl
Książka drukowana
![](https://static01.helion.com.pl/helion/img/ajax-loader.gif)
![ajax-loader](https://static01.helion.com.pl/global/okladki/125x163/helion-loader.gif)
Oceny i opinie klientów: Site Reliability Engineering. How Google Runs Production Systems Niall Richard Murphy, Betsy Beyer, Chris Jones (0)
Weryfikacja opinii następuję na podstawie historii zamówień na koncie Użytkownika umieszczającego opinię. Użytkownik mógł otrzymać punkty za opublikowanie opinii uprawniające do uzyskania rabatu w ramach Programu Punktowego.