The Reinforcement Learning Workshop



- Ocena:
- Bądź pierwszym, który oceni tę książkę
- Stron:
- 822
- Dostępne formaty:
-
PDFePubMobi
Opis książki: The Reinforcement Learning Workshop
Various intelligent applications such as video games, inventory management software, warehouse robots, and translation tools use reinforcement learning (RL) to make decisions and perform actions that maximize the probability of the desired outcome. This book will help you to get to grips with the techniques and the algorithms for implementing RL in your machine learning models.
Starting with an introduction to RL, you'll be guided through different RL environments and frameworks. You'll learn how to implement your own custom environments and use OpenAI baselines to run RL algorithms. Once you've explored classic RL techniques such as Dynamic Programming, Monte Carlo, and TD Learning, you'll understand when to apply the different deep learning methods in RL and advance to deep Q-learning. The book will even help you understand the different stages of machine-based problem-solving by using DARQN on a popular video game Breakout. Finally, you'll find out when to use a policy-based method to tackle an RL problem.
By the end of The Reinforcement Learning Workshop, you'll be equipped with the knowledge and skills needed to solve challenging problems using reinforcement learning.
Wybrane bestsellery
-
Oto intuicyjny przewodnik dla średnio zaawansowanych programistów Pythona, pomyślany tak, by przyswajać zasady programowania zorientowanego obiektowo podczas praktycznych ćwiczeń. Dowiesz się, jakie problemy wiążą się z zastosowaniem podejścia proceduralnego i jak dzięki podejściu obiektowemu pis...
Python zorientowany obiektowo. Programowanie gier i graficznych interfejsów użytkownika Python zorientowany obiektowo. Programowanie gier i graficznych interfejsów użytkownika
(0,00 zł najniższa cena z 30 dni)53.40 zł
89.00 zł(-40%) -
Trzech poważanych architektów oprogramowania omawia cały cykl życia, prezentując praktyczne wskazówki, metody stosowane przez ekspertów i sprawdzone modele przydatne w każdym projekcie niezależnie od poziomu jego złożoności. Dowiesz się, jak za pomocą architektury radzić sobie z coraz większymi w...
Architektura oprogramowania w praktyce. Wydanie IV Architektura oprogramowania w praktyce. Wydanie IV
(0,00 zł najniższa cena z 30 dni)59.40 zł
99.00 zł(-40%) -
Ta książka jest przeznaczona dla doświadczonych programistów, którzy chcą zdobyć lub pogłębić wiedzę o metodologiach i dobrych praktykach tworzenia złożonego oprogramowania. Stanowi interesująco napisany zbiór heurystyk i technik ułożonych w kolejności stosowania podczas rozwijania projektu progr...
Zrównoważony kod. Dobre praktyki i heurystyki dla inżynierów oprogramowania Zrównoważony kod. Dobre praktyki i heurystyki dla inżynierów oprogramowania
(0,00 zł najniższa cena z 30 dni)59.40 zł
99.00 zł(-40%) -
Dave Thomas i Andy Hunt napisali pierwsze wydanie tej wpływowej książki w 1999 roku, aby pomóc swoim klientom tworzyć lepsze oprogramowanie i na nowo odnaleźć radość z kodowania. Nauki płynące z tamtego wydania pomogły wielu pokoleniom programistów zbadać istotę rozwoju oprogramowania, niezależni...
Pragmatyczny programista. Od czeladnika do mistrza. Wydanie II Pragmatyczny programista. Od czeladnika do mistrza. Wydanie II
(0,00 zł najniższa cena z 30 dni)46.20 zł
77.00 zł(-40%) -
W tej książce znajdziesz zasady definiujące rzemiosło, jakim jest wytwarzanie oprogramowania. Zebrano w niej procedury, standardy i normy etyczne, dzięki którym tworzony kod będzie niezawodny i efektywny, a całe oprogramowanie stanie się powodem do dumy. Zawarto tutaj szereg pragmatycznych wskazó...
Rzemiosło w czystej formie. Standardy i etyka rzetelnych programistów Rzemiosło w czystej formie. Standardy i etyka rzetelnych programistów
(0,00 zł najniższa cena z 30 dni)59.40 zł
99.00 zł(-40%) -
To kompleksowy podręcznik do nauki programowania w Pythonie. Jego piąte wydanie zostało gruntownie zaktualizowane i rozbudowane o dodatkowe treści. Omówiono tu najnowsze wersje Pythona w liniach 3.X i 2.X, czyli 3.3 i 2.7, i dodano opisy nowych lub rozszerzonych mechanizmów, takich jak obsługa fo...(0,00 zł najniższa cena z 30 dni)
119.40 zł
199.00 zł(-40%) -
Ta książka jest zwięzłym, skupionym na praktyce przewodnikiem po Pythonie w wersji 3.6 i nowszych. Dzięki niej skoncentrujesz się na rdzeniu języka i podstawowych zagadnieniach, które musisz doskonale opanować, jeśli chcesz pisać w nim dobry kod. Dowiesz się zatem, jak działa Python i jakich zasa...(0,00 zł najniższa cena z 30 dni)
41.40 zł
69.00 zł(-40%) -
Wiernym czytelnikom publikacji spod znaku wydawnictwa Helion Piotra Wróblewskiego przedstawiać nie trzeba. Dość wspomnieć, że jest on autorem wielu publikacji poświęconych głównie programowaniu i obsłudze komputerów. Jego najnowsza książka, Algorytmy w Pythonie. Techniki programowania dla praktyk...
Algorytmy w Pythonie. Techniki programowania dla praktyków Algorytmy w Pythonie. Techniki programowania dla praktyków
(0,00 zł najniższa cena z 30 dni)71.40 zł
119.00 zł(-40%) -
To drugie, zaktualizowane i poprawione wydanie bestsellerowego podręcznika Programowania w Pythonie pozwoli Ci błyskawicznie zacząć tworzyć kod, który działa! Zaczniesz od zrozumienia podstawowych koncepcji programistycznych, następnie nauczysz się zapewniać programom interaktywność i wykształcis...(0,00 zł najniższa cena z 30 dni)
59.40 zł
99.00 zł(-40%) -
W tej książce w sposób jasny i bardzo interesujący przedstawiono uniwersalne zasady architektury oprogramowania wraz z szeregiem wskazówek dotyczących stosowania tych reguł w praktyce. Wyczerpująco zaprezentowano tu dostępne rozwiązania i wyjaśniono, dlaczego są one tak istotne dla sukcesu przeds...
Czysta architektura. Struktura i design oprogramowania. Przewodnik dla profesjonalistów Czysta architektura. Struktura i design oprogramowania. Przewodnik dla profesjonalistów
(0,00 zł najniższa cena z 30 dni)53.40 zł
89.00 zł(-40%)
Alessandro Palmas, Emanuele Ghelfi, Dr. Alexandra Galina Petre, Mayur Kulkarni, Anand N.S., Quan Nguyen, Aritra Sen, Anthony So, Saikat Basak - pozostałe książki
-
Write fast, robust, and highly reusable applications using Python's internal optimization, state-of-the-art performance-benchmarking tools, and cutting-edge libraries
-
Get started with TensorFlow fundamentals to build and train deep learning models with real-world data, practical exercises, and challenging activities
-
Gain expert guidance on how to successfully develop machine learning models in Python and build your own unique data platforms
The Data Science Workshop - Second Edition The Data Science Workshop - Second Edition
Anthony So, Thomas V. Joseph, Robert Thas John, Andrew Worsley, Dr. Samuel Asare
-
With examples and activities that help you achieve real results, applying calculus and statistical methods relevant to advanced data science has never been so easy
The Statistics and Calculus with Python Workshop The Statistics and Calculus with Python Workshop
Peter Farrell, Alvaro Fuentes, Ajinkya Sudhir Kolhe, Quan Nguyen, Alexander Joseph Sarver
-
Explore how a data storage system works - from data ingestion to representation
The Artificial Intelligence Infrastructure Workshop The Artificial Intelligence Infrastructure Workshop
Chinmay Arankalle, Gareth Dwyer, Bas Geerdink, Kunal Gera, Kevin Liao, Anand N.S.
-
Take a hands-on approach to understanding deep learning and build smart applications that can recognize images and interpret text
The Deep Learning Workshop The Deep Learning Workshop
Mirza Rahim Baig, Thomas V. Joseph, Nipun Sadvilkar, Mohan Kumar Silaparasetty, Anthony So
-
With knowledge and information shared by experts, take your first steps towards creating scalable AI algorithms and solutions in Python, through practical exercises and engaging activities
-
Cut through the noise and get real results with a step-by-step approach to data science
The Data Science Workshop The Data Science Workshop
Anthony So, Thomas V. Joseph, Robert Thas John, Andrew Worsley, Dr. Samuel Asare
-
A definitive guide to PyCharm to help you build business-oriented Python applications ranging from modern web development to data science
-
Create distributed applications with clever design patterns to solve complex problems Key Features Set up and run distributed algorithms on a cluster using Dask and PySpark Master skills to accurately implement concurrency in your code Gain practical experience of Python design patterns with re...
Ebooka przeczytasz na:
-
czytnikach Inkbook, Kindle, Pocketbook i innych
-
systemach Windows, MacOS i innych
-
systemach Windows, Android, iOS, HarmonyOS
-
na dowolnych urządzeniach i aplikacjach obsługujących formaty: PDF, EPub, Mobi
Masz pytania? Zajrzyj do zakładki Pomoc »
Audiobooka posłuchasz:
-
w aplikacji Ebookpoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych
-
na dowolonych urządzeniach i aplikacjach obsługujących format MP3 (pliki spakowane w ZIP)
Masz pytania? Zajrzyj do zakładki Pomoc »
Kurs Video zobaczysz:
-
w aplikacji Ebookpoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych
-
na dowolonych urządzeniach i aplikacjach obsługujących format MP4 (pliki spakowane w ZIP)
Szczegóły książki
- Tytuł oryginału:
- The Reinforcement Learning Workshop
- ISBN Ebooka:
- 978-18-002-0996-1, 9781800209961
- Data wydania ebooka:
-
2020-08-18
Data wydania ebooka często jest dniem wprowadzenia tytułu do sprzedaży i może nie być równoznaczna z datą wydania książki papierowej. Dodatkowe informacje możesz znaleźć w darmowym fragmencie. Jeśli masz wątpliwości skontaktuj się z nami sklep@helion.pl.
- Język publikacji:
- angielski
- Rozmiar pliku Pdf:
- 22.6MB
- Rozmiar pliku ePub:
- 22.8MB
- Rozmiar pliku Mobi:
- 22.8MB
- Kategorie:
Programowanie » Python - Programowanie
Programowanie » Inne - Programowanie
Spis treści książki
- The Reinforcement Learning Workshop
- Preface
- About the Book
- Audience
- About the Chapters
- Conventions
- Code Presentation
- Setting up Your Environment
- Installing Anaconda for Jupyter Notebook
- Installing a Virtual Environment
- Installing Gym
- Installing TensorFlow 2
- Installing PyTorch
- Installing OpenAI Baselines
- Installing Pillow
- Installing Torch
- Installing Other Libraries
- Accessing the Code Files
- About the Book
- 1. Introduction to Reinforcement Learning
- Introduction
- Learning Paradigms
- Introduction to Learning Paradigms
- Supervised versus Unsupervised versus RL
- Classifying Common Problems into Learning Scenarios
- Predicting Whether an Image Contains a Dog or a Cat
- Detecting and Classifying All Dogs and Cats in an Image
- Playing Chess
- Fundamentals of Reinforcement Learning
- Elements of RL
- Agent
- Actions
- Environment
- Policy
- An Example of an Autonomous Driving Environment
- Elements of RL
- Exercise 1.01: Implementing a Toy Environment Using Python
- The Agent-Environment Interface
- Whats the Agent? What's in the Environment?
- Environment Types
- Finite versus Continuous
- Deterministic versus Stochastic
- Fully Observable versus Partially Observable
- POMDP versus MDP
- Single Agents versus Multiple Agents
- An Action and Its Types
- Policy
- Stochastic Policies
- Policy Parameterizations
- Exercise 1.02: Implementing a Linear Policy
- Goals and Rewards
- Why Discount?
- Reinforcement Learning Frameworks
- OpenAI Gym
- Getting Started with Gym CartPole
- Gym Spaces
- OpenAI Gym
- Exercise 1.03: Creating a Space for Image Observations
- Rendering an Environment
- Rendering CartPole
- A Reinforcement Learning Loop with Gym
- Exercise 1.04: Implementing the Reinforcement Learning Loop with Gym
- Activity 1.01: Measuring the Performance of a Random Agent
- OpenAI Baselines
- Getting Started with Baselines DQN on CartPole
- Applications of Reinforcement Learning
- Games
- Go
- Dota 2
- StarCraft
- Robot Control
- Autonomous Driving
- Summary
- 2. Markov Decision Processes and Bellman Equations
- Introduction
- Markov Processes
- The Markov Property
- Markov Chains
- Markov Reward Processes
- Value Functions and Bellman Equations for MRPs
- Solving Linear Systems of an Equation Using SciPy
- Exercise 2.01: Finding the Value Function in an MRP
- Markov Decision Processes
- The State-Value Function and the Action-Value Function
- Bellman Optimality Equation
- Solving the Bellman Optimality Equation
- Solving MDPs
- Algorithm Categorization
- Value-Based Algorithms
- Policy Search Algorithms
- Linear Programming
- Exercise 2.02: Determining the Best Policy for an MDP Using Linear Programming
- Gridworld
- Activity 2.01: Solving Gridworld
- Summary
- 3. Deep Learning in Practice with TensorFlow 2
- Introduction
- An Introduction to TensorFlow and Keras
- TensorFlow
- Keras
- Exercise 3.01: Building a Sequential Model with the Keras High-Level API
- How to Implement a Neural Network Using TensorFlow
- Model Creation
- Model Training
- Loss Function Definition
- Optimizer Choice
- Learning Rate Scheduling
- Feature Normalization
- Model Validation
- Performance Metrics
- Model Improvement
- Overfitting
- Regularization
- Early Stopping
- Dropout
- Data Augmentation
- Batch Normalization
- Model Testing and Inference
- Standard Fully Connected Neural Networks
- Exercise 3.02: Building a Fully Connected Neural Network Model with the Keras High-Level API
- Convolutional Neural Networks
- Exercise 3.03: Building a Convolutional Neural Network Model with the Keras High-Level API
- Recurrent Neural Networks
- Exercise 3.04: Building a Recurrent Neural Network Model with the Keras High-Level API
- Simple Regression Using TensorFlow
- Exercise 3.05: Creating a Deep Neural Network to Predict the Fuel Efficiency of Cars
- Simple Classification Using TensorFlow
- Exercise 3.06: Creating a Deep Neural Network to Classify Events Generated by the ATLAS Experiment in the Quest for Higgs Boson
- TensorBoard How to Visualize Data Using TensorBoard
- Exercise 3.07: Creating a Deep Neural Network to Classify Events Generated by the ATLAS Experiment in the Quest for the Higgs Boson Using TensorBoard for Visualization
- Activity 3.01: Classifying Fashion Clothes Using a TensorFlow Dataset and TensorFlow 2
- Summary
- 4. Getting Started with OpenAI and TensorFlow for Reinforcement Learning
- Introduction
- OpenAI Gym
- How to Interact with a Gym Environment
- Exercise 4.01: Interacting with the Gym Environment
- Action and Observation Spaces
- How to Implement a Custom Gym Environment
- OpenAI Universe Complex Environment
- OpenAI Universe Infrastructure
- Environments
- Atari Games
- Flash Games
- Browser Tasks
- Running an OpenAI Universe Environment
- Validating the Universe Infrastructure
- TensorFlow for Reinforcement Learning
- Implementing a Policy Network Using TensorFlow
- Exercise 4.02: Building a Policy Network with TensorFlow
- Exercise 4.03: Feeding the Policy Network with Environment State Representation
- How to Save a Policy Network
- OpenAI Baselines
- Proximal Policy Optimization
- Command-Line Usage
- Methods in OpenAI Baselines
- Custom Policy Network Architecture
- Training an RL Agent to Solve a Classic Control Problem
- Exercise 4.04: Solving a CartPole Environment with the PPO Algorithm
- Activity 4.01: Training a Reinforcement Learning Agent to Play a Classic Video Game
- Summary
- 5. Dynamic Programming
- Introduction
- Solving Dynamic Programming Problems
- Memoization
- The Tabular Method
- Exercise 5.01: Memoization in Practice
- Exercise 5.02: The Tabular Method in Practice
- Identifying Dynamic Programming Problems
- Optimal Substructures
- Overlapping Subproblems
- The Coin-Change Problem
- Exercise 5.03: Solving the Coin-Change Problem
- Dynamic Programming in RL
- Policy and Value Iteration
- State-Value Functions
- Action-Value Functions
- OpenAI Gym: Taxi-v3 Environment
- Policy Iteration
- Value Iteration
- The FrozenLake-v0 Environment
- Activity 5.01: Implementing Policy and Value Iteration on the FrozenLake-v0 Environment
- Summary
- 6. Monte Carlo Methods
- Introduction
- The Workings of Monte Carlo Methods
- Understanding Monte Carlo with Blackjack
- Exercise 6.01: Implementing Monte Carlo in Blackjack
- Types of Monte Carlo Methods
- First Visit Monte Carlo Prediction for Estimating the Value Function
- Exercise 6.02: First Visit Monte Carlo Prediction for Estimating the Value Function in Blackjack
- Every Visit Monte Carlo Prediction for Estimating the Value Function
- Exercise 6.03: Every Visit Monte Carlo Prediction for Estimating the Value Function
- Exploration versus Exploitation Trade-Off
- Importance Sampling
- The Pseudocode for Monte Carlo Off-Policy Evaluation
- Exercise 6.04: Importance Sampling with Monte Carlo
- Solving Frozen Lake Using Monte Carlo
- Activity 6.01: Exploring the Frozen Lake Problem the Reward Function
- The Pseudocode for Every Visit Monte Carlo Control for Epsilon Soft
- Activity 6.02 Solving Frozen Lake Using Monte Carlo Control Every Visit Epsilon Soft
- Summary
- 7. Temporal Difference Learning
- Introduction to TD Learning
- TD(0) SARSA and Q-Learning
- SARSA On-Policy Control
- Exercise 7.01: Using TD(0) SARSA to Solve FrozenLake-v0 Deterministic Transitions
- The Stochasticity Test
- Exercise 7.02: Using TD(0) SARSA to Solve FrozenLake-v0 Stochastic Transitions
- Q-Learning Off-Policy Control
- Exercise 7.03: Using TD(0) Q-Learning to Solve FrozenLake-v0 Deterministic Transitions
- Expected SARSA
- N-Step TD and TD() Algorithms
- N-Step TD
- N-step SARSA
- N-Step Off-Policy Learning
- N-Step TD
- TD()
- SARSA()
- Exercise 7.04: Using TD() SARSA to Solve FrozenLake-v0 Deterministic Transitions
- Exercise 7.05: Using TD() SARSA to Solve FrozenLake-v0 Stochastic Transitions
- The Relationship between DP, Monte-Carlo, and TD Learning
- Activity 7.01: Using TD(0) Q-Learning to Solve FrozenLake-v0 Stochastic Transitions
- Summary
- 8. The Multi-Armed Bandit Problem
- Introduction
- Formulation of the MAB Problem
- Applications of the MAB Problem
- Background and Terminology
- MAB Reward Distributions
- The Python Interface
- The Greedy Algorithm
- Implementing the Greedy Algorithm
- The Explore-then-Commit Algorithm
- The -Greedy Algorithm
- Exercise 8.01 Implementing the -Greedy Algorithm
- The Softmax Algorithm
- The UCB algorithm
- Optimism in the Face of Uncertainty
- Other Properties of UCB
- Exercise 8.02 Implementing the UCB Algorithm
- Thompson Sampling
- Introduction to Bayesian Probability
- The Thompson Sampling Algorithm
- Exercise 8.03: Implementing the Thompson Sampling Algorithm
- Contextual Bandits
- Context That Defines a Bandit Problem
- Queueing Bandits
- Working with the Queueing API
- Activity 8.01: Queueing Bandits
- Summary
- 9. What Is Deep Q-Learning?
- Introduction
- Basics of Deep Learning
- Basics of PyTorch
- Exercise 9.01: Building a Simple Deep Learning Model in PyTorch
- PyTorch Utilities
- The view Function
- The squeeze Function
- The unsqueeze Function
- The max Function
- The gather Function
- The State-Value Function and the Bellman Equation
- Expected Value
- The Value Function
- The Value Function for a Deterministic Environment
- The Value Function for a Stochastic Environment:
- The Action-Value Function (Q Value Function)
- Implementing Q Learning to Find Optimal Actions
- Advantages of Q Learning
- Implementing Q Learning to Find Optimal Actions
- OpenAI Gym Review
- Exercise 9.02: Implementing the Q Learning Tabular Method
- Deep Q Learning
- Exercise 9.03: Implementing a Working DQN Network with PyTorch in a CartPole-v0 Environment
- Challenges in DQN
- Correlation between Steps and the Convergence Issue
- Experience Replay
- The Challenge of a Non-Stationary Target
- The Concept of a Target Network
- Exercise 9.04: Implementing a Working DQN Network with Experience Replay and a Target Network in PyTorch
- The Challenge of Overestimation in a DQN
- Double Deep Q Network (DDQN)
- Activity 9.01: Implementing a Double Deep Q Network in PyTorch for the CartPole Environment
- Summary
- 10. Playing an Atari Game with Deep Recurrent Q-Networks
- Introduction
- Understanding the Breakout Environment
- Exercise 10.01: Playing Breakout with a Random Agent
- CNNs in TensorFlow
- Exercise 10.02: Designing a CNN Model with TensorFlow
- Combining a DQN with a CNN
- Activity 10.01: Training a DQN with CNNs to Play Breakout
- RNNs in TensorFlow
- Exercise 10.03: Designing a Combination of CNN and RNN Models with TensorFlow
- Building a DRQN
- Activity 10.02: Training a DRQN to Play Breakout
- Introduction to the Attention Mechanism and DARQN
- Activity 10.03: Training a DARQN to Play Breakout
- Summary
- 11. Policy-Based Methods for Reinforcement Learning
- Introduction
- Introduction to Value-Based and Model-Based RL
- Introduction to Actor-Critic Model
- Introduction
- Policy Gradients
- Exercise 11.01: Landing a Spacecraft on the Lunar Surface Using Policy Gradients and the Actor-Critic Method
- Deep Deterministic Policy Gradients
- Ornstein-Uhlenbeck Noise
- The ReplayBuffer Class
- The Actor-Critic Model
- Exercise 11.02: Creating a Learning Agent
- Activity 11.01: Creating an Agent That Learns a Model Using DDPG
- Improving Policy Gradients
- Trust Region Policy Optimization
- Proximal Policy Optimization
- Exercise 11.03: Improving the Lunar Lander Example Using PPO
- The Advantage Actor-Critic Method
- Activity 11.02: Loading the Saved Policy to Run the Lunar Lander Simulation
- Summary
- 12. Evolutionary Strategies for RL
- Introduction
- Problems with Gradient-Based Methods
- Exercise 12.01: Optimization Using Stochastic Gradient Descent
- Introduction to Genetic Algorithms
- Exercise 12.02: Implementing Fixed-Value and Uniform Distribution Optimization Using GAs
- Components: Population Creation
- Exercise 12.03: Population Creation
- Components: Parent Selection
- Exercise 12.04: Implementing the Tournament and Roulette Wheel Techniques
- Components: Crossover Application
- Exercise 12.05: Crossover for a New Generation
- Components: Population Mutation
- Exercise 12.06: New Generation Development Using Mutation
- Application to Hyperparameter Selection
- Exercise 12.07: Implementing GA Hyperparameter Optimization for RNN Training
- NEAT and Other Formulations
- Exercise 12.08: XNOR Gate Functionality Using NEAT
- Activity 12.01: Cart-Pole Activity
- Summary
- Appendix
- 1. Introduction to Reinforcement Learning
- Activity 1.01: Measuring the Performance of a Random Agent
- 1. Introduction to Reinforcement Learning
- 2. Markov Decision Processes and Bellman Equations
- Activity 2.01: Solving Gridworld
- 3. Deep Learning in Practice with TensorFlow 2
- Activity 3.01: Classifying Fashion Clothes Using a TensorFlow Dataset and TensorFlow 2
- 4. Getting started with OpenAI and TensorFlow for Reinforcement Learning
- Activity 4.01: Training a Reinforcement Learning Agent to Play a Classic Video Game
- 5. Dynamic Programming
- Activity 5.01: Implementing Policy and Value Iteration on the FrozenLake-v0 Environment
- 6. Monte Carlo Methods
- Activity 6.01: Exploring the Frozen Lake Problem the Reward Function
- Activity 6.02 Solving Frozen Lake Using Monte Carlo Control Every Visit Epsilon Soft
- 7. Temporal Difference Learning
- Activity 7.01: Using TD(0) Q-Learning to Solve FrozenLake-v0 Stochastic Transitions
- 8. The Multi-Armed Bandit Problem
- Activity 8.01: Queueing Bandits
- 9. What Is Deep Q-Learning?
- Activity 9.01: Implementing a Double Deep Q Network in PyTorch for the CartPole Environment
- 10. Playing an Atari Game with Deep Recurrent Q-Networks
- Activity 10.01: Training a DQN with CNNs to Play Breakout
- Activity 10.02: Training a DRQN to Play Breakout
- Activity 10.03: Training a DARQN to Play Breakout
- 11. Policy-Based Methods for Reinforcement Learning
- Activity 11.01: Creating an Agent That Learns a Model Using DDPG
- Activity 11.02: Loading the Saved Policy to Run the Lunar Lander Simulation
- 12. Evolutionary Strategies for RL
- Activity 12.01: Cart-Pole Activity
Packt Publishing - inne książki
-
Design, build, and deploy performant and maintainable web applications using Spring, Spring Boot, and Angular
-
Get up to speed with Oracle's Autonomous Databases and implementation strategies for any workload or use case, including transactional, data warehousing, and non-relational databases
Oracle Autonomous Database in Enterprise Architecture Oracle Autonomous Database in Enterprise Architecture
-
Use modern Python libraries such as pandas, NumPy, and scikit-learn and popular machine learning and deep learning methods to solve financial modeling problems
-
Build CD pipelines following GitOps principles like declarative and immutable changes stored in version control, all continuously reconciled by Argo CD, and minimize the failure of deployments.
-
Become a proficient Salesforce business analyst with the help of expert recommendations, techniques, best practices, and practical advice
Dzieki opcji "Druk na żądanie" do sprzedaży wracają tytuły Grupy Helion, które cieszyły sie dużym zainteresowaniem, a których nakład został wyprzedany.
Dla naszych Czytelników wydrukowaliśmy dodatkową pulę egzemplarzy w technice druku cyfrowego.
Co powinieneś wiedzieć o usłudze "Druk na żądanie":
- usługa obejmuje tylko widoczną poniżej listę tytułów, którą na bieżąco aktualizujemy;
- cena książki może być wyższa od początkowej ceny detalicznej, co jest spowodowane kosztami druku cyfrowego (wyższymi niż koszty tradycyjnego druku offsetowego). Obowiązująca cena jest zawsze podawana na stronie WWW książki;
- zawartość książki wraz z dodatkami (płyta CD, DVD) odpowiada jej pierwotnemu wydaniu i jest w pełni komplementarna;
- usługa nie obejmuje książek w kolorze.
W przypadku usługi "Druk na żądanie" termin dostarczenia przesyłki może obejmować także czas potrzebny na dodruk (do 10 dni roboczych)
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.
Książka, którą chcesz zamówić pochodzi z końcówki nakładu. Oznacza to, że mogą się pojawić drobne defekty (otarcia, rysy, zagięcia).
Co powinieneś wiedzieć o usłudze "Końcówka nakładu":
- usługa obejmuje tylko książki oznaczone tagiem "Końcówka nakładu";
- wady o których mowa powyżej nie podlegają reklamacji;
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.


Oceny i opinie klientów: The Reinforcement Learning Workshop Alessandro Palmas, Emanuele Ghelfi, Dr. Alexandra Galina Petre, Mayur Kulkarni, Anand N.S., Quan Nguyen, Aritra Sen, Anthony So, Saikat Basak (0)
Weryfikacja opinii następuję na podstawie historii zamówień na koncie Użytkownika umieszczającego opinię. Użytkownik mógł otrzymać punkty za opublikowanie opinii uprawniające do uzyskania rabatu w ramach Programu Punktowego.