About: Markov decision process

Facets (new session)
Description
Metadata
Settings
- Rule:
- Inverse Functional Properties:
- "Same As":

About: Markov decision process Goto Sponge NotDistinct Permalink

An Entity of Type : yago:StochasticProcess113561896, within Data Space : dbpedia.demo.openlinksw.com associated with source document(s)
QRcode icon

http://dbpedia.demo.openlinksw.com/describe/?url=http%3A%2F%2Fdbpedia.org%2Fresource%2FMarkov_decision_process

In mathematics, a Markov decision process (MDP) is a discrete-time stochastic control process. It provides a mathematical framework for modeling decision making in situations where outcomes are partly random and partly under the control of a decision maker. MDPs are useful for studying optimization problems solved via dynamic programming. MDPs were known at least as early as the 1950s; a core body of research on Markov decision processes resulted from Ronald Howard's 1960 book, Dynamic Programming and Markov Processes. They are used in many disciplines, including robotics, automatic control, economics and manufacturing. The name of MDPs comes from the Russian mathematician Andrey Markov as they are an extension of Markov chains.

Attributes	Values
rdf:type	yago:WikicatMarkovProcesses yago:WikicatOptimalDecisions yago:WikicatStochasticProcesses yago:Abstraction100002137 yago:Act100030358 yago:Action100037396 yago:Activity100407535 yago:Choice100161243 yago:Cognition100023271 yago:Concept105835747 yago:Content105809192 yago:Decision100162632 yago:Event100029378 yago:Hypothesis105888929 yago:Idea105833840 yago:Model105890249 yago:Procedure101023820 yago:PsychologicalFeature100023100 yago:YagoPermanentlyLocatedEntity yago:StochasticProcess113561896
rdfs:label	قرارات عملية ماركوف (ar) Markovův rozhodovací proces (cs) Markow-Entscheidungsproblem (de) Processo decisionale di Markov (it) Processus de décision markovien (fr) Markov decision process (en) マルコフ決定過程 (ja) 마르코프 결정 과정 (ko) Марковский процесс принятия решений (ru) Марковський процес вирішування (uk) 馬可夫決策過程 (zh)
rdfs:comment	عملية ماركوف (بالإنجليزية: Markov decision process)‏ هو نموذج مؤشر عشوائى stochastic يحتوي على خاصية ماركوف. ويمكن استخدامه في تصميم نموذج لنظام عشوائي الذي يتغير وفقا لقاعدة التحول الذي يعتمد فقط على الحالة الراهنة current state. تستخدم عمليات ماركوف في كثير من المجالات منها: تعلم الآلة (وخاصة التعلم المعزز) والتعرف على الأنماط وتشخيص الأمراض وقرارات العلاج الطبي بشكل عام حيث أنه يعتبر استخدامه ضروري في حاله اتخاذ قرار يتضمن خطر مع مرور الوقت مثل زراعة الكبد والكلي. بشكل خاص، يحتاج مؤشر المعلمة الدولة الفضاء والوقت النظام على أن تكون محددة. ويوجد حالات مختلفة من عمليات ماركوف لمستويات مختلفة من الحالات عموما وللزمن المتقطع مقابل الزمن المتواصل. (ar) Bei dem Markow-Entscheidungsproblem (MEP, auch Markow-Entscheidungsprozess oder MDP für Markov decision process) handelt es sich um ein nach dem russischen Mathematiker Andrei Andrejewitsch Markow benanntes Modell von Entscheidungsproblemen, bei denen der Nutzen eines Agenten von einer Folge von Entscheidungen abhängig ist. Bei den Zustandsübergängen gilt dabei die Markow-Annahme, d. h. die Wahrscheinlichkeit einen Zustand von Zustand aus zu erreichen, ist nur von abhängig und nicht von Vorgängern von . (de) マルコフ決定過程（マルコフけっていかてい、英: Markov decision process; MDP）は、状態遷移が確率的に生じる動的システム（確率システム）の確率モデルであり、状態遷移がマルコフ性を満たすものをいう。MDP は不確実性を伴う意思決定のモデリングにおける数学的枠組みとして、強化学習など動的計画法が適用される幅広い最適化問題の研究に活用されている。MDP は少なくとも1950年代には知られていたが、研究の中核は1960年に出版された Ronald A. Howard の "Dynamic Programming and Markov Processes" に起因する。MDP はロボット工学や自動制御、経済学、製造業を含む幅広い分野で用いられている。 (ja) Марковский процесс принятия решений (англ. Markov decision process (MDP)) — спецификация задачи последовательного принятия решений для полностью наблюдаемой среды с марковской моделью перехода и дополнительными вознаграждениями. Слово марковский в названии отражает выполнение марковского свойства для таких процессов. Такой процесс служит математической основой для моделирования последовательного принятия решений в ситуациях, где результаты частично случайны и частично под контролем лица, принимающего решения. Сегодня эта спецификация используется во множестве областей, включая робототехнику, автоматизированное управление, экономику и производство. Подход обучения с подкреплениями, основанный на данной модели используется например в AlphaZero. (ru) 在數學中，馬可夫決策過程（英語：Markov decision process，MDP）是隨機控製過程。它提供了一個數學框架，用於在結果部分隨機且部分受決策者控制的情況下對決策建模。 MDP對於研究通過動態規劃解決的最佳化問題很有用。 MDP至少早在1950年代就已為人所知；一個對馬可夫決策過程的核心研究是於1960年出版的《動態規劃和馬可夫過程》。它們被用於許多領域，包括機器人學，自動化，經濟學和製造業。 MDP的名稱來自俄羅斯數學家安德雷·馬可夫，因為它們是馬可夫鏈的推廣。在每個時間步驟中，隨機過程都處於某種狀態，決策者可以選擇在狀態下可用的動作。該隨機過程在下一時間步驟會隨機進入新狀態，並給予決策者相應的回饋。隨機過程進入新狀態的機率受所選操作影響。具體來說，它是由狀態轉換函數給出的。因此，下一個狀態取決於當前狀態和決策者的動作。但是給定和，它條件獨立於所有先前的狀態和動作；換句話說，MDP的狀態轉換滿足马尔可夫性质。马尔可夫决策过程是马尔可夫链的推广，不同之处在于添加了行动（允许选择）和奖励（给予动机）。反過來說，如果每个状态只存在一个操作和所有的奖励都是一样的，一个马尔可夫决策过程可以归结为一个马尔可夫链。 (zh) Markovovy rozhodovací procesy jsou pojmenovány po ruském matematikovi Andreji Markovovi. Poskytují matematický rámec pro modelování rozhodování v situacích, kdy jsou výsledky zčásti náhodné a zčásti pod kontrolou uživatele. Markovovy rozhodovací procesy se využívají pro studium mnoha typů optimalizačních problémů, řešených prostřednictvím dynamického programování a zpětnovazebního učení. Markovovy rozhodovací procesy jsou známy od 50. let 20. století (viz Bellman 1957). Mnoho výzkumu v této oblasti bylo učiněno na základě knihy Dynamické programování a Markovovy procesy z roku 1960. Dnes jsou využívány v různých oblastech včetně robotiky, , ekonomie a průmyslové výroby. (cs) In mathematics, a Markov decision process (MDP) is a discrete-time stochastic control process. It provides a mathematical framework for modeling decision making in situations where outcomes are partly random and partly under the control of a decision maker. MDPs are useful for studying optimization problems solved via dynamic programming. MDPs were known at least as early as the 1950s; a core body of research on Markov decision processes resulted from Ronald Howard's 1960 book, Dynamic Programming and Markov Processes. They are used in many disciplines, including robotics, automatic control, economics and manufacturing. The name of MDPs comes from the Russian mathematician Andrey Markov as they are an extension of Markov chains. (en) En théorie de la décision et de la théorie des probabilités, un processus de décision markovien (en anglais Markov decision process, MDP) est un modèle stochastique où un agent prend des décisions et où les résultats de ses actions sont aléatoires. Les MDPs sont utilisés pour étudier des problèmes d'optimisation à l'aide d'algorithmes de programmation dynamique ou d'apprentissage par renforcement. Les MDPs sont connus depuis les années 1950. Une grande contribution provient du travail de avec son livre de 1960, Dynamic Programming and Markov Processes. Ils sont utilisés dans de nombreuses disciplines, notamment la robotique, l'automatisation, l'économie et l'industrie manufacturière. (fr) 마르코프 결정 과정(MDP, Markov Decision Process)는 의사결정 과정을 모델링하는 수학적인 틀을 제공한다. 이 때 의사결정의 결과는 의사결정자의 결정에도 좌우되지만, 어느 정도 임의적으로 주어진다. 마르코프 결정 과정은 동적 계획법과 강화 학습 등의 방법으로 푸는 넓은 범위의 최적화 문제에 유용한 도구로 활용되며, 로봇 공학, , 경제학, 제조업 등의 영역에서 폭넓게 사용되고 있다. 마르코프 결정 과정은 적어도 1950년대에 처음 고안되었으며, 마르코프 결정 과정에 대한 가장 핵심적인 연구는 1960년에 출판된 의 책 《동적 계획법과 마르코프 과정》(Dynamic Programming and Markov Processes)이다. 마르코프 결정 과정은 마르코프 연쇄의 확장된 형태로 볼 수 있다. 마르코프 연쇄와의 차이점은 의사결정자의 선택이 개입된 행동이 존재한다는 것과, 의사결정자에게 동기를 부여하는 보상이 존재한다는 점이다. 바꾸어 말하면, 각 상태에서 오직 한 가지 행동만이 가능하며 모든 전이에 대한 보상이 같은 마르코프 결정 과정은 마르코프 연쇄와 동일하다. (ko) I processi decisionali di Markov (MDP), dal nome del matematico Andrej Andreevič Markov (1856-1922), forniscono un framework matematico per la modellizzazione del processo decisionale in situazioni in cui i risultati sono in parte casuale e in parte sotto il . Gli MDP sono utili per lo studio di una vasta gamma di problemi di ottimizzazione, risolti con la programmazione dinamica e l'apprendimento per rinforzo. Gli MDP sono noti fin dal 1950. Essi sono utilizzati in una vasta area di discipline in cui il processo di presa di decisione avviene in un intorno dinamico, tra cui la robotica, l'automazione, l'economia, e la produzione industriale. (it) Ма́рковські проце́си вирі́шування (МПВ, англ. Markov decision process, MDP) забезпечують математичну систему для моделювання ухвалення рішень у ситуаціях, в яких наслідки є частково випадковими, а частково контрольованими ухвалювачем рішення. МПВ є корисними для дослідження широкого спектра задач оптимізації, розв'язуваних динамічним програмуванням та навчанням з підкріпленням. МПВ були відомі щонайменше з 1950-х років (пор.). Основна маса досліджень марковських процесів вирішування стала результатом книги , опублікованої 1960 року, «Динамічне програмування та марковські процеси» (англ. Dynamic Programming and Markov Processes). Їх застосовують у широкій області дисциплін, включно з робототехнікою, автоматизованим керуванням, економікою та виробництвом. (uk)
foaf:depiction
dcterms:subject	Dynamic programming Optimal decisions Markov processes Stochastic control
Wikipage page ID	1125883 (xsd:integer)
Wikipage revision ID	1124829194 (xsd:integer)
Link from a Wikipage to another Wikipage	Bellman equation Q-learning Quantum finite automata Robotics Mabinogion sheep problem Partially observable Markov decision process Decision making Dynamic programming Computable function Generative model Monte Carlo tree search Ergodicity Andrey Markov Lloyd Shapley Machine learning Stochastic Function approximation Hamilton–Jacobi–Bellman equation Kumpati S. Narendra Markov property Recursive economics Tuple Linear programming Ronald A. Howard Dynamic programming Economics Automatic control Probability Randomness Regression analysis Reinforcement learning Relaxation (iterative method) Backward induction Optimal decisions Markov processes Odds algorithm Stochastic control Markov process Policy Free monoid Algorithms Optimal control Optimization problem Ordinary differential equation Category theory Set (mathematics) Kleisli category Markov chain Manufacturing Stochastic game Pseudocode

Faceted Search & Find service v1.17_git139 as of Feb 29 2024

Alternative Linked Data Documents: ODE Content Formats:

RDF

ODATA

Microdata

About

OpenLink Virtuoso version 08.03.3330 as of Mar 19 2024, on Linux (x86_64-generic-linux-glibc212), Single-Server Edition (378 GB total memory, 56 GB memory in use)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software