控制状态转换使用马尔可夫链的转移概率矩阵?

7视图(30天)
你好,我是工作在马尔可夫链和我想控制状态转换(TPM)利用转移概率矩阵。
TPM在我的例子中是6 x6和给出TPM = (0.6, 0.4, 0, 0, 0, 0, 0.3, 0.4, 0.3, 0, 0, 0, 0, 0.3, 0.4, 0.3, 0, 0, 0, 0, 0.3, 0.4, 0.3, 0, 0, 0, 0, 0.3, 0.4, 0.3, 0, 0, 0, 0, 0.4, 0.6)。为了清晰起见,我们表示状态在时间t的行和列在时间t + 1的TPM。
我明白,如果我的当前状态是2,如果从TPM我的下一个状态转移概率是0.4之后也将2。
但是我查询这个条件的转移概率值0.4是如何生成的?
任何帮助在这方面将高度赞赏。

答案(1)

Torsten”class=
Torsten 2022年12月6日
编辑:Torsten 2022年12月6日
我明白,如果我的当前状态是2,如果从TPM我的下一个状态转移概率是0.4之后也将2。
这是错误的。如果你是在状态2,改变状态1的概率是0.3,继续在状态2是0.4和变化状态3是0.3。
但是我查询这个条件的转移概率值0.4是如何生成的?
过渡概率不是生成的,但他们是固定的,提前计算取决于你的马尔可夫链模型。
6个评论
chaaru达塔”class=
chaaru达塔 2022年12月8日
编辑:chaaru达塔 2022年12月8日
我查询我没有得到什么下一个状态的价值 我们应该把贝尔曼方程(用于q学习)如果当前状态 ,贝尔曼方程是:

登录置评。

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!