Управля'емый случа'йный проце'сс, случайный процесс, вероятностные характеристики которого можно изменять с помощью управляющих воздействий. Основная цель теории У. с. п. – отыскание оптимальных (или близких к ним) управлений, доставляющих экстремум заданному критерию качества. В простейшем случае управляемых марковских цепей одна из математических постановок задачи нахождения оптимального управления формулируется следующим образом. Пусть X d = (x n , #i-images-130220543.png ), n = 0, 1,..., – семейство однородных марковских цепей с конечным числом состояний Е = {0, 1, ..., N} и матрицами переходных вероятностей P xy (d ) = #i-images-102929135.png   {x 1 = у }, зависящих от параметра d, принадлежащего некоторому множеству управляющих воздействий D. Набор функций a = {а 0 (x 0 ), a 1 (x 0 , x 1 ),... } со значениями в D называют стратегией, а каждую из функций a n = а п (х 0 ,..., х п ) – управлением в момент времени n. Каждой стратегии a отвечает управляемая марковская цепь X a = (х п , #i-images-121723317.png ), n = 0,  1,..., где

  #i-images-133542925.png   (x 0 , x 1 ..., х п ) = d(х 0 , х ) Рх 0 х 1 (a 0 (x 0 ))... Px n-1 x n (a n-1 (x 0 , x 1 ,..., x n-1 ))

  Пусть:  

  где функция f (d, х ) ³ 0 и f (d, 0) = 0 (если точка {0} является поглощающим состоянием и f (d, x ) = I, d Î D, x = 1,..., N, то V a (x ) есть матем. ожидание времени попадания из точки х в точку 0). Функцию

 

  называется ценой, а стратегию а * – оптимальной, если  = V (x ) для всех х Î Е.

  При довольно общих предположениях о множестве D устанавливается, что цена V (x ) удовлетворяет следующему уравнению оптимальности (уравнению Беллмана):

  ,

  где

#i-images-155750947.png .

  В классе всех стратегий наибольший интерес представляют т. н. однородные марковские стратегии, характеризуемые одной функцией а (х ) такой, что a n (x 0 ,..., x n ) = a (x n ) при всех n = 0, 1,...

  Следовательно, критерий оптимальности (или достаточное условие оптимальности) может быть использован для проверки того, что данная однородная марковская стратегия является оптимальной: пусть существуют функции a * = а* (х ) и V* = V* (x ) такие, что для любого d Î D

  0 = f (x, a* (x )) + L a *V* £ f (x, d ) + L d V* (x )

  (L d = T d – I, I – единичный оператор), тогда V * является ценой (V * = V ) и стратегия a* = a*(х ) является оптимальной.

  Лит.: Ховард Р.-А., Динамическое программирование и марковские процессы, пер. с англ., М. 1964.

  А. Н. Ширяев.