2.Дифференциальные игры с неполной информацией
Игры преследования с неполной информацией являются непосредственным обобщением игр преследования с полной информацией. Наиболее простым случаем неполной информации является такой, при котором игрок Р узнает фазовое состояние игрока Е с запаздыванием d>0, а игрок Е имеет полную информацию.
Пусть задано некоторое число d>0, называемое задержкой информации. При 0td игрок P в каждый момент времени t знает свое состояние х(t), время t и состояние игрока Е в начальный момент уо . При dt Т игрок Р в каждый момент t знает свое состояние х(t), время t и состояние у(t—d) игрока Е в момент t—d. Игрок Е в каждый момент времени t знает свое состояние y(t), состояние противника x(t) и время t. Его выигрыш равен ρ(x(T), y(T)).
Игра антагонистическая. Обозначим ее через Г(x0 , y0 , t).
Кусочно-программные чистые стратегии.
Под кусочно-программной чистой стратегией v игрока Е будем понимать пару {τ, β}, где τ – разбиение отрезка времени [0,T] конечным числом точек 0= t1 < …< ts =T и β – отображение, которое каждому состоянию x(tk ), y(tk ), tk ставит в соответствие отрезок измеримого программного управления v(t) игрока Е при t [ tk , tk+1 ).
Под кусочно-программной чистой стратегией u игрока P будем понимать пару {σ, α}, где σ – произвольное разбиение отрезка времени [0, T] конечным числом точек 0= t1 ‘ < …< tk ‘ =T и α – отображение, которое каждому состоянию x(tk ‘ ), y(tk ‘ d ), tk ‘ при tk ‘ >d ставит в соответствие отрезок измеримого программного управления u(t) игрока P при t [ tk ‘ , tk+1 ‘ ).
Налог на игорный бизнес состояние проблемы и пути совершенствования
... -правовой регламентации системы налогообложения в виде налога на игорный бизнес, а так же ее использования и применения индивидуальными предпринимателями и организациями на практике. Цель дипломной работы: изучение общих положений Федерального закона ...
При tk ‘ d отображение α каждому состоянию x(tk ‘ ), y0 , tk ‘ ставит в соответствие отрезок измеримого управления u(t) игрока Р при t [ tk ‘ , tk+1 ‘ ).
Игра развивается в соответствии с уравнениями движения
= f(x,u), (2.1)
= g(y,v),
при этом полагаем выполненными все условия, гарантирующие существование и единственность решения системы (2.1) на отрезке [0, T] для любой пары измеримых программных управлений u(t), v(t).
Таким образом, в любой ситуации ( u, v ) при заданных начальных условиях x0 , y0 функция выигрыша определяется однозначно: К(x0 ,y0 ; u,v)= ρ(x(T), y(T)), где х(t), y(t) – решение системы (2.1) при начальных условиях x0 , y0 в ситуации ( u, v ), а ρ – евклидово расстояние.
Поскольку игра Г(x0 , y0 , T) не является игрой с полной информацией, то, вообще говоря,
sup inf К(x 0 ,y0 ; u,v)
Из этого следует, что ситуация
Смешанные кусочно-программные
Расширим пространства стратегий игроков Р и Е до так называемых смешанных кусочно-программных стратегий поведения (СКПСП), которые предполагают возможность случайного выбора управления на каждом шаге. Далее покажем, что для такого класса стратегий равенство (2.2) выполняется.
Под СКПСП игрока Р будем понимать пару μ={τ, α}, где τ – произвольное разбиение отрезка времени [0, T] конечным числом точек 0= t1 < …< ts =T и α – отображение, ставящее в соответствие состоянию x(tk ), y(tk −d), tk при tk >d и состоянию x(tk ), y0 tk при tk ≤ d вероятностное распределение αk , сосредоточенное на конечном числе измеримых программных управлений u(t) при t [ tk , tk+1 ).
Аналогично под СКПСП игрока Е будем понимать пару ν={σ, β}, где σ – произвольное разбиение отрезка времени [0, T] конечным числом точек 0= t1 ‘ < …< tk ‘ =T и β – отображение, ставящее в соответствие состоянию x(tk ‘ ), y(tk ‘ ), tk ‘ вероятностное распределение νk , сосредоточенное на конечном числе измеримых программных управлений v(t) при t [ tk ‘ , tk+1 ‘ ).
Множества СКПСП игроков Р и Е будем обозначать соответственно через и .
Каждая пара СКПСП μ, ν при фиксированных начальных условиях x0 ,y0 индуцирует распределение вероятностей на пространстве траекторий x(t), y(t), x(0)= x0 , y(0)= y0 , поэтому под выигрышем М(x0 ,y0 , μ, ν ) в СКПСП будем понимать математическое ожидание выигрыша К(x0 ,y0 ; u,v) , усредненное по распределениям на пространствах траекторий, которые индуцируются СКПСП μ, ν.
Региональные стратегии развития регионов
... взаимосвязи между социально-экономическим положением региона и качеством стратегического планирования. В работе была сделана попытка создать методику оценки качества региональных стратегий по формализованным и неформализованным признакам, а также ...
, и выигрыш М, определили смешанное расширение (
Введем в рассмотрение следующую вспомогательную величину. Пусть СЕ Т (у) – множество достижимости игрока Е. Обозначим через СЕ Т (у) выпуклую оболочку множества СЕ Т (у).
Положим γ(у,Т) = min max ρ(η′,η″).
(2.3)
η′
, ), так что
min max ρ(η′,η″) =ρ( , ). (2.4)
η′
следует, что это – центр минимальной сферы, содержащей множество
Пусть у(t) – некоторая траектория у(0)=у0 игрока Е при 0≤t≤T. Когда игрок Е перемещается вдоль у(t), величина γ(y(t), T- t) изменяется. Пусть ( t) – траектория точки из (2.4), соответствующая траектории y(t).
В дальнейшем будем анализировать лишь случай, когда для всех траекторий y(t) ( t) СР Т (х).
Назовем точку М центром преследования, если вней достигается
γ(М, l) = max γ(y′,l).
y′
Таким образом, γ(М, l) = max
Рассмотрим вспомогательную одновременную игру преследования на выпуклой оболочке множества СЕ Т (у).
Игрок Р выбирает некоторую точку η′ С Е Т (у) , а игрок Е — точку η″ С Е Т (у).
Выбор совершается одновременно, и игрок Р при выборе η′ не знает выбора η″ игрока Е, и наоборот. Игрок Е имеет выигрыш ρ(η′,η″).
Обозначим значение этой игры через V(y, T), чтобы подчеркнуть зависимость значения игры от параметров y,T, определяющих множества стратегий СЕ Т (у) и СЕ Т (у) игроков Р и Е. Игру в нормальной форме записываем следующим образом:
Г(у,Т) = ‹ СЕ Т (у), СЕ Т (у) , ρ(у′,у″)›.
Множество стратегий СЕ Т (у) минимизирующего игрока Р выпукло, как выпукла оболочка множества СЕ Т (у).
Функция ρ(у′,у″) также выпукла по своим аргументам и непрерывна.
Траектория уk * (t) называется условно-оптимальной, если у* (0)=у0 , у* (Т –l)=М, y* (T)=yk (M) для некоторого k из k=1, …, n+1. Для каждого k может существовать несколько условно-оптимальных траекторий игрока Е.
Все, что нужно знать об нише для получения максимального дохода
... адреса тех, кто «в теме» и запускать рекламу на них и похожие аудитории. Остались сомнения? Всем ... по написанию академических работ. Клиентов условно можно разделить на две категории со своими особенностями, к которым необходим ... креативных Чтобы получить хороший результат, таргетироваться нужно исключительно на подогретую аудиторию. Для этого нужно искать возможности получить ...
Пусть в плоскости задан выпуклый многогранник S. Обозначим через S0 ; S1 ,…,Sm – стороны S(без вершин) и Sm+1 ,…,Sn – вершины S. В начальный момент времени «случай» выбирает местоположение x0 S игрока Р и местоположение y0 S игрока Е в соответствии с равномерным распределением в S. Тогда если в результате случайного хода x0 (y0 ) принадлежит Sk , k=0, …, n, то игрок Р(Е) знает лишь, что он находится в Sk , но не знает, в какой именно точке этого множества. Далее игроки Р и Е перемещаются в S в соответствии с простым движением = αu, |u|=1,
=
из начальных состояний х0
Пусть в момент 0≤t≤T точка х(t)
Информационные множества.
Согласно условиям игры игроки различают лишь множества Sk , k=0, …,n. Однако, находясь внутри Sk , они не различают позиций в этом множестве. Кроме того, игроки знают и множество S. Поэтому, находясь, например, на стороне Sk , игрок Р(Е) знает, какая это сторона, а следовательно, и то, с какой стороны от Sk находится многогранник S (выпуклый многогранник).
Если игрок Р(Е) находится в вершине Sk , k=m+1, …, 2m, то он знает расположение многогранника S и инцидентные стороны , , примыкающие к вершине Sk . Если х S 0 , то игрок Р(Е) знает только то, что находится в S0 . Поэтому мы определяем информационные множестваS(i) игрока Р(Е) следующим образом:
S(0) =S0 ,
S(k) =Sk
S(k) =Sk S o , k=m+1, …, 2m (Рисунок 7)
, — инцидентные к
Определим допустимые управления в каждом из S(k) , k=0, …,n. При х