Дифференциальные игры преследования с неполной информацией

2.Дифференциальные игры с неполной информацией

Игры преследования с неполной информацией являются непосредственным обобщением игр преследования с полной информацией. Наиболее простым случаем неполной информации является такой, при котором игрок Р узнает фазовое состояние игрока Е с запаздыванием d>0, а игрок Е имеет полную информацию.

Пусть задано некоторое число d>0, называемое задержкой информации. При 0td игрок P в каждый момент времени t знает свое состояние х(t), время t и состояние игрока Е в начальный момент уо . При dt Т игрок Р в каждый момент t знает свое состояние х(t), время t и состояние у(t—d) игрока Е в момент t—d. Игрок Е в каждый момент времени t знает свое состояние y(t), состояние противника x(t) и время t. Его выигрыш равен ρ(x(T), y(T)).

Игра антагонистическая. Обозначим ее через Г(x0 , y0 , t).

Кусочно-программные чистые стратегии.

Под кусочно-программной чистой стратегией v игрока Е будем понимать пару {τ, β}, где τ – разбиение отрезка времени [0,T] конечным числом точек 0= t1 < …< ts =T и β – отображение, которое каждому состоянию x(tk ), y(tk ), tk ставит в соответствие отрезок измеримого программного управления v(t) игрока Е при t [ tk , tk+1 ).

Под кусочно-программной чистой стратегией u игрока P будем понимать пару {σ, α}, где σ – произвольное разбиение отрезка времени [0, T] конечным числом точек 0= t1 < …< tk =T и α – отображение, которое каждому состоянию x(tk ), y(tk d ), tk при tk >d ставит в соответствие отрезок измеримого программного управления u(t) игрока P при t [ tk , tk+1 ).

28 стр., 13626 слов

Налог на игорный бизнес состояние проблемы и пути совершенствования

... -правовой регламентации системы налогообложения в виде налога на игорный бизнес, а так же ее использования и применения индивидуальными предпринимателями и организациями на практике. Цель дипломной работы: изучение общих положений Федерального закона ...

При tk d отображение α каждому состоянию x(tk ), y0 , tk ставит в соответствие отрезок измеримого управления u(t) игрока Р при t [ tk , tk+1 ).

Игра развивается в соответствии с уравнениями движения

= f(x,u), (2.1)

= g(y,v),

при этом полагаем выполненными все условия, гарантирующие существование и единственность решения системы (2.1) на отрезке [0, T] для любой пары измеримых программных управлений u(t), v(t).

Таким образом, в любой ситуации ( u, v ) при заданных начальных условиях x0 , y0 функция выигрыша определяется однозначно: К(x0 ,y0 ; u,v)= ρ(x(T), y(T)), где х(t), y(t) – решение системы (2.1) при начальных условиях x0 , y0 в ситуации ( u, v ), а ρ – евклидово расстояние.

Поскольку игра Г(x0 , y0 , T) не является игрой с полной информацией, то, вообще говоря,

sup inf К(x 0 ,y0 ; u,v)

Из этого следует, что ситуация

Смешанные кусочно-программные

Расширим пространства стратегий игроков Р и Е до так называемых смешанных кусочно-программных стратегий поведения (СКПСП), которые предполагают возможность случайного выбора управления на каждом шаге. Далее покажем, что для такого класса стратегий равенство (2.2) выполняется.

Под СКПСП игрока Р будем понимать пару μ={τ, α}, где τ – произвольное разбиение отрезка времени [0, T] конечным числом точек 0= t1 < …< ts =T и α – отображение, ставящее в соответствие состоянию x(tk ), y(tk −d), tk при tk >d и состоянию x(tk ), y0 tk при tk ≤ d вероятностное распределение αk , сосредоточенное на конечном числе измеримых программных управлений u(t) при t [ tk , tk+1 ).

Аналогично под СКПСП игрока Е будем понимать пару ν={σ, β}, где σ – произвольное разбиение отрезка времени [0, T] конечным числом точек 0= t1 < …< tk =T и β – отображение, ставящее в соответствие состоянию x(tk ), y(tk ), tk вероятностное распределение νk , сосредоточенное на конечном числе измеримых программных управлений v(t) при t [ tk , tk+1 ).

Множества СКПСП игроков Р и Е будем обозначать соответственно через и .

Каждая пара СКПСП μ, ν при фиксированных начальных условиях x0 ,y0 индуцирует распределение вероятностей на пространстве траекторий x(t), y(t), x(0)= x0 , y(0)= y0 , поэтому под выигрышем М(x0 ,y0 , μ, ν ) в СКПСП будем понимать математическое ожидание выигрыша К(x0 ,y0 ; u,v) , усредненное по распределениям на пространствах траекторий, которые индуцируются СКПСП μ, ν.

17 стр., 8228 слов

Региональные стратегии развития регионов

... взаимосвязи между социально-экономическим положением региона и качеством стратегического планирования. В работе была сделана попытка создать методику оценки качества региональных стратегий по формализованным и неформализованным признакам, а также ...

, и выигрыш М, определили смешанное расширение (

Введем в рассмотрение следующую вспомогательную величину. Пусть СЕ Т (у) – множество достижимости игрока Е. Обозначим через СЕ Т (у) выпуклую оболочку множества СЕ Т (у).

Положим γ(у,Т) = min max ρ(η′,η″).

(2.3)

η′

, ), так что

min max ρ(η′,η″) =ρ( , ). (2.4)

η′

следует, что это – центр минимальной сферы, содержащей множество

Пусть у(t) – некоторая траектория у(0)=у0 игрока Е при 0≤t≤T. Когда игрок Е перемещается вдоль у(t), величина γ(y(t), T- t) изменяется. Пусть ( t) – траектория точки из (2.4), соответствующая траектории y(t).

В дальнейшем будем анализировать лишь случай, когда для всех траекторий y(t) ( t) СР Т (х).

Назовем точку М центром преследования, если вней достигается

γ(М, l) = max γ(y′,l).

y′

Таким образом, γ(М, l) = max

Рассмотрим вспомогательную одновременную игру преследования на выпуклой оболочке множества СЕ Т (у).

Игрок Р выбирает некоторую точку η′ С Е Т (у) , а игрок Е — точку η″ С Е Т (у).

Выбор совершается одновременно, и игрок Р при выборе η′ не знает выбора η″ игрока Е, и наоборот. Игрок Е имеет выигрыш ρ(η′,η″).

Обозначим значение этой игры через V(y, T), чтобы подчеркнуть зависимость значения игры от параметров y,T, определяющих множества стратегий СЕ Т (у) и СЕ Т (у) игроков Р и Е. Игру в нормальной форме записываем следующим образом:

Г(у,Т) = ‹ СЕ Т (у), СЕ Т (у) , ρ(у′,у″)›.

Множество стратегий СЕ Т (у) минимизирующего игрока Р выпукло, как выпукла оболочка множества СЕ Т (у).

Функция ρ(у′,у″) также выпукла по своим аргументам и непрерывна.

Траектория уk * (t) называется условно-оптимальной, если у* (0)=у0 , у* (Т –l)=М, y* (T)=yk (M) для некоторого k из k=1, …, n+1. Для каждого k может существовать несколько условно-оптимальных траекторий игрока Е.

2 стр., 615 слов

Все, что нужно знать об нише для получения максимального дохода

... адреса тех, кто «в теме» и запускать рекламу на них и похожие аудитории. Остались сомнения? Всем ... по написанию академических работ. Клиентов условно можно разделить на две категории со своими особенностями, к которым необходим ... креативных Чтобы получить хороший результат, таргетироваться нужно исключительно на подогретую аудиторию. Для этого нужно искать возможности получить ...

Пусть в плоскости задан выпуклый многогранник S. Обозначим через S0 ; S1 ,…,Sm – стороны S(без вершин) и Sm+1 ,…,Sn – вершины S. В начальный момент времени «случай» выбирает местоположение x0 S игрока Р и местоположение y0 S игрока Е в соответствии с равномерным распределением в S. Тогда если в результате случайного хода x0 (y0 ) принадлежит Sk , k=0, …, n, то игрок Р(Е) знает лишь, что он находится в Sk , но не знает, в какой именно точке этого множества. Далее игроки Р и Е перемещаются в S в соответствии с простым движением = αu, |u|=1,

=

из начальных состояний х0

Пусть в момент 0≤t≤T точка х(t)

Информационные множества.

Согласно условиям игры игроки различают лишь множества Sk , k=0, …,n. Однако, находясь внутри Sk , они не различают позиций в этом множестве. Кроме того, игроки знают и множество S. Поэтому, находясь, например, на стороне Sk , игрок Р(Е) знает, какая это сторона, а следовательно, и то, с какой стороны от Sk находится многогранник S (выпуклый многогранник).

Если игрок Р(Е) находится в вершине Sk , k=m+1, …, 2m, то он знает расположение многогранника S и инцидентные стороны , , примыкающие к вершине Sk . Если х S 0 , то игрок Р(Е) знает только то, что находится в S0 . Поэтому мы определяем информационные множестваS(i) игрока Р(Е) следующим образом:

S(0) =S0 ,

S(k) =Sk

S(k) =Sk S o , k=m+1, …, 2m (Рисунок 7)

, — инцидентные к

Определим допустимые управления в каждом из S(k) , k=0, …,n. При х