Нейросетевая реализация системы автономного адаптивного управленияРефераты >> Программирование и компьютеры >> Нейросетевая реализация системы автономного адаптивного управления
Можно иначе сформулировать задачу построения ФРО. Приведем пример с системой «Пилот» [Диссер, Жданов9]. В математической модели спутника используются величины углового положения спутника
и его производной
, следовательно, очевидно, что всевозможные сочетания возможных значений этих величин (т.е. некоторая область на фазовой плоскости) необходимы для нахождения законов управления системой. Действительно, допустим система в момент времени t находится в состоянии
и УС выбирает некоторое управляющее воздействие
(включение одного из двигателей, например). Мы знаем, что в момент времени
система окажется в некотором состоянии, соответствующем точке на фазовой плоскости с некоторой вероятностью
, где
- точка на фазовой плоскости, таким образом, можно говорить о некотором вероятностном распределении
, заданном в фазовом пространстве и характеризующем предсказание поведения системы через интервал
при выборе воздействия
в момент времени t. Если бы параметров
было недостаточно для описания законов управления, то функция распределения зависела бы еще и от других параметров, и при одних и тех же величинах
принимала бы другие значения в зависимости от значений неучтенных параметров. Следовательно, УС не смогла бы найти никакого закона управления, поскольку система ищет статистически достоверную корелляцию между наблюдаемым состоянием ОУ, выбранным действием и состоянием ОУ через некоторый интервал времени. Законом управления здесь мы назовем совокупность функций распределения для каждого управляющего воздействия
, где
находится в некотором диапазоне. Найденный УС закон управления отобразится в некотором внутреннем формате в БЗ, причем он может быть получен в процессе обучения системы в реальных условиях прямо во время работы, либо на тестовом стенде, «на земле». Следовательно, можно сказать, что задача построения ФРО состоит в конструировании образов, соответствующих необходимому набору параметров, описывающих состояние системы, и их комбинациям, необходимым для нахождения закона управления. Нахождению таких образов может помочь математическая модель объекта управления, если таковая имеется.
3.4. Распознавание пространственно-временных образов.
Определение 3.4.1. Всякую совокупность значений реализации входного процесса в некоторые выбранные интервалы времени
будем называть пространственно-временным образом (ПВО).
Отметим, что один нейрон способен распознавать (т.е. способен обучиться выделять конкретный ПВО среди всех остальных) только те ПВО, у которых единичное значение сигнала для каждой выбранной компоненты входного процесса встречается не более одного раза (пример изображен на верхнем графике рис. 3.4.1). Сеть нейронов можно построить так, что в ней будут формироваться любые заданные ПВО (нижний график рис. 3.4.1).
Рис 3.4.1.
4. База знаний.
Процесс накопления знаний БЗ в рамках методологии ААУ подробно рассмотрен в [Диссер], [Жданов4-8]. В данном разделе мы опишем лишь основные отличия от указанных источников.
Рассмотрим общий алгоритм формирования БЗ. Основная цель алгоритма состоит в накоплении статистической информации, помогающей установить связь между выбранными управляющей системой воздействиями на среду и реакцией среды на эти воздействия. Другая задача алгоритма состоит в приписывании оценок сформированным образам и их корректировки в соответствии с выходным сигналом блока оценки состояния.
Определение 4.1. Будем называть полным отсоединением ФРО от среды следующее условие: процессы
и
являются независимыми. Вообще говоря, в действующей системе, конечно же эти процессы зависимы, например, в простом случае без блока датчиков
, но для введения некоторых понятий требуется мысленно «отсоединить» входной процесс и процесс среды.
Определение 4.2. Назовем временем реакции среды на воздействие
число
, где
случайные величины
и
являются зависимыми при полном отсоединении ФРО от среды. Закономерностью или реакцией среды будем считать зависимость
от
.
Другими словами, время реакции среды это время, через которое проявляется, т.е. может быть распознана блоком ФРО, реакция на воздействие.
Пример 4.1.
=
. Очевидно, что здесь
.
Определение 4.3. Назовем минимальной
и максимальной
инертностью среды минимальное и максимальное соответственно время реакции среды на воздействие
для всех
. Интервал
будем называть интервалом чувствительности среды.
Заметим, что
.
Введем совокупность образов
. (4.1)
Параметр n > 0 назовем запасом на инертность среды. Смысл
состоит в том, что если
обучен, в текущий момент времени распознан образ
и УС выберет воздействие
то с некоторой вероятностью через n шагов распознается образ
. Аналогично введем образ
