столбца матрицы A(i,j). При каждом a вычисляется расхождение между
фактическими и предсказанными значениями. Для предсказания Aij выбирается
то из значений a, при котором была получена лучшая средняя точность dj
предсказания этих известных значений. Легко увидеть, что, чем больше
(Rkj)a, тем с большим весом будут учитываться сведения от самых "похожих"
столбцов и тем сильнее будут подавляться подсказки от менее "похожих".
Аналогичная процедура построения формулы и оценки точности вычисления
всех элементов i-ой строки выполняется для проверки возможности
предсказания Aij как элемента строки.
Aij(стр)=([pic]*Qil)/([pic])
Данные в матрице A(i,j) предварительно нормированы так, чтобы элементы
каждого столбца изменялись в пределах от 0 до 1. После получения оценок
предсказания по строкам и столбцам сравнивается точность, с которой удалось
предсказать известные элементы i-ой строки di и j-го столбца dj.
Окончательно для предсказания выбирается либо Aij(стб), либо
Aij(стр), в зависимости от того, где точность d оказалась выше. Эта
точность рассматривается в качестве ожидаемой ошибки предсказания Aij.
Итак, в алгоритме ZET можно выделить основные этапы:
1. Проводится нормировка столбцов таблицы исходных данных по дисперсиям.
2. Выбирается пробел Aij, находящийся на пересечение i-ой строки и j-го
столбца.
3. При определение сходства столбцов производится их предварительная
нормировка к интервалу [0,1], и для строк и для столбцов степень сходства
определяется на основе евклидова расстояния
rев=[[pic]]1/2 ,
где Xj, Yj - соответственно значения j-го свойства объектов X и Y.
Использование такой меры сходства и обуславливает применимость алгоритма к
таблицам данных, представленных в сильных шкалах, для которых операции,
использованные в формуле, являются допустимыми преобразованиями. По
расстоянию rев выбирается заданное число объектов-аналогов, а для них-
свойств-аналогов.
4. В матрице, состоящей из отобранных строк, столбцы нормируются к
интервалу [0,1] и выбирается заданное количество столбцов, наиболее
сильно связанных с j-м.
5. По исходной таблице формируется "предсказывающая" подматрица,
составленная из элементов, находящихся на пересечении i-ой и ближайшей к
ней строк с j-м и ближайших к нему столбцами.
6. Столбцы полученной подматрицы нормируются к интервалу [0,1].
7. Из уравнений линейной регрессии для k-го элемента Aij вычисляются
"подсказки" Aij от строк и (или) столбцов "предсказывающей" подматрицы.
8. Находится коэффициент а, определяющий степень учета взаимного сходства
столбцов (строк) подматрицы при вычислении итогового значения
прогнозируемого элемента Aij.
9. Процедура 2-8 повторяется для каждого пробела.
10. Значения, вычисленные в режимах заполнения в зависимости от входных
условий, заносятся в таблицу сразу же после вычисления каждого из них или
только после окончания прогнозирования значений для всех пробелов таблицы.
11. Пункты 1-10 повторяются. Количество повторений задается во входных
условиях.
Когда сформирована группа объектов-аналогов и найдены в этой группе
наиболее информативные свойства для интересующего нас объекта, т.е.
сформирована "предсказывающая" подматрица, алгоритм переходит к этапу
построения формулы для прогнозирования.
Иначе говоря, алгоритм ZET можно разбить на две части:
1. Выбор из исходной таблицы наиболее связанной с интересующим нас объектом
Aij информации-построения "предсказывающей" подматрицы.
2. Определения параметров формулы для возможно лучшего предсказания
значения рассматриваемого элемента Aij с одновременной оценкой ожидаемой
точности прогноза.
В алгоритме ZET, как было отмечено выше, предусмотрен "персональный"
подход к прогнозированию каждого интересующего нас элемента таблицы. Для
каждого элемента Aij подбирается своя предсказывающая подматрица, в
которой содержатся только строки, наиболее похожие на i-ую и столбцы,
наиболее связанные с j-м и по этой "персональной" информации подбирается
персональная формула для прогнозирования элемента Aij. Для того, чтобы при
определении сходства объектов (строк) "вклад" каждого показателя
(свойства) не зависел от единиц измерения и был сопоставим с вкладами
других показателей, производится нормировка каждого столбца
относительно его дисперсии. Если есть необходимость учесть
неравнозначность вкладов свойств в меру сходства, т.е. если из каких-либо
соображений известны значимости, "веса" свойств, то их можно учесть,
умножив отнормированные данные на эти веса.
Если пробелов в данных много, вряд ли можно надеяться заполнить их
все сразу с хорошей точностью. Поэтому организуется многоступенчатая
процедура заполнения. Она состоит в том, чтобы на первом этапе заполнить
при минимальном размере подматриц наиболее надежные элементы, т.е. те,
которые удается предсказать с заданной точностью. Затем поставить эти
значения в таблицу и, уже считая их известными, вновь обратиться к
программе с теми же условиями на требуемую точность и размер подматриц.
Добавленная в таблицу информация может дать возможность предсказать еще
ряд значений.
Процесс повторяется при одних и тех же условиях до тех пор, пока не
прекратится предсказание новых элементов. Тогда можно повторять цикл
заполнения.
§ 3 Применение метода ZET для восстановления физических
параметров контактных систем.
Для того, чтобы правильно спрогнозировать неизвестные элементы,
необходимо решить ряд существенных вопросов:
1. Какие характеристики звезд могут быть наиболее информативны с
точки зрения предсказания отношения масс q;
2. Можно ли ожидать достаточно хороших результатов;
3. Если да, то как организовать решение, чтобы заполнить больше
пробелов с приемлемой точностью;
4. Можно ли доподлинно проверить "качество" вычисленных значений.
Для решения первой проблемы - отбора наиболее информативных для
предсказания q характеристик звезд было выполнено редактирование всех
известных значений первого столбца, содержащего отношение масс q
контрольной таблицы размерностью 15х14, куда вошли 15 систем типа W UMa и
14 их параметров из [3] (известных абсолютно точно), на предсказывающих
подматрицах 6х6, 5х5, 4х4. Объектами в данной таблице были контактные
системы типа W UMa, а в качестве свойств были взяты следующие параметры:
отношение масс компонент q, спектральный класс главной компоненты Sp1,
масса главной компоненты m1, абсолютная болометрическая величина более
массивной компоненты M1bol, большая полуось орбиты в долях радиуса Солнца
A, угол наклона орбиты i, период затменной системы P, средний радиус
главной компоненты в долях большой полуоси орбиты r1, средний радиус
второстепенной компоненты в долях большой полуоси орбиты r2, относительный
блеск более массивной компоненты L1, отношение поверхностных яркостей
более массивной компоненты к менее массивной J1/J2, радиус главной
компоненты в долях радиуса Солнца R1, радиус второстепенной компоненты в
долях радиуса Солнца R2, абсолютная болометрическая величина менее
массивной компоненты M2bol.
По результатам редактирования была составлена таблица, где
показано участие отдельных параметров в предсказании отношения масс
компонентов q. Из таблицы видно, что параметры P, r1, L1, J1/J2, R1 и
M2bol плохо (т.е. редко) участвуют в предсказании и вклад их достаточно
мал, поэтому их можно отбросить. Так как параметры r2 и R2 связаны с q
эмпирическими формулами: r~rкрит(q) и lg(m)=-0.153+1.56*lg(R), то их
также представляется целесообразным отбросить. Таким образом, остается
таблица 15х6, в которую входят 15 объектов и 6 параметров: q, Sp1, M1bol,
m1, A, i. На этой таблице было выполнено редактирование первого столбца,
содержащего отношение масс q и второго столбца, содержащего спектральные
классы главных компонент Sp1. Получены средние ошибки редактирования
соответственно d=13.555% и d=6.6791%. Поскольку средние ошибки
редактирования малы, то можно сделать вывод, что отобранные параметры
позволяют с достаточно высокой степенью точности восстановить неизвестные
значения q.
Далее, из [2] были взяты 295 систем типа KW, для которых
выписаны указанные выше 6 параметров, и составлена рабочая таблица 295х6 ,
где на месте предсказываемых элементов стоят пробелы. В качестве известных
значений q были взяты значения из [3 - 16]. Всего получилось 72
известных значения q, опираясь на которые программа будет предсказывать
остальные значения.
Для оценки целесообразности применения метода ZET при
прогнозировании недостающих значений q на рабочей таблице 295х6 было
выполнено редактирование 1-го столбца при предсказывающей подматрице
5х5. Средняя ошибка редактирования d=11.837%. Таким образом, осталось
70 известных значений q при 225 неизвестных. Как видно из результатов
редактирования значения q могут быть восстановлены по имеющимся в таблице
данным с достаточно высокой степенью точности.
Для дополнительной проверки эффективности метода было проведено
сравнение 72 известных значений отношений масс со значениями, вычисленными
методом ZET. В процессе вычисления использовался режим редактирования,
так как предполагалось, что наблюденные данные 72 звезд получены с
достаточной степенью надежности. Было выполнено редактирование 72 известных
элементов на предсказывающих подматрицах 4х4, 5х5, 6х6 и составлена
промежуточная таблица полученных ZET-методом q и соответствующих ошибок
редактирования. Получив данные редактирования, мы перешли
непосредственно к предсказанию неизвестных значений q. Предсказание
велось при границах изменения от 4 до 6 ближайших строк и столбцов при
формирования предсказывающих подматриц, т. е. для каждого
предсказываемого значения программа перебирает все варианты
предсказывающих подматриц от 4 до 6 (4х4, 4х5, и т.д. до 6х6) и выбирает
значение с наименьшей ожидаемой ошибкой прогнозирования. Было
установлено, что режим ZM1 занижает ошибку предсказания примерно в два
раза. Для этого мы сравнили прогнозируемую и фактическую ошибки (~8% и ~18%
соответственно). Аналогично установили, что режим ZM3 несколько
завышает ошибку предсказания (~20% и ~22%). В режиме ZM3 ожидаемое
отклонение (min, при различных a, средняя величина отклонения
предсказанного значения от истинного всех элементов строки (столбца),
связанных с прогнозируемым элементом) не является реальной ошибкой
предсказания, исходя из этого мы предложили свой метод определения
ошибки, разделив ожидаемое отклонение на предсказанное значение и
умножив на 100%. Как показало редактирование, режим ZM1 производит более
точное предсказание, чем режим ZM3 (хотя значения предсказаний довольно
близки: фактическая ошибка в ZM1 ~17%, в ZM3 ~20%), поэтому предсказание
велось параллельно в режимах ZM1 и ZM3 для контроля над ошибкой.
Получили следующие результаты прогнозирования: из 225 восстановленных
систем типа W UMa 218 получены с ошибкой (5%, 7(10%. По сравнению с
данными наблюдения реальная ошибка превышает полученную методом в 3 раза.
Следовательно, метод занижает ошибку прогноза. Часть полученных значений q
приблизительно совпадает, а для некоторых имеются существенные отличия.
Это связано: 1) с недостатком наблюдательных данных; 2) с ненадежностью
исходных данных; 3) с неполнотой выборки; 4) с некорректностью подсчета
ошибки данным методом.
ЛИТЕРАТУРА:
1. Svirskaya E.M., Shmelev A.Yu. “Astronomical and astrophysical
transactions”
2. Свечников М.А., Кузнецова Э.Ф. “Каталог приближенных
фотометрических и абсолютных элементов затменных переменных
звезд”, Свердловск, Изд-во Уральского Университета, 1990.
3. Свечников М.А. ”Каталог орбитальных элементов, масс и
светимостей
тесных двойных звезд”, Иркутск, Изд-во Иркутского Университета
, 1986
.
4. Загоруйко Н.Г. “Эмпирическое предсказание”, Новосибирск , Изд-во
Наука, 1979.
Загоруйко Н.Г., Елкина В.Н., Лбов Г.С., “Алгоритмы обнаружения
эмпирических закономерностей”, Новосибирск, Изд-во Наука,
1985.
-----------------------
1 . . . k j . . . n
1
:
i
l
:
m