Справочник Автор24
Лекторий Автор24
Лекционные и методические материалы по высшей математике
Обработка и анализ данных с интервальной неопределенностью

Обработка и анализ данных с интервальной неопределенностью

⌛ 2021 год
👀 891 просмотр
📌 849 загрузок
🏢️ Санкт-Петербургский политехнический университет Петра Великого

Выбери формат для чтения

Конспект лекции по дисциплине «Обработка и анализ данных с интервальной неопределенностью», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Обработка и анализ данных с интервальной неопределенностью», Word формат

Тема X-1. Обработка и анализ данных с интервальной неопределённостью. А.Н. Баженов Санкт-Петербургский политехнический университет Петра Великого a_bazhenov@inbox.ru 21.09.2021 А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 1 / 91 Интервальный анализ и его методы Интервал — замкнутый отрезок вещественной оси, а интервальная неопределенность – состояние неполного знания об интересующей нас величине, когда известна лишь ее принадлежность некоторому интервалу. Интервальный анализ — отрасль математического знания, исследующая задачи с интервальными неопределенностями и методы их решения. Поиск множества, удовлетворяющего постановке задачи. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 2 / 91 Понятие интервала Интервалом [a, b] вещественной оси R называется множество всех чисел, расположенных между заданными числами включая их самих, т.е. [a, b] := {x ∈ R | a ≤ x ≤ b} При этом a и b называются концами интервала. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 3 / 91 Интервальный анализ и его методы «. . . В большинстве случаев некорректно говорить о «решении интервальных уравнений» (систем уравнений, неравенств и т. п.) вообще. Правильнее вести речь о решении тех или иных постановок задач, связанных с интервальными уравнениями (системами уравнений, неравенств и т. п.). В свою очередь, формулировка постановки интервальной задачи подразумевает указание, по крайней мере, множества решений задачи и способа его оценивания». С.П.Шарый. Конечномерный интервальный анализ, 2021 А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 4 / 91 Интервальная статистика Обработка и анализ данных с интервальной неопределённостью. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 5 / 91 ПЛАН Общий план Общие понятия Обработка константы (физической величины) Задача восстановления зависимостей Теория: А.Н. Баженов, С.И. Жилин, С.И. Кумков, С.П. Шарый. Обработка и анализ данных с интервальной неопределённостью. РХД. Cерия «Интервальный анализ и его приложения». Ижевск. 2021. с.200. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 6 / 91 Общие понятия Общие понятия. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 7 / 91 Отношения между интервалами. Интервалы являются множествами, составленными из вещественных чисел, и неудивительно, что большую роль для них играют теоретико-множественные отношения и операции (объединение, пересечение и др.). Особенно важно отношение включения одного интервала в другой: a ⊆ b равносильно тому, что a ≥b и a ≤ b. (1) Отношение включения является частичным порядком и превращает множество интервалов в частично упорядоченное множество, важную и хорошо изученную математическую структуру. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 8 / 91 Отношения между интервалами. Помимо порядка по включению на множестве интервалов огромную роль играют также другие отношения, которые обобщают хорошо известный порядок «≤» на вещественной оси R. Фундаментальным фактом является то, что порядок «≤» между вещественными числами может быть обобщен на интервалы многими осмысленными способами (и даже бесконечно большим числом способов). Значительная часть получающихся при этом отношений на IR не являются полноценными порядками. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 9 / 91 Отношения между интервалами. Помимо порядка по включению на множестве интервалов огромную роль играют также другие отношения, которые обобщают хорошо известный порядок «≤» на вещественной оси R. Фундаментальным фактом является то, что порядок «≤» между вещественными числами может быть обобщен на интервалы многими осмысленными способами (и даже бесконечно большим числом способов). Значительная часть получающихся при этом отношений на IR не являются полноценными порядками. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 10 / 91 Отношения между интервалами. Важную роль играет следующее упорядочение Definition Для интервалов a , b ∈ IR условимся считать, что a не превосходит b и писать « a ≤ b » тогда и только тогда, когда a ≤ b и a ≤ b . Интервал называется неотрицательным, т. е. « ≥ 0», если неотрицательны оба его конца. Интервал называется неположительным, т. е. « ≤ 0», если неположительны оба его конца. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 11 / 91 Теоретико-множественные операции между интервалами. Если интервалы a и b имеют непустое пересечение, т. е. a ∩ b ̸= ∅, то можно дать простые выражения для результатов теоретико-множественных операций пересечения и объединения через концы этих интервалов [︀ ]︀ [︀ ]︀ a ∩ b = max{a , b }, min{a , b } , a ∪ b = min{a , b }, max{a , b } . (2) Если же a ∩ b = ∅, т. е. интервалы эти равенства уже неверны. А.Н. Баженов (СПбПУ) a и b не имеют общих точек, то Тема X-1. Интервальная статистика 21.09.2021 12 / 91 Теоретико-множественные операции между интервалами. Обобщением операций пересечения и объединения являются операции взятия минимума и максимума относительно включения «⊆»: [︀ ]︀ [︀ ]︀ a ∧ b = max{a , b }, min{a , b } , a ∨ b = min{a , b }, max{a , b } . (3) Они также понадобятся нам при обработке интервальных измерений. Первая из этих операций, «∧», не всегда выполнима во множестве обычных интервалов, но это затруднение преодолевается путём расширения множества интервалов специальными элементами — неправильными интервалами. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 13 / 91 Измерения Definition Измерением (замером, наблюдением) значение величины. будем называть измеренное По способу получения результата измерения все процессы измерения разделяются на прямые, косвенные и совокупные. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 14 / 91 Измерения и их результаты Погрешности квантования Неопределённость измерения нуля Агрегирование результатов многократных наблюдений А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 15 / 91 Агрегирование результатов многократных наблюдений. Во многих практических ситуациях измерение интересующей нас величины выполняется для надёжности многократно. Тем не менее, повторные измерения над одними и теми же явлениями не показывают разумное (в пределах точности измерений) совпадение результатов. Приняв все необходимы меры предосторожности, обеспечив постоянные условия измерения, мы всё равно не получаем разумно согласующихся друг с другом результатов. Скажем, в промышленности, как бы тщательно ни был отрегулирован измерительный прибор, колебания в его показаниях не могут быть уменьшены ниже некоторого предела. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 16 / 91 Агрегирование результатов многократных наблюдений. В этих условиях результатом серии повторяющихся измерений можно взять интервал от минимального до максимального из полученных результатов, т. е. агрегировать (объединить) результаты отдельных измерений. Математически, если результаты повторных измерений величины равны x1 , x2 , . . . , xn , то интервальным результатом следует взять [︀ ]︀ x = min xi , max xi . 1≤i≤n 1≤i≤n Будем называть этот способ получения интервального результата измерения агрегированием. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 17 / 91 Агрегирование результатов многократных наблюдений. Используя операции взятия интервальной оболочки множества и максимума по включению этот результат можно записать следующим равносильным образом: x = {x1 , x2 , . . . , xn } или x = ⋁︁ xi . 1≤i≤n Эти представления хороши тем, что могут быть обобщены на более сложные случаи. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 18 / 91 Модель погрешности наблюдения. Интервалы в результатах измерений могут возникать различным способом. Они могут получаться сразу, в виде готовых интервалов, но могут возникать в результате коррекции точечных результатов. Один из распространённых способов получения интервальных результатов в первичных измерениях — это «обинтерваливание» точечных значений, когда к точечному базовому значению x̊ прибавляется интервал погрешности 𝜖: x А.Н. Баженов (СПбПУ) (4) = x̊ + 𝜖 Тема X-1. Интервальная статистика 21.09.2021 19 / 91 Модель погрешности наблюдения. Интервал погрешности, вообще говоря, может быть произвольным, но если он уравновешен, то есть 𝜖 = [−𝜖, 𝜖], то это можно трактовать, как отсутствие систематических погрешностей в прямом измерении. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 20 / 91 Твины. На практике концы интервалов, представляющие результаты измерений, сами могут быть известны неточно, так что возникает необходимость работы с интервалами, имеющими интервальные концы. Такие объекты известны в интервальном анализе и называются твинами (по английски twin, как сокращение фразы twice interval, «двойной интервал»). Твины были введены в научный оборот в начале 80-х годов XX века в работах испанских исследователей. Развёрнутый анализ дан в диссертации В.М.Нестерова, 1999. Твинные арифметики и их применение в методах и алгоритмах двустороннего интервального оценивания. – Санкт-Петербург, 1999. http://www.nsc.ru/interval/Library/InteDiss/Nesterov-disser-1999.pdf А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 21 / 91 Твины. Tвин, как «интервал интервалов» или интервал с интервальными концами, можно представить как [︀ ]︀ X = [a , b ] = [a , a ], [b , b ] . (5) a a b b X R - Рис.: Твины на вещественной оси. На рисунке твин X представлен в графической форме. Концы твина, т. е. интервалы a и b , даны более тёмной заливкой, чем остальная часть твина. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 22 / 91 Твины. Твин является множеством всех интервалов, больших или равных [a, a] и меньших или равных [b, b], и точное определение зависит от смысла, который вкладывается в понятия «больше или равно», «меньше или равно». Поскольку интервалы могут быть упорядочены различными способами, то существуют различные виды твинов. Двум основным частичным порядкам на IR и KR, «⊆ » и «≤», соответствуют два основных типа твинов. Разработаны различные операции с твинами, а также способы оценок значений функций от них. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 23 / 91 Пример Измерение температуры термометром сопротивления. В повседневной лабораторной и промышленной практике широко применяются термометры сопротивления. Один из типов таких датчиков, платиновый термометр Pt100, имеет номинальное сопротивление 100 Ом при температуре 0∘ C и систематическую погрешность ∆t = ±0.35 ∘ C . А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 24 / 91 Пример Пусть измеряемая температура находится в диапазоне [19.5, 20.5] ∘ C , которую представим как интервал t : t = [19.5, 20.5] ∘ C . (6) Аналогично рассмотренному выше примеру, представим границы t , t интервала t как интервалы. С учётом систематической погрешности твин температур T , даваемый датчиком, составит [︀ ]︀ ∘ C. (7) T = [19.15, 19.85], [20.15, 20.85] Графическое представление твина А.Н. Баженов (СПбПУ) T (7) дано на рисунке 2. Тема X-1. Интервальная статистика 21.09.2021 25 / 91 Пример 19.15 19.85 20.15 20.85 T R - Рис.: Температура как твин. Форма записи температуры в виде твина T (7) выразительно и полно представляет информацию об измеряемых данных. В случае, если концы интервала в выражении (6) могут меняться независимо, возможны различные ситуации. В частности, может реализоваться ситуация, подобная рассмотренной выше для твина R 2 . Также может оказаться, что значения температур для левого конца будут выше, чем для правого. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 26 / 91 Мультиинтревалы. В ряде разделов науки и техники имеют место ситуации, когда исследуемая величина содержится в неодносвязной области. Мультиинтервал — это объединение конечного числа несвязных интервалов числовой оси (Рис. 3 ). RРис.: Мультиинтервал в А.Н. Баженов (СПбПУ) R. Тема X-1. Интервальная статистика 21.09.2021 27 / 91 Мультиинтревалы. Между мультиинтервалами также могут быть определены арифметические операции «по представителям», аналогично тому, как это делается на множестве интервалов. Мультиинтервальная арифметика применяется редко ввиду серъёзных ограничений, которые возникают при алгебраических операциях с мультиинтервальными величинами и вычислительных сложностей. Тем не менее, сама по себе идея мультиинтервалов содержательна и полностью отметать её не стоит. Ряд научных и технических примеров возниконовения мультиинтервалов приводится в материале А.Н.Баженов. Естественнонаучные и технические применения интервального анализа: учебное пособие. https://elib.spbstu.ru/dl/5/tr/2021/tr21-169.pdf/info. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 28 / 91 Пример Рассмотрим задачу калибровки временной шкалы прибора. Для этого на прибор подаётся гармонический сигнал. В силу того, что на промышленно выпускаемых генераторах положительный и отрицательный фронт имеет разную длительность, необходимо различать эти части временной шкалы. На рисунке 4 черным цветом показан гармонический сигнал и выделены соответственно красным и синим цветом области положительной и отрицательной производной сигнала. Эти области образуют мультиинтревалы. Они преобразуются при изменении калибровочного сигнала. При изменении частоты составляющие мультиинтревалов расширяются или сужаются. При изменении фазы происходит их сдвиг. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 29 / 91 Рис.: Мультиинтревалы фаз гармонического сигнала. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 30 / 91 Погрешность измерений На практике измерения и наблюдения, как правило, подвержены неизбежным внешним влияниям, выполняющие их средства измерений и приборы не вполне точны и т. п., что в целом приводит к отличию измеренного значения от истинного (идеального) значения физической величины. По отношению к неточным измерениям иногда используют термин «зашумлённые» (зашумлённые данные и т. п.), особенно, когда проводится целая серия таких измерений или наблюдений. Чтобы количественно охарактеризовать неточности измерений, вводится понятие погрешности. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 31 / 91 Погрешность измерений — вещественная арифметика Погрешность измерения — это отклонение результата измерения от истинного значения измеряемой величины. Математически погрешность равна алгебраической разности измеренного значения и истинного значения величины. Если это истинное значение x * и результат измерения x̃ — вещественные числа, то погрешностью является разность x̃ − x * . А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 32 / 91 Погрешность измерений — интервальная арифметика Если истинное значение и результат измерения — интервалы x * и x̃ соответственно, то погрешность 𝛥 определяется как алгебраическая разность 𝛥 = x̃ ⊖ x* (8) в полной интервальной арифметике Каухера. Напомним, что обычное интервальное вычитание, которое обозначается традиционным знаком «−» и является интервальным расширением вычитания, не является операцией, алгебраически обратной сложению и для нашей цели непригодно. Формула (8) справедлива и в том случае, когда истинное значение величины x * — точечное, а результат её измерения x̃ интервальный. При этом в (8) полагаем x * = [ x * , x * ]. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 33 / 91 Расстояние на множестве интервалов. Расстояние между интервалами и b из IR или KR определяется как {︀ }︀ dist (a , b ) = max |a − b |, |a − b | . (9) a Оно обладает всеми свойствами абстрактного расстояния (метрики) и ещё некоторыми хорошими свойствами в связи с интервальными арифметическими операциями. Кроме того, легко убедиться, что dist (a , b ) = |a ⊖ b |. Эта формула является полным аналогом расстояния между точками вещественной оси, как модуля их разности, т. е. |a − b|. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 34 / 91 Расстояние на множестве интервалов. Рассмотрим интервал [3, 5] и точку 3.6 внутри него. Расстояние от этой точки, отождествляемой с вырожденным интервалом [3.6, 3.6], до данного интервала равно {︀ }︀ dist (3.6, [3, 5]) = max |3.6 − 3|, |3.6 − 5| = 1.4. Рассмотрим дуальный интервал к интервалу [3, 5]. Это интервал dual [3, 5] = [5, 3]. Расстояние его до исходного интервала равно dist ([3, 5], [5, 3]) = 2. Расстояние важно для определения отклонения интервалов друг от друга и, как следствие, для определения погрешности интервальных измерений. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 35 / 91 Погрешность измерений Абсолютной погрешностью значение) погрешности. измерения назовём модуль (абсолютное Для интервальных измерений абсолютная погрешность равна модулю интервала разности x̃ ⊖ x , и, как легко видеть, она равна расстоянию (9) между измеренным и истинным значениями величины. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 36 / 91 Пример Рассмотрим для примера ситуацию, когда истинное значение измеряемой величины, скажем, массы какого-то груза, является интервалом [3, 4] кг, а её измерение дало интервал [3, 5] кг. Тогда его погрешность равна [3, 5] кг ⊖ [3, 4] кг = [0, 1] кг. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика (10) 21.09.2021 37 / 91 Пример Если в результате измерения мы получим вещественное значение 3.8 кг, которое отождествляется с интервалом [3.8, 3.8] кг, то его погрешность [3.8, 3.8] кг ⊖ [3, 4] кг = [0.8, −0.2] кг (11) — неправильный интервал. Может показаться, что он бессмыслен с физической точки зрения, но это поспешный вывод. Ситуация здесь совершенно аналогична, например, тому, как при измерении положительных физических величин (массы, плотности, давления и т. п.) мы получаем отрицательную погрешность, если измеренное значение приближает истинное значение снизу. Абсолютная погрешность измерения равна 1 в случае (10) и 0.8 в случае (11). А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 38 / 91 Накрывающие и ненакрывающие измерения Если результат измерения — точечная величина, то для неё возможны только два исхода проведения измерения: либо она получается равной истинному значению интересующей нас физической величины, либо не равной ей. Как говорят математики и программисты, исход измерения является «булевозначным», «да» или «нет». При этом ясно, что в случае измерения непрерывных физических величин равенство является исключительным событием и почти никогда не достигается. Если же оно по каким-то причинам произошло, то является неустойчивым к сколь угодно малым возмущениям или же погрешностям в вычислительных алгоритмах. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 39 / 91 Накрывающие и ненакрывающие измерения Принципиально другая ситуация возникает, если результат измерения может быть интервалом. Интервал по своей сути является двусторонней «вилкой» значений, и принадлежность ей истинного значения — это уже не исключительное событие. Оно, как правило, устойчиво к возмущениям и погрешностям обработки. Как следствие, для теории обработки интервальных данных фундаментальный характер имеют следующие определения: А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 40 / 91 Накрывающие и ненакрывающие измерения Definition Накрывающее измерение (накрывающий замер) — это интервальная оценка неизвестной истинной величины, гарантированно ее содержащая. Измерение, не являющееся накрывающим, будем называть ненакрывающим (Рис. 5 и Рис. 6). истинное значение истинное значение R интервал измерения R интервал измерения Рис.: Накрывающее (слева) и ненакрывающее (справа) измерения точечного истинного значения некоторой физической величины. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 41 / 91 Накрывающие и ненакрывающие выборки Definition — совокупность накрывающих измерений, т. е. выборка, в которой все измерения (наблюдения) являются накрывающими. Напротив, выборка называется ненакрывающей, если хотя бы одно из входящих в неё измерений — ненакрывающее. Накрывающая выборка истинное значение истинное значение R R интервал измерения интервал измерения Рис.: Накрывающее (слева) и ненакрывающее (справа) измерения интервального истинного значения некоторой физической величины. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 42 / 91 Информационное множество Неформально говоря, информационное множество — это множество параметров задачи, которые совместны с данными измерений в рамках выбранной модели их обработки. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 43 / 91 Информационное множество Аналогом «информационного множества» может отчасти служить понятие доверительного интервала оцениваемой случайной величины в традиционной вероятностной статистике. В определение доверительного интервала входит дополнительный параметр — уровень статистической значимости, без которого понятие становится бессодержательным из-за неограниченности носителей большинства вероятностных распределений, но смысл доверительного интервала примерно соответствует «информационному множеству». А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 44 / 91 Информационное множество Далее для обозначения различных информационных множеств мы будем использовать прописную греческую букву 𝛺 («омега»), добавляя к ней при необходимости параметры, обозначающие контекст задачи. Так как информационное множество может быть достаточно произвольным множеством в пространстве параметров и не обязательно является интервалом, интервальным вектором или интервальной матрицей, мы не выделяем его символ жирным шрифтом. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 45 / 91 Принцип соответствия в методологии науки — это утверждение, что любая новая научная теория должна включать старую теорию и её результаты как частный предельный случай. Принцип соответствия Мы будем использовать принцип соответствия, как инструмент проверки «разумности» и адекватности наших конструкций, понятий и методов обработки данных с интервальными неопределённостями, который позволяет отсекать заведомо «неразумные». А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 46 / 91 Выбросы и промахи или промахами в метрологии называются такие измерения, результаты которых не привносят информацию об исследуемом объекте в рамках его принятой модели. Выбросами Другое популярное определение выбросов или промахов состоит в том, что это результаты измерений, которые для данных условий резко отличаются от остальных результатов общей выборки. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 47 / 91 Выбросы и промахи Что считать выбросом (промахом) в случае интервальных результатов измерений? Прежде всего, не стоит связывать выбросы со свойством измерений быть накрывающими или ненакрывающими. Более точно, из того, что интервальное измерение не является накрывающим, не следует, что оно представляет выброс или промах. Отождествление выбросов (промахов) со свойством ненакрывания противоречит принципу соответствия, сформулированному в предыдущем параграфе. В самом деле, при стремлении ширины интервальных измерений к нулю они переходят в точечные измерения, которые, как правило, всегда ненакрывающие. Тем не менее, различение для них выбросов (промахов) от этого не исчезает. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 48 / 91 Измерение физической величины Измерение физической величины (константы). Физическая величина взята в качестве примера. Данные могут быть любой природы: из наук о Земле, биологии, науках об обществе, экономики, etc. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 49 / 91 Измерение физической величины — пример. Проведём рассмотрение обработки данных физического эксперимента по измерению константы. В качестве источника данных будем использовать публикацию [2], представляющую результаты измерения циркулярной поляризации гамма-кванта в реакции захвата поляризованного нейтрона протоном. Приведём часть данных таблицы 1 из публикации [2]. В таблице 1 основные данные измерения содержатся в столбцах Peak — средние значения и std Peak — оценки ошибки. В столбцах BG и std BG приведены данные, которые можно использовать для коррекции систематических ошибок. В первом столбце дан условный номер эксперимента. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 50 / 91 Исходные данные. Величина 𝛿 × 10 . 5 std Номер замера Peak 1 -4.4 2.7 Peak 2 -3.4 3 -6.9 4 -1.2 BG std BG 4.2 6.7 1.9 -3.2 4.8 2.4 12.1 9 2.4 12.4 7.2 5 -1.0 2.7 9.4 5.1 6 -10.8 3.5 1 12.4 7 -10.2 2.8 -0.6 6.1 8 -6.3 2 3.9 4.3 9 -10.4 4.1 10.3 10 10 0.6 3.4 -4.8 10.6 11 -1.8 2 4.6 4.2 12 -6.6 2.1 -5.7 4.6 13 -4.9 2.1 13 3 14 -6.0 2.4 8.4 4.6 15 -4.0 2.7 10.6 5.5 Таблица: Данные таблицы 1 для величины А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 𝛿 × 105 [2]. 21.09.2021 51 / 91 Представление данных. В первую очередь представим данные таким образом, чтобы применить понятия статистики данных с интервальной неопределённостью. Согласно терминологии интервального анализа, рассматриваемая выборка — это вектор интервалов, или интервальный вектор x = (x 1 , x 2 , . . . , x n ). Для того, чтобы придать данным таблицы 1 необходимую форму, примем, что в качестве элементов x будут выступать данные mid x k = Peak(k), radx k = std Peak(k), k = 1, 2, . . . , 15. Для наглядного представления выборки часто рисуют образующие её интервалы в виде графика, изображённого на Рис. 10, который по статистической традиции мы будем называть диаграммой рассеяния. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 52 / 91 Диаграмма рассеяния интервальных измерений. Рис.: Диаграмма рассеяния интервальных измерений [2]. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 53 / 91 Диаграмма рассеяния интервальных измерений. Из таблицы 1 и Рис. 10 видно, что элементы выборки неравноширинные, поскольку величина неопределённости radx k меняется в зависимости от измерения выборки, k = 1, . . . , n. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 54 / 91 Информационное множество. Информационным множеством в случае оценивания единичной физической величины по выборке интервальных данных будет также интервал, который называют информационным интервалом. Неформально говоря, это интервал, содержащий значения оцениваемой величины, которые «совместны» с измерениями выборки («согласуются» с данными этих измерений). Конкретный смысл, вкладываемый в понятия «совместные» или «согласующиеся», будет различен для разных ситуаций. В частности, он зависит от того, является ли выборка интервальных данных накрывающей или нет. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 55 / 91 Совместность выборки Важным внутренним свойством интервальной выборки, характеризующим согласование её данных между собой, является понятие совместности. Definition Выборка { x k }nk=1 называется совместной, если пересечение всех интервалов составляющих её измерений непусто, т. е. ⋂︁ x k ̸= ∅. 1≤k≤n В противном случае, если пересечение всех интервалов x k , k = 1, . . . , n, является пустым, то выборка называется несовместной. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 56 / 91 Совместность выборки Свойство совместности характеризует саму выборку и, строго говоря, не связано напрямую с её свойством быть накрывающей выборкой, т. е. с включением ею истинного значения измеряемой величины. Выборка может быть совместной, но ненакрывающей. Но если выборка накрывающая, то она обязана быть совместной. Эквивалентная формулировка этого свойства: если выборка несовместна, то она и ненакрывающая. Основываясь на этих соображениях, в практической обработке результатов измерений трудный анализ накрытия выборкой истинного значения часто заменяют анализом её совместности, так как это удобнее и нагляднее (хотя и не вполне строго). А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 57 / 91 Совместность выборки Если обрабатываемая выборка несовместна, то это может вызываться следующими причинами: (а) неверно заданным значением неопределённости измерений radx k для каких-то k ∈ {1, 2, . . . , n}, которое занижено в сравнении с фактическим значением неопределённости; (б) наличием в этой выборке выбросов (промахов), т. е. сбойных измерений; (в) невыполнением условий на измеряемую физическую величину (её непостоянство и т. п.). А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 58 / 91 Обработка накрывающей выборки Если истинное значение величины содержится во всех интервалах измерений выборки { x k }nk=1 , то оно должно принадлежать также пересечению этих интервалов. Следовательно, уточнённым интервалом принадлежности истинного значения можно взять ⋂︁ I = xk. (12) 1≤k≤n Это и будет информационный интервал I оценки измеряемой физической величины (см. Рис. 8). Явные выражения для его левой (нижней) и правой (верхней) границ даются следующими формулами: I = max k=1,...,n А.Н. Баженов (СПбПУ) xk, I = Тема X-1. Интервальная статистика min k=1,...,n (13) xk. 21.09.2021 59 / 91 Обработка накрывающей выборки x xN x1  I rad I  mid I  xk x̌ ... ... номер измерения 1 ... k ... N Рис.: Обработка накрывающей выборки интервальных измерений величины. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 60 / 91 Предел совместности выборки В силу сделанного допущения о том, что выборка накрывает истинное значение величины, имеем I ≤ I . При этом интересен предельный случай совместной выборки, когда I = I = x *. Тогда выборка совместна, но мы, образно говоря, находимся на пределе её совместности, и информационный интервал I вырождается при этом в точку. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 61 / 91 Уточнение априрным интервалом Если известен некоторый априорный интервал возможных значений оцениваемой физической величины I апр = [I апр , I апр ], который должен гарантированно содержать её, то границы результирующего интервала (12) могут быть уточнены пересечением I =I ∩ (14) I апр . Отметим, что априорный интервал I апр может задавать одностороннее ограничение, если он имеет вид [I апр , +∞] или [−∞, I апр ], т. е. является полубесконечным интервалом из арифметики Кахана. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 62 / 91 Центральная оценка На практике часто необходимо работать не с интервалами интересующей нас величины — (12) или (14), а с некоторой точечной оценкой x̌ . Все точки информационного интервала вполне равноценны друг другу, так что эту точечную оценку x̌ можно выбирать достаточно произвольно (см. Рис. 8). Тем не менее, имеет смысл взять из интервала некоторое точечное значение, которое представляет его наилучшим образом. В качестве такой величины можно использовать, к примеру, его центральную оценку xc , (︀ )︀ xc = mid I = 12 I + I . (15) Напомним, что середина интервала обладает определённой оптимальностью, являясь точкой, которая наименее удалёна от других точек этого интервала. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 63 / 91 Обработка ненакрывающей выборки Если выборка — ненакрывающая, так что некоторые из её измерений не содержат истинного значения измеряемой величины, то приведённые в предыдущем параграфе рассуждения и приёмы частично теряют свой смысл. Поскольку кроме информации, представленной выборкой, в нашем распоряжении ничего нет, то следует бережно отнестись ко всем измерениям и считать, что каждое из них несёт существенную информацию об измеряемой величине, которая не должна быть потеряна. Уточнение пересечением здесь уже неуместно, и информационное множество для истинного значения величины имеет смысл взять в виде объединения всех интервалов выборки, т. е. как ⋃︁ xk. (16) 1≤k≤n А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 64 / 91 Обработка ненакрывающей выборки Это множество может не быть единым интервалом на вещественной оси (подобное часто случается, к примеру, если выборка несовместна). Разумно тогда воспользоваться вместо объединения обобщающей его операцией «∨» (см. (3)), т. е. взятием максимума по включению, и вместо (16) взять информационный интервал в виде ]︁ [︁ ⋁︁ (17) J = xk = min x k , max x k . 1≤k≤n 1≤k≤n 1≤k≤n Точечной оценкой измеряемой величины может служить середина полученного интервала, т. е. (︁ )︁ xc = mid J = 12 min x k + max x k . (18) 1≤k≤n А.Н. Баженов (СПбПУ) 1≤k≤n Тема X-1. Интервальная статистика 21.09.2021 65 / 91 Обработка ненакрывающей выборки x    rad J    mid J  J x1 xn x* xk ... ... номер измерения 1 ... k ... n Рис.: Обработка ненакрывающей выборки интервальных измерений величины. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 66 / 91 Уточнение априорным интервалом Как и ранее, нам может быть известен некоторый априорный интервал возможных значений оцениваемой физической величины J апр = [J апр , J апр ], который должен гарантированно содержать её. Его могут задавать внешние физические (химические, биологические, экономические и т. п.) условия или ограничения. Тогда границы результирующего интервала (17) могут быть уточнены пересечением J = J ∩ J апр . (19) В данной ситуации это уточнение имеет даже бо́льший смысл, чем в случае накрывающей выборки. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 67 / 91 Взятие минимума по включению Другой возможный сценарий обработки данных ненакрывающей выборки может состоять в том, что вместо пересечения интервальных измерений мы используем обобщающую её операцию «∧», т. е. взятие минимума всех интервальных результатов измерений относительно упорядочения по включению: ]︁ [︁ ⋀︁ (20) I = xk = max x k , min x k . 1≤k≤n 1≤k≤n 1≤k≤n Здесь по существу требуется использование полной интервальной арифметики Каухера, так как интервал (20) может оказаться неправильным. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 68 / 91 Точечная оценка ненакрывающей выборки Соответственно, точечной оценкой измеряемой величины целесообразно взять (︁ )︁ xc = mid I = 21 max x k + min x k , 1≤k≤n (21) 1≤k≤n т. е. середину интервала, который получается как минимум по включению всех интервалов выборки (см. (3)). Если выборка совместна, то (21) совпадает с (15). Если же выборка несовместна, то результатом (20) является неправильный интервал I , radI < 0. Соответственно, информационное множество результатов измерений по обрабатываемой выборке пусто. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 69 / 91 Оптимальность точечной оценки Но даже когда интервал (20) неправилен, его середина (21) — это точка, обладающая определёнными условиями оптимальности. Она первой появляется в непустом пересечении интервалов выборки, если мы станем равномерно уширять их, увеличивая неопределённость измерений. В самом деле, пусть радиусы всех интервалов выборки увеличились на s , s ≥ 0, тогда как середины остались неизменными. Вместо радиусов radx k мы получили radx k + s , k = 1, 2, . . . , n. Кроме того, все нижние концы интервальных измерений стали теперь x k − s , а верхние концы — x k + s , k = 1, 2, . . . , n . Как следствие, max1≤k≤n x k уменьшается на s , а min1≤k≤n x k увеличивается на s , а радиус получающегося интервала (20) теперь равен radI + s . А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 70 / 91 Оптимальность точечной оценки Как следствие, max1≤k≤n x k уменьшается на s , а min1≤k≤n x k увеличивается на s , а радиус получающегося интервала (20) теперь равен radI + s . Поэтому, если взять s таким, чтобы s ≥ |radI |, то получившийся интервал станет правильным, и точка xc будет лежать в нём. Можно также сказать, что в точке (21) минимизируется равномерное уширение интервалов данных рассматриваемой выборки, необходимое для достижения её совместности. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 71 / 91 «Средняя» оценка ненакрывающей выборки Наконец, если выборка интервальных измерений — ненакрывающая, то иногда имеет смысл взять среднее арифметическое образующих её интервалов, т. е. n 1 ∑︁ K = xk. n k=1 Его середина может служить точечной оценкой измеряемой величины. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 72 / 91 Принцип соответствия Нетрудно убедиться в том, что все три рассмотренных выше приёма обработки ненакрывающей выборки при стремлении ширины интервальных данных к нулю переходят в осмысленные методы оценивания физической величины по точечным данным. В частности, она полагается равной среднему арифметическому измерений выборки в третьем случае. То есть, эти методы удовлетворяют «принципу соответствия». А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 73 / 91 Пример выборки данных [2]. Рис.: Диаграмма рассеяния интервальных измерений [2]. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 74 / 91 Пример данных [2]. Информация, представленная выборкой Табл. 1, уникальна, так что следует бережно отнестись ко всем измерениям и считать, что каждое из них несёт существенную информацию об измеряемой величине, которая не должна быть потеряна. Попробуем взять в качестве информационного множества для истинного значения величины объединение всех интервалов выборки, т. е. ⋃︁ I Uni = x k = [−14.5, 4.0]. (22) 1≤k≤n А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 75 / 91 Пример данных [2]. По существу измеряемая величина является константой неизвестного, но определённого знака. Оценка (16) в данном случае имеет разные знаки концов интервалов и противоречит постановке задачи. Можно было бы отбросить элементов выборки, имеющие «неправильный» знак, но это представляется недопустимым произволом. Вместе с тем, середина интервала (16) mid I Uni = −5.25 может быть разумной точечной оценкой, и её будет полезно сравнить с оценками, полученными на основе других подходов. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 76 / 91 Пример данных [2]. Продемонстрируем наглядно, что получается в конкретном случае. Будем представлять теперь данные в несколько ином виде, чем на рисунке 10, откладывая номер измерения по вертикальной шкале. При этом мы будем действовать согласовано с представлением подобных результатов при обработке данных на ресурсе С.И.Жилина [3]. Вычисления проводились в среде Octave в классической интервальной арифметике с использованием стандартной библиотеки interval и полной интервальной арифметики с использованием библиотеки kinterval [4]. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 77 / 91 Пример данных [2]. Рис.: Диаграмма рассеяния интервальных измерений величины, полоса минимума по включению (20) и точечная оценка (21). А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 78 / 91 Пример данных [2]. На Рис. 11 синими вертикальными линиями показаны границы информационного множества, полученные по формуле (20) [︁ ]︁ ⋀︁ I = xk = max x k , min x k = [−2.8, −7.4]. 1≤k≤n 1≤k≤n 1≤k≤n Также вычислим точечную оценку измеряемой величины по формуле (21) (︁ )︁ xc = mid I = 12 max x k + min x k = −5.1. 1≤k≤n 1≤k≤n На Рис. 11 эта величина показана вертикальной линией цветом magenda. Интервал I — неправильный. Cмысл значения xc прояснён в комментарии после формулы (21) как точки, которая первой появляется в непустом пересечении интервалов выборки, если мы станем равномерно уширять их. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 79 / 91 Пример данных [2]. Наконец, если выборка интервальных измерений — ненакрывающая, то иногда имеет смысл взять среднее арифметическое образующих её интервалов, т. е. K = n 1 ∑︁ x k = [−7.77, −2.54]. n (23) k=1 Середина этого интервала mid K = −5.15 также может служить точечной оценкой измеряемой величины. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 80 / 91 Вариабельность оценки — радиус Рассмотрим теперь характеристики разброса оценок физической величины, полученных по интервальной выборке. Её наиболее естественной мерой, если информационный интервал непуст, является его радиус 𝜚, т. е. (︀ )︀ 𝜚 = radI = 12 I − I . Фактически, это максимальное отклонение границ информационного интервала от центральной оценки. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 81 / 91 Вариабельность оценки — отклонения При анализе данных имеет также смысл знать отклонения точечных или интервальных измерений выборки от итоговой точечной оценки. Они дают возможность судить о степени разброса измерений относительно полученной оценки, что помогает при анализе «качества» выборки и выявлении выбросов. Отклонения ∆k для первичных интервальных измерений рассчитываются как ∆k = dist (x k , xc ), А.Н. Баженов (СПбПУ) k = 1, . . . , n. Тема X-1. Интервальная статистика (24) 21.09.2021 82 / 91 Вариабельность оценки В некоторых случаях имеет смысл отсчитывать отклонения от базовых точечных измерений, вокруг которых строятся далее интервальные результаты, т. е. рассматривать в качестве отклонений результатов отдельных измерений величины ∆k = |x̊k − xc |, k = 1, . . . , n. (25) Норма вектора ∆ = (∆1 , . . . , ∆n ) может служить аналогом выборочной дисперсии оценки из традиционной вероятностной статистики. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 83 / 91 Приём варьирования неопределённости Выше мы видели, что величина реальной неопределённости измерения, т. е. радиуса интервала измерения, определяется непросто и подчас неоднозначно. С другой стороны, он сильно влияет на свойства как отдельного измерения, так и выборки интервальных измерений. Совместность выборки и свойство накрытия истинного значения существенно зависят от правильно назначенной величины неопределённости — радиуса интервальных измерений. Наконец, если некоторое ∆ является величиной неопределённости интервального измерения или выборки, то и любое ∆′ , удовлетворяющее ∆′ ≥ ∆, также может служить величиной неопределённости. Сказанное выше приводит к мысли о том, что при обработке интервальных данных величиной неопределённости можно управлять, виртуально варьируя её, с целью исследования интервальных измерений, их выборок и построения оценок с нужными свойствами. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 84 / 91 Приём варьирования неопределённости Если выборка интервальных измерений несовместна, то, увеличивая одновременно величину неопределённости всех измерений, мы всегда сможем добиться того, чтобы выборка сделалась совместной, т. е. чтобы пересечение интервалов стало непустым, а интервал минимума по включению (20) — правильным. Кроме того, точка (или точки), которая первой появляется в непустом пересечении интервалов при расширении интервальных измерений, и тем самым требует наименьшего увеличения неопределённости измерений для достижения совместности выборки, является «наименее несовместной». Её разумно брать в качестве оценки величины (или оценки параметров зависимости). А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 85 / 91 Приём варьирования неопределённости В конкретной ситуации данных [2], измерения выборки являются существенно неравноширинными. Одновременное изменение величины неопределённости для всех измерений на одно и то же значение может оказаться неразумным. Пусть задан некоторый положительный весовой вектор w = (w1 , w2 , . . . , wn ), wk > 0, размерность которого равна длине исследуемой выборки, причём изменение величины неопределённости k -го измерения — radx k , должно быть пропорциональным wk , т. е. для любых k и l справедливо wk изменение radx k = . изменение radx l wl А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 86 / 91 Приём варьирования неопределённости Идея варьирования величины неопределённости интервальных измерений оформилась в 80-е годы XX века (Н.М. Оскорбин [5] и др.), и далее неоднократно переоткрывалась различными исследователями. Применительно к данным таблицы 1, применение методики приведено на Рис. 12. Красным цветом даны исходные данные таблицы 1, а чёрным цветом — «расширенные» интервалы данных при выбранном коэффициенте расширения. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 87 / 91 Приём варьирования неопределённости Рис.: Графическое представление интервальных данных и результаты обработки по методике [5]. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 88 / 91 Приём варьирования неопределённости Вычисления проведены по методике [5] и с использованием кода С.И.Жилина [3]. При этом решается задача линейного программирования, в ходе которой вычисляются 2 параметра: оптимальное положение «центра неопределенности» oskorbin_center и коэффициент расширения радиусов замеров. xMM = oskorbin_center = −5.30, k = 1.75. Здесь в индексе xMM , MM соответствует Minimal Module, функции оптимизации задачи линейного программирования. Информационное множество представляет точку ⋂︁ I MM = xk = xMM . 1≤k≤n А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 89 / 91 Приём варьирования неопределённости Содержательным результатом вычислений является уточнение положения наиболее вероятной точечной оценки физической величины [2] и вычисление дополнительной погрешности для каждого элемента выборки, необходимой для достижения совместности данных. Следует заметить, что значение xMM , полученное варьированием неопределённости, ненамного отличается от полученных ранее оценок. Это свидетельствует в пользу того, что выборка данных таблицы 1 не обладает какими-то патологическими свойствами. При этом для данных требуется увеличение неопределённости. Таким образом, можно говорить о наличии систематических погрешностей. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 90 / 91 Литература А.Н. Баженов, С.И. Жилин, С.И. Кумков, С.П. Шарый. Обработка и анализ данных с интервальной неопределённостью. РХД. Cерия «Интервальный анализ и его приложени». Ижевск. 2021. с.200. V.M.Lobashev et al, Circular polarization of 𝛾 -quanta in the np → d𝛾 reactions with polarized neutrons. Physics Letters B, Volume 289, Issues 1–2, 3 September 1992, Pages 17-21. Примеры анализа интервальных данных в Octave https://github.com/szhilin/octave-interval-examples С.И.Жилин. Библиотека полной интервальной арифметики kinterval в среде Octave. Частное сообщение. С.И.Жилин. Некоторые задачи обработки информации в управляемых системах // Cинтез и проектирование многоуровневых иерархических систем. Материалы конференции. – Барнаул: Алтайский государственный университет, 1983. Оскорбин Н.М. А.Н. Баженов (СПбПУ) Тема X-1. Интервальная статистика 21.09.2021 91 / 91 Тема X2. Обработка и анализ данных с интервальной неопределённостью. А.Н. Баженов Санкт-Петербургский политехнический университет Петра Великого a_bazhenov@inbox.ru 28.09.2021 А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 1 / 91 Интервальная статистика Обработка и анализ данных с интервальной неопределённостью. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 2 / 91 ПЛАН ПЛАН Общие понятия Обработка константы Задача восстановления зависимостей Теория: А.Н. Баженов, С.И. Жилин, С.И. Кумков, С.П. Шарый. Обработка и анализ данных с интервальной неопределённостью. РХД. Cерия «Интервальный анализ и его приложени». Ижевск. 2021. с.200. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 3 / 91 ПЛАН Задача восстановления зависимостей. Часть 1. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 4 / 91 Задача восстановления зависимостей Даются определения новых терминов и понятий, которые возникают в связи с восстановлением функциональных зависимостей по данным их измерений и наблюдений, имеющих интервальную неопределённость. Мы рассмотрим основные идеи и типичные приёмы восстановления зависимостей по интервальным данным, а также возникающие при этом проблемы. Подробно исследуется случай простейшей линейной зависимости, но большинство построений и рассуждений легко переносятся на общий нелинейный случай. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 5 / 91 Постановка задачи Предположим, что величина y является функцией некоторого заданного вида от независимых аргументов x , x , . . . , xm , т. е. 1 2 (1) y = f (x, 𝛽), где x = (x , . . . , xm ) — вектор независимых переменных, 𝛽 = (𝛽 , . . . , 𝛽l ) — вектор параметров функции. Имея набор значений переменных x и y , нам нужно найти 𝛽 , . . . , 𝛽l , которые соответствуют конкретной функции f из параметрического семейства (1). Мы будем называть эту задачу . 1 1 1 задачей восстановления зависимости А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 6 / 91 Постановка задачи Важнейший частный случай поставленной задачи — определение параметров линейной функциональной зависимости вида (2) y = 𝛽0 + 𝛽1 x1 + 𝛽2 x2 + . . . + 𝛽m xm , в которой x , x , . . . , xm — независимые переменные (которые называются также , или просто переменными), y — это зависимая переменная (которая называется также , или переменной), а 𝛽 , 𝛽 , . . . , 𝛽m — некоторые коэффициенты. Эти неизвестные коэффициенты должны быть определены из ряда измерений значений x , x , . . . , xm и y . 1 2 экзогенными эндогенной предикторными критериальной входными выходной 1 1 А.Н. Баженов (СПбПУ) 2 Тема X2. Интервальная статистика 28.09.2021 7 / 91 Постановка задачи Результаты измерений неточны, и мы предполагаем что они имеют , когда нам известны лишь некоторые интервалы, дающие двусторонние границы измеренных значений. Таким образом, результатом i -го измерения являются такие интервалы (i) (i) x , x (i), . . . , x (i) m , y , относительно которых мы предполагаем, что истинное значение x лежит в пределах x (i), истинное значение x лежит в x (i) и т. д. вплоть до y , истинное значение которого находится в интервале y (i). В целом имеется n измерений, так что индекс i может принимать значения из множества натуральных чисел {1, 2, . . . , n}. ограниченную неопределённость 1 2 1 1 2 2 А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 8 / 91 Постановка задачи Далее для удобства построений и выкладок обозначим номер измерения i не верхним, а нижним индексом, который мы поставим первым при обозначении входов. Таким образом, полный набор данных будет иметь вид x 11 , x 12 , y 1, x 22 , ... ... x 1m , x 21 , ... x 2m , y 2, x n1 , x n2 , ... x nm , y n. ... ... ... (3) ... Нам необходимо найти или как-то оценить коэффициенты 𝛽j , j = 0, 1, . . . , m, для которых линейная функция (2) «наилучшим образом» приближала бы интервальные данные измерений (3). А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 9 / 91 Постановка задачи Для обозначения n × m-матрицы, составленной из данных (3) для независимых переменных часто используют термины или просто , которые возникли в теории планирования эксперимента . Интервалы x i , x i , . . . , x im , y i мы называем, как и раньше, i . Но кроме них нам также потребуется обращаться ко всему множеству, ограничиваемому в многомерном пространстве Rm+ этими интервалами по отдельным координатным осям. матрица плана эксперимента матрица плана 1 2 интервалами неопределённости -го измерения 1 А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 10 / 91 Брус неопределённости Definition -го измерения рассматриваемой зависимости будем называть интервальный вектор-брус (x i , x i , . . . , x im , y i ) ⊂ Rm+ , i = 1, 2, . . . , n. Брусом неопределённости 1 2 i 1 Таким образом, каждый брус неопределённости измерения зависимости является прямым декартовым произведением интервалов неопределённости независимых переменных и зависимой переменной. На Рис. 1 на плоскости 0xy наглядно показаны брусы неопределённости измерений и график линейной функции, которую мы восстанавливаем. Далее мы рассматриваем данные (3) как «спущенные свыше» и никак не обсуждаем их выбор, коррекцию или оптимизацию. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 11 / 91 Пример y x Рис.: Наглядная иллюстрация задачи восстановления линейной зависимости по данным с интервальной неопределённостью. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 12 / 91 Накрывающие и ненакрывающие брусы Definition Будем называть брус неопределённости измерения зависимости , если он гарантированно содержит истинные значения измеряемых величин входных и выходных переменных зависимости. Брус неопределённости измерения зависимости, который не является накрывающим, будем называть . Возможные альтернативные термины — «включающий брус неопределённости», «охватывающий брус неопределённости» (их отрицание — «невключающий», «неохватывающий»). накрывающим ненакрывающим А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 13 / 91 Диаграммы рассеяния Для визуализации интервальных данных, аналогично традиционному точечному случаю, используют . В традиционном понимании диаграмма рассеяния используется в статистике и анализе данных для визуализации значений двух переменных в виде «облака» точек на декартовой плоскости и позволяет оценить наличие или отсутствие корреляции и других взаимосвязей между двумя переменными. На диаграмме рассеяния для интервальных данных каждое интервальное наблюдение отображается в виде бруса (бруса неопределённости). При отсутствии неопределённости по одной из переменных, брусы наблюдений могут «схлопываться» в одномерные вертикальные или горизонтальные отрезки («ворота»). Примерами диаграмм рассеяния могут служить Рис. 1 и Рис. 3. диаграммы рассеяния А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 14 / 91 Накрывающая и ненакрывающая выборка Definition — совокупность накрывающих измерений, т. е. выборка, в которой все измерения (наблюдения) являются накрывающими. Напротив, выборка называется , если хотя бы одно из входящих в неё измерений — ненакрывающее. Накрывающая выборка ненакрывающей А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 15 / 91 Решение задачи восстановления зависимостей для обычных точечных данных Существует большое количество более или менее стандартных подходов к решению задачи восстановления зависимостей для обычных точечных данных. Наиболее популярные из них — это метод наименьших квадратов, метод наименьших модулей и метод максимальной энтропии. Часто используется чебышёвское (минимаксное) сглаживание. Все эти методы основаны на нахождении глобального (абсолютного) минимума определённым образом подобранной целевой функции. Мы пытаемся найти наиболее набор параметров, который доставляет минимум этому функционалу. Очевидно, что конечный результат будет существенно отличаться в зависимости от формы этого целевого функционала. В любом случае, «идеальным решением» задачи можно считать ту функциональная зависимость вида (если она существует), линия графика которой проходит через все точки данных. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 16 / 91 Что следует считать решением? Что следует считать решением задачи восстановления зависимости по интервальным данным (3)? Очевидно, что функцию, вида (1) или (2), нужно считать точным решением задачи восстановления искомой зависимости, если её график проходит через все брусы неопределённости данных. В случае точечных данных эта идеальная ситуация почти никогда не реализуется и неустойчива к малым возмущениям в данных. Но в случае данных с существенной интервальной неопределённостью прохождение графика функции через брусы данных (3) может реализовываться, и оно устойчиво к возмущениям в данных. Кроме того, дополнительную специфику задаче придаёт то новое обстоятельство, что брусы неопределённости данных (3), в отличие от бесконечно малых и бесструктурных точек, получают структуру и потому нужно различать, как именно проходит график функции через эти брусы. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 17 / 91 Информационное множество В соответствии с терминологией, намеченной для нахождения констант, будем называть задачи восстановления зависимости множество значений параметров зависимости, совместных с данными в каком-то определённом смысле. информационным множеством А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 18 / 91 Информационное множество В традиционном «точечном» случае, когда данные неинтервальны, решение задачи восстановления зависимостей получается по следующей общей схеме. Мы подставляем данные в формулу для зависимости (2) и получаем для каждого отдельного измерения одно уравнение. В целом в результате этой процедуры возникает система уравнений, решив которую, в обычном или обобщённом смысле, мы найдём параметры зависимости. В интервальном случае, действуя аналогичным образом, мы получим уже интервальную систему уравнений, которую также можно решать. Её решением, обычным или в некотором обобщённом смысле, будет вектор оценки параметров восстанавливаемой зависимости (2). Информационное множество задачи получается при этом как множество решений этой интервальной системы уравнений, построенной на основе формулы (2) и данных (3). А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 19 / 91 Коридор совместных зависимостей Определение параметров функциональной зависимости производится, как правило, для того, чтобы затем найденную формулу использовать для предсказания значений зависимости в других интересующих нас точках её области определения. Ясно, что такое предсказание будет осуществляться с некоторой погрешностью, вызванной неопределённостями данных, неоднозначностью самой процедуры восстановления и т. п. Эту неопределённость предсказания также необходимо знать и учитывать в нашей деятельности. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 20 / 91 Коридор совместных зависимостей и его сечение y x* x Рис.: Коридор совместных зависимостей и его сечение для какого-то значения аргумента А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика x *. 28.09.2021 21 / 91 Коридор совместных зависимостей Если информационное множество задачи восстановления зависимостей непусто, то обычно оно задаёт целое семейство зависимостей, совместных с данными задачи, которое имеет смысл рассматривать вместе, как единое целое. Это необходимо делать в вопросах, касающихся оценивания неопределённости предсказания, учёта всех возможных сценариев развития и т. п. Как следствие, возникает необходимость рассматривать вместе, единым целым, множество всех функций, совместных с интервальными данными задачи восстановления зависимости. Мы будем будем называть его (см. Рис. 2). коридором совместных зависимостей А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 22 / 91 Многозначные отображения В литературе использовались также другие термины для обозначения этого объекта — «трубка» совместных зависимостей (имеет происхождение в теории управления), «полоса» или даже «слой неопределённости», «коридор неопределённости» и т. п. Строгое определение коридора совместных зависимостей может быть дано на основе математического понятия многозначного отображения. Напомним, что для произвольных множеств X и Y F из X в Y называется соответствие (правило), сопоставляющее каждой точке x ∈ X непустое подмножество F (x) ⊂ Y , называемое или x. многозначным отображением значением А.Н. Баженов (СПбПУ) образом Тема X2. Интервальная статистика 28.09.2021 23 / 91 Коридор совместных зависимостей Definition Пусть в задаче восстановления зависимостей информационное множество 𝛺 параметров зависимостей y = f (x, 𝛽), совместных с данными, является непустым. рассматриваемой задачи называется многозначное отображение 𝛶 , сопоставляющее каждому значению аргумента x множество Коридором совместных зависимостей 𝛶 (x) = ⋃︁ f (x, 𝛽). 𝛽∈𝛺 А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 24 / 91 Сечение коридора совместных зависимостей Значение 𝛶 (x̃) коридора совместных зависимостей при каком-то определённом аргументе x̃ («сечение коридора») — это множество ∪𝛽∈𝛺 f (x̃, 𝛽), образованное всевозможными значениями, которые принимают на этом аргументе функциональные зависимости, совместные с интервальными данными измерений. Рис. 2 изображает коридор совместных зависимостей в задаче восстановления нелинейной зависимости, но для рассматриваемого нами линейного случая коридор совместных значений имеет существенно более специальный вид . Нетрудно показать, что границы коридора совместных зависимостей в этом случае являются . кусочно-линейными А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 25 / 91 Случай точных измерений входных переменных Важнейшим и часто встречающимся частным случаем рассмотренной задачи является ситуация, когда независимые (экзогенные, предикторные, входные) переменные x , x , . . . , xm измеряются точно, и вместо телесных брусов неопределённости измерений (как на Рис. 1) мы имеем отрезки прямых (xi , xi , . . . , xim , y i ), i = 1, 2, . . . , n, параллельные оси зависимой (эндогенной, критериальной, выходной) переменной (см. Рис. 3). Именно такая постановка задачи была рассмотрена в пионерской работе Л.В. Канторовича. 1 1 А.Н. Баженов (СПбПУ) 2 2 Тема X2. Интервальная статистика 28.09.2021 26 / 91 Случай точных измерений входных переменных y x Рис.: Частный случай задачи восстановления линейной зависимости по неточным данным, когда входные переменные измеряются точно. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 27 / 91 Постановка задачи Отсутствие неопределённости значений независимых переменных приводит к кардинальному упрощению математической модели. Брусы неопределённости измерений зависимости, введённые ранее, схлопываясь по независимым переменным, превращаются в . Как следствие, для решения и полного исследования этого частного случая предложено большое количество эффективных вычислительных методов. Рассмотрим эти математические вопросы более детально. отрезки неопределённости А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 28 / 91 Совместность зависимости с данными Линейная зависимость (2) (согласуется) с интервальными данными измерений, если её график проходит через все отрезки неопределённости, задаваемые интервалами измерений выходной переменной y , как это изображено на Рис. 3). Подобное понимание совместности (согласования) является прямым обобщением того понимания «совместности», которое традиционно для неинтервального случая и используется, к примеру в постановке задачи интерполяции. совместна А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 29 / 91 Совместность зависимости с данными Подставляя в зависимость (2) данные для входных переменных x , x , . . . , xm в i -ом измерении и требуя включения полученного значения в интервалы y i , получим 𝛽 + 𝛽 xi + 𝛽 xi + . . . + 𝛽m xim ∈ y i , i = 1, 2, . . . , n. (4) Фактически, это интервальная система линейных алгебраических уравнений 1 1 1 2 2 ⎧ 𝛽0 + x11 𝛽1 + x12 𝛽2 + . . . + x1m 𝛽m = ⎪ ⎪ ⎪ ⎪ ⎨ 𝛽0 + x21 𝛽1 + x22 𝛽2 + . . . + x2m 𝛽m = ⎪ ⎪ ⎪ ⎪ ⎩ ... 2 ... ... ... ... 𝛽0 + xn1 𝛽1 + xn2 𝛽2 + . . . + xnm 𝛽m = y 1, y 2, ... y n, у которой интервальность присутствует только в правой части. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 30 / 91 Совместность зависимости с данными С другой стороны, (4) равносильно системе ⎧ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎩ y y 1 ≤ 𝛽0 + 𝛽1 x11 + 𝛽2 x12 + . . . + 𝛽m x1m ≤ y 1, ≤ 𝛽0 + 𝛽1 x21 + 𝛽2 x22 + . . . + 𝛽m x2m ≤ y 2, ≤ 𝛽0 + 𝛽1 xn1 + 𝛽2 xn2 + . . . + 𝛽m xnm ≤ y n. ... ... y 2 n А.Н. Баженов (СПбПУ) ... Тема X2. Интервальная статистика ... ... 28.09.2021 (5) 31 / 91 Система двусторонних линейных неравенств Это система двусторонних линейных неравенств относительно неизвестных параметров 𝛽 , 𝛽 , 𝛽 , . . . , 𝛽m , решив которую, мы можем найти искомую линейную зависимость. Множество решений системы неравенств (5) естественно считать информационным множеством параметров восстанавливаемой зависимости для рассматриваемого случая. Для i -го двустороннего неравенства из системы (5) множество решений — это полоса в пространстве Rm+ параметров (𝛽 , 𝛽 , . . . , 𝛽m ), ограниченная с двух сторон гиперплоскостями с уравнениями 1 2 1 1 𝛽0 + 𝛽1 xi 1 + 𝛽2 xi 2 + . . . + 𝛽m xim = y i , 𝛽0 + 𝛽1 xi 1 + 𝛽2 xi 2 + . . . + 𝛽m xim = y i . А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 32 / 91 Система двусторонних линейных неравенств Множество решений системы неравенств (5) является пересечением n штук таких полос, отвечающих отдельным измерениям. Можно рассматривать эти полосы как информационные множества отдельных измерений. На Рис. 4 изображено формирование множества решений системы неравенств (5) для случая двух параметров (т. е. m = 1) и n = 3. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 33 / 91 Образование информационного множества параметров 𝛽1 𝛽0 Рис.: Образование информационного множества параметров линейной зависимости (ограничено красной линией) для случая точных входных переменных. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 34 / 91 Информационное множество — трудоёмкость распознавания В целом множество решений системы линейных алгебраических неравенств (5) является Rm+ . Распознавание того, пусто оно или непусто, а также нахождение какой-либо точки из него, являются задачами, сложность которых ограничена полиномом от их размера. Существуют эффективные и хорошо разработанные вычислительные методы для решения этих вопросов и для нахождения оценок множества решений, например, основанные на сведении рассматриваемой задачи к задаче линейного программирования. выпуклым многогранным множеством в пространстве А.Н. Баженов (СПбПУ) 1 Тема X2. Интервальная статистика 28.09.2021 35 / 91 Информационное множество — трудоёмкость распознавания В общем случае, когда входные (экзогенные, предикторные) переменные известны неточно, ситуация существенно усложняется и множество параметров, совместных (согласующихся) с интервальными данными не может быть описано так же просто, с помощью системы линейных неравенств (5). Трудоёмкость распознавания его пустоты или непустоты также становится экспоненциальной в зависимости от количества переменных [2]. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 36 / 91 Пример Случай точных измерений входных переменных А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 37 / 91 Общий случай задачи восстановления зависимостей Рассмотрим теперь случай, когда неопределённость присутствует как в измерениях значений зависимой переменной, так и в измерениях значений аргументов. Это может быть вызвано различными причинами. Например, существенно неточное измерение входных переменных происходит в ситуациях, когда они должны устанавливаться в течение значительного времени. Тогда их уместно выразить какими-то интервалами, а не точечными значениями. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 38 / 91 Пример y x Рис.: Наглядная иллюстрация задачи восстановления линейной зависимости по данным с интервальной неопределённостью. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 39 / 91 Пример https://github.com/szhilin/octave-interval-examples/blob/ master/SteamGenerator.ipynb. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 40 / 91 Общий случай задачи восстановления зависимостей Если выборка измерений независимых переменных и зависимой переменной — накрывающая, то 𝛽 + 𝛽 xi + 𝛽 xi + . . . + 𝛽m xim ∈ y i , i = 1, 2, . . . , n, где все xi могут принимать значения из соответствующих интервалов x i , i = 1, 2, . . . , n, j = 1, 2, . . . , m. Как следствие, получаем интервальную систему линейных алгебраических уравнений 1 1 2 2 1 1 ⎧ 𝛽0 + ⎪ ⎪ ⎪ ⎪ ⎨ 𝛽0 + ⎪ ⎪ ⎪ ⎪ ⎩ ... 𝛽0 + А.Н. Баженов (СПбПУ) x 11 𝛽1 + x 12 𝛽2 + ... + x 1m 𝛽m = y 1, x 21 𝛽1 + x 22 𝛽2 + ... + x 2m 𝛽m = y 2, x n1 𝛽1 + x n 2 𝛽2 + ... + x nm 𝛽m = y n. ... ... ... ... Тема X2. Интервальная статистика ... 28.09.2021 (6) 41 / 91 Общий случай задачи восстановления зависимостей Это формальная запись, означающая совокупность обычных (точечных) систем линейных алгебраических уравнений того же размера и с теми же неизвестными переменными, у которых коэффициенты и правые части лежат в предписанных им интервалах (см. [2]). Восстановление параметров линейной зависимости можно рассматривать как «решение», в том или ином смысле, выписанной интервальной системы уравнений. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 42 / 91 Общий случай задачи восстановления зависимостей В случае присутствия погрешностей как в измерениях аргумента, так и в измерениях зависимости множество параметров зависимостей, совместных (согласующихся) с данными, характеризуются новыми свойствами, которыми не обладают задачи с точными измерениями входных переменных. Прежде всего, множества решений отдельных интервальных уравнений уже Rn , вроде тех, что изображены на Рис. 4. Они выглядят существенно иначе, и их конкретный вид зависит от того, какой смысл вкладывается в понятие совместности (согласования) параметров и данных, т. е. от того, не являются полосами в пространстве какое множество решений ИСЛАУ взято в качестве информационного множества (см. Рис. 6). А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 43 / 91 Пример 8 6 4 𝛽2 2 -2 -4 4 8 12 16 𝛽1 Рис.: Объединённое множество решений интервального линейного уравнения [1, 2]𝛽1 А.Н. Баженов (СПбПУ) + [2, 3]𝛽2 = [10, 12]. Тема X2. Интервальная статистика 28.09.2021 44 / 91 Общий случай задачи восстановления зависимостей Cамо понятие согласования (совместности) параметров и данных должно быть расширено и переосмыслено. В обычном неинтервальном случае результаты измерений — это бесконечно малые точки, и прохождение через них графика функциональной зависимости адекватно описывается двумя значениями — «да» или «нет», т. е. имеет булевский (логический) тип данных. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 45 / 91 Общий случай задачи восстановления зависимостей Если мы переходим от точек к брусам неопределённости, то прохождение графика зависимости через них можно понимать по-разному. Брусы неопределённости измерений являются прямыми декартовыми произведениями интервалов по различным осям координат, и эти оси имеют разный смысл: интервалы x i , x i , . . . , x im соответствуют входным (экзогенным, предикторным) переменным, а интервал y i соответствует выходной (эндогенной, критериальной) переменной. По этой причине становится важным, как именно проходит график восстанавливаемой зависимости через брусы неопределённости измерений (см. Рис. 7). 1 2 А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 46 / 91 Общий случай задачи восстановления зависимостей y x Рис.: Различные способы пересечения линии с брусом неопределённости измерения зависимости. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 47 / 91 Cлабо совместная зависимость Функциональную зависимость назовём с интервальными данными, если её график проходит через каждый брус неопределённости измерений хотя бы для одного значения аргумента. Наглядно это означает, что график зависимости пересекает брусы неопределённости, но как именно — неважно (средний чертёж на Рис. 7), достаточно лишь одной точки пересечения. достаточно лишь одной точки пересечения. слабо совместной А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 48 / 91 Cлабо совместная зависимость Для случая линейной зависимости это условие наиболее удобно выразить с помощью формального языка логического исчисления предикатов: (∃xi 1 ∈ x i 1 ) · · · (∃xim ∈ x im ))(∃yi ∈ y i ) 𝛽0 + 𝛽1 xi 1 + 𝛽2 xi 2 + . . . + 𝛽m xim ∈ y i , i = , , . . . , n. (∃xi 1 ∈ x i 1 ) · · · (∃xim ∈ x im ) 𝛽0 + 𝛽1 xi 1 + 𝛽2 xi 2 + . . . + 𝛽m xim ∈ y i , i = , , . . . , n. 12 Равносильная упрощённая формулировка этого свойства выглядит следующим образом: А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12 28.09.2021 49 / 91 Cильно совместная зависимость Функциональную зависимость назовём с интервальными данными, если её график проходит через каждый брус неопределённости измерений для любого значения аргумента из интервалов неопределённости входных переменных. Наглядно это означает, что график зависимости целиком содержится в коридорах, задаваемых интервалами выходной переменной при всех значениях входных переменных из соответствующих им интервалов (левый чертёж на Рис. 7). сильно совместной А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 50 / 91 Cильно совместная зависимость Для случая линейной зависимости это условие может быть формально записано в следующем виде: (∀xi 1 ∈ x i 1 ) · · · (∀xim ∈ x im )(∃yi ∈ y i ) 𝛽0 + 𝛽1 xi 1 + 𝛽2 xi 2 + . . . + 𝛽m xim ∈ y i , i = , , . . . , n. (∀xi 1 ∈ x i 1 ) · · · (∀xim ∈ x im ) 𝛽0 + 𝛽1 xi 1 + 𝛽2 xi 2 + . . . + 𝛽m xim ∈ y i , i = , , . . . , n. 12 Равносильная упрощённая формулировка этого свойства выглядит следующим образом: А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12 28.09.2021 51 / 91 Cильно и слабо совместные зависимости y слабо совместная зависимость сильно совместная зависимость x Рис.: Линейные зависимости с разными типами согласования с данными. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 52 / 91 Cильно совместная зависимость В чём содержательный смысл сильной совместности? На практике измерения на входах и выходах системы осуществляются, как правило, разными способами и даже в разное время. Мы измеряем выход (зависимую переменную) уже тогда, когда входные значения (независимых переменных) зафиксированы, и мы их измерили. Получив при этом какие-то интервалы. Сильная совместность функциональной зависимости с интервальными данными означает тогда, что выходная величина остаётся в пределах измеренного для неё интервала вне зависимости от того, какими конкретно в своих интервалах являются значения входных переменных. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 53 / 91 Cильно совместная зависимость y x Рис.: Сложный случай восстановления зависимости по широким перекрывающимся интервальным данным. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 54 / 91 Множества решений Если матрица системы (6) уравнений — точечная, т. е. коэффициенты при неизвестных 𝛽i являются обычными вещественными числами, то объединённое множество решений в целом является выпуклым. Но в общем случае, когда матрица интервальной системы линейных алгебраических уравнений существенно интервальна, то объединённое множество решений может быть невыпуклым. Допусковое множество решений всегда выпукло. В целом, количество гиперплоскостей, ограничивающих множества решений, может быть очень большим. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 55 / 91 Приближённое описание информационного множества Возвращаясь к решению задачи восстановления зависимостей, следует отметить, что непростое строение множеств решений интервальных систем уравнений делает очень трудоёмким и малополезным их точное и полное описание. Имеет смысл найти какое-нибудь приближённое описание информационного множества. Здесь могут встретиться различные ситуации. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 56 / 91 Приближённое описание информационного множества внешняя оценка оптимальная внешняя оценка внутренняя оценка Рис.: Различные способы оценивания информационного множества. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 57 / 91 Оценки информационного множества Часто бывает необходимо оценить разброс точек из информационного множества, то есть определить, насколько сильно оно «растекается» в пространстве параметров. Часто это делается для его отдельных компонент, так что в целом нам требуется интервальный брус, содержащий множество решений. Это информационного множества Среди всех внешних оценок наилучшей служит минимальная по размерам внешняя оценка, которую также называют . Она единственна и является интервальной оболочкой информационного множества задачи. Внешняя оценка информационного множества необходима, к примеру, при построении внешней оценки коридора совместных зависимостей, когда мы хотим просчитать гарантированный эффект от реализации всех сценариев, могущих встретиться по восстановленным зависимостям. внешняя оценка оптимальной внешней оценкой А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 58 / 91 Оценки информационного множества Во многих задачах требуется оценивание информационного множества с помощью какого-то несложно описываемого подмножества — . Такая оценка будет содержать только точки из информационного множества и ничего лишнего. Внешняя оценка информационного множества в этом смысле плоха тем, что включает в себя точки, не принадлежащие информационному множеству. Если в качестве подмножества информационного множества берётся вписанный брус, то он называется множества решений. Среди двух внутренних оценок лучшей является та, которая целиком содержит другую, но максимальных по включению внутренних оценок, которые несравнимы друг с другом, может быть много. внутреннее оценивание внутренней интервальной оценкой А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 59 / 91 Оценки информационного множества Английские термины для обозначения внешней и внутренней оценки — outer estimate и inner estimate соответственно. Внешнюю оценку часто называют также термином «enclosure». Кроме внешнего и внутреннего оценивания информационных множеств могут встретиться и другие, которые требуются по смыслу задачи. Например, «слабое внешнее» оценивание , оценивание вдоль какого-то специального выделенного направления, исчерпывающее оценивание с помощью набора брусов и т.п. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 60 / 91 Варианты точечной оценки информационного множества Помимо оценивания информационного множества «целиком», во многих ситуациях достаточно найти какую-либо точку из него (здесь мы имеем аналогию с оцениванием «точечным» и «интервальным» в традиционной статистике). Естественно выбирать такую одну точку удовлетворяющей некоторым условиям оптимальности. Варианты точечной оценки информационного множества центр интервального бруса, который является минимальной по включению внешней оценкой информационного множества, центр Оскорбина, чебышёвский центр, центр тяжести, точка максимума совместности (аргумент максимума распознающего функционала, который является точкой максимума совместности соответствующей интервальной системы уравнений. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 61 / 91 Пример обработки накрывающей выборки Пример обработки накрывающей выборки. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 62 / 91 Пример обработки накрывающей выборки Пример иллюстрирует практическое применение методики главы «Задача восстановления зависимостей» книги «Обработка и анализ данных с интервальной неопределённостью» [1]. Технологически изложение следует канве, представленной в виде блокнота на ресурсе С.Жилина [3]. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 63 / 91 Набор данных. При измерении параметров шагового двигателя была получена зависимость положения вала от времени. Рис.: Положение вала от времени. Данные энкодера углового перемещения. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 64 / 91 Гистограмма данных. На Рис. 11 горизонтальные участки соответствуют устойчивым положениям вала, а вертикальные — его повороту. Для выделения устойчивых положений, построим гистограмму Рис.: А.Н. Баженов (СПбПУ) Гистограмма положений вала двигателя. Тема X2. Интервальная статистика 28.09.2021 65 / 91 Устойчивые положения. На основании данных гистограммы Рис. 12 можно выделить устойчивые положения как те, в которых двигатель находился больше какого-то времени. Таким образом приходим к зависимости положения вала от номера шага. Рис. 13 подобен Рис. 11 с заменой горизонтальных участков данных на одиночные значения. Сдвинуто начало отсчета энкодера, чтобы работать с более удобными для визуальной оценки числами. Также для удобства график показан возрастающим по коду энкодера. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 66 / 91 Устойчивые положения. Рис.: Зависимость положения вала от номера шага. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 67 / 91 Рабочая выборка. Для удобства восприятия, выберем 10 значений замеров из числа данных, представленных на Рис. 13. Конкретно выбрано 10 первых нечётных значений для статических положений вала двигателя. Номер измерения Данные энкодера 1 399 2 646 3 1059 4 1472 5 1692 6 2078 7 2491 8 2904 9 3316 10 3729 Таблица: Частичная выборка данных. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 68 / 91 Точечная оценка параметров регрессии. Данные энкодера выдаются в виде целых десятичных значений, так что неопределённость представления — младший десятичный разряд. Реально погрешность, как мы увидим, существенно выше, и включает много факторов, о части которых неизвестно ничего. В качестве первого подхода к проблеме, проведем точечную оценку параметров регрессии. Пусть модель задаётся в классе линейных функций y = 𝛽 + 𝛽 x, (7) x — номер измерения в выборке Табл. 1, y — угол поворота вала двигателя. 1 А.Н. Баженов (СПбПУ) 2 Тема X2. Интервальная статистика 28.09.2021 69 / 91 Точечная оценка параметров регрессии. Для согласования с данными поставим задачу оптимизации и решим её методами линейного программирования [1]. mid y i − wi · rad y i ≤ X 𝛽 ≤ mid y i + wi · rad y i , m ∑︁ wi −→ min i=1 wi ≥ , 1 i = , m, (9) 1 i = , m, w , 𝛽 =? Здесь X — матрица m × 2, в первом столбце которой элементы, равные 1, во втором — значения xi . В качестве значений середины и радиуса возьмём mid y i = yi и rad y i = 1. Уравнение регрессионной прямой получилось y = 0.0 + 363.13 · x. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика (8) 28.09.2021 (10) (11) 70 / 91 Точечная оценка параметров регрессии. Рис.: Регрессия с оценкой по норме А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика L1 . 28.09.2021 71 / 91 Вектор весов достижения совместности. Вектор весов w радиусов отдельных замеров изображен на Рис. 15. Вместе с Рис. 14, высокая неоднородность значений w свидетельствует о разной по величине сепени отклонении данных от регрессионной прямой на разных участках оси абсцисс. Рис.: Значения весов в задаче оптимизации. Наибольшее отклонение от регрессионной прямой и максимальные А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 72 / 91 Модель погрешности данных. Приступим к интервальной оценке параметров регрессии. Ясно, при достаточно высокой погрешности данных выборка станет или, по крайней мере совместной, согласно терминологии [1]. Для этого необходимо приписать данным какие-то погрешности. Значения компонент вектора w несут индивидуальную информацию о каждом измерении. Такая информация обладает высокой степенью избыточности, и желательно её заменить на более экономное представление. Как видно из Рис. 15, имеет смысл в качестве первой оценки реалистичной погрешности данных взять бликой к максимальному значению w . Итак, пусть значение rad y i := 𝜀 = max wi ≃ 150. i накрывающей А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 73 / 91 Диаграмма рассеяния данных. Приведём диаграмму рассения данных для конкретного 𝜀 = 150 — Рис. 16. Рис.: Диаграмма рассеяния, погрешность данных А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 𝜀 = 150. 28.09.2021 74 / 91 Информационное множество параметров . I Определим теперь интервальные параметры регрессии по методике [3]. На Рис. 17 приведено информационное множество сдвигов и наклонов регрессионной прямой. Оно ограничено многоугольником и дано заливкой. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 75 / 91 Информационное множество параметров . I Также на Рис. 17 приведены различные точечные оценки. Они достигнуты вычислением максимальной диагонали, центра тяжести, методом наименьших квадратов, точечной регрессией. Для заданного значения погрешности данных все точечные оценки содержатся в информационном множестве. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 76 / 91 Коридор совместности 𝛶 . На Рис. 18 приведены диаграмма рассеяния данных и коридор совместности параметров модели регрессии для заданной погрешности данных. Рис.: рассеяния и X2. коридор совместности, погрешность данных77 / 91 А.Н.Диаграмма Баженов (СПбПУ) Тема Интервальная статистика 28.09.2021 Коридор совместности 𝛶 . Таrже дана прямая регрессии по параметрам, соотвествующим центру тяжести множества, показанного на Рис. 17. Видно, что для значения независимой переменной, равному 5, эта примая касается границ коридора совместности. То есть, в этом месте имеется «излом» множества 𝛶 . А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 78 / 91 Прогноз значений выходной переменной. Важнейшим назначением регрессионной модели является предсказание значений выходной переменной для заданных значений входной. С помощью построенной модели — Рис. 18 y (x) = [−150, 100] + [348, 395] · x (12) можно получить прогнозные значения выходной переменной в точках эксперимента. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 79 / 91 Прогноз значений выходной переменной. Рис.: Прогноз значений внутри и вне интервала имеющихся данных, погрешность данных А.Н. Баженов (СПбПУ) 𝜀 = 150. Тема X2. Интервальная статистика 28.09.2021 80 / 91 Прогноз значений выходной переменной. Ценность модели заключается в возможности её употребления для предсказания выходной переменной в точках, где измерения не производились. Для иллюстрации приведём прогнозы в одной точке внутри диапазона x = 7 и двух точках за его границами x = −1, 13. Результаты расчётов представлены в Табл. 2. i xi mid y rad y i y yi 1 -1 -395.11 147.487 -542.60 -247.62 2 7 2546.40 77.400 2469.00 2623.80 3 13 4810.61 187.987 4622.62 4998.60 i Таблица: Прогноз измерений по модели (12). А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 81 / 91 Прогноз значений выходной переменной. Погрешность прогноза для «внутренней» точки x = 7 составляет ≃ 77 кодов энкодера и меньше назначенной погрешности 150. При выборе точек прогноза со значениями -1 и 13 за пределами диапазона данных, даёт соотвественно погрешность прогноза ≃ 147 и ≃ 188. Чем более удалена точка прогноза от области данных, тем больше предсказываемая погрешность. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 82 / 91 Уточнение модели погрешности данных. Итак, при значении погрешности данных, равной 𝜀 = 150, получены согласованные оценки параметров линейной модели данных (12). Напомним, что величина 𝜀 выбрана «с запасом» из соображений обеспечения заведомого согласования данных и линейной модели. Посмотрим, что произойдёт при попытке уменьшить эту неопределённость. Пусть 𝜀 = 100. Определим интервальные параметры регрессии. На Рис. 20 приведено новое информационное множество сдвигов и наклонов регрессионной прямой. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 83 / 91 Информационное множество. Рис.: Информационное множество, погрешность данных А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 𝜀 = 100. 28.09.2021 84 / 91 Множество параметров линейной модели. Множество параметров линейной модели на Рис. 20 существенно меньше аналогичного множества Рис. 17. Конкретные значения ширин параметров 𝛽 приведены в Табл. 3. 𝜀 100 150 wid 𝛽 1 ≃ ≃ 29 250 wid 𝛽 2 ≃ ≃ 4 46 Таблица: Размеры множества параметров линейной модели. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 85 / 91 информационное множество. Таким образом, информационное множество очень уменьшилось в размерах: примерно на десятичный порядок по кажоой компоненте. Согласование становится в таким условиях весьма проблематичным. В частности, оценка точечных параметров модели методом наименьших квадратов (черный квадратик на Рис. 20 ) находится за пределами I . Уменьшение информационного множества приводит к сужению коридора совместности параметров модели. На Рис. 21 приведены диаграмма рассеяния данных и коридор совместности параметров модели регрессии 𝛶 для заданной погрешности данных. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 86 / 91 Коридор совместности. Рис.: Диаграмма рассеяния и коридор совместности 𝛶, погрешность данных 𝜀 = 100. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 87 / 91 Коридор совместности. Коридор совместности 𝛶 представляет собой узкую полосу, проходящую через крайние значения нескольких брусов. Именно, коридор совместности касается вершин брусов y , y , y , y . Как уже было замечено ранее, в середине графика имеется «излом». Дальнейшее уменьшение 𝜀 приводит к пустоте множества параметров. Выборка становится . 1 5 6 10 ненакрывающей А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 88 / 91 Граничные измерения — Лекция 4. называют измерения, определяющие какой-либо фрагмент границы информационного множества. Очевидно, это свойство имеет смысл рассматривать для наблюдений, принадлежащих выборке Sn , по которой сконструирована модель и её информационное множество 𝛺(Sn ). Подмножество всех граничных наблюдений в Sn играет особую роль, поскольку оно является . Граничными минимальной подвыборкой, полностью определяющей модель Удаление неграничных наблюдений из выборки не изменяет модель. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 89 / 91 Пример обработки накрывающей выборки — заключение. В приведённом примере была продемонстрирована технология обработки выборки с . Выбором модели погрешностей выборка была сделана . Далее было показано, что при занижении погрешности данных происходит уменьшение информационного множества вплоть до его пустоты. неизвестной заранее погрешностью данных накрывающей А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 90 / 91 Пример обработки ненакрывающей выборки Пример обработки ненакрывающей выборки. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 91 / 91 Литература А.Н. Баженов, С.И. Жилин, С.И. Кумков, С.П. Шарый. Обработка и анализ данных с интервальной неопределённостью. РХД. Cерия «Интервальный анализ и его приложени». Ижевск. 2021. с.200. С.П. Шарый. Конечномерный интервальный анализ. — Новосибирск: XYZ, 2021. — Электронная книга, доступная на http: //interval.ict.nsc.ru/Library/InteBooks/SharyBook.pdf С.И.Жилин. Примеры анализа интервальных данных в Octave https://github.com/szhilin/octave-interval-examples С.И.Жилин. Библиотека полной интервальной арифметики kinterval в среде Octave. Частное сообщение. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 28.09.2021 92 / 91 Тема X3. Обработка и анализ данных с интервальной неопределённостью. А.Н. Баженов Санкт-Петербургский политехнический университет Петра Великого a_bazhenov@inbox.ru 05.10.2021 А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 1 / 104 Интервальная статистика Обработка и анализ данных с интервальной неопределённостью. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 2 / 104 ПЛАН ПЛАН Общие понятия Обработка константы Задача восстановления зависимостей Теория: А.Н. Баженов, С.И. Жилин, С.И. Кумков, С.П. Шарый. Обработка и анализ данных с интервальной неопределённостью. РХД. Cерия «Интервальный анализ и его приложени». Ижевск. 2021. с.200. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 3 / 104 ПЛАН Задача восстановления зависимостей. Часть 2. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 4 / 104 Задача восстановления зависимостей Даются определения новых терминов и понятий, которые возникают в связи с восстановлением функциональных зависимостей по данным их измерений и наблюдений, имеющих интервальную неопределённость. Мы рассмотрим основные идеи и типичные приёмы восстановления зависимостей по интервальным данным, а также возникающие при этом проблемы. Подробно исследуется случай простейшей линейной зависимости, но большинство построений и рассуждений легко переносятся на общий нелинейный случай. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 5 / 104 Постановка задачи Предположим, что величина y является функцией некоторого заданного вида от независимых аргументов x , x , . . . , xm , т. е. 1 2 (1) y = f (x, 𝛽), где x = (x , . . . , xm ) — вектор независимых переменных, 𝛽 = (𝛽 , . . . , 𝛽l ) — вектор параметров функции. Имея набор значений переменных x и y , нам нужно найти 𝛽 , . . . , 𝛽l , которые соответствуют конкретной функции f из параметрического семейства (1). Мы будем называть эту задачу задачей восстановления зависимости. 1 1 1 А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 6 / 104 Постановка задачи Важнейший частный случай поставленной задачи — определение параметров линейной функциональной зависимости вида (2) y = 𝛽0 + 𝛽1 x1 + 𝛽2 x2 + . . . + 𝛽m xm , в которой x , x , . . . , xm — независимые переменные (которые называются также экзогенными, предикторными или просто входными переменными), y — это зависимая переменная (которая называется также эндогенной, критериальной или выходной переменной), а 𝛽 , 𝛽 , . . . , 𝛽m — некоторые коэффициенты. Эти неизвестные коэффициенты должны быть определены из ряда измерений значений x , x , . . . , xm и y . 1 2 1 1 А.Н. Баженов (СПбПУ) 2 Тема X2. Интервальная статистика 05.10.2021 7 / 104 Постановка задачи Результаты измерений неточны, и мы предполагаем что они имеют ограниченную неопределённость, когда нам известны лишь некоторые интервалы, дающие двусторонние границы измеренных значений. Таким образом, результатом i -го измерения являются такие интервалы (i) (i) x , x (i), . . . , x (i) m , y , относительно которых мы предполагаем, что истинное значение x лежит в пределах x (i), истинное значение x лежит в x (i) и т. д. вплоть до y , истинное значение которого находится в интервале y (i). В целом имеется n измерений, так что индекс i может принимать значения из множества натуральных чисел {1, 2, . . . , n}. 1 2 1 2 1 2 А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 8 / 104 Постановка задачи Далее для удобства построений и выкладок обозначим номер измерения i не верхним, а нижним индексом, который мы поставим первым при обозначении входов. Таким образом, полный набор данных будет иметь вид x 11 , x 12 , y 1, x 22 , ... ... x 1m , x 21 , ... x 2m , y 2, x n1 , x n2 , ... x nm , y n. ... ... ... (3) ... Нам необходимо найти или как-то оценить коэффициенты 𝛽j , j = 0, 1, . . . , m, для которых линейная функция (2) «наилучшим образом» приближала бы интервальные данные измерений (3). А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 9 / 104 Постановка задачи Для обозначения n × m-матрицы, составленной из данных (3) для независимых переменных часто используют термины матрица плана эксперимента или просто матрица плана, которые возникли в теории планирования эксперимента . Интервалы x i , x i , . . . , x im , y i мы называем, как и раньше, интервалами неопределённости i -го измерения. Но кроме них нам также потребуется обращаться ко всему множеству, ограничиваемому в многомерном пространстве Rm+ этими интервалами по отдельным координатным осям. 1 2 1 А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 10 / 104 Брус неопределённости Definition -го измерения рассматриваемой зависимости будем называть интервальный вектор-брус (x i , x i , . . . , x im , y i ) ⊂ Rm+ , i = 1, 2, . . . , n. Брусом неопределённости 1 2 i 1 Таким образом, каждый брус неопределённости измерения зависимости является прямым декартовым произведением интервалов неопределённости независимых переменных и зависимой переменной. На Рис. 1 на плоскости 0xy наглядно показаны брусы неопределённости измерений и график линейной функции, которую мы восстанавливаем. Далее мы рассматриваем данные (3) как «спущенные свыше» и никак не обсуждаем их выбор, коррекцию или оптимизацию. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 11 / 104 Пример y x Рис.: Наглядная иллюстрация задачи восстановления линейной зависимости по данным с интервальной неопределённостью. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 12 / 104 Накрывающие и ненакрывающие брусы Definition Будем называть брус неопределённости измерения зависимости накрывающим, если он гарантированно содержит истинные значения измеряемых величин входных и выходных переменных зависимости. Брус неопределённости измерения зависимости, который не является накрывающим, будем называть ненакрывающим. Возможные альтернативные термины — «включающий брус неопределённости», «охватывающий брус неопределённости» (их отрицание — «невключающий», «неохватывающий»). А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 13 / 104 Диаграммы рассеяния Для визуализации интервальных данных, аналогично традиционному точечному случаю, используют диаграммы рассеяния. В традиционном понимании диаграмма рассеяния используется в статистике и анализе данных для визуализации значений двух переменных в виде «облака» точек на декартовой плоскости и позволяет оценить наличие или отсутствие корреляции и других взаимосвязей между двумя переменными. На диаграмме рассеяния для интервальных данных каждое интервальное наблюдение отображается в виде бруса (бруса неопределённости). При отсутствии неопределённости по одной из переменных, брусы наблюдений могут «схлопываться» в одномерные вертикальные или горизонтальные отрезки («ворота»). Примерами диаграмм рассеяния могут служить Рис. 1 и Рис. 3. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 14 / 104 Накрывающая и ненакрывающая выборка Definition — совокупность накрывающих измерений, т. е. выборка, в которой все измерения (наблюдения) являются накрывающими. Напротив, выборка называется ненакрывающей, если хотя бы одно из входящих в неё измерений — ненакрывающее. Накрывающая выборка А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 15 / 104 Решение задачи восстановления зависимостей для обычных точечных данных Существует большое количество более или менее стандартных подходов к решению задачи восстановления зависимостей для обычных точечных данных. Наиболее популярные из них — это метод наименьших квадратов, метод наименьших модулей и метод максимальной энтропии. Часто используется чебышёвское (минимаксное) сглаживание. Все эти методы основаны на нахождении глобального (абсолютного) минимума определённым образом подобранной целевой функции. Мы пытаемся найти наиболее набор параметров, который доставляет минимум этому функционалу. Очевидно, что конечный результат будет существенно отличаться в зависимости от формы этого целевого функционала. В любом случае, «идеальным решением» задачи можно считать ту функциональная зависимость вида (если она существует), линия графика которой проходит через все точки данных. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 16 / 104 Что следует считать решением? Что следует считать решением задачи восстановления зависимости по интервальным данным (3)? Очевидно, что функцию, вида (1) или (2), нужно считать точным решением задачи восстановления искомой зависимости, если её график проходит через все брусы неопределённости данных. В случае точечных данных эта идеальная ситуация почти никогда не реализуется и неустойчива к малым возмущениям в данных. Но в случае данных с существенной интервальной неопределённостью прохождение графика функции через брусы данных (3) может реализовываться, и оно устойчиво к возмущениям в данных. Кроме того, дополнительную специфику задаче придаёт то новое обстоятельство, что брусы неопределённости данных (3), в отличие от бесконечно малых и бесструктурных точек, получают структуру и потому нужно различать, как именно проходит график функции через эти брусы. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 17 / 104 Информационное множество В соответствии с терминологией, намеченной для нахождения констант, будем называть информационным множеством задачи восстановления зависимости множество значений параметров зависимости, совместных с данными в каком-то определённом смысле. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 18 / 104 Информационное множество В традиционном «точечном» случае, когда данные неинтервальны, решение задачи восстановления зависимостей получается по следующей общей схеме. Мы подставляем данные в формулу для зависимости (2) и получаем для каждого отдельного измерения одно уравнение. В целом в результате этой процедуры возникает система уравнений, решив которую, в обычном или обобщённом смысле, мы найдём параметры зависимости. В интервальном случае, действуя аналогичным образом, мы получим уже интервальную систему уравнений, которую также можно решать. Её решением, обычным или в некотором обобщённом смысле, будет вектор оценки параметров восстанавливаемой зависимости (2). Информационное множество задачи получается при этом как множество решений этой интервальной системы уравнений, построенной на основе формулы (2) и данных (3). А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 19 / 104 Коридор совместных зависимостей Определение параметров функциональной зависимости производится, как правило, для того, чтобы затем найденную формулу использовать для предсказания значений зависимости в других интересующих нас точках её области определения. Ясно, что такое предсказание будет осуществляться с некоторой погрешностью, вызванной неопределённостями данных, неоднозначностью самой процедуры восстановления и т. п. Эту неопределённость предсказания также необходимо знать и учитывать в нашей деятельности. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 20 / 104 Коридор совместных зависимостей и его сечение y x* x Рис.: Коридор совместных зависимостей и его сечение для какого-то значения аргумента x * . А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 21 / 104 Коридор совместных зависимостей Если информационное множество задачи восстановления зависимостей непусто, то обычно оно задаёт целое семейство зависимостей, совместных с данными задачи, которое имеет смысл рассматривать вместе, как единое целое. Это необходимо делать в вопросах, касающихся оценивания неопределённости предсказания, учёта всех возможных сценариев развития и т. п. Как следствие, возникает необходимость рассматривать вместе, единым целым, множество всех функций, совместных с интервальными данными задачи восстановления зависимости. Мы будем будем называть его коридором совместных зависимостей (см. Рис. 2). А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 22 / 104 Многозначные отображения В литературе использовались также другие термины для обозначения этого объекта — «трубка» совместных зависимостей (имеет происхождение в теории управления), «полоса» или даже «слой неопределённости», «коридор неопределённости» и т. п. Строгое определение коридора совместных зависимостей может быть дано на основе математического понятия многозначного отображения. Напомним, что для произвольных множеств X и Y многозначным отображением F из X в Y называется соответствие (правило), сопоставляющее каждой точке x ∈ X непустое подмножество F (x) ⊂ Y , называемое значением или образом x . А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 23 / 104 Коридор совместных зависимостей Definition Пусть в задаче восстановления зависимостей информационное множество 𝛺 параметров зависимостей y = f (x, 𝛽), совместных с данными, является непустым. Коридором совместных зависимостей рассматриваемой задачи называется многозначное отображение 𝛶 , сопоставляющее каждому значению аргумента x множество 𝛶 (x) = ⋃︁ f (x, 𝛽). 𝛽∈𝛺 А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 24 / 104 Сечение коридора совместных зависимостей Значение 𝛶 (x̃) коридора совместных зависимостей при каком-то определённом аргументе x̃ («сечение коридора») — это множество ∪𝛽∈𝛺 f (x̃, 𝛽), образованное всевозможными значениями, которые принимают на этом аргументе функциональные зависимости, совместные с интервальными данными измерений. Рис. 2 изображает коридор совместных зависимостей в задаче восстановления нелинейной зависимости, но для рассматриваемого нами линейного случая коридор совместных значений имеет существенно более специальный вид . Нетрудно показать, что границы коридора совместных зависимостей в этом случае являются кусочно-линейными. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 25 / 104 Случай точных измерений входных переменных Важнейшим и часто встречающимся частным случаем рассмотренной задачи является ситуация, когда независимые (экзогенные, предикторные, входные) переменные x , x , . . . , xm измеряются точно, и вместо телесных брусов неопределённости измерений (как на Рис. 1) мы имеем отрезки прямых (xi , xi , . . . , xim , y i ), i = 1, 2, . . . , n, параллельные оси зависимой (эндогенной, критериальной, выходной) переменной (см. Рис. 3). Именно такая постановка задачи была рассмотрена в пионерской работе Л.В. Канторовича. 1 1 А.Н. Баженов (СПбПУ) 2 2 Тема X2. Интервальная статистика 05.10.2021 26 / 104 Случай точных измерений входных переменных y x Рис.: Частный случай задачи восстановления линейной зависимости по неточным данным, когда входные переменные измеряются точно. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 27 / 104 Постановка задачи Отсутствие неопределённости значений независимых переменных приводит к кардинальному упрощению математической модели. Брусы неопределённости измерений зависимости, введённые ранее, схлопываясь по независимым переменным, превращаются в отрезки неопределённости. Как следствие, для решения и полного исследования этого частного случая предложено большое количество эффективных вычислительных методов. Рассмотрим эти математические вопросы более детально. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 28 / 104 Совместность зависимости с данными Линейная зависимость (2) совместна (согласуется) с интервальными данными измерений, если её график проходит через все отрезки неопределённости, задаваемые интервалами измерений выходной переменной y , как это изображено на Рис. 3). Подобное понимание совместности (согласования) является прямым обобщением того понимания «совместности», которое традиционно для неинтервального случая и используется, к примеру в постановке задачи интерполяции. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 29 / 104 Совместность зависимости с данными Подставляя в зависимость (2) данные для входных переменных x , x , . . . , xm в i -ом измерении и требуя включения полученного значения в интервалы y i , получим 𝛽 + 𝛽 xi + 𝛽 xi + . . . + 𝛽m xim ∈ y i , i = 1, 2, . . . , n. (4) Фактически, это интервальная система линейных алгебраических уравнений 1 1 1 2 2 ⎧ 𝛽0 + x11 𝛽1 + x12 𝛽2 + . . . + x1m 𝛽m = ⎪ ⎪ ⎪ ⎪ ⎨ 𝛽0 + x21 𝛽1 + x22 𝛽2 + . . . + x2m 𝛽m = ⎪ ⎪ ⎪ ⎪ ⎩ ... 2 ... ... ... ... 𝛽0 + xn1 𝛽1 + xn2 𝛽2 + . . . + xnm 𝛽m = y 1, y 2, ... y n, у которой интервальность присутствует только в правой части. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 30 / 104 Совместность зависимости с данными С другой стороны, (4) равносильно системе ⎧ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎩ y y 1 ≤ 𝛽0 + 𝛽1 x11 + 𝛽2 x12 + . . . + 𝛽m x1m ≤ y 1, ≤ 𝛽0 + 𝛽1 x21 + 𝛽2 x22 + . . . + 𝛽m x2m ≤ y 2, ≤ 𝛽0 + 𝛽1 xn1 + 𝛽2 xn2 + . . . + 𝛽m xnm ≤ y n. ... ... y 2 n А.Н. Баженов (СПбПУ) ... Тема X2. Интервальная статистика ... ... 05.10.2021 (5) 31 / 104 Система двусторонних линейных неравенств Это система двусторонних линейных неравенств относительно неизвестных параметров 𝛽 , 𝛽 , 𝛽 , . . . , 𝛽m , решив которую, мы можем найти искомую линейную зависимость. Множество решений системы неравенств (5) естественно считать информационным множеством параметров восстанавливаемой зависимости для рассматриваемого случая. Для i -го двустороннего неравенства из системы (5) множество решений — это полоса в пространстве Rm+ параметров (𝛽 , 𝛽 , . . . , 𝛽m ), ограниченная с двух сторон гиперплоскостями с уравнениями 1 2 1 1 𝛽0 + 𝛽1 xi 1 + 𝛽2 xi 2 + . . . + 𝛽m xim = y i , 𝛽0 + 𝛽1 xi 1 + 𝛽2 xi 2 + . . . + 𝛽m xim = y i . А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 32 / 104 Система двусторонних линейных неравенств Множество решений системы неравенств (5) является пересечением n штук таких полос, отвечающих отдельным измерениям. Можно рассматривать эти полосы как информационные множества отдельных измерений. На Рис. 4 изображено формирование множества решений системы неравенств (5) для случая двух параметров (т. е. m = 1) и n = 3. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 33 / 104 Образование информационного множества параметров 𝛽1 𝛽0 Рис.: Образование информационного множества параметров линейной зависимости (ограничено красной линией) для случая точных входных переменных. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 34 / 104 Информационное множество — трудоёмкость распознавания В целом множество решений системы линейных алгебраических неравенств (5) является выпуклым многогранным множеством в m+ . пространстве R Распознавание того, пусто оно или непусто, а также нахождение какой-либо точки из него, являются задачами, сложность которых ограничена полиномом от их размера. Существуют эффективные и хорошо разработанные вычислительные методы для решения этих вопросов и для нахождения оценок множества решений, например, основанные на сведении рассматриваемой задачи к задаче линейного программирования. 1 А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 35 / 104 Информационное множество — трудоёмкость распознавания В общем случае, когда входные (экзогенные, предикторные) переменные известны неточно, ситуация существенно усложняется и множество параметров, совместных (согласующихся) с интервальными данными не может быть описано так же просто, с помощью системы линейных неравенств (5). Трудоёмкость распознавания его пустоты или непустоты также становится экспоненциальной в зависимости от количества переменных [2]. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 36 / 104 Пример Случай точных измерений входных переменных А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 37 / 104 Общий случай задачи восстановления зависимостей Рассмотрим теперь случай, когда неопределённость присутствует как в измерениях значений зависимой переменной, так и в измерениях значений аргументов. Это может быть вызвано различными причинами. Например, существенно неточное измерение входных переменных происходит в ситуациях, когда они должны устанавливаться в течение значительного времени. Тогда их уместно выразить какими-то интервалами, а не точечными значениями. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 38 / 104 Пример y x Рис.: Наглядная иллюстрация задачи восстановления линейной зависимости по данным с интервальной неопределённостью. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 39 / 104 Пример https://github.com/szhilin/octave-interval-examples/blob/ master/SteamGenerator.ipynb. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 40 / 104 Общий случай задачи восстановления зависимостей Если выборка измерений независимых переменных и зависимой переменной — накрывающая, то 𝛽 + 𝛽 xi + 𝛽 xi + . . . + 𝛽m xim ∈ y i , i = 1, 2, . . . , n, где все xi могут принимать значения из соответствующих интервалов x i , i = 1, 2, . . . , n, j = 1, 2, . . . , m. Как следствие, получаем интервальную систему линейных алгебраических уравнений 1 1 2 2 1 1 ⎧ 𝛽0 + ⎪ ⎪ ⎪ ⎪ ⎨ 𝛽0 + ⎪ ⎪ ⎪ ⎪ ⎩ ... 𝛽0 + А.Н. Баженов (СПбПУ) x 11 𝛽1 + x 12 𝛽2 + ... + x 1m 𝛽m = y 1, x 21 𝛽1 + x 22 𝛽2 + ... + x 2m 𝛽m = y 2, x n1 𝛽1 + x n 2 𝛽2 + ... + x nm 𝛽m = y n. ... ... ... ... Тема X2. Интервальная статистика ... 05.10.2021 (6) 41 / 104 Общий случай задачи восстановления зависимостей Это формальная запись, означающая совокупность обычных (точечных) систем линейных алгебраических уравнений того же размера и с теми же неизвестными переменными, у которых коэффициенты и правые части лежат в предписанных им интервалах (см. [2]). Восстановление параметров линейной зависимости можно рассматривать как «решение», в том или ином смысле, выписанной интервальной системы уравнений. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 42 / 104 Общий случай задачи восстановления зависимостей В случае присутствия погрешностей как в измерениях аргумента, так и в измерениях зависимости множество параметров зависимостей, совместных (согласующихся) с данными, характеризуются новыми свойствами, которыми не обладают задачи с точными измерениями входных переменных. Прежде всего, множества решений отдельных интервальных уравнений уже не являются полосами в пространстве Rn , вроде тех, что изображены на Рис. 4. Они выглядят существенно иначе, и их конкретный вид зависит от того, какой смысл вкладывается в понятие совместности (согласования) параметров и данных, т. е. от того, какое множество решений ИСЛАУ взято в качестве информационного множества (см. Рис. 6). А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 43 / 104 Пример 8 6 4 𝛽2 2 -2 -4 4 8 12 16 𝛽1 Рис.: Объединённое множество решений интервального линейного уравнения [1, 2]𝛽1 + [2, 3]𝛽2 = [10, 12]. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 44 / 104 Общий случай задачи восстановления зависимостей Cамо понятие согласования (совместности) параметров и данных должно быть расширено и переосмыслено. В обычном неинтервальном случае результаты измерений — это бесконечно малые точки, и прохождение через них графика функциональной зависимости адекватно описывается двумя значениями — «да» или «нет», т. е. имеет булевский (логический) тип данных. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 45 / 104 Общий случай задачи восстановления зависимостей Если мы переходим от точек к брусам неопределённости, то прохождение графика зависимости через них можно понимать по-разному. Брусы неопределённости измерений являются прямыми декартовыми произведениями интервалов по различным осям координат, и эти оси имеют разный смысл: интервалы x i , x i , . . . , x im соответствуют входным (экзогенным, предикторным) переменным, а интервал y i соответствует выходной (эндогенной, критериальной) переменной. По этой причине становится важным, как именно проходит график восстанавливаемой зависимости через брусы неопределённости измерений (см. Рис. 7). 1 2 А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 46 / 104 Общий случай задачи восстановления зависимостей y x Рис.: Различные способы пересечения линии с брусом неопределённости измерения зависимости. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 47 / 104 Cлабо совместная зависимость Функциональную зависимость назовём слабо совместной с интервальными данными, если её график проходит через каждый брус неопределённости измерений хотя бы для одного значения аргумента. Наглядно это означает, что график зависимости пересекает брусы неопределённости, но как именно — неважно (средний чертёж на Рис. 7), достаточно лишь одной точки пересечения. достаточно лишь одной точки пересечения. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 48 / 104 Cлабо совместная зависимость Для случая линейной зависимости это условие наиболее удобно выразить с помощью формального языка логического исчисления предикатов: (∃xi 1 ∈ x i 1 ) · · · (∃xim ∈ x im ))(∃yi ∈ y i ) 𝛽0 + 𝛽1 xi 1 + 𝛽2 xi 2 + . . . + 𝛽m xim ∈ y i , i = , , . . . , n. (∃xi 1 ∈ x i 1 ) · · · (∃xim ∈ x im ) 𝛽0 + 𝛽1 xi 1 + 𝛽2 xi 2 + . . . + 𝛽m xim ∈ y i , i = , , . . . , n. 12 Равносильная упрощённая формулировка этого свойства выглядит следующим образом: А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12 05.10.2021 49 / 104 Cильно совместная зависимость Функциональную зависимость назовём сильно совместной с интервальными данными, если её график проходит через каждый брус неопределённости измерений для любого значения аргумента из интервалов неопределённости входных переменных. Наглядно это означает, что график зависимости целиком содержится в коридорах, задаваемых интервалами выходной переменной при всех значениях входных переменных из соответствующих им интервалов (левый чертёж на Рис. 7). А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 50 / 104 Cильно совместная зависимость Для случая линейной зависимости это условие может быть формально записано в следующем виде: (∀xi 1 ∈ x i 1 ) · · · (∀xim ∈ x im )(∃yi ∈ y i ) 𝛽0 + 𝛽1 xi 1 + 𝛽2 xi 2 + . . . + 𝛽m xim ∈ y i , i = , , . . . , n. (∀xi 1 ∈ x i 1 ) · · · (∀xim ∈ x im ) 𝛽0 + 𝛽1 xi 1 + 𝛽2 xi 2 + . . . + 𝛽m xim ∈ y i , i = , , . . . , n. 12 Равносильная упрощённая формулировка этого свойства выглядит следующим образом: А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12 05.10.2021 51 / 104 Cильно и слабо совместные зависимости y слабо совместная зависимость сильно совместная зависимость x Рис.: Линейные зависимости с разными типами согласования с данными. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 52 / 104 Cильно совместная зависимость В чём содержательный смысл сильной совместности? На практике измерения на входах и выходах системы осуществляются, как правило, разными способами и даже в разное время. Мы измеряем выход (зависимую переменную) уже тогда, когда входные значения (независимых переменных) зафиксированы, и мы их измерили. Получив при этом какие-то интервалы. Сильная совместность функциональной зависимости с интервальными данными означает тогда, что выходная величина остаётся в пределах измеренного для неё интервала вне зависимости от того, какими конкретно в своих интервалах являются значения входных переменных. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 53 / 104 Cильно совместная зависимость y x Рис.: Сложный случай восстановления зависимости по широким перекрывающимся интервальным данным. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 54 / 104 Множества решений Если матрица системы (6) уравнений — точечная, т. е. коэффициенты при неизвестных 𝛽i являются обычными вещественными числами, то объединённое множество решений в целом является выпуклым. Но в общем случае, когда матрица интервальной системы линейных алгебраических уравнений существенно интервальна, то объединённое множество решений может быть невыпуклым. Допусковое множество решений всегда выпукло. В целом, количество гиперплоскостей, ограничивающих множества решений, может быть очень большим. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 55 / 104 Приближённое описание информационного множества Возвращаясь к решению задачи восстановления зависимостей, следует отметить, что непростое строение множеств решений интервальных систем уравнений делает очень трудоёмким и малополезным их точное и полное описание. Имеет смысл найти какое-нибудь приближённое описание информационного множества. Здесь могут встретиться различные ситуации. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 56 / 104 Приближённое описание информационного множества внешняя оценка оптимальная внешняя оценка внутренняя оценка Рис.: Различные способы оценивания информационного множества. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 57 / 104 Оценки информационного множества Часто бывает необходимо оценить разброс точек из информационного множества, то есть определить, насколько сильно оно «растекается» в пространстве параметров. Часто это делается для его отдельных компонент, так что в целом нам требуется интервальный брус, содержащий множество решений. Это внешняя оценка информационного множества Среди всех внешних оценок наилучшей служит минимальная по размерам внешняя оценка, которую также называют оптимальной внешней оценкой. Она единственна и является интервальной оболочкой информационного множества задачи. Внешняя оценка информационного множества необходима, к примеру, при построении внешней оценки коридора совместных зависимостей, когда мы хотим просчитать гарантированный эффект от реализации всех сценариев, могущих встретиться по восстановленным зависимостям. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 58 / 104 Оценки информационного множества Во многих задачах требуется оценивание информационного множества с помощью какого-то несложно описываемого подмножества — внутреннее оценивание. Такая оценка будет содержать только точки из информационного множества и ничего лишнего. Внешняя оценка информационного множества в этом смысле плоха тем, что включает в себя точки, не принадлежащие информационному множеству. Если в качестве подмножества информационного множества берётся вписанный брус, то он называется внутренней интервальной оценкой множества решений. Среди двух внутренних оценок лучшей является та, которая целиком содержит другую, но максимальных по включению внутренних оценок, которые несравнимы друг с другом, может быть много. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 59 / 104 Оценки информационного множества Английские термины для обозначения внешней и внутренней оценки — outer estimate и inner estimate соответственно. Внешнюю оценку часто называют также термином «enclosure». Кроме внешнего и внутреннего оценивания информационных множеств могут встретиться и другие, которые требуются по смыслу задачи. Например, «слабое внешнее» оценивание , оценивание вдоль какого-то специального выделенного направления, исчерпывающее оценивание с помощью набора брусов и т.п. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 60 / 104 Варианты точечной оценки информационного множества Помимо оценивания информационного множества «целиком», во многих ситуациях достаточно найти какую-либо точку из него (здесь мы имеем аналогию с оцениванием «точечным» и «интервальным» в традиционной статистике). Естественно выбирать такую одну точку удовлетворяющей некоторым условиям оптимальности. Варианты точечной оценки информационного множества центр интервального бруса, который является минимальной по включению внешней оценкой информационного множества, центр Оскорбина, чебышёвский центр, центр тяжести, точка максимума совместности (аргумент максимума распознающего функционала, который является точкой максимума совместности соответствующей интервальной системы уравнений. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 61 / 104 Пример обработки ненакрывающей выборки Пример обработки ненакрывающей выборки. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 62 / 104 Набор данных. Рассмотрим другой пример данных, полученных при измерении параметров шагового двигателя. Изучалась зависимость положения вала от управляющего воздействия. Из одного устойчивого равновесия был проведён цикл вращений «вперёд-назад» с возвращением в начальное положение. При этом было подано 7 одинаковых команд с шагом +64 и затем столько же с шагом -64 в единицах контроллера управления. Данные контроллера и энкодера собраны в Табл. 1. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 63 / 104 Набор данных. Код управления Данные энкодера 30 64 30 128 26 192 24 256 17 320 11 384 7 448 384 6 320 7 256 11 192 14 128 20 64 25 29 Таблица: Выборка данных движения «вперёд-назад». Точка останова соответствует коду управления 448. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 64 / 104 Раздельная обработка данных для каждой ветви. Раздельная обработка данных для каждой ветви. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 65 / 104 Диаграмма рассеяния данных с двумя ветвями. Диаграмма рассеяния данных имеет две ветви, выделенными синим и красным цветом. Точка останова перед возвратным движениям показана черным цветом. В силу дискретности данных энкодера им приписана погрешность, равная младшему значащему разряду. Рис.: Диаграмма рассеяния движения «вперёд-назад». А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 66 / 104 Набор данных. Характер данных Табл. 1 и Рис. 11 совершенно типичен и является нормой для подобных измерений. Управление происходило в так называемом режиме дробления шага. Величина кода управления ±64 отвечает одной четверти полного шага. При меньших кодах управления траектории движения зачастую приобрететают ещё более сложный вид. Выборка из Табл. 1 несовместна. Интересно попробовать эти данные для апробирования различных математических приёмов. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 67 / 104 Линейная регрессия на отдельные ветви зависимости. Начнём с отдельной обработки ветвей движения. Как и в предыдущем примере сделаем данные возрастающими. Рис.: Регрессии на разные ветви данных для движения «вперёд-назад» с оценкой по норме L1 . А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 68 / 104 Векторы весов для отдельных ветвей зависимости. Рис. 12 иллюстрирует несовместность данных как внутри отдельных ветвей, так и между ними. Свидетельством внутренней несогласованности служит большой разброс значений весов wi . wfw = (1, 1, 1, 1, 3, 1, 1, 6)⊤ , (7) wbk = (1, 2, 1, 1, 2, 1, 1, 1)⊤ . (8) Разница между ветвями проявляется в величинах коэффициентов регрессии: (9) 𝛽 fw = 1.00, 𝛽 fw = 0.078, bk bk 𝛽 = 0.00, 𝛽 = 0.063. (10) А.Н. Баженов (СПбПУ) 1 2 1 2 Тема X2. Интервальная статистика 05.10.2021 69 / 104 Информационные множества для ветвей данных 1 2. I , Определим теперь интервальные параметры регрессии [3]. При малых оценках погрешности данных первая («синяя») ветвь несовместна даже внутренне. Непустое информационное множество I возникает при 𝜀 = 4.5 При этом значении пересечение информационных множеств ветвей данных пусто: I1 А.Н. Баженов (СПбПУ) 1 ∩ I 2 = ∅. Тема X2. Интервальная статистика 05.10.2021 70 / 104 Интервальные оценки для разных ветвей зависимости. Рис.: Интервальные оценки для разных ветвей зависимости. Назначенное значение погрешности данных 𝜀=4.5. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 71 / 104 Достижение совместности. Для достижения совместности между ветвями данными зададимся оценкой погрешности данных будем увеличивать 𝜀 пока не будет достинуто условие I Иначе, ищем = I 1 ∩ I 2 ̸= ∅. (11) arg 𝜀 = min {I 1 (𝜀) ∩ I 2 (𝜀) ̸= ∅ } . 𝜀 А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 72 / 104 Информационные множества. На Рис. 14 приведены информационные множества сдвигов и наклонов регрессионных прямых для обеих ветвей данных. Они ограничены многоугольниками и даны заливкой того же цвета, что и данные на Рис. 12. Их пересечение — сторона многоугольника, отрезок с вершинами I (𝛽 , 𝛽 ) = I ∩ I = (−1.00, 0.078) − (5.00, 0.055), (12) показан красным цветом. Красным прямоугольником дана внешняя оценка параметров регрессионных прямых для обеих ветвей данных. 1 2 А.Н. Баженов (СПбПУ) 1 2 Тема X2. Интервальная статистика 05.10.2021 73 / 104 Информационные множества. Интервальные оценки. Рис.: Интервальные оценки для разных ветвей зависимости и множество I (𝛽1 , 𝛽2 ). Назначенное значение погрешности данных (11) 𝜀=5. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 74 / 104 Коридор совместности 𝛶 . На Рис. 15 приведены диаграмма рассеяния данных и коридор совместности параметров модели регрессии 𝛶 для погрешности данных согласно (11). Рис.: Диаграмма рассеяния и коридор совместности 𝛶 , погрешность данных А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 75 / 104 Сечение коридора совместности. Также дана прямая регрессии по параметрам, соответствующим середине информационного множества mid I (𝛽 , 𝛽 ) = [2.616, 0.064]. При значении x ⋆ = 256, сечение коридора совместности 𝛶 (x ⋆) состоит из одной точки. 1 А.Н. Баженов (СПбПУ) 2 Тема X2. Интервальная статистика 05.10.2021 76 / 104 Линейные регресии. Построим линейные регресии с параметрами из крайних точек отрезка (12) и его середины. Рис.: Набор линейных регресий. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 77 / 104 Линейные регресии. Из Рис. 16 ясно, что прямые, опеределяемые множеством (12), заполняют два открытых угла и дают внутренюю оценку коридора совместности. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 78 / 104 Брусы совместности данных. Посмотрим на вопрос с другой точки зрения. Пусть погрешность измерений находится не в выходных данных, которые весьма точны, а во входных. Будем считать, что данные yi = y 1i ∪ y 2i , где 1, 2 — разные ветви данных. В общем случае, y i — неодносвязный интервал. Для работы с обычными интервалами IR, возьмём внешнюю оценку выходных данных yi А.Н. Баженов (СПбПУ) ]︁ [︁ = min{y 1i , y 2i }, max{y 1i , y 2i } . Тема X2. Интервальная статистика 05.10.2021 79 / 104 Брусы совместности данных. Рис.: Брусы совместности данных. Номер замера дан правее его правого нижнего угла бруса. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 80 / 104 Брусы совместности данных. Считая, что модель линейна, отнесем неопределённость на входные данные x i . В таком случае, модель неопределённости данных будет выглядеть как брусы (x i , y i ). Внешнюю оценку входных данных примем как xi ]︀ [︀ = min{x 1i , x 2i }, max{x 1i , x 2i } . При этом имеем в виду, что 12 Рис. 17 даёт пример модели для данных Табл. 1. Регрессионная прямая проведена через «центры» первой и последней пар точек выборки. В такой постановке необходимо найти параметры линейной регресии 𝛽 , 𝛽 и радиусы rad x i . yi 1 = 𝛽1 + 𝛽2 · x i , i = , , . . . m. 2 А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 81 / 104 Брусы совместности данных. В более подробном виде данные представлены на Рис. 18. Рис.: Брусы совместности данных по отдельности для каждого замера и для пары «вперёд-назад» совместно. Номер замера дан правее его правого нижнего угла бруса.. Справа — один замер. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 82 / 104 Брусы совместности данных. Исходные данные для измерения 7 по данным Табл. 1 x = 384, y = [24, 26] ∪ [29, 31]. Брус совместности на Рис. 18 x = [358, 462], y = [24, 31]. 7 7 7 А.Н. Баженов (СПбПУ) 7 Тема X2. Интервальная статистика 05.10.2021 83 / 104 Совместимость за счет коррекции входных данных. Пусть выходные данные y считаются абсолютно надёжными. В таком случае вся неопределённость содержится во входных данных. Будем считать теперь данные Табл. 1 индивидуальными, не зависящими от ветви замеров, на которой они были получены. Сделаем точечные значения xi интервальными xi → x i , i = 1, 2, . . . 15. так чтобы регресионная прямая прошла через все брусы (x i , y i ). А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 84 / 104 Совместимость за счет коррекции входных данных. Рис.: Совместимость за счет входных данных. Справа — один замер. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 85 / 104 Совместимость за счет коррекции входных данных. Рис. 19 даёт представление о том, как выглядят совместные данные при таком подходе. При постановке задачи линейного программирования ∑︁ rad x i → min, i можно достигать получения совместной (в идеале, накрывающей) выборки при минимальном «расширении» входных данных. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 86 / 104 Совместимость за счет коррекции входных данных. В зависимости от конкретного характера данных, можно ставить и более общие постановки задач оптимизации, такие как a· ∑︁ i rad x i + b · ∑︁ (13) rad y i → min, i где a, b — параметры, характеризующие предпочтения (веса) входным и выходным данным. Сходный анализ данных можно найти в работах различных исследователей, начиная с диссертации Р.Мура 1962 г., и в самых современных публикациях С.И. Кумков конференция Scan2020, 2021. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 87 / 104 Совместная обработка всех данных. Совместная обработка всех данных. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 88 / 104 Диаграмма рассеяния данных. Вернёмся к исходным данным. Рис.: Диаграмма рассеяния движения «вперёд-назад». А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 89 / 104 Совместная обработка всех данных в KR. Рассмотрим данные энкодера для двух ветвей зависимости. Как работать с данными, имеющими одинаковое значение независимой переменной? Ненулевое пересечение имеют немногие из данных двух ветвей зависимости. Поэтому рассматривать ситуацию следует в полной интервальной арифметике KR и пользоваться конструкциями для объектов этой арифметики. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 90 / 104 Вектор минимумов по включению. Составим вектор минимумов по включению для 2-х ветвей, который планируем использовать как набор данных для проведения вычислений для построения интервальной регрессии. yk = y fw k А.Н. Баженов (СПбПУ) ⋀︁ bk yk = [︁ ]︁ fw bk bk max{y fw , y }, min{ yk , yk } . k k Тема X2. Интервальная статистика 05.10.2021 (14) 91 / 104 Выборка данных в KR. k · 1 2 3 4 5 6 7 8 yk единицы энкодера [-1, 1] [6, 7] [10, 8] [16, 12] [23, 15] [25, 21] [29, 26] [29, 30] Таблица: Вектор минимумов по включению (14) для 2-х ветвей данных Табл. 1. Большая часть компонент y k в Табл.2 — неправильные интервалы. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 92 / 104 Задача нахождения максимума совместности. Теперь можно поставить задачу нахождения максимума совместности для оценивания информационного множества. X · 𝛽 ⊆ y. (15) Знак принадлежности в (15) вместо равенства использован в виду того, что мы не можем требовать точного удовлетворения всех условий, наложенных данными, но ограничиваемся более слабым удовлетворением принадлежности. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 93 / 104 Оценивание множеств решений переопределённых ИСЛАУ. В книге [1] раздел «Численные методы для интервальных линейных систем» предлагается следующий практический рецепт решения задач внутреннего и внешнего оценивания множеств решений переопределённых интервальных систем уравнений. Разобъём исходную систему уравнений на подсистемы X (1) 𝛽 = y (1) , ..., X (k) 𝛽 = b (k) , которые можно рассматривать и решать отдельно друг от друга. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 94 / 104 Метод квадратных подсистем. Решим задачи внутреннего или внешнего оценивания для полученных подсистем с помощью численных методов, предназначенных для квадратных интервальных линейных систем уравнений. Затем пересечём полученные интервальные оценки, и полученный брус будет внутренней или внешней оценкой множества решений исходной системы. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 95 / 104 Метод квадратных подсистем. Пусть решениями подсистем будут множества 𝛯 (1) , . . . , 𝛯 (k) . Составим пересечение этих множеств 𝛯= ⋂︁ 𝛯 (i) , i которое будет оценкой решения системы включений (15). Рассмотренный метод предложено в [1] называть методом квадратных подсистем. Результаты очень сильно зависят от способа выбора квадратных матриц. В частности, в случае одинаковых строк в точечной матрице X (i) , соответствующее множество 𝛯 (i) будет неограниченным. В случае соседних строк оценка также может быть весьма грубой. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 96 / 104 Диаграмма рассения данных и регрессия методом квадратных подсистем. Рис.: Диаграмма рассения данных и регрессия методом квадратных подсистем. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 97 / 104 Метод квадратных подсистем. На Рис. 21 приведены оценки коридора совместности для решения системы включений (15) с перебором строк матрицы X размером 8 × 2. Для расчета были взяты 4 матрицы 2 × 2. Решение проводилось субдифференциальным методом Ньютона с помощью библиотеки kinterval [4]. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 98 / 104 Метод квадратных подсистем. Пересечением значений 𝛽i , 𝛽i , i = 1, 2, . . . 4 в частных решениях получены значения параметров регрессии ⋂︁ 𝛽 = 𝛽 i = [−1.5159, 3.4648], 1 1 1 i 𝛽2 = 2 ⋂︁ 0 054688, 0.070312]. 𝛽 i2 = [ . i На Рис. 21 оценки выходных данных даны зеленым цветом. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 99 / 104 Метод квадратных подсистем. В целом результат выглядит приемлемым, при этом для некоторых замеров интервальных границы оценок выходят за исходную диаграмму рассеяния, а для одного значения (x = 256) не полностью покрывают «зазор» в неправильном интервале y = [23, 15]. Вспомним коридор совместности 𝛶 . 5 5 А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 100 / 104 Коридор совместности 𝛶 . Рис.: Коридор совместности 𝛶 , погрешность данных (11) 𝜀 = 4.5. При значении x ⋆ = 256, сечение коридора совместности 𝛶 (x ⋆) состоит из одной точки. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 101 / 104 Заключение. Представленные вычисления дают различные оценки параметров регрессии ненакрывающей выборки. Вместе с тем очевидно, что исследование нельзя назвать исчерпывающим. Этот факт отражает современное состояние теории оценок ненакрывающих выборок. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 102 / 104 Заключение. Прведём цитату из книги [1]: «. . . некоторые из задач, возникших в анализе интервальных данных, на настоящий момент проработаны относительно слабо. Это относится, прежде всего, к решению интервальных линейных систем с общими прямоугольными матрицами, у которых число уравнений может не совпадать с числом неизвестных. Кроме того, подавляющее большинство численных методов для интервальных систем уравнений, линейных и общих нелинейных, разработаны для задачи внешнего интервального оценивания объединённого множества решений, тогда как другие способы оценивания и другие множества решений получили гораздо меньшее внимание. » А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 103 / 104 Литература А.Н. Баженов, С.И. Жилин, С.И. Кумков, С.П. Шарый. Обработка и анализ данных с интервальной неопределённостью. РХД. Cерия «Интервальный анализ и его приложени». Ижевск. 2021. с.200. С.П. Шарый. Конечномерный интервальный анализ. — Новосибирск: XYZ, 2021. — Электронная книга, доступная на http: //interval.ict.nsc.ru/Library/InteBooks/SharyBook.pdf С.И.Жилин. Примеры анализа интервальных данных в Octave https://github.com/szhilin/octave-interval-examples С.И.Жилин. Библиотека полной интервальной арифметики kinterval в среде Octave. Частное сообщение. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 05.10.2021 104 / 104 Тема X2. Обработка и анализ данных с интервальной неопределённостью. А.Н. Баженов Санкт-Петербургский политехнический университет Петра Великого a_bazhenov@inbox.ru 12.10.2021 А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 1 / 61 Интервальная статистика Обработка и анализ данных с интервальной неопределённостью. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 2 / 61 ПЛАН ПЛАН Общие понятия Обработка константы Задача восстановления зависимостей Обработка выбросов Теория: А.Н. Баженов, С.И. Жилин, С.И. Кумков, С.П. Шарый. Обработка и анализ данных с интервальной неопределённостью. РХД. Cерия «Интервальный анализ и его приложени». Ижевск. 2021. с.200. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 3 / 61 ПЛАН Обработка выбросов. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 4 / 61 Обработка выбросов Даются определения новых терминов и понятий, которые возникают в связи с восстановлением функциональных зависимостей по данным их измерений и наблюдений, имеющих интервальную неопределённость. Мы рассмотрим основные идеи и типичные приёмы восстановления зависимостей по интервальным данным, а также возникающие при этом проблемы. Подробно исследуется случай простейшей линейной зависимости, но большинство построений и рассуждений легко переносятся на общий нелинейный случай. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 5 / 61 Постановка задачи Предположим, что величина y является функцией некоторого заданного вида от независимых аргументов x1 , x2 , . . . , xm , т. е. (1) y = f (x, 𝛽), где x = (x1 , . . . , xm ) — вектор независимых переменных, 𝛽 = (𝛽1 , . . . , 𝛽l ) — вектор параметров функции. Имея набор значений переменных x и y , нам нужно найти 𝛽1 , . . . , 𝛽l , которые соответствуют конкретной функции f из параметрического семейства (1). Мы будем называть эту задачу А.Н. Баженов (СПбПУ) . задачей восстановления зависимости Тема X2. Интервальная статистика 12.10.2021 6 / 61 Постановка задачи Важнейший частный случай поставленной задачи — определение параметров линейной функциональной зависимости вида (2) y = 𝛽0 + 𝛽1 x1 + 𝛽2 x2 + . . . + 𝛽m xm , в которой x1 , x2 , . . . , xm — независимые переменные (которые называются также экзогенными, предикторными или просто входными переменными), y — это зависимая переменная (которая называется также эндогенной, критериальной или выходной переменной), а 𝛽0 , 𝛽1 , . . . , 𝛽m — некоторые коэффициенты. Эти неизвестные коэффициенты должны быть определены из ряда измерений значений x1 , x2 , . . . , xm и y . А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 7 / 61 Постановка задачи Результаты измерений неточны, и мы предполагаем что они имеют ограниченную неопределённость, когда нам известны лишь некоторые интервалы, дающие двусторонние границы измеренных значений. Таким образом, результатом i -го измерения являются такие интервалы (i) (i) (i) x 1 , x 2 , . . . , x m , y (i) , относительно которых мы предполагаем, что (i) истинное значение x1 лежит в пределах x 1 , истинное значение x2 (i) лежит в x 2 и т. д. вплоть до y , истинное значение которого находится в интервале y (i) . В целом имеется n измерений, так что индекс i может принимать значения из множества натуральных чисел {1, 2, . . . , n}. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 8 / 61 Постановка задачи Далее для удобства построений и выкладок обозначим номер измерения i не верхним, а нижним индексом, который мы поставим первым при обозначении входов. Таким образом, полный набор данных будет иметь вид x 11 , x 12 , . . . x 1m , y 1 , x 21 , x 22 , . . . x 2m , y 2 , .. .. .. .. .. . . . . . x n1 , x n2 , . . . x nm , y n . (3) Нам необходимо найти или как-то оценить коэффициенты 𝛽j , j = 0, 1, . . . , m, для которых линейная функция (2) «наилучшим образом» приближала бы интервальные данные измерений (3). А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 9 / 61 Постановка задачи Для обозначения n × m-матрицы, составленной из данных (3) для независимых переменных часто используют термины матрица плана эксперимента или просто матрица плана, которые возникли в теории планирования эксперимента . Интервалы x i 1 , x i 2 , . . . , x im , y i мы называем, как и раньше, интервалами неопределённости i -го измерения. Но кроме них нам также потребуется обращаться ко всему множеству, ограничиваемому в многомерном пространстве Rm+1 этими интервалами по отдельным координатным осям. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 10 / 61 Общие идеи Понятие «выброс» в статистике и анализе данных, как правило, определяется нечётко и неформально. Объясняется это тем, что основания для признания измерения выбросом лежат за пределами формальной математической постановки задачи анализа данных и требуют привлечения внешних по отношению к ней знаний из предметной области и истории происхождения данных, специфичных в каждом конкретном случае. Тем не менее, главный объединяющий смысл различных определений — указание на нарушение измерением-выбросом некоторой однородности (согласованности, непротиворечивости), ожидаемой для большинства наблюдений выборки по отношению к заданной математической модели. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 11 / 61 Общие идеи Подчеркнём эту особую роль модели и неабсолютный характер понятия «выброс», вкупе означающие, что статус измерения в одной и той же выборке может меняться в зависимости от вида модели, рассматриваемой на конкретном этапе анализа данных. Поэтому, строго говоря, утверждения вида «измерение xi является выбросом в выборке X » всякий раз должны сопровождаться оговоркой — «относительно такой-то модели», если это явно не следует из контекста. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 12 / 61 Общие идеи Интервальный подход даёт естественный формальный индикатор согласованности данных, модели и априорной информации — непустоту информационного множества, соответствующего задаче. Пустота информационного множества свидетельствует о наличии тех или иных противоречий между данными и моделью. Поиск причин появления противоречий, а также выбор путей их преодоления — процесс творческий и неформальный, большей частью опирающийся на прикладные соображения и экспертные знания о моделируемом явлении или процессе и условиях получения данных. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 13 / 61 Общие идеи Формальные приёмы и математические методы, задействованные в этом процессе, выполняют важную, но подчиненную роль. Они используются для получения информации о данных и модели, позволяющей выдвигать гипотезы о причинах противоречий, вырабатывать способы коррекции данных или модели и оценивать обеспечиваемые ею результаты. Иными словами, математические методы отвечают на вопрос «как устроены данные?», в то время как ответы на вопросы «почему так устроены данные?» и «что делать?» может дать только содержательный анализ моделируемого явления. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 14 / 61 Общие идеи Причинами возникновения противоречий в задаче анализа данных могут служить как некорректность измерений (вследствие нарушений условий их проведения, регистрации, сбоев при передаче, некорректной оценки уровня неопределённости, нештатного поведения моделируемой системы и т.п.), так и некорректность модели (вид модели не соответствует моделируемому явлению и т.п.). А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 15 / 61 Общие идеи При использовании формальных методов выявления выбросов следует иметь в виду, что выбросы могут оказаться наиболее существенной частью выборки, проливающей свет на то, как собирались данные или каково истинное поведение изучаемой системы или процесса, не укладывающееся в исходные предположения. Учитывая, что предметом интервального анализа часто становятся малые выборки, обычная тактика удаления «подозрительных» измерений должна использоваться с особой осторожностью. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 16 / 61 Обозначения. si = (xi , y i ) — наблюдение, состоящее из значения входной переменной x ∈ Rm и интервального измерения y i выходной переменной y ∈ R. Sn = {si }i=1,...,n = {(xi , y i )}i=1,...,n — выборка из n наблюдений. y (x) = f (x, 𝛽) — модель с параметрами 𝛽 ∈ Rm+1 , например, линейная y (x) = 𝛽0 + 𝛽1 x1 + . . . + 𝛽m xm . А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 17 / 61 Обозначения. 𝛶 (x) — коридор совместных зависимостей. 𝛶 (x; Sn ) — коридор совместных зависимостей, построенных по выборке Sn . 𝛺i = 𝛺(si ) = {𝛽 | f (xi , 𝛽) ⊂ y i } — информационное множество наблюдения si = (xi , y i ). 𝛺 = 𝛺(Sn ) = ∩ni=1 𝛺i — информационное множество задачи построения модели y (x) = f (x, 𝛽) по выборке Sn . А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 18 / 61 Статус измерений. О влиянии некоторого интервального измерения s = (x, y ) на модель, построенную по выборке Sn , можно судить на основе того, в каком взаимоотношении находятся информационные множества 𝛺(s) и 𝛺(Sn ). Такая характеризация полезна как для «новых» измерений (s ∈ / Sn ), так и для измерений, уже входящих в выборку (s ∈ Sn ). Измерения, добавление которых к выборке не приводит к модификации модели (𝛺(Sn ) = 𝛺(Sn ∪ s)), именуются внутренними, изменяющие же модель (𝛺(Sn ) ⊃ 𝛺(Sn ∪ s)) — внешними. В каждом из этих классов измерений дополнительно выделяют специальные подклассы — граничные измерения и выбросы соответственно (Рис. 20). А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 19 / 61 Статус измерений. (а) (б) 𝛺(s) 𝛺(Sn ) 𝛺(s) (в) 𝛺(Sn ) (г) 𝛺(s) 𝛺(s) 𝛺(Sn ) 𝛺(Sn ) А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 20 / 61 Статус измерений. Информационные множества, построенные по выборке Sn и наблюдению s с различными статусами: (a) — внутреннее (б) — граничное (в) — внешнее (г) — выброс А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 21 / 61 Граничные измерения. называют измерения, определяющие какой-либо фрагмент границы информационного множества. Очевидно, это свойство имеет смысл рассматривать для наблюдений, принадлежащих выборке Sn , по которой сконструирована модель и её информационное множество 𝛺(Sn ). Граничными Подмножество всех граничных наблюдений в Sn играет особую роль, поскольку оно является минимальной подвыборкой, полностью определяющей модель . Удаление неграничных наблюдений из выборки не изменяет модель. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 22 / 61 Коридор совместности — Лекция 2. Рис.: Диаграмма рассеяния и коридор совместности 𝛶, погрешность данных 𝜀 = 100. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 23 / 61 Коридор совместности — Лекция 2. Коридор совместности 𝛶 представляет собой узкую полосу, проходящую через крайние значения нескольких брусов. Именно, коридор совместности касается вершин брусов y 1, y 5, y 6, y 10 . Как уже было замечено ранее, в середине графика имеется «излом». Дальнейшее уменьшение 𝜀 приводит к пустоте множества параметров. Выборка становится ненакрывающей. Таким образом, 𝛺B = {y 1 , y 5 , y 6 , y 10 } (4) — подмножество всех граничных наблюдений, минимальная подвыборка, полностью определяющая модель. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 24 / 61 Выбросы. Среди внешних измерений особым образом выделяют выбросы . Построение модели по выборке, пополненной таким наблюдением, приводит не просто к уменьшению информационного множества, а к его пустоте 𝛺(Sn ∪ s) = ∅, то есть к «разрушению» модели. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 25 / 61 Статус измерений. Существует экономичный способ определения статуса измерения, не требующий явного перестроения модели для выборки, расширенной анализируемым измерением. Анализ взаимоотношений информационных множеств 𝛺(Sn ) и 𝛺(Sn ∪ s) или 𝛺(Sn ) и 𝛺(s) можно заменить выяснением отношений интервала неопределённости y анализируемого измерения s = (x, y ) и интервального прогнозного значения рассматриваемой модели в той же точке 𝛶 (x; Sn ). На Рис. 2 анализируемые измерения показаны чёрными линиями, а соответствующие им интервалы прогнозов — широкими цветными линиями (в данном случае их ширина не имеет содержательного смысла, а лишь упрощает восприятие наложенных друг на друга интервалов). А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 26 / 61 Интервальные наблюдения с различными статусами. 1 2 3 4 5 6 7 8 внутреннее = 1, . . . , 3), граничные (n = 2, 3), внешние (n = 4, . . . , 8), строго внешнее (n = 6), выбросы (n = 7, 8). Рис.: Интервальные наблюдения с различными статусами: (n А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 27 / 61 Диаграмма статусов для интервальных наблюдений. 8 1 5 3 1 6 2 4 -1 7 1 Диаграмма статусов для интервальных наблюдений, показанных на Рис. 2. Зоны наблюдений с различными статусами обозначены цветами: зелёный — внутренние наблюдения, жёлтый — внешние, красный — выбросы. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 28 / 61 Внутреннее интервальное измерение. Внутреннее интервальное измерение s = (x, y ) полностью содержит в себе прогнозный интервал, оцененный с помощью модели 𝛶 (x; Sn ), или, иными словами, пересечение двух этих интервалов совпадает с прогнозным: y ∩ 𝛶 (x; Sn ) = 𝛶 (x; Sn ). Будучи перестроенной по выборке, пополненной подобным измерением, модель не претерпит изменений, поскольку соответствующее ей информационное множество окажется внутри ограничения, порожденного добавленным внутренним измерением, а, следовательно, пересечение с ним не изменится. Коридор совместных зависимостей при этом также сохранит прежний вид. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 29 / 61 Внешнее интервальное измерение. Если внешнее интервальное измерение и соответствующий ему интервал прогноза имеют непустое пересечение, то результирующий интервал сужается по сравнению с прогнозным: y ∩ 𝛶 (x; Sn ) ⊂ 𝛶 (x; Sn ). Это означает, что добавление внешнего измерения в модель уменьшит информационное множество задачи и коридор совместных зависимостей. Получение пустого множества в пересечении свидетельствует о том, что измерение является выбросом по отношению к используемой модели. В некоторых ситуациях, при более высоком уровне подозрительности, «бить тревогу» можно не при строгой пустоте информационного множества, а уже при некотором неестественно малом его размере. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 30 / 61 Размах и остаток. Взаимные отношения интервалов анализируемого наблюдения (x, y ) и прогнозного интервала рассматриваемой модели 𝛶 (x) удобно характеризовать в терминах размаха (плечо, англ. – high leverage) ℓ(x, y ) = и остатка rad 𝛶 (x) rad y (5) (остаточное отклонение, смещение, англ. – residual) r (x, y ) = А.Н. Баженов (СПбПУ) mid y − mid 𝛶 (x) . rad y Тема X2. Интервальная статистика (6) 12.10.2021 31 / 61 Диаграмма статусов для интервальных наблюдений. Обе величины являются относительными, поскольку нормируются на величину неопределённости наблюдения y . Размах наблюдения косвенно характеризует положение наблюдения в пространстве независимых переменных xi . Наблюдения с размахом выше единицы ℓ > 1 лежат за пределами «области определения» зависимости, образованной наблюдениями выборки, по которой построена зависимость. Остаток характеризует смещение наблюдения по откликовой переменной y относительно коридора совместных зависимостей. Наблюдения с большими значениями размаха и остатка при их включении в выборку, по которой построен коридор совместных зависимостей, могут существенно повлиять на его вид. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 32 / 61 Диаграмма статусов для интервальных наблюдений. Размах и остаток позволяют установить статус наблюдения, проверив некоторые простые неравенства. Так для внутренних наблюдений, содержащих в себе прогнозный интервал модели, выполняется нестрогое неравенство |r (x, y )| ≤ 1 − ℓ(x, y ), (7) а точное равенство в нём является характеристическим условием для граничных наблюдений. — наблюдения, не пересекающиеся с коридором совместных зависимостей, а потому они удовлетворяют неравенству Выбросы |r (x, y )| > 1 + ℓ(x, y ). А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика (8) 12.10.2021 33 / 61 Диаграмма статусов для интервальных наблюдений. Интервальные измерения, у которых величина неопределённости меньше, чем ширина прогнозного интервала, то есть ℓ(x, y ) > 1, (9) могут оказывать очень сильное влияние на модель и потому называются строго внешними. Иногда для обозначения строго внешнего наблюдения используется термин «абсолютно внешнее наблюдение», который по мнению авторов книги является менее удачным из-за невольной интерференции смыслов с общематематическими понятиями «абсолютная величина», «абсолютная погрешность», «абсолютно непрерывный» и т.п. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 34 / 61 Диаграмма статусов для интервальных наблюдений. Неравенства (7)–(9) на плоскости r , ℓ задают границы областей, соответствующих различным статусам наблюдений. Зона внутренних наблюдений выделена зелёным цветом. Наблюдения, размещенные на границе зелёной зоны, являются граничными для информационного множества задачи. Зона внешних наблюдений — жёлтая. Правее вертикали ℓ(x, y ) = 1 лежат абсолютно внешние наблюдения. Выбросы локализуются в красной зоне. 8 1 5 3 1 6 2 4 -1 7 А.Н. Баженов (СПбПУ) 1 Тема X2. Интервальная статистика 12.10.2021 35 / 61 Диаграмма статусов для интервальных наблюдений. Примечательно, что характеризация наблюдений в терминах размахов и остатков не зависит от размерности входной переменной x и позволяет поддержать анализ статусов наблюдений визуальными инструментами даже в случаях, когда явное отображение информационного множества задачи и коридора совместных зависимостей затруднительно. По своему назначению диаграмма статусов интервальных наблюдений является содержательным аналогом широко используемого в классическом регрессионном анализе графика влияния (англ. – influence plot), который также служит для оценки степени однородности (похожести) наблюдений и их потенциальной влиятельности на конструируемую зависимость. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 36 / 61 Варьирование величины неопределённости измерений Один из приёмов выявления выбросов в задаче построения зависимости по интервальным наблюдениям основан на интерпретации выбросов как наблюдений с недооценённой величиной неопределённости [5]. Закономерным шагом в этом случае становится поиск некоторой минимальной коррекции величин неопределённости интервальных наблюдений, необходимой для обеспечения совместности задачи построения зависимости. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 37 / 61 Варьирование величины неопределённости измерений Если величину коррекции каждого интервального наблюдения y i = [ẙi − 𝜖i , ẙi + 𝜖i ] выборки Sn выражать коэффициентом его уширения wi ≥ 1, а общее изменение выборки характеризовать суммой этих коэффициентов, то минимальная коррекция выборки в виде вектора коэффициентов w * = (w1* , . . . , wn* ), необходимая для совместности задачи построения зависимости y = f (x, 𝛽) может быть найдена решением задачи условной оптимизации найти w ,𝛽 при ограничениях {︃ ẙi − wi 𝜖i ≤ f (xi , 𝛽) ≤ ẙi + wi 𝜖i , wi ≥ 1, А.Н. Баженов (СПбПУ) (10) min Σni=1 wi Тема X2. Интервальная статистика i = 1, . . . , n. 12.10.2021 (11) 38 / 61 Варьирование величины неопределённости измерений Результирующие значения коэффициентов wi* , строго превосходящие единицу, указывают на наблюдения, требующие уширения интервалов неопределённости для обеспечения совместности данных и модели. Именно такие наблюдения заслуживают внимания при анализе данных на выбросы. Значительное количество подобных наблюдений может говорить либо о неверно выбранной структуре зависимости, либо о том, что величины неопределённости измерений занижены во многих наблюдениях (например, в результате неверной оценки точности измерительного прибора). А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 39 / 61 Варьирование величины неопределённости измерений Следует отметить значительную гибкость языка неравенств. Он даёт возможность переформулировать и расширять систему ограничений (11) для учёта специфики данных и задачи при поиске допустимой коррекции данных, приводящей к разрешению исходных противоречий. Например, если имеются основания считать, что величина неопределённости некоторой группы наблюдений одинакова и при коррекции должна увеличиваться синхронно, то система ограничений (11) может быть пополнена равенствами вида wi1 = wi2 = · · · = wiK , где i1 , . . . , iK — номера наблюдений группы. В случае, когда в надёжности каких-либо наблюдений исследователь уверен полностью, при решении задачи (10)–(11) соответствующие им величины wi можно положить равными единице, т.е. запретить варьировать их неопределённость. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 40 / 61 Варьирование величины неопределённости измерений Задача поиска коэффициентов масштабирования величины неопределённости (10)–(11) сформулирована для распространённого случая уравновешенных интервалов погрешности и подразумевает синхронную подвижность верхней и нижней границ интервалов неопределённости измерений y i при сохранении базовых значений интервалов ẙi неподвижными. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 41 / 61 Варьирование величины неопределённости измерений При необходимости постановка задачи легко обобщается. Например, если интервалы наблюдений не уравновешены + относительно базовых значений (то есть y i = [ẙi − 𝜖− i , ẙi + 𝜖i ] и 𝜖− ̸= 𝜖+ ), то границы интервальных измерений можно варьировать + независимо, масштабируя величины неопределённости 𝜖− i и 𝜖i с − + помощью отдельных коэффициентов wi и wi : найти min w −, w +, 𝛽 Σni=1 (wi− + wi+ ) (12) при ограничениях ⎧ + + ẙ − wi− 𝜖− ⎪ i ≤ f (xi , 𝛽) ≤ ẙi + wi 𝜖i , ⎨ i wi− ≥ 1, ⎪ ⎩ wi+ ≥ 1, А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика i = 1, . . . , n. 12.10.2021 (13) 42 / 61 Варьирование величины неопределённости измерений Для линейной по параметрам 𝛽 зависимости y = f (x, 𝛽) задача (10)–(11) представляет собою задачу линейного программирования, решатели которой широко доступны и в виде библиотек на различных языках программирования, и в виде стандартных процедур систем компьютерной математики, и в виде интерактивных подсистем электронных таблиц. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 43 / 61 Пример Наблюдения из таблицы 1 получены четырьмя различными способами A, B, C и D, обеспечивающими различную величину неопределённости 𝜖i измерений выходной переменной y i = [ẙ − 𝜖i , ẙ + 𝜖i ] для точно задаваемых значений входной переменной xi . Диаграмма рассеяния интервальных данных приведена на рисунке 3. По данным требуется построить линейную зависимость y = 𝛽0 + 𝛽1 x. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 44 / 61 Пример Таблица: Данные с выбросами Номер измерения i 1 2 3 4 5 6 7 8 9 10 А.Н. Баженов (СПбПУ) Способ измерения A A A A A B B C C D xi ẙi 𝜖i 1 2 3 4 5 6 7 8 9 10 2.13 2.95 5.01 4.99 5.97 7.04 8.02 8.15 10.01 10.98 0.20 0.20 0.20 0.20 0.20 0.40 0.40 0.40 0.40 0.50 Тема X2. Интервальная статистика 12.10.2021 45 / 61 Пример 12 11 10 9 8 7 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 10 Рис.: Данные с выбросами. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 46 / 61 Пример Попытка построения зависимости по исходным данным приводит к пустому информационному множеству задачи и необходимости выяснения причин несовместности задачи. Чтобы понять, имеются ли выбросы, для начала пытаемся решить в отношении данных задачу (10)–(11). Полученные в результате значения масштабирующих коэффициентов величины неопределённости wi* приведены в первом столбце таблицы 2. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 47 / 61 Пример Анализируя эти числа, можно прийти к выводу, о том, что третье и восьмое наблюдения несовместны с остальными. Причём третье наблюдение особенно не вписывается в общую картину, поскольку сделать его совместным с прочими возможно только при расширении интервала измерения более, чем в четыре с половиной раза, и это при том, что способ A, которым получено третье наблюдение, является наиболее точным из всех четырёх. Эти соображения позволяют нам склониться к заключению, что третье измерение вполне вероятно может оказаться результатом грубых промахов и потому стоит проанализировать данные с исключением этого измерения из всех дальнейших построений. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 48 / 61 Пример Что касается восьмого наблюдения, то его несовместность менее выражена. Поэтому здесь разумно отработать как гипотезу о грубых промахах во время проведения этого измерения, так и о возможной переоценке точности способа C. С этой целью задачу (10)–(11) нужно решать, либо исключая из рассмотрения восьмое наблюдение, либо предполагая, что способ C менее точен, чем продекларировано в таблице, а значит величины неопределённости всех наблюдений, выполненных способом C , должны быть откорректированы синхронно, то есть (14) w8 = w9 . А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 49 / 61 Пример Таблица: Коэффициенты масштабирования величины неопределённости интервальных измерений для данных из таблицы 1 Номер измерения i 1 2 3 4 5 6 7 8 9 10 А.Н. Баженов (СПбПУ) Решение задачи (10)–(11) wi* 1.000 1.000 4.686 1.000 1.000 1.000 1.000 1.343 1.000 1.000 Решение задачи (10)–(11), (14) wi* 1.000 1.000 – 1.000 1.000 1.000 1,000 1.143 1.143 1.000 Тема X2. Интервальная статистика 12.10.2021 50 / 61 Пример Результат решения задачи (10) при ограничениях (11) и (14), приведенный во втором столбце таблицы 2, говорит о том, что для совместности задачи исходная величина неопределённости измерений, полученных способом C, не может иметь значение менее, чем w8* 𝜖8 = w9* 𝜖9 = 1.143 · 0.40 ≈ 0.46. Такой вывод, конечно, не может служить основанием автоматического увеличения ширины интервалов неопределённости восьмого и девятого измерений до указанного уровня, а может означать лишь необходимость дополнительной проверки точности способа измерений C. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 51 / 61 Пример Таким образом, исследования, проведённые в отношении задачи построения линейной зависимости по данным из таблицы 1 позволяют сформулировать следующие гипотезы о причинах несовместности задачи, заслуживающие содержательной проверки: и третье, и восьмое наблюдение являются результатами грубых промахов и должны быть исключены из дальнейшего рассмотрения; третье наблюдение является результатом грубых промахов и должно быть удалено из набора данных, а способ измерений менее точен и поэтому величина неопределённости всех выполненных им измерений должны быть увеличена. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 C 52 / 61 Пример Конечно же, наряду с гипотезами о некорректности данных не стоит забывать о всегда имеющейся альтернативной гипотезе о некорректном виде конструируемой модели, хотя для выбора иной структуры модели (скажем, квадратичной вместо линейной), как правило, нужны довольно весомые основания. Отработка этих гипотез даёт шанс конструктивно преодолеть несовместность задачи построения зависимости и перейти к задаче построения зависимости с непустым информационным множеством, которое может подвергаться дальнейшему содержательному анализу. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 53 / 61 Точки чебышёвского альтернанса Следуя [?], изложим простой полуэвристический приём для выявления измерений, подозрительных на выбросы, в рамках общей вычислительной схемы метода максимума совместности (см. §??). Он основан на гипотезе о том, что «выбросы — это наиболее конфликтующие между собой измерения» => точки чебышёвского альтернанса. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 54 / 61 Точки чебышёвского альтернанса Исходный пунктом нашей методики является то простое наблюдение, что выражения для распознающих функционалов (??) имеют весьма специальный вид, в котором окончательное значение получается как минимум от значений ряда выражений одинаковой структуры (стоящих внутри фигурных скобок в (??)), которые вычисляются по строкам матрицы данных (3). Мы будем называть их образующими распознающих функционалов. Фактически, их значения в точке x = (x1 , x2 , . . . , xn )⊤ характеризуют отдельные измерения, давая для каждого из них меру совместности (согласования) данных в этом измерении с вектором параметров x = (x1 , x2 , . . . , xn )⊤ . А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 55 / 61 Точки чебышёвского альтернанса С другой стороны, выбросы — это измерения, удаление которых резко увеличивает меру совместности оставшейся части выборки. Как следствие, приходим к следующей естественной идее. В точке максимума распознающего функционала нужно посмотреть на значения его образующих, соответствующих отдельным измерениям, и если какие-то из этих образующих существенно меньше остальных, то они и являются кандидатами на выбросы. Высказанная идея верна по сути, но на пути её успешного применения стоят некоторые принципиальные ограничения, которые следует учитывать при интерпретации результатов расчётов. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 56 / 61 Точки чебышёвского альтернанса Напомним, что в пределе, когда интервалы неопределённости данных вырождаются в точки и мы должны восстанавливать зависимость по точным данным, метод максимума совместности (как слабая, так и сильная версии) переходит в чебышёвское сглаживание данных (см. обоснование в [?, ?, ?], т. е. в их приближение в равномерной метрике. Один из основных результатов теории равномерного приближения функций — это теорема Чебышёва. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 57 / 61 Теорема Чебышёва Теорема Чебышёва (см., к примеру, [?, ?]) Для того, чтобы многочлен n -ой степени P(x) являлся многочленом наилучшего равномерного приближения непрерывной на интервале [a, b] функции f (x), [a, b] (n + 2) точки x0 < x1 < . . . < xn < xn+1 , f (xi ) − P(xi ), i = 0, 1, . . . , n + 1, принимает в них необходимо и достаточно, чтобы на существовали по крайней мере такие что разность равные по абсолютной величине значения, которые последовательно меняют знак от точки к точке. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 58 / 61 Точки чебышёвского альтернанса Точки x0 < x1 < . . . < xn < xn+1 , о которых идёт речь в теореме Чебышёва, называются, как известно, точками чебышёвского альтернанса. Если ищется наилучшее равномерное приближение линейной функцией, т. е. полиномом первой степени n = 1, то n + 2 = 3, так что точек альтернанса должно быть не менее трёх штук. Но нередко их бывает гораздо больше. Нетрудно понять, что точки альтернанса соответствуют тем измерениям, значения образующих для которых — наименьшие, и из сделанного наблюдения следует, что таких точек не может одна или две. Их принципиально не меньше трёх, и, вообще говоря, может быть больше. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 59 / 61 Точки чебышёвского альтернанса Что происходит в случае интервальных данных? Вместо точек мы имеем брусы неопределённости измерений в пространстве Rn+1 , так что в общем случае теорема Чебышёва здесь, строго говоря, неприменима. Тем не менее, если интервалы данных «не слишком широки» (или «достаточно узки»), то теорема Чебышёва всё-таки остаётся верной, и мы можем считать, что количество точек альтернанса остаётся равным как минимум n + 2, т. е. 3 в линейном случае. Опять-таки, в реальных ситуациях их может быть довольно много, что хорошо демонстрируется при работе с практическими задачами. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 60 / 61 Точки чебышёвского альтернанса Таким образом, в методе максимума совместности выбросы, если они имеются, в силу принципиальных математических причин могут маскироваться обычными информативными измерениями. Тем не менее, если количество обрабатываемых измерений велико, то любая дополнительная информация о выбросах, любая техника, позволяющая сузить «круг подозреваемых», может оказаться полезной и имеет смысл быть применённой. Особенно, когда затраты на её реализацию пренебрежимо малы, как это имеет место с предложенной выше методикой исследования образующих распознающего функционала в точке максимума. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 61 / 61 Литература А.Н. Баженов, С.И. Жилин, С.И. Кумков, С.П. Шарый. Обработка и анализ данных с интервальной неопределённостью. РХД. Cерия «Интервальный анализ и его приложени». Ижевск. 2021. с.200. С.П. Шарый. Конечномерный интервальный анализ. — Новосибирск: XYZ, 2021. — Электронная книга, доступная на http: //interval.ict.nsc.ru/Library/InteBooks/SharyBook.pdf С.И.Жилин. Примеры анализа интервальных данных в Octave https://github.com/szhilin/octave-interval-examples С.И.Жилин. Библиотека полной интервальной арифметики kinterval в среде Octave. Частное сообщение. Нестатистические методы и модели построения и анализа зависимостей. – Барнаул, 2004. – Диссертация на соискание учёной степени канд. физ.-мат. наук по специальности Жилин С.И. А.Н. Баженов (СПбПУ) Тема X2. Интервальная статистика 12.10.2021 62 / 61

ПРОГРАММИРОВАНИЕ

#Лекция

Обработка и анализ данных с интервальной неопределенностью

Тебе могут подойти лекции

Числовые и нечисловые данные, типы измерительных шкал

Основы оценки сложных систем

Статистические распределения и их основные характеристики

Статистика. Часть 2

Проблема измерения в психологии

Статистические распределения и их основные характеристики

Использование методов математической статистики в психолого-педагогическом исследовании

Сводка, классификация и группировка статистических данных

Прогнозирование социально-экономических процессов

Методологические основы прогнозирования

Обработка и анализ данных с интервальной неопределенностью

Тебе могут подойти лекции

Другие технические предметы

Помощь с написанием учебных работ