Справочник от Автор24
Поделись лекцией за скидку на Автор24

Вероятностное описание событий и процессов.

  • 👀 293 просмотра
  • 📌 234 загрузки
Выбери формат для чтения
Загружаем конспект в формате docx
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Конспект лекции по дисциплине «Вероятностное описание событий и процессов.» docx
Лекция 2 (2 часа). Вероятностное описание событий и процессов. Статистическая обработка экспериментальных данных. Оценивание показателей систем и определение их точности методами математической статистики. Регрессионный и дисперсионный анализ. Корреляционно-регрессионный анализ Как найти в виде формулы зависимость между двумя случайными ве­личинами, полученными в результате наблюдений, если каждому зна­чению одной величины соответствует несколько значений другой? Как найти параметры этих формул при условии, чтобы они отражали сущность изучаемого процесса и «сглаживали» влияние случайных, не характерных для данного процесса факторов? Насколько сильно вли­яет изменение одной величины на изменение другой? Ответы на эти вопросы составляют содержание настоящей главы. 2.1. Понятие корреляционной и регрессионной зависимости. Корреляционная таблица Проведено наблюдение двух признаков у 15 колосьев пшеницы — из­мерена длина каждого колоса Х (см) и подсчитано число зерен Y. Со­ставлена следующая таблица: Xi 10 9 11 8 9 10 9 11 8 10 9 10 8 9 11 Yi 24 20 27 18 20 24 20 27 20 27 24 27 20 27 30 Интуитивно можно предположить, что большей длине колоса отве­чает большее число зерен в нем. Упорядочим эти первичные данные, поместив их в таблицу. В первом столбце запишем в порядке возраста­ния значения xi 8, 9, 10, 11, а в первой строке — в том же порядке значе­ния yi : 18, 20, 24, 27, 30. На пересечении строк и столбцов запишем чис­ло повторений одинаковых пар (хi ; уi ) в ряду наблюдений (табл. 4.1). Требуется установить и оценить степень зависимость случайной величины Y от величины X. Эти задачи являются основными в теории корреля­ции и регрессии и формулируются так: • определение зависимости между случайными величинами в виде формулы; • определение силы или тесноты этой зависимости; • прогнозирование значений одной случайной величины по известным значениям другой. Таблица 4.1 Y X 18 20 24 27 30 nx 8 1 2 3 9 3 1 1 5 10 2 2 4 11 2 1 3 ny 1 5 3 5 1 15 Для того чтобы их решить, необходимо построить соответствующий математический аппарат. Пусть имеются два ряда наблюдений зависимых между собой вели­чин Х и Y. Если xi и yi встречаются по одному разу, то их записывают в виде табл. 4.2: Таблица 4.2 N 1 2 3 … k ... n Xi x1 x2 x3 … … xn Уi y1 y2 y3 … … yn где xi , yi — наблюдавшиеся значения зависимых между собой призна­ков Х и Y; N — номер наблюдения. Если каждому значению yi, отвечает несколько значений X, а каждо­му хi — несколько Y, то эти данные надо упорядочить и записать в виде таблицы 4.3. Таблица 4.3 Y X y1 y2 y3 … yn X1 n1,1 n1,2 n1,3 n1,n X2 n2,1 n2,2 n2,3 n2,n X3 n3,1 n3,2 n3,3 n3,n … X … … … … … … Xm nm,1 nm,2 nm,3 nm,n … Здесь числа пi,j — частоты, показывающие, сколько раз повторяются парные значения хi, уj. Например, п2,3 показывает, сколько раз произош­ло событие, состоящее в том, что Х = x2, а Y = у3 Табл. 4.3, в которой результаты наблюдений записаны в порядке возрастания с указанием частот ni,j , называется таблицей распределения. Такая таблица может быть составлена как для дискретных признаков, так и для непрерывных. В последнем случае разность признаков хmax - xmin или ymax - ymin делит­ся точками на ряд частичных интервалов (классов), обычно равных, а при дальнейшей обработке переходят к дискретному статистическому распределению, заменяя интервал хi-1...хi, его центром .Так же поступают в отношении случайной величины Y. Из табл. 4.3 видно, что каждому значению признака X отвечает рас­пределение признака У и, наоборот, одному значению Y отвечает рас­пределение признака X. Так, например, при Х = х1, имеем yi y1 y2 y3 … yn y1,j n1,1 n1,2 n1,3 … n1,n При X – x2 распределение имеет следующий вид: yi y1 y2 y3 … yn n2,j n2,1 n2,2 n2,3 … n2,n Далее при Y =у1, получаем xi x1 x2 x3 … xm ni1 ni,1 ni,2 ni,3 … nm,1 При Y =у2, имеем xi x1 x2 x3 … xm ni,2 n1,2 n2,2 n3,2 … nm,2 и так далее. В отличие от функциональной зависимости здесь нет строгого соот­ветствия между Х и Y, но можно найти соответствие между значения­ми одной и средним значением другой величины. Определение 1. Зависимость между случайными величинами (СВ) Х и Y, состоящая в том, что каждому значению одной величины соответству­ет распределение другой, называется статистической. Статистическая зависимость состоит в том, что одна СВ реагирует на изменение другой СВ изменением параметров своего распределения. Эта зависимость характеризуется двумерным законом распределения двумерной плотностью f(x,y), или двумерной функцией распределения F(x,y). Нахождение вида двумерного закона распределения по выборке ограниченного объема приводит к значительным ошибкам, поэтому на практике при исследовании зависимости между СВ X и Y обычно ограничиваются изучением зависимости одной из них и условным средним другой. Статистическая зависимость показывает, что если величина Х принимает одно значение или попадает в определенный интервал, то при этом другая величина Y принимает несколько значений с опреде­ленными частотами. Каждому значению Х сопоставляется условное распреде­ление f(y/x) и наоборот. Особенно важным является частный случай статистической зави­симости, когда каждому возможному значению одной величины сопо­ставляется какая-либо числовая характеристика соответствующего распределения другой. Такая зависимость называется регрессией. Определение 2. Среднее арифметическое значение величины Y, вы­численное при условии, что Х принимает фиксированное значение, называется условным средним и обозначается . Аналогично определяется условное среднее . Обратимся к табл. 4.1. Значению x1 = 8 отвечает распределение и условное среднее Далее при х2 = 9 при x3 = 10 при x4 = 11 Таким образом, получена следующая новая таблица: xi 8 9 10 11 19,3 22,2 25,5 28 Эта таблица определяет соответствие между значениями хi и услов­ными средними . Построим в декартовой системе координат точки Мi(хi , ) и соединим их отрезками прямых. Полученная линия назы­вается эмпирической линией регрессии Y на Х (рис. 5). Из табл. 4.1 можно составить еще одну таблицу, показывающую со­ответствие между значениями уi и условными средними : yi 18 20 24 27 30 8 8,6 9,7 10,2 11 Ломаная линия с вершинами N,( ;yj) называется эмпирической линией регрессии Х на Y (рис. 6). Изучая линию, построенную по дан­ным приведенных выше таблиц, можно «наметить» некоторую плав­ную «сглаживающую» кривую, около которой группируются или к Рис. 5 Рис. 6 которой «тяготеют» точки М. или N.. Такую линию называют теорети­ческой линией регрессии Y на Х (Х на Y), или линией регрессии, а соот­ветствующее уравнение — уравнением регрессии Y на Х (Х на Y). Наиболее простым является уравнение прямой линии. Как же найти уравнение линии регрессии? Форма линии регрессии и соответствующее уравнение часто под­сказываются эмпирической линией регрессии. Если точки Mi или Nj располагаются вдоль прямой, то линия регрессии называется прямой регрессии и операция «сглаживания» ломаной сводится к нахождению параметров a и b функции у = ах + b. Регрессионная зависимость, или просто регрессия, называется прямой (положительной), если большему значению х отвечает большее значение , и обратной, если с возрастанием х значение убывает. Для прямой регрессии в уравнении регрессии а > 0, а для обратной а < 0. Функция y = ах + b является математической моделью изучаемой зависимости, которая при правильном ее построении будет выявлять главнейшие свойства изучаемого процесса или явления и исключать отдельные «возмуще­ния», вызванные случайными, не характерными для данного явления факторами. 2.2. Линейная регрессия. Определение параметров линейной зависимости методом наименьших квадратов Предположим, что по эмпирической линии регрессии или из других соображений установлено, что между двумя количественными при­знаками существует линейная регрессионная зависимость. Уравнение регрессии имеет вид или . (28) Сначала рассмотрим простейший случай, когда пары чисел в табл. 4.3 наблюдались по одному разу, т. е. ni,j = 1 для всех i = j и ni,j = 0 для всех i  j (см. табл. 4.2). Подставив в (28) вместо х и соответственно хi и yi мы не получим в правой части равенства ноль, так как на результаты каждого наблюдения влияют случайные «возмущения». Имеем: Числа e1, e2, e3 ..., en называются отклонениями. Параметры а и b находят из условия, состоящего в том, чтобы сумма квадратов откло­нений , (29) была наименьшей из всех возможных. Поэтому метод называется ме­тодом наименьших квадратов. Сумма (29) является функцией параметров а и b. Составим эту функ­цию, заменив значения vi на уi - ахi - b. Имеем . (29*) Для нахождения минимума функции F(a, b), зависящей от двух неизвестных — а и b, найдем частные производные — и и приравняем их нулю, причем при нахождении первой частной производной элементы, стоящие в круглых скобках выражения (29*) сгруппируем так, чтобы в одной группе были элементы не зависящие от параметра а, а во второй – зависящие, то есть - ((yi - b) - axi); наконец, при нахождении второй частной производной группировку выполним аналогично по параметру b, а именно - ((yi - axi) - b): (30) Вынесем постоянный множитель за знак суммы, и, перегруппировав слагаемые, запишем (31) Найдя из системы (31) а и b, получаем искомое уравнение прямой линии регрессии: (32) где а — выборочный коэффициент регрессии. Система уравнений (31) была составлена для случая, когда пары чисел xi и yi . Если необходимо найти параметры a и b, когда связь между X и Y описывается корреляционной таблицей, то в системе (31) необходимо все элементы разделить на число элементов корреляционной таблицы N, в результате система уравнений (31) примет вид (33) где: Значения пx,i, пy,j, пy,j поясняются табл. 4.3. Для определения а и b из системы (33) умножим второе уравнение на и вычтем результат почленно из первого уравнения откуда Из второго уравнения найдем и подставим его в уравне­ние регрессии (32). В результате имеем . Далее получа­ем или . (34) Проводя аналогичные рассуждения для уравнения регрессии приходим к уравнению (35) Угловой коэффициент прямой (34) называется выборочным коэф­фициентом регрессии с Y на X, его обозначают символом  : . В результате уравнения прямых регрессии принимают следующий вид: ; (36) . (37) 2.3. Определение параметров линейной зависимости способом выбранных точек и способом средней Пусть данные наблюдений представлены в виде табл. 4.2. Построим в системе координат точки Мi(xi; yi), i = 1, 2, ..., п и проведем прямую l таким образом, чтобы она проходила как можно ближе к этим точкам. Далее выберем на прямой две произвольные точки N1 и N2 . Их коорди­наты найдем с помощью циркуля или подсчитав длину соответствую­щих отрезков, воспользовавшись миллиметровой бумагой. Получим две пары чисел (x1;y1 ) и (x2;y2). Уравнение прямой, проходящей через две данные точки, и определит параметры эмпирической формулы: . В этом и состоит способ выбранных точек. Рассмотрим теперь способ средней. Разобьем результаты наблюде­ний, помещенных в табл. 4.1, на две равные (или почти равные) по объему группы. Для определения параметров а и b потребуем, чтобы отклонения взаимно погашались в каждой группе: yi - ахi - b = vi , (38) т. е. чтобы выполнялись равенства После перегруппировки слагаемых приходим к системе двух урав­нений с двумя неизвестными: (39) Найденные из (39) числа а и b подставляют в уравнение . Пример 1. Используя метод выбранных точек, найти регрессион­ную зависимость вида у = ax + b, если результаты наблюдений пред­ставлены в следующей таблице: xi 1 2 3 4 5 yi 2,8 1,3 4,1 2,1 3,9 Решение. Строим точки М1 (1; 2,8), M2(2; 1,3), M3(3; 4,1), M4(4; 2,1), М5(5; 3,9) (рис. 7). Проведем прямую l. Выберем две точки N1  l и N2  l и измерим их координаты. Пусть N1 (l; 2), N2(4; 3,3). Запишем уравне­ние прямой (N1,N2): . В результате преобразований получим у = 0,43x + 1,57. Рис.7 Таким образом, а = 0,43, b = 1,57. Пример 2. Используя способ средней, найти регрессионную зави­симость вида у = ax + b, если результаты наблюдений представлены таблицей примера 1. Решение. Разбиваем результаты на две группы. Пусть т = 2, п - т = 3. Для составления системы уравнений вычисления проведем во вспо­могательной таблице. xi ,i=1,2 yi i=1,2 xi, i = 3,4, 5 yi i = 3,4,5 1,0 2,8 3,0 4,1 2,0 1,3 4,0 2,1 5,0 3,9  = 3,0 4,1 12,0 10,1 Решив систему находим а = 0,53, b = 1,26, у = 0,53x + 1,26. Пример 3. Используя метод наименьших квадратов, найти регрессионную зависимость вида у = ax + b, если результаты наблюдений представлены таблицей примера 1. Решение. Для определения параметров а и b воспользуемся систе­мой Вычисление коэффициентов а и b проведем во вспомогательной таблице. Номер наблюдения xi yi xi2 xi , yi 1 1 2,8 1 2,8 2 2 1,3 4 2,6 3 3 4,1 9 12,3 4 4 2,1 16 8,4 5 5 3,9 25 19,5 xi =15 yi =14,2 x2i = 55 xi yi= 45,6 Решая систему находим а = 0,3, b = 1,94, у = 0,3х + 1,94. Как видим, применяя различные методы, мы получили и разные ре­зультаты. Расхождение объясняется прежде всего тем, что число пар наблюдений сравнительно мало (п = 5). Метод наименьших квадратов имеет строгое математическое обоснование, поэтому результаты вы­числений, полученные с его помощью, считаются наиболее близкими к точному значению неизвестных параметров а и b. Это утверждение мы подтвердим в дальнейшем. 2.4. Коэффициент корреляции и его свойства. Пример выравнивания опытных данных Обратимся к табл. 4.2 и найдем и , далее составим разности хi - и yi - , затем вычислим произведения (хi - )( yi - ) . Все вычисления поместим в таблицу. Таблица 4.4 Номер наблюдения xi yi xi - yi - (хi - )( yi - ) 1 x1 y1 x1 - y1 - (х1 - )( y1 - ) 2 xi y2 x2 - y2 - (х2 - )( y2 - ) 3 xi y2 x3 - y3 - (х3 - )( y3 - ) — — — — — — N xn yn xn - yn - (хn - )( yn - ) ( xi) ( yi) ( xi - ) ) ( yi - ) (хn - )( yn - ) Если между Х и Y существует линейная корреляция, то разности (хi - )( yi - ) для каждого i, i = 1,2,3,..., п, имеют одинаковые знаки в случае прямой корреляции и противоположные — в случае обратной корреляции. Следовательно, при наличии корреляционной зависимости величина - (хn - )( yn - ) есть число, отличное от нуля. Если же Х и Y не связаны корреляцион­ной зависимостью или, как говорят, не коррелированны, то знаки раз­ностей носят случайный характер, при суммировании они взаимно по­гашаются и сумма при большом числе наблюдений будет мала или равна нулю. Следовательно, эта сумма характеризует меру связи изменения одной величины при изменение другой. Определение 1. Выборочным корреляционным моментом, или ковариацией К , называется второй смешанный центральный момент случайных величин X и Y, определяемый формулой: . (40) В теории корреляции доказывается, что если Х и Y независимы, то Кx,y = 0. Корреляционный момент характеризует силу связи между Х и Y. Размерность Кx,y равна произведению размерностей наблюдаемых случайных величин. Разделив Кx,y на произведение средних квадратических отклонений, получим безразмерный коэффициент , (41) Коэффициент r также называют коэффициентом корреляции Пирсона. Определение 2. Выборочным коэффициентом корреляции x,y называ­ется отношение выборочного корреляционного момента Kx,y к произве­дению выборочных средних квадратичных отклонений этих величин. Формулу (41) можно записать в другой форме, удобной для случа­ев, когда зависимость между Х и Y задается корреляционной таблицей. Имеем . Рассмотрим свойства выборочного коэффициента корреляции. 1. Значения коэффициента корреляции изменяются на множестве [-1,1] = {r : -1  r  1}. 2. Чем больше r , тем теснее связь между изучаемыми количествен­ными признаками. 3. Если r = 1, то корреляционная зависимость становится функци­ональной. 4. Если r = 0 , то между изучаемыми признаками нет линейной кор­реляционной зависимости, но условие r = 0 не исключает суще­ствования какого-либо другого вида корреляционной зависимос­ти (параболической, показательной и др.). Выборочный коэффициент корреляции подвержен случайным воздействиям, связанным с объемом выборки и, вообще говоря, отличается от истинного (теоретического) значения коэффициента корреляции, имеющего место для генеральных совокупностей X и Y. В случае n > 50 проверить гипотезу Н0: r = 0 можно с помощью критерия Стьюдента, при этом в качестве критерия используется статистика , имеющая распределение Стьюдента с (n-2) степенями свободы. Тогда , а значение tкр находят по таблице распределения Стьюдента, причем, если |tнабл| > tкр, то нулевая гипотеза отвергается, т.е. принимается гипотеза, что r  0. Если случайная величина не имеет количественного выражения, а носит только качественный характер, то такую случайную величину можно упорядочить по возрастанию качества и после этого присвоить ранг (выше качество – меньше числовое выражение ранга, т.е. ранг выше). Для таких случайных величин вычисляют статистическую зависимость не в виде коэффициента корреляции, а в виде коэффициента ранговой корреляции Спирмена . При n < 50 для проверки гипотезы Н0: rсп = 0, применяют таблицы критических значений ранговой корреляции Спирмена. Входными параметрами в этих таблицах являются уровень значимости  и объем выборки n. Затем проверяют условие , если оно выполняется, то нулевая гипотеза отвергается. При n > 50, можно применять квантили распределения Стьюдента. Для этого вычисляется наблюденное значение статистики Стьюдента , Для чего вычисляют выборочный коэффициент ранговой корреляции Спирмена, и проверяют условие, что модуль выборочного коэффициента больше критического значения (квантиля для заданного уровня значимости ) распределения Стьюдента с (n-2) степенями свободы. , в этом случае нулевая гипотеза отвергается. Пример. Зависимость массы пушного зверька Y (кг) от его возраста Х (в месяцах) характеризуется следующей таблицей: xi 1 2 3 4 5 6 7 8 yi 1,3 2,5 3,9 5,2 5,+3 7,5 9,0 10,8 13,1 • показать, что корреляция линейная; • с помощью способа наименьших квадратов найти линейную за­висимость между Х и Y; • найти выборочный коэффициент корреляции. Решение. Построим в системе координат Оху точки Мi (хi уi ) (рис. 8). Из рисунка видно, что точки располагаются вдоль прямой линии. Для определения коэффициентов а и b составим вспомогательную таблицу. Система уравнений имеет вид 204,0 а + 36,0 b = 319,0, 36,0 а + 9,0 b = 58,6, откуда находим: а = 1,42, b = 0,83, у = 1,42x + 0,83. Номер наблюдения x i месяцы yi, кг x2i xi yi 1 1,3 2 1 2,5 1 2,5 3 2 3,9 4 7,8 4 3 5,2 9 15,6 5 4 5,3 16 21,2 6 5 7,5 25 37.5 7 6 9,0 36 54,0 8 7 10,8 49 75,6 9 8 13,1 64 104,8  xi =36,0  yi= 58,6 Определим теперь выборочный коэффициент корреляции. Восполь­зовавшись формулой (41), находим Составляем вспомогательную таблицу: Номер наблюдения xi yi ()() ()2 ()2 1 1,3 -1,0 -5,21 20,84 16,0 27,14 2 1 2,5 -3,0 -4,01 12,03 9,0 16,08 3 2 3,9 -2,0 -2,61 5,22 4,0 6,81 4 3 5,2 -1,0 -1,31 1,31 1,0 1,72 5 4 5,3 0,0 -1,21 0,00 0,0 1,46 6 5 7,5 1,0 0,99 0,99 1,0 0,98 7 6 9,0 2,0 2,49 4,98 4,0 6,20 8 7 10,8 3,0 4,29 12,87 9,0 18,40 9 8 13.1 4,0 6,59 26,36 16,0 43,43  84,60 60,00 122,22 Имеем r = 0,98. Как видим, связь между величинами Х и Y очень тесная. Коэффици­ент корреляции близок к 1. 2.5. Оценка адекватности линейной регрессии Оценка адекватности линейной регрессии с одновременной оценкой доверительного интервала для коэффициентов а и b проводится по алгоритму, предложенному Гауссом. Для этого разницу между изме­ренными значениями у. и вычисленными из уравнения Yi= axi + b нуж­но сделать минимальной, т. е. воспользоваться методом наименьших квадратов. Тогда наилучший возможный коэффициент регрессии бу­дет вычисляться по формуле: . Второй коэффициент в этом случае может быть найден по формуле: . Константы а и b — выборочные оценки теоретических параметров. Вследствие этого адекватность модели определяется доверительными интервалами для них. Сначала вычисляют дисперсию разности между опытными (у) и рассчитанными У значениями: Дисперсии для констант а и b ищут с помощью закона сложения ошибок с f = т - 2 степенями свободы, а т — число наблюдений. Тогда: Доверительные интервалы для а и Ь получают из соотношений: a = ± t (P, f)sa b = ± t (P, f)sb. по процентным точкам распределения Стьюдента. Полученную таким образом сглаженную (выровненную) функцию у = ax + b можно использовать для вычисления прогнозных значений зависимой переменной. При этом необходимо учитывать, что одному значению хk мы ставим в соответствие единственное Yk являющееся случайной величиной в силу стохастичности а и b. Зная ошибки sa и sb можно найти доверительный интервал для вычисляемого значения Yy . Отметим, что доверительный интервал зависит от разности и становится тем больше, чем дальше хi от среднего . 2.6. Прогнозирование производственных показателей методами корреляционно-регрессионного анализа Предсказание будущего — дело рискованное, и детали (обозначае­мые обычно термином «интуиция») играют в нем главную роль. Научный метод предсказания — это эконометрический анализ поведения системы в прошлом. Данные о таком поведении часто обладают некоторой степе­нью регулярности, на которую накладываются случайные флуктуа­ции. Задача заключается в том, чтобы выявить лежащую в основе этой регулярности тенденцию на фоне кратковременных отклонений. Самый простой метод для этого — графическая экстраполяция, т. е. продолжение некоторой зависимости, подобранной под имевшие мес­то данные, в будущее (см. рис. 9).
«Вероятностное описание событий и процессов.» 👇
Готовые курсовые работы и рефераты
Купить от 250 ₽
Решение задач от ИИ за 2 минуты
Решить задачу
Помощь с рефератом от нейросети
Написать ИИ
Получи помощь с рефератом от ИИ-шки
ИИ ответит за 2 минуты

Тебе могут подойти лекции

Смотреть все 938 лекций
Все самое важное и интересное в Telegram

Все сервисы Справочника в твоем телефоне! Просто напиши Боту, что ты ищешь и он быстро найдет нужную статью, лекцию или пособие для тебя!

Перейти в Telegram Bot