Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Министерство образования Республики Беларусь
Учреждение образования
«Белорусский государственный университет
информатики и радиоэлектроники»
Факультет компьютерного проектирования
Кафедра проектирования информационно-компьютерных систем
В. Ф. Алексеев, Г. А. Пискун
МЕТОДЫ КОМПЬЮТЕРНОЙ ОБРАБОТКИ
ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
Рекомендовано кафедрой проектирования информационно-компьютерных
систем в качестве учебно-методического пособия
для магистрантов высших учебных заведений специальности
1-39 81 01 Компьютерные технологии проектирования электронных систем
Минск БГУИР 2017
УДК 004 (076.5)
ББК 32.973.202-018.2я73
А 47
Р е ц е н з е н т ы:
кафедра экономической информатики Учреждения образования
«Белорусский государственный экономический университет»
(заведующий кафедрой доцент, канд. техн. наук Б. А. Железко);
канд. техн. наук, доцент Минского инновационного университета
В. В. Таборовец
А47
Алексеев, В. Ф.
Методы
компьютерной
обработки
экспериментальных данных : учеб.-метод. пособие для
магистрантов высших учебных заведений специальности
1-39 81 01 Компьютерные технологии проектирования
электронных систем / В. Ф. Алексеев, Г. А. Пискун
[Электронный ресурс] − Минск : БГУИР, 2017. − 156 с.: ил.
ISBN
Рассматриваются методы обработки экспериментальных данных.
Предназначено для ознакомления с теоретическими положениями и
приобретения практических навыков при изучении курса «Методы
компьютерной обработки данных». Рассмотрено большое количество
примеров по обработке статистической информации.
Пособие предназначено для магистрантов высших учебных
заведений, может быть использовано аспирантами, инженерами и другими
специалистами, занимающимися вопросами обработки данных.
УДК 004 (076.5)
ББК 32.973.202-018.2я73
ISBN
© Алексеев В. Ф., 2017
© УО «Белорусский государственный
университет
информатики
и
радиоэлектроники», 2017
СОДЕРЖАНИЕ
ВВЕДЕНИЕ................................................................................................................... 5
1 ВЫБОРОЧНЫЙ МЕТОД СТАТИСТИЧЕСКОГО АНАЛИЗА ............................ 8
1.1 Измерение .......................................................................................................8
1.2 Понятие о выборном исследовании .......................................................... 11
1.3 Основные определения............................................................................... 12
1.4 Репрезентативность выборки .................................................................... 13
1.5 О выборочном распределении ................................................................... 14
1.6 Стандартная ошибка как оценка стандартного отклонения................... 15
1.7 О доверительной вероятности и доверительном интервале.
Понятие о предельной ошибке ................................................................................ 19
1.8 Критерий Стьюдента .................................................................................. 21
1.9 Необходимое число измерений (оптимальный объем выборки) ........... 23
1.10 Случайная выборка ................................................................................... 28
1.11 Компьютерное формирование выборочной совокупности .................. 32
1.12 Обработка экспериментальных результатов .......................................... 38
1.13 Построение гистограмм ........................................................................... 45
2 Корреляционная связь и ее статистическое изучение в инженерной
деятельности ...........................................................................................................55
2.1 Типы зависимостей ..................................................................................... 55
2.2 Методы определения корреляционной связи .......................................... 58
2.3 Расчет коэффициента парной корреляции и его статистическая
проверка ..................................................................................................................... 59
2.4 О ложной корреляции (влияние «третьего фактора») ............................ 64
2.5 Измерение степени тесноты связи между качественными признаками
(ранговая корреляция) .............................................................................................. 65
3 Регрессионный метод пронозирования ................................................................71
3.1 Аппроксимационные модели..................................................................... 71
3.2 Выбор формул лучшего вида..................................................................... 72
3.3 Метод наименьших квадратов ................................................................... 74
3.4 Поиск уравнения регрессии ....................................................................... 77
3.5 Компьютерный подбор оптимального уравнения регрессии ................. 84
4 Множественная регрессия......................................................................................91
4.1 Расчет коэффициентов регрессии и представление уравнения ............. 92
множественной регрессии................................................................................ 92
4.2 Интерпретация коэффициентов регрессии .............................................. 97
4.3 Ошибки прогнозирования (определение качества регрессионного
анализа) ...................................................................................................................... 98
4.4 Проверка значимости модели .................................................................... 99
3
5 Анализ «Хи-квадрат»: поиск закономерностей для качественных данных ...105
5.1 Комбинация: нынешние и прошлые события (критерий
«хи-квадрат» соответствия) ................................................................................... 105
5.2 О коэффициентах взаимной сопряженности ......................................... 113
5.3 Проверка взаимосвязи между двумя качественными переменными
(критерий «хи-квадрат» независимости) .............................................................. 114
6 Статистические методы изучения динамических процессов ...........................123
6.1 Понятие о статистических рядах динамики ........................................... 123
6.2 Изучение основной тенденции развития ................................................ 124
6.3 Общее описание динамического процесса............................................. 129
6.4 Вычисление скользящего среднего ......................................................... 131
6.5 Анализ сезонных колебаний .................................................................... 136
6.6 Поправка на сезонный фактор ................................................................. 138
6.7 Долгосрочный тренд и прогноз с поправкой на сезонность ................ 141
6.8 Прогноз: тренд с учетом сезонности ...................................................... 143
ПРИЛОЖЕНИЕ А ....................................................................................................145
ПРИЛОЖЕНИЕ Б.....................................................................................................147
ПРИЛОЖЕНИЕ В ....................................................................................................148
ПРИЛОЖЕНИЕ Г.....................................................................................................149
ПРИЛОЖЕНИЕ Д ....................................................................................................150
ПРИЛОЖЕНИЕ Е ....................................................................................................151
ПРИЛОЖЕНИЕ Ж ...................................................................................................152
Библиографический список ....................................................................................153
4
ВВЕДЕНИЕ
Методы обработки экспериментальных данных лежат в основе
организации экспериментальных исследований, измерений и контроля качества
продукции, а также эффективно используются в компьютерных измерительных
технологиях. Изучаемые в данной дисциплине компоненты теории вероятностей
и обработки измерительной информации представляют собой важную
составляющую часть в изучении статистических методов контроля качества.
Статистика (немец. Statistik, от латинского status – состояние)
рассматривается как наука о методах изучения массовых явлений. Некоторые
процессы, наблюдаемые в массовом количестве, обнаруживают определенные
закономерности, которые, невозможно заметить в отдельном случае или же при
небольшом числе наблюдений.
Также можно сказать, что статистика – это наука, занимающаяся сбором и
анализом данных о событиях, носящих массовый характер.
При этом под данными принято понимать любой вид зарегистрированной
информации.
Явления, которые в случае событий массового характера отличаются
определенной закономерностью, однако не обнаруживаются на основе
единичного наблюдения, называются массовыми явлениями. Сама такая
закономерность называется статистической закономерностью.
Статистическая закономерность возникает в тех случаях, когда в
исследуемом процессе действует один общий комплекс причин и когда наряду с
этим в каждом отдельном случае действуют особые дополнительные причины,
всякий раз иные.
При этом сами причины, которые определяют массовые процессы, принято
делить на две категории:
- основные причины, которые действуют во всех случаях;
- побочные (вторичные) причины, которые проявляются только в
отдельных случаях.
Например, старение материалов – медленное самопроизвольное
необратимое изменение их свойств, зависит не только от времени эксплуатации
и свойств материала, но и от светового и иного излучения, механических
воздействий, гравитационных и магнитных полей и других факторов.
Если бы имели место только основные причины, то закономерность была
бы абсолютной (т.е. для каждого элемента статистического массива
одинаковой). Тогда ее можно было бы уловить в каждом отдельном случае. Так,
все одинаковые материалы через равные промежутки времени имели бы
совпадающее изменение свойств. Вместе с тем если бы действовали только
второстепенные причины, отличные для каждого случая, то никакой
закономерности не существовало бы.
Таким образом, статистическая закономерность имеет место тогда, когда
существует сочетание основных и побочных причин.
5
При этом можно добавить, что основные причины обусловливают само
существование такой закономерности, а побочные причины определяют ее
приблизительность. Иначе говоря, закономерность проявляется только в массе
случаев, а отдельный случай может отклоняться от общей картины. Можно
полагать, что закономерность, вытекающая из постоянного действия основных
причин, пробивается сквозь действие разнородных побочных факторов.
Из сказанного становится понятным, что статистика оказывается полезной
в тех случаях, когда приходится анализировать процессы, которые при массовом
наблюдении способны проявлять очевидную закономерность. Если бы
действовали только главные причины, т.е. без наложения второстепенных, то все
отдельные случаи происходили бы совершенно одинаково и не было бы нужды
анализировать всю их массу. Достаточно было бы взять один из случаев и на его
основе сделать выводы, относящиеся уже ко всей исследуемой совокупности.
Там же, где закономерность пробивается через результаты воздействия
побочных причин, приходится изучать уже целую массу случаев, чтобы иметь
возможность выявить закономерность. В такой ситуации исследование
единичного примера может привести к ложным заключениям.
В массовых процессах обычно различают два элемента: систематический
(постоянный) и случайный (побочный). Систематический элемент является
результатом действия основных причин, случайный элемент − это следствие
действия побочных причин (действуют по-разному в каждом отдельном случае).
Статистическая закономерность проявляться более отчетливо в случае
действия закона больших чисел. Этот закон отражает закономерности, присущие
случайным событиям массового характера. При большом количестве
наблюдений влияние случайных факторов взаимно уравновешивается и
вступают в действие главные причины, которые отражаются в некотором
постоянстве средних чисел.
Например, каждый производитель заказывает те комплектующие, которые
в данный момент ему нужны. Но в целом можно сравнительно точно предвидеть
общий объем спроса, его структуру за год и отдельные сезоны. Для выявления
конкретных закономерностей покупательского спроса и нужна статистическая
информация, отображающая специфику спроса по времени года и в целом за год.
Для выполнения закона больших чисел важно соблюсти определенные
условия:
1 Исследуемый массив должен быть однородным, т.е. быть одинакового
качества. Это означает, что все элементы массива подпадают под действие одних
и тех же основных причин. В противном случае могут возникнуть иные
основные факторы и тогда общую картину выявить окажется невозможным.
Однородность данной статистической массы нельзя установить на основе
статистического исследования. Для этого нужен качественный анализ, который
проводится методами, применяемыми в соответствующих областях науки
(физические, экономические и т.д.).
6
2 Побочные причины, воздействующие на разные элементы массива,
должны быть независимыми друг от друга или же мало зависимыми.
Таким образом, не может быть хорошей статистики там, где нет
достаточно многочисленных, однородных и независимых данных. Если это
условие не соблюдено, то отсутствует и подлинная статистика.
В курсе общей теории статистики принято условно различать
описательную статистику и аналитическую. Описательная статистика
преимущественно связана с планированием исследования, сбором информации
и представлением полученных результатов в виде статистических показателей.
Удобная форма представления статистической информации – таблицы, графики.
Задача аналитической статистики заключается в выявлении причинных связей,
оценке влияния исследуемых факторов и получении надлежащих выводов, на
основании которых могут быть приняты ответственные решения. Часто
исследуемый процесс представляется в аналитической форме, т.е. в виде
уравнения (эмпирической формулы).
Знание статистики помогает в принятии оптимального решения.
Следовательно, использование статистики является важным преимуществом в
конкуренции.
Мощным инструментальным средством при выполнении статистических
исследований является использование компьютерной техники. В этой связи
широкое распространение в деловой сфере получили специальные пакеты
прикладных программ. Они позволяют обеспечить быстроту статистических
расчетов, высокую надежность и достоверность результатов, возможность легко
представлять данные в аналитической, графической или табличной формах.
Среди подобных программ большой известностью пользуется приложение
MS Excel, которое включает в себя программную надстройку «Пакет анализа» и
богатую библиотеку из большого числа статистических функций.
Основное содержание данного пособия состоит не только в развернутом
изложении известных методов статистического исследования, но и в описании
приемов применения в практике выборочного метода, корреляционнорегрессионного анализа, а также динамических рядов и способов
перспективного прогнозирования.
Каждая глава пособия условно поделена на две части. Первая часть
содержит изложение основных положений, касающихся рассмотрения
соответствующего раздела теории статистики, вторая часть главы – это
практикум.
7
1 ВЫБОРОЧНЫЙ МЕТОД СТАТИСТИЧЕСКОГО АНАЛИЗА
Цель статистического исследования состоит в отыскании определенных
закономерностей в событиях массового характера, каждое из которых по
отдельности имеет достаточно случайное проявление. Для достижения этой
цели используются специальные статистические приемы, основанные на
реализации так называемого выборочного изучения. Познакомимся с
основными его положениями.
1.1 Измерение
Любое статистическое исследование включает обязательную процедуру
проведения измерений. Само измерение определяется как способ нахождения
значения физической величины опытным путем с помощью специальных
технических средств. Сущность измерения фактически состоит в сравнении
двух физических величин – измеряемой и известной. Первая отражает
особенность исследуемого объекта, вторая присуща специально созданному
объекту – эталону или мере. Сравнение этих объектов сводится к
сопоставлению их размеров, следовательно, основывается на выявлении их
количественного соотношения. При этом сравниваемые величины должны
быть однородными, т.е. имеющими сходную физическую природу,
одинаковую размерность.
При экспериментальном определении какой-либо величины приходится
сталкиваться с тем, что параллельные измерения не дают одинаковых
результатов даже при самой тщательной подготовке опыта. Это
обстоятельство является следствием того, что на процесс измерения и, стало
быть, на его результат оказывает влияние огромное число факторов, таких как
температура, степень изношенности оборудования и т.п.
Влияние каждого фактора в отдельности может быть в целом
совершенно ничтожным, но в совокупности они способны вызывать
случайные (и потому непредсказуемые) отклонения измеряемой величины от
ее истинного значения. Это означает, что при проведении повторных
измерений одной и той же физической величины мы получим в итоге
несколько отличающиеся друг от друга результаты.
Таким образом, измеренное значение определяется, с одной стороны,
влиянием основных факторов, а с другой, параметрами, обусловленными
случайными причинами.
Измерения принято делить на прямые и косвенные. Основным
признаком является вид уравнения измерения, связывающего измеряемую
(искомую) величину и непосредственно наблюдаемую (эталон).
Прямые измерения – измеряемая величина А пропорциональна
непосредственно наблюдаемой В, т.е. получается непосредственно с помощью
измерительного прибора (используется непосредственный счет единиц
наблюдения).
8
Аналитически такое измерение можно представить в виде линейного
соотношения
A = k B,
(1.1)
где k– заданный коэффициент.
В качестве примера можно указать измерение напряжения вольтметром
или тока амперметром. Получаемые данные – это абсолютные значения.
При косвенных измерениях величина А является известной функцией
непосредственно наблюдаемого аргумента В и определяется в результате
математических действий над результатами прямых измерений. Это значит,
что на основании результатов изучения одного процесса с использованием
известной аналитической зависимости (уравнения) получают сведения о
другом. Типичный пример: использование закона Ома для нахождения
электрического сопротивления участка цепи.
Указанное соотношение имеет следующий вид:
A = f (B ).
(1.2)
Получаемые данные являются относительными величинами.
Обычно удается провести ограниченное число параллельных измерений
или получить случайную выборку (т.е. конкретный набор экспериментальных
данных) из генеральной совокупности (все мыслимое количество повторных
измерений). В этом случае задача исследователя состоит в том, чтобы по такой
выборке (т.е. на основе знания части целого) получить математическое
ожидание самого целого (генеральной совокупности).
Поэтому задача статистической обработки сводится к следующему:
1 Отыскать истинное значение измеряемой величины ~x , однако в
большинстве случаев оно оказывается неизвестным. Поэтому его заменяют
некоторым приближенным значением, которое наиболее вероятно
соответствует истинному значению. В статистике показано, что этому условию
наиболее полно отвечает среднее арифметическое выборочной совокупности.
2 Оценить погрешность x , с которой найдена эта истинная величина;
иными словами, нужно определить ту величину, на которую отличается
приближенное значение ~x от истинного ~x .
Погрешность измерения – это отклонение результатов измерения от
истинного значения измеряемой величины.
По форме представления (по отношению к измеряемой величине)
различают следующие ошибки:
1 Абсолютная ошибка – разность между измеряемым (приближенным)
значением xизм истинной величиной xист :
x = xизм − xист.
(1.3)
9
Здесь надо дать некоторое пояснение. В общем случае само измеренное
значение можно записать как 𝑥𝑖 , в качестве истинного значения принято
указывать его приближенное значение в виде среднего арифметического 𝑥̅ ,
поскольку собственно истинное значение 𝑥̃ обычно остается неизвестным.
Поэтому величину абсолютной ошибки принято записывать в виде выражения
x = x − xi .
(1.4)
2 Относительная ошибка – погрешность измерения, выраженная
отношением абсолютной погрешности измерения к истинному значению
(точнее, к его приближенному значению):
=
x
.
x
(1.5)
Относительная погрешность является безразмерной величиной либо
измеряется в процентах.
Абсолютная ошибка характеризует погрешность метода, который был
выбран для измерения. Относительная ошибка характеризует качество
измерений. Точностью измерения называют величину, обратную
1
относительной ошибке, т.е. .
По характеру проявления различают систематические, случайные и
грубые погрешности измерения.
1 Систематические ошибки порождается причинами, действующими
регулярно и в определенном направлении. Они могут быть связаны с
ошибками приборов (неправильная шкала, калибровка и т.п.), неучтенными
экспериментатором; с индивидуальными ошибками экспериментатора;
ошибками метода анализа и т.д.
Исключаются путем введения поправок, найденных экспериментальным
путем (например, градуировка термопар).
2 Случайные ошибки являются составляющими погрешности измерения,
изменяющиеся случайным образом в серии повторных измерений одной и той
же величины, проведенных в одних и тех же условиях. В появлении таких
ошибок не наблюдается какой-либо закономерности, они обнаруживаются при
повторных измерениях одной и той же величины в виде некоторого разброса
получаемых результатов. Случайные ошибки неизбежны, неустранимы и
всегда присутствуют в результате измерения, однако их влияние, как правило,
можно устранить статистической обработкой.
3 Грубые ошибки – погрешности, возникшие вследствие недосмотра
экспериментатора или неисправности измерительной аппаратуры (например,
неправильно зафиксированный номер деления на шкале прибора и т.п.).
10
В зависимости от характеристик измеряемой величины для определения
ошибок измерений используют различные методы:
– метод Корнфельда заключается в выборе интервала в пределах от
минимального xmin до максимального xmax результата измерений и
погрешность рассчитывается как половина разности между этими крайними
величинами измерения:
x =
xmax − xmin
.
2
(1.6)
– средняя квадратичная погрешность (среднеквадратичное отклонение)
Sn :
(x − x )
2
Sn =
i
n −1
,
где xi – измеренные значения элементов выборки;
x – среднее арифметическое выборки и n – ее размер.
– средняя квадратичная погрешность среднего
(стандартная ошибка) S x :
Sx =
Sn
n
.
(1.7)
арифметического
(1.8)
В статистике для оценки погрешности наиболее часто используемым
показателем является среднеквадратичное отклонение (СКО).
1.2 Понятие о выборном исследовании
Представим себе следующую ситуацию. Необходимо проверить
качество партии резисторов в размере 1000 шт. Идеальный случай – проверка
каждого резистора, что нецелесообразно из-за слишком больших временный
затрат. Выходом является контроль партии резисторов путем проверки каждой
единицы продукции, входящей в специально отобранную выборку из
генеральной совокупности. Таким образом, на основе изучения части можно
получить достоверное представление о целом. В этом и состоит идея метода
выборочного исследования.
В теории статистики даются четкие рекомендации относительно того,
как на основании фактического знания о малом получить надежную
информацию о неизвестном многом. Так, например, сколько нужно
исследовать единиц наблюдения (каков должен быть объем выборки), каким
образом организовать отбор, какие нужно рассчитать показатели, которые
дадут надежное представление об изучаемом процессе в целом.
11
1.3 Основные определения
Выборочный метод − это способ статистического исследования, при
котором обобщающие показатели изучаемого массива устанавливаются по
некоторой его части на основе положений случайного отбора. При указанном
методе обследованию подвергается сравнительно небольшая часть изучаемой
совокупности. При этом подлежащая изучению статистическая совокупность,
из которой проводится отбор части единиц, называется генеральной
совокупностью. Иначе говоря, генеральная совокупность – это набор
элементов, которые нужно изучить.
Отобранная из генеральной совокупности некоторая часть единиц,
подвергающаяся обследованию, называется выборочной совокупностью или
выборкой. Следовательно, выборка – это небольшой набор объектов,
извлеченных из генеральной совокупности.
Простейший пример выборочного метода – испытания для
подтверждения безопасности партии конденсаторов постоянной емкости.
Проводить испытания каждого образца нецелесообразно, поэтому необходимо
сделать выборку образцов из партии и провести испытания для подтверждения
безопасности только для этой выборки. Изучаемая совокупность в данном
случае – это партия конденсаторов постоянной емкости.
Точность результатов выборочных обследований много раз проверялась.
Эти наблюдения подтвердили, что результаты таких обследований дают
точное представление об изучаемой совокупности и могут применяться на
практике без опасений серьезных ошибок, если выборка действительно
репрезентативна и ее численность установлена на основе теории вероятностей.
Заметим, что из генеральной совокупности можно отобрать огромное
число выборок. Например, при генеральной совокупности 𝑁, равной 100
элементам, можно извлечь выборки объемом n = 10 в количестве 17 1012
вариантов.
Ценность выборочного обследования состоит в следующем:
- требует меньших затрат, чем сплошное наблюдение (т.е. изучение всей
совокупности);
– позволяет значительно раньше получать результаты статистического
исследования;
– в ряде случаев может быть только единственным способом, если
обследование сопровождается разрушением или уничтожением элемента
совокупности
(механические
испытания
металлический
изделий,
установление наработки на отказ и проч.).
Важная особенность – в основе отбора единиц для обследования
положен принцип равных возможностей попадания в выборку каждой
единицы генеральной совокупности.
Такой подход позволяет:
– исключить формирование выборочной совокупности за счет лучших
или худших образцов;
12
– предупредить появление систематических (тенденциозных) ошибок;
– дать
количественную
оценку
ошибки
представительства
(репрезентативности).
1.4 Репрезентативность выборки
Суть репрезентативности выборки – выборка (часть целого) должна
достоверно отражать генеральную совокупность (само целое). Этому
соответствует одинаковость частот проявления признака (свойства) как для
выборки, так и для всей совокупности, т.е. кривые распределения должны быть
идентичными (положение центра, характер формы кривой). Различие только
по размаху вариации (дисперсии) – генеральная совокупность должна иметь
меньший разброс относительно среднего.
Таким образом, выборка – это результат непосредственного наблюдения
части целого, позволяющее косвенно судить о самом целом.
Для обеспечения такой выборки применяются два метода:
– отбор в случайном порядке, при таком отборе каждый элемент
совокупности имеет одинаковый шанс попасть в выборку;
– направленный отбор, в этом случае отбираются только некоторые
единицы (на основе выработанных специальных критериев).
Для практической работы нужно иметь основу генеральной
совокупности, которая даст возможность обращаться к отдельным элементам
по номерам. Так, основа может иметь вид списка объектов генеральной
совокупности, которым присвоены номера от 1 до N, где N − число объектов
(объем) генеральной совокупности.
Следовательно, основа совокупности (нумерованный список) позволяет
из имеющегося объема в интервале от 1 до N получить доступ к элементам
генеральной совокупности и сформировать из них выборку объемом n.
Выборка, которая включает полную генеральную совокупность,
называется переписью.
Принято различать два типа выборки. После того как объект извлечен из
генеральной совокупности для включения его в выборку, его либо возвращают
обратно в генеральную совокупности (тогда он может попасть в эту выборку
повторно), либо он не возвращается.
Соответственно бывают следующие две комбинации:
– выборка с возвратом, или повторный отбор (объект генеральной
совокупности может попасть в выборку более одного раза);
– выборка без возврата, или бесповторный отбор (при этом все объекты
выборки получаются разными).
Отметим принятые определения:
– параметр выборки (или выборочный параметр) – показатель вычисленный на основе данных выборки (т.е. это любое число, рассчитанное из
данных выборки). Например, таким параметром является среднее – выборки x
, стандартное отклонение S n .
13
– параметр генеральной совокупности (или просто параметр) – это
показатель (число), рассчитанный для всей этой совокупности. Например,
среднее арифметическое (истинное значение) ~x и стандартное отклонение
самой генеральной совокупности . Параметр является фиксированным
числом, т.к. при его вычислении отсутствует случайность. Однако обычно мы
не знаем всех данных по генеральной совокупности, поэтому параметр
является неизвестной величиной.
Обычно существует соответствие между параметром выборки и
параметром генеральной совокупности. Для каждого параметра генеральной
совокупности существует выборочный параметр, рассчитанный на основе
данных, представляющих наилучшую доступную информацию о неизвестном
параметре генеральной совокупности. Такой выборочный параметр называют
оценочной функцией параметра генеральной совокупности, а его фактическое
значение, вычисленное из элементов выборки, называют оценкой параметра
совокупности. Например, среднее арифметическое выборки является
оценочной функцией среднего арифметического совокупности. Иными
словами, среднее арифметическое выборки позволяет приближенно судить о
среднем арифметическом совокупности.
1.5 О выборочном распределении
Любая выборочная совокупность, полученная на основе случайного
отбора изучаемых элементов из генеральной совокупности, позволяет перейти
от информации о выборке к информации о генеральной совокупности. Можно
получить набор из нескольких выборок, извлеченных из одной и той же
генеральной совокупности. В результате мы получим еще один статистический
массив, например, из средних арифметических этого набора выборок (так
называемое выборочное распределение). И для этого массива можно
рассчитать свое среднее, которое более надежно будет характеризовать
интересующую нас генеральную совокупность.
Пояснение.
Необходимо вычислить технологический разброс параметров партии биполярных
транзисторов (БТ). Исследовав выборку из партии, получаем, что в среднем коэффициент
усиления по току отличается на 17 %. Это число для нас не выглядит случайным. Но как
результат нашего обследования оно является случайным.
Число 17 само по себе не есть случайность, т.к. оно отражает «среднее отклонение от
номинального значения коэффициента усиления по току для партии БТ, выраженное в
процентах». А это есть случайная переменная, случайность которой объясняется тем, что в
результате выполнения случайного эксперимента каждый раз опрашивается новая
случайная выборка БТ и, следовательно, каждый раз будет получен иной результат.
Здесь 17 % − конкретный результат измерения (как нечто среднее). Но если
повторять такие наблюдения, допустим, для 10 других партий, то получим уже набор
случайных величин. Следовательно, проведя такие наблюдения для 10 различных партий,
будем иметь набор из 10-ти конкретных средних. Можно оценить распределение этих
средних (они же случайные числа и характеризуются изменчивостью) и рассчитать для них
свое среднее и свое стандартное отклонение.
14
Итак, когда исследование проводится только один раз, полученные
результаты – это просто конкретные числа. Однако нужно также понимать, что
вследствие ограничений реальной жизни мы действительно проводим
исследование, как правило, только один раз. Предположение о многократном
повторении исследования – это лишь способ понять имеющийся фактический
результат. Следовательно, на основе анализа одной выборки, одного значения
параметра выборки (допустим, среднего арифметического или стандартного
отклонения), мы пытаемся интерпретировать все остальные результаты,
которые могли бы иметь место.
1.6 Стандартная ошибка как оценка стандартного отклонения
Параметры выборочного распределения определяются свойствами всей
генеральной совокупности. Информацию же мы имеем только для одной
выборки.
Если имеется набор из нескольких выборок, сформированный на базе
одной и той же генеральной совокупности, то полученный комплект,
например, средних арифметических этих выборок сформирует свой
ранжированный массив (выборочное распределение этих средних). И для него
можно рассчитать свое среднее арифметическое X (среднее средних).
При этом само выборочное распределение (средних набора выборок xi )
близко к нормальному виду, хотя генеральная совокупность объектов может и
отличаться от нормального распределения.
Пояснение.
Нормальным (симметричным) распределением называется такое, в котором частоты
двух любых вариантов, равно отстоящих в обе стороны от центра распределения (среднего
арифметического xi ), равны между собой. Кривая нормального распределения по форме
напоминает симметричный колокол. Для такого распределения имеет место равенство
показателей центра распределения: среднего арифметического x , моды M o (наиболее часто
повторяемого результата в данном массиве) и медианы M e (она делит ранжированный
вариационный ряд на две равные части).
Для случая несимметричного (скошенного) распределения вводится понятие
асимметрии кривой распределения (значения данных на одной стороне кривой затухают
быстрее, чем на другой). Простейший показатель асимметрии основан на соотношении
значений центра распределения: чем больше разница между средними ( x − Mo ), тем
больше асимметрия ряда.
Относительно асимметрии важно знать, что многие статистические методы требуют,
чтобы данные были (хотя бы приблизительно) нормально распределенными. Если эти
методы применяются к несимметричным рядам, то полученный результат будет неточным
или же просто ошибочным. И даже если результаты получаются в основном корректными,
будет определенная потеря эффективности анализа, т.к. не обеспечивается наилучшее
использование всей информации, содержащейся в наборе данных.
В таком случае необходимо использование такого преобразования, которое
переводит несимметричное распределение в более симметричное. Преобразование
заключается в замене каждого значения набора данных другим числом (например, логарифм
этого значения) с целью упростить статистический анализ.
15
Наиболее распространенный прием в статистике − это логарифмирование, которое
можно использовать только для положительных чисел. Логарифмирование часто
преобразует скошенные ряды в симметричные, т.к. происходит растягивание шкалы возле
нуля.
Для симметричных распределений рассчитывается специальный показатель –
эксцесс, характеризующий островершинность кривой. Фактически эксцесс представляет
собой выпад вершины эмпирического распределения верх или вниз относительно вершины
кривой нормального распределения.
В теории статистики показано, что в случае нормального распределения
значения средних (для отдельной выборки x и набора выборок X ) остаются
теми же, в то время как их вариации (например, в виде стандартных
отклонений) различаются. Переход от единичной выборки к набору выборок
(полученных извлечением из одной и той же генеральной совокупности)
приводит к уменьшению изменчивости, что отражается в снижении величины
стандартного отклонения.
В теории статистики доказывается, что стандартное отклонение среднего
выборочной совокупности x определяется по формуле
x =
n
,
(1.9)
где – стандартное отклонение генеральной совокупности;
n – объем выборки, извлеченной из генеральной совокупности
объемом N.
Но поскольку мы работаем с выборкой, то значение (а это показатель
генеральной совокупности) нам неизвестно. Следовательно, неизвестно и
стандартное отклонение среднего выборочной совокупности. Однако,
располагая фактическим набором единиц наблюдения, входящих в
выборочный массив, можно рассчитать стандартное отклонение выборки S n по
формуле:
Sn =
(xi − x )
2
n −1
,
(1.10)
где xi – измеренные значения признака элементов выборки;
x – среднее арифметическое выборки и n – еe размер.
При этом стандартное отклонение генеральной совокупности принято
определять по выражению
(x − ~x )
2
=
i
N
,
(1.11)
16
где ~x − среднее арифметическое генеральной совокупности.
Размерность у стандартного отклонения та же, что и у исходных данных.
Теперь, зная стандартное отклонение S n , можно вычислить стандартную
(случайную) ошибку выборочного распределения S x по формуле (для случая
повторного отбора):
Sx =
Sn
.
n
(1.12)
Это можно прокомментировать следующим образом: стандартная
(случайная) ошибка среднего арифметического равна стандартному
отклонению отдельных результатов, деленному на корень квадратный из числа
измерений.
Стандартная ошибка грубо показывает, насколько мы ошибались,
используя лучшую доступную выборочную информацию (например,
наработку на отказ 10 случайных изделий из партии) вместо недоступной
информации о генеральной совокупности (наработка на отказ всех изделий из
партии).
Пояснение.
Принципиальное отличие между S x и S n заключается в том, что стандартное
(среднеквадратичное) отклонение S n приближенно показывает, насколько отдельные
значения элементов выборки отличаются от среднего значения набора данных этой выборки
(т.е. xi от x ), а стандартная (случайная) ошибка S x приближенно показывает, насколько
среднее X отличается от среднего значения генеральной совокупности (истинного
~
значения) X .
Пояснение.
В расчетах обычно пользуются результатами обследования одной выборки. Поэтому
в качестве среднего фигурирует среднее арифметическое этой единственной выборки x . И
именно его сопоставляют со средним арифметическим генеральной совокупности (истинным
x . Это значит, что величина выборочного среднего X (для этого случая
значением) ~
полагают, что было извлечено несколько выборок) фактически не используется, вместо него
берут реальный результат расчета − среднее арифметическое единственной выборки x .
Этот выбор основывается на утверждении, что при нормальном распределении значения
этих средних совпадают, хотя они и различаются вариациями.
Следовательно, вычисление собственно ошибки выборки S x (она свидетельствует о
~
том, как различаются между собой X и x ) ведется с использованием среднеквадратичной
ошибки S n , уменьшенной на величину
n.
Таким образом, выборочное распределение – это распределение,
построенное на анализе средних арифметических нескольких (числом равных
17
n) выборочных совокупностей, извлеченных из общей (генеральной)
совокупности. Если извлечена одна выборка, то строится распределение самих
элементов совокупности, которые реально наблюдаемы:
1 Определяется среднее арифметическое для этой выборки x ;
2 Вычисляется
стандартное
отклонение
(среднеквадратичное
отклонение) S n (при n → имеем lim S n → );
Если же извлечено n выборок, то для них самих:
1 Вычисляются средние (для каждой из n выборок);
2 Описывается распределение этих средних xi т.е. строится кривая
распределения средних);
3 Определяется среднее арифметическое (интегральное) для этого ряда
конкретных средних X ;
4 Вычисляется своя стандартная ошибка S x ,которая является
стандартным отклонением среднего арифметического X самого выборочного
распределения. Она связано со стандартным отклонением S n соотношением
S
Sx = n ;
n
Поскольку фактически приходится иметь дело с одной выборкой, то
выборочное среднее X заменяется реальным показателем в виде среднего
арифметического x этой выборки, которое затем и сопоставляется со средним
генеральной совокупности ~x (рисунок 1.1).
18
Рисунок 1.1 – Набор и анализ выборок, сформированных на базе изучаемой
генеральной совокупности:
1 – фактический; 2 – предполагаемый
Таким образом, среднее x и стандартное отклонением одной выборки
можно использовать для прогнозирования генеральной средней ~x путем
расчета случайной ошибки S x с последующим определением доверительного
интервала x (рисунок 1.2).
Рисунок 1.2 – Схема выборочного исследования
При этом важно отметить и надежность поисков, для чего надлежит
указать также доверительную вероятность сделанных заключений.
1.7 О доверительной вероятности и доверительном интервале.
Понятие о предельной ошибке
Вероятность можно рассматривать как средство для работы в условиях
риска и неопределенности. Она показывает возможность наступления в
будущем каждого из различных потенциальных событий, рассчитанную на
основании информации о некоторой ситуации.
Вероятность − это понятие, в некотором смысле обратное статистике.
Если статистика помогает переходить от наблюдений к обобщениям
относительно рассматриваемой ситуации, то вероятность имеет обратную
направленность. А именно: исходя из характеристики ситуации, можно
выяснить, какие данные мы, скорее всего, получим и какова возможность
получения этих данных.
Основной закон теории вероятности – закон больших чисел –
утверждает, что при достаточно большом числе измерений (наблюдений) N
19
частота появления f N ( A) некоторого события А как угодно мало отличается от
вероятности этого события Р(А):
P( A) − f N ( A) ,
(1.13)
где 𝜀 – сколь угодно малое положительное число, отличное от нуля ( 0) .
Частота события – это интенсивность проявления того, что имеет место
быть (наступление реального события).
Вероятность события – это предположение (прогноз) о возможном
наступлении этого события.
В случае событий массового характера вероятность может
рассматриваться как мера объективной возможности наступления события.
Около числа Р(А) группируются относительные частоты события А.
Пусть среднее арифметическое для случайной выборки равно 𝑥, а
среднее арифметическое для генеральной совокупности – 𝑥̃.
Примем, что Р означает вероятность того, что результат измерения
среднего для выборки (мы его знаем, т.к. можем сосчитать) отличается от
среднего генеральной совокупности (этого мы не знаем, но хотим знать) на
величину, не большую чем x .
Это условие можно записать так:
p(− x ~
x − x x ) = P.
(1.14)
Здесь вероятность Р носит название доверительной вероятности (или
коэффициента надежности). Интервал значений от x − x до x + x называется
доверительным интервалом.
Доверительный интервал – это интервал, внутри которого с заданной
степенью достоверности (надежности) находится значение искомого
параметра (в данном случае среднее генеральной совокупности ~x ).
Пояснение.
Вычислив доверительный интервал, можно утверждать, что с указанной
x отличается от среднего выборки x на
надежностью (вероятностью) генеральное среднее ~
x лежит внутри доверительного
величину, не превышающую этот интервал. Иначе говоря, ~
интервала. Это утверждение верно, но с определенной вероятностью.
Длительный опыт применения статистических расчетов показал, что
наиболее приемлемой величиной доверительной вероятности является 95 %.
Однако используют и другие показатели: 90, 99 и даже 99,9 %. Уровень 95 %
представляет собой определенный компромисс между попыткой, с одной
стороны, получить по возможности более высокий уровень надежности и, с
другой, желанием иметь относительно небольшой интервал. Платой за более
высокую доверительную вероятность является более широкий и, значит, менее
полезный доверительный интервал.
20
Другим показателем меры наших требований к статистическому
исследованию является уровень значимости (или уровень риска) :
= 1 − P.
(1.15)
Часто используется = 0,05 ; это значение, называемое еще 5 %-ным
уровнем риска, соответствует вероятности верного утверждения, равного
P = 1 − = 0,95 или 95 %.
Обычно используют следующие фразы для описания результатов
(таблица 1.1):
Таблица 1.1
Интерпретация количественных значений уровня значимости
Описание
Незначимый ( 0,05)
Значимый ( 0,05)
Высоко значимый ( 0,01)
Очень высоко значимый ( 0,001)
Интерпретация
Незначимый на обычном уровне 5 %
Значимый на обычном уровне 5 %, но
незначимый на уровне 1 %
Является значимым на уровне 1%, но
незначимым на уровне 0,1 %
Значимый на уровне 0,1 %
Параметр генеральной совокупности ~x находится между значением
оценки (средним арифметическим x ) в интервале:
- 1 (стандартная ошибка) при доверительной вероятности 68 %;
- 2 (стандартная ошибка) при доверительной вероятности 95,4 %;
- 3 (стандартная ошибка) при доверительной вероятности 99,7 %.
Для корректного построения доверительного интервала необходимо
выполнение двух условий:
- выборка должна быть случайной;
- распределение должно быть нормальным.
Определяя доверительный интервал, мы тем самым указываем на ту
погрешность, с которой вычисляем истинное значение совокупности. Однако
ценность этой информации практически теряется, если при этом не указывать
величину достоверности, с которой найден искомый результат. Таким образом,
для характеристики величины ошибки нужно задать два числа: величину самой
погрешности, т.е. доверительного интервала, и величину доверительной
вероятности.
1.8 Критерий Стьюдента
В статистике принято пользоваться понятием степень свободы. Под этим
понимают число независимых элементов информации, которые взяты для
21
вычисления стандартной ошибки. Для одной выборки число степеней свободы
равно n − 1 (число на единицу меньше количества наблюдений или элементов
массива). Или иначе: это разность между числом измерений (наблюдений) и
числом коэффициентов (констант), которые уже вычислены по результатам
этих измерений.
При обработке данных, количество которых ограничено, принято при
использовании стандартной ошибки вводить специальный корректирующий
показатель – критерий, или коэффициент, Стьюдента (t-критерий).
Применение t-критерия основано на знании особенностей распределения
при ограниченном числе наблюдений (малой выборке). В распределении
Стьюдента максимум частоты совпадает с максимумом частоты нормального
распределения, но высота и ширина кривых зависят от числа элементов,
входящих в выборочную совокупность. Чем меньше число измерений n, тем
более пологий ход имеет кривая распределения. При n 20 распределение
Стьюдента переходит в нормальное распределение (рисунок 1.3).
Рисунок 1.3 – Кривые:
1 – нормального распределения; 2 – распределения Стьюдента
Величина доверительного интервала определяется по формуле:
x =
t ,n S n
n
= t ,n S x .
(1.16)
В статистике полученную величину x принято называть также
предельной ошибкой выборки. Тогда величина среднего генеральной
совокупности будет определяться следующим выражением
~
x = x x = x t ,n S x .
(1.17)
22
Здесь множитель t (критерий Стьюдента) в статистике называется также
коэффициентом доверия. Он определяется в зависимости от того, с какой
доверительной вероятностью надо гарантировать результаты выборочного
обследования.
Видно, что x = S x при t = 1, т.е. для Р = 0,68.
Фактически доверительный интервал (предельная ошибка) x – это та же
случайная ошибка S x , но только кратно (на величину t) отличающаяся от нее.
Следовательно, критерий Стьюдента рассматривается как коэффициент
кратности стандартной ошибки.
Значения t-критерия выбираются по специальным статистическим
таблицам в зависимости от доверительной вероятности Р (или уровня
значимости 𝛼) и числа измерений n (см. приложение А).
Для повторного отбора используется формула (1.16).
Для случая бесповторного отбора:
x = t S n
n
1 −
N
.
n
(1.18)
При малом объеме единиц совокупности, взятых в выборку (обычно < 5 %),
n
множитель 1 − близок к 1. Поэтому в упрощенном варианте вновь имеем
x =
t ,n S n
n
N
(т.е. как для повторного отбора).
1.9 Необходимое число измерений (оптимальный объем выборки)
Величина доверительного интервала (предельной ошибки) зависит от
объема выборки и степени вариации (изменчивости) признака, выраженной
через дисперсию.
Уменьшение ошибки, и, следовательно, повышение точности оценки
всегда связано с увеличением объема выборки. Поэтому уже на стадии
организации выборочного наблюдения приходится решать вопрос о том, каков
должен быть объем выборочной совокупности, чтобы была обеспечена
требуемая точность результатов наблюдения.
При формировании объема выборки можно придерживаться общего
подхода, полагая, что она должна составлять 5–10 % (реже 15–25 %) от объема
генеральной совокупности.
Однако такой отбор не позволяет судить о степени достоверности
будущих результатов (доверительной вероятности). Кроме того, бывают
ситуации, когда возможный «перебор» приведет к незапланированным
чрезмерным расходам.
23
Известны различные рекомендации для определения необходимого
числа элементов выборки, чтобы получить результат исследования с заданной
вероятностью.
Так, используется следующая формула для расчета численности выборки
nx :
- для бесповторного отбора:
N t 2 2
nx =
,
N x 2 + t 2 2
(1.19)
- для повторного отбора:
nx =
t 2 2
,
x 2
(1.20)
где t –критерий Стьюдента;
2 – дисперсия генеральной совокупности;
N – размер генеральной совокупности;
x – доверительный интервал (предельная ошибка).
Особенность представленных формул в том, что в первом случае можно
вести расчет, отталкиваясь от известного нам объема самой генеральной
совокупности N. Вторая формула позволяет получить результат, формально
игнорируя ее количественный размер.
При планировании выборочного исследования предполагается заранее,
что известны следующие данные:
- величина допустимой ошибки выборки x (доверительного интервала);
- вероятность выводов по результатам наблюдения (величина t-критерия
при заданной доверительной вероятности Р или уровне значимости ).
Величина 2 , характеризующая дисперсию признака в генеральной
совокупности, чаще всего бывает неизвестна. Поэтому используют следующие
приближенные способы оценки генеральной дисперсии.
а) Можно провести пробное исследование (обычно небольшого объема),
на базе которого определяется величина дисперсии этой выборки,
используемой в качестве оценки генеральной дисперсии:
2
(x
=
i
− xпроб )
nпроб − 1
2
,
(1.21)
где xпроб − среднее арифметическое по результатам пробного исследования;
nпроб − число единиц, попавших в пробное исследование.
24
По данным нескольких таких маломасштабных экспериментов
выбирается наибольшее значение дисперсии, которое и будет использовано
при проведении полного исследования.
б) Можно использовать данные прошлых выборочных наблюдений,
проводившихся в аналогичных целях, т.е. дисперсия, полученная по их
результатам, применяется в качестве оценки генеральной дисперсии.
в) Если распределение признака в генеральной совокупности может быть
отнесена к нормальному закону распределения, то размах вариации примерно
равен 6 (крайние значения отстоят в ту и другую сторону от средней на
1
6
расстоянии 3 для Р = 99,7 %), т.е. R = 6 , откуда = R , где R = xmax − xmin .
При выполнении статистических исследований с коммерческими целями
можно практически с достаточной точностью указать максимально и
минимально возможные значения исследуемого параметра (признака) в
анализируемой совокупности.
Рассмотрим примеры.
Пример 1.
Необходимо выяснить средний срок службы ЖК-телевизоров. Для
большей информированности будет приниматься во внимание степень
достоверности (доверительная вероятность Р) и точность оценки
(доверительный интервал x ).
Предварительным исследованием было установлено, что различие
между наивысшим и наименьшим сроком службы составляет 60 тысяч часов.
Также расчет необходимо произвести для различных значений
предельной ошибки, а именно при x , равной соответственно 1 000, 2 000 и
5 000 часов.
Пояснение. Для нормального распределения в промежуток x = x 3 включается
99,7 % всех вариантов значений параметра. Применительно к нашей задаче это означает,
что 50 тысяч часов примерно равны шести стандартным отклонениям (60000 = 6 ) . Для
x = x 2 доверительная вероятность составит 95,4 %, для x = x – 68,3 %.
Все необходимые расчеты исполним посредством программы Excel.
Будем действовать в следующей последовательности:
1 Запустим Excel и откроем рабочий лист, присвоим ему имя.
2 Введем исходные данные. Для этого в ячейку А1 поместим надпись
«Размах R», в А2 – «t-критерий», в А3 – «Стандартное отклонение », в А4 –
«Доверительный интервал x » и в А5 – «Объем выборки n».
3 В колонке В зарезервируем ячейки, соответствующие нашим
параметрам, указанным в колонке А. Укажем в ячейке В1 значение размаха,
равного 60 000, а в ячейке В3 стандартное отклонение , равное 10 000.
Затем запишем формулу (1.20), по которой будем считать объем выборки
для случая повторного отбора. Для этого выделим ячейку В5 и в поле ввода
25
формул поместим последовательно знак равенства и саму формулу, указывая
необходимые операторы (знаки математических действий) и ссылки на
соответствующие ячейки. Затем укажем данные для случая, когда t = 1 и
x = 1000 (начнем расчет с этой комбинации).
После этого активизируем ячейку В5, в которой и появится рассчитанное
значение объема выборки. Оно равно 100 (рисунок 1.4).
Рисунок 1.4 - Лист Excel c исходными данными и результатом расчета
объема выборки
4 Теперь последовательно будем вводить в ячейки В2 и В4 наши данные,
перебирая заданные значения t и x , а в ячейке В5 станем считывать новые
значения n. Для удобства организуем таблицу, в которой поместим полученные
результаты. Для этого перейдем на другой лист. Итоговый вид таблицы можно
видеть на рисунке 1.5.
Для более удобного анализа полученных результатов итоговую таблицу
можно представить несколько по-иному – указать не сами значения t-критерия,
а величины соответствующей доверительной вероятности Р (таблица 1.2).
Рисунок 1.5 - Лист Excel c результатами расчета
Таблица 1.2
Объем выборки в зависимости от уровня достоверности Р и точности
оценки x
Доверительная
вероятность Р
0,683
0,954
Предельная ошибка
(доверительный интервал) x , часов
1000
5000
2000
100
25
4
400
100
16
26
0,997
900
225
36
Таким образом, если ориентироваться на наиболее принятую величину
доверительной вероятности, равную 95,4 %, то в зависимости от заявленной
точности измерения (1 000, 2 000 или 5 000 часов) получаем выборку в 400, 100
или 16 изделий.
Пример 2. Фирма, занимающаяся производством гвоздей и шурупов,
заказала у своего поставщика, метизно-металлургического завода, 120 мотков
стальной проволоки нужных диаметров. В соответствии с согласованными
техническими требованиями вес каждого мотка должен составлять не менее 60
кг, при этом допускается отклонение от этой величины не более чем на 5 %
(т.е. погрешность ±3 кг). Отделом снабжения фирмы решено было провести
контрольные измерения весовых показателей закупленной продукции, чтобы
убедиться в надежности своего торгового партнера.
Необходимо рассчитать, сколько нужно взвесить мотков из этой партии,
чтобы быть уверенным в соблюдении указанных условий с вероятностью 90 и
95 %. Установлено, что дисперсия 2 составляет 31,4.
При решении этой задачи придется формировать выборку без возврата
(нет нужды вновь перевешивать какой-то моток, если он вновь случайно
оказался подлежащим извлечению). Поэтому воспользуемся формулой (1.19)
для бесповторного отбора:
Прежде всего, определим, какие табличные значения t-критерия будут
соответствовать указанным вероятностям. Для этого воспользуемся эталонной
таблицей (см. приложение А) и найдем, что для P = 0,90 (или = 0,1 ) и N = 120
табличное значение t-критерия составит 1,658, а для P = 0,95 (или = 0,05 ) –
соответственно 1,980.
Теперь вновь запустим Excel. Поскольку пользование программой
оказывается аналогичным рассмотренному выше примеру, ограничимся лишь
краткими пояснениями (рисунок1.6).
1 В ячейках А1:А5 построчно запишем нужные наименования: «Объем
совокупности N», «t-критерий», «Дисперсия 2 », «Доверительный интервал
x » и «Объем выборки n».
2 В ячейках В1:В4 укажем соответствующие числовые данные, при этом
расчет начнем с варианта, когда P = 0,90 , чему соответствует значение t = 1,658
.
3 Активизируем ячейку В5 и в поле ввода запишем формулу для расчета
n. Сместим курсор в эту ячейку (появится белый крестик) и щелкнем левой
клавишей – в ячейке В5 фиксируется рассчитанное значение n, равное 8,881026
(рисунок1.6а). Затем в ячейку В2 запишем число 1,98 и в ячейке прочитаем
новый показатель – 12,27833 (рисунок1.6б).
На этом расчет закончен. С учетом округления до целых чисел получим
9 и 12.
27
а
б
Рисунок 1.6 – Результаты расчета количества мотков:
а –для доверительной вероятности 90 %; б – для доверительной
вероятности 95 %
Таким образом, чтобы выполнить заданные условия, нужно будет
проверить вес соответственно 9 и 12 мотков.
1.10 Случайная выборка
Чтобы избежать какой-либо тенденциозности и предвзятости при отборе,
формирование выборки должно осуществляться случайным образом.
Случайная выборка состоит в том, что каждый элемент генеральной
совокупности имеет одинаковую вероятность быть отобранным и элементы
отбираются независимо друг от друга.
Независимость отбора обеспечивает сбор максимально возможного
объема независимой информации и выше, следовательно, будет вероятность
репрезентативности.
1.10.1 Таблица случайных чисел
Один из способов извлечения случайной выборки− применение таблицы
случайных чисел.
Таблица случайных чисел представляет собой организованную в виде
таблицы последовательность цифр, в которой каждая из цифр от 0 до 9
встречается независимо друг от друга с вероятностью 1/10.
Существуют разные по конструкции таблицы случайных чисел. Они
могут представлять наборы из 2-х, 3-х, 4-х или 5-ти случайных цифр,
расположенных в произвольном порядке.
Таблица 1.3 дает представление о конструкции такой таблицы,
построенной из комбинаций 4-х случайных цифр.
Для получения случайной выборки путем отбора без возврата принято
пользоваться следующим алгоритмом:
1 Предварительно нужно составить основу выборки (список) таким
образом, чтобы все элементы генеральной совокупности были пронумерованы
числами от 1 до N.
2 Выбрать точку начала считывания случайных чисел из таблицы. Это
необходимо сделать случайным образом.
28
3 Начав с выбранной точки, последовательно считывать цифры слева
направо с переходом на следующую строку.
4 Объединить эти цифры в группы, размер которых равен количеству
цифр в числе N. Так, если N трехзначное число, то нужно считывать по три
случайные цифры раз за разом.
5 И таким образом поступать, пока не получится выборка из n единиц,
придерживаясь следующих рекомендаций:
- если получилось случайное число в диапазоне от 1 до N и элемент с
таким номером еще не извлекался, то его нужно включить в выборку;
- если полученное случайное число равно 0 или больше N, то его нужно
проигнорировать, поскольку для него в основе выборки нет соответствующего
элемента генеральной совокупности;
- если окажется, что элемент с таким номером уже извлекался, то его
следует пропустить, поскольку осуществляется выборка без возврата.
Проиллюстрируем пользование таблицы на конкретном примере.
Воспользуемся рассмотренным ранее случаем с формированием
выборки из мотков проволоки. Возьмем вариант с объемом n = 12 .
Итак, размер генеральной совокупности N = 120 . Составим список всех
мотков, которым присвоены номера от 1 до 120. Допустим, случайным образом
было решено начать отсчет с первой комбинации цифр, т.е. с числа 9866 (см.
таблица 1.3. строка 1, столбец 1). Поскольку число N = 120 состоит из трех
цифр, объединим последовательность случайных чисел в группы, состоящие
также из трех цифр, следующим образом: 986 676 484 382 982 070 805 168 816
114… Отбросим комбинации из этого ряда, которые более 120. Первым
попавшим в выборку будет число 070. Затем опять пропускаем несколько
чисел, пока не встретится комбинация 114. И так далее.
Таблица 1.3
Таблица случайных чисел
9866
2152
0495
9708
8304
8815
0985
6136
3511
8911
6567
0994
1833
7648
3202
7523
0697
2735
5849
8269
9495
3489
2538
5080
0715
5889
4382
815
2404
5296
9275
8141
4760
1221
6723
2221
3477
0053
5241
9820
1111
1714
3693
3484
9923
5059
5537
7782
7072
8213
4946
4184
7080
8049
2539
4673
9081
7792
5436
2055
7814
8082
9449
1472
3110
5168
739
7554
4869
9003
3808
4695
8775
5549
8875
2854
8834
2176
8161
7037
7233
5856
9159
5121
5825
0089
2867
3894
2684
3794
5227
1449
2863
4944
9232
5783
3214
6952
7900
2456
3847
6361
7591
4535
682
6510
8265
8115
5417
0954
6167
6257
0030
5562
6965
0587
1610
4595
9972
5391
0004
6323
4939
560
8419
9872
6524
153
3079
2357
29
Продолжение таблицы 1.3
6363
9295
8471
3988
5885
4215
6135
4331
2359
2758
6067
3875
6213
0938
1563
0316
2154
9742
2999
9422
2666
8960
5876
6773
7641
9508
9791
4498
2509
2316
3360
9442
5202
5120
3181
5023
6615
7485
8214
7165
1288
2017
9398
8151
3759
5654
9329
1418
9823
5308
9993
7363
1423
8908
8925
7458
9482
0092
2231
7681
4208
8386
5572
4550
3370
7242
9874
7635
4187
9800
4962
2687
5128
2324
4346
8970
8829
0018
7882
9534
5933
3865
0128
9343
9887
3275
5522
0579
7933
0267
6611
6190
3035
5719
5382
4856
8114
4890
6362
9840
1334
2124
9196
0344
3899
4200
9341
0161
6391
8587
4514
4420
5292
8755
0563
7976
0505
1478
6097
5208
6202
2918
4074
6447
5618
6994
4835
7715
9729
0691
3281
4075
8452
6185
7708
1868
4895
6866
7608
2498
6543
6464
2647
9575
3581
5482
0793
1115
5815
2000
3545
4997
4897
1939
4604
1429
9860
2192
3668
9571
9057
7348
0100
8548
5582
4688
5301
1796
7007
8410
0496
5150
5327
3683
6342
1540
8242
0933
8636
5931
5904
3704
6493
8255
6391
8733
4890
3055
1698
4454
9038
3903
9975
7939
8822
3475
7611
1293
7400
1586
6979
1962
3654
9713
8919
7930
5254
4833
675
7012
5028
4711
9969
6288
1356
2409
8123
8005
7955
1884
7736
0552
9677
5645
3215
8075
6707
0469
1174
6597
8760
7447
6695
6192
1811
6897
3385
7070
1885
494
4151
6047
7179
5614
1614
3811
4562
0605
4959
9643
7634
1362
7326
8270
7359
1770
8396
3073
5676
7901
3247
1431
2746
7026
1798
5384
5029
8288
8265
585
5968
8263
5330
7761
3288
9306
4021
5958
3141
4907
8073
6432
8792
8334
7216
9159
5566
2613
8593
5964
7295
1070
9536
1530
3178
2218
0005
8666
1617
7711
7881
2055
5828
3383
4322
2740
2723
2086
6385
5274
2824
545
3469
2047
6253
1502
3620
3199
0113
0659
8397
3674
7516
4987
6008
6564
1706
7055
3350
0306
4770
1294
3478
1137
0897
9625
0277
4087
4906
7383
8673
0372
8978
9175
2908
5620
8305
6474
2014
2368
2400
2058
0844
0877
3620
9694
9528
0035
0001
0702
8237
1067
1448
570
1163
3728
0258
4918
8623
9228
Процесс продолжается, пока не будет отобрано n = 12 элементов. Ими
окажутся мотки с номерами 070, 114, 028, 111, 099, 041, 115, 042, 081, 085, 121
и 098. Их и следует включить в случайную выборку.
1.10.2 Метод механического отбора
30
Помимо использования таблицы случайных чисел другим
распространенным приемом в практике выборочного наблюдения является
механический (периодический) отбор. Иногда формируемую этим методом
выборку называют систематической. Для ее получения из генеральной
совокупности извлекаются такие элементы, которые находятся в массиве на
равном расстоянии друг от друга.
Допустим, имеется полный список единиц совокупности и эти единицы
располагаются в порядке, являющемся случайным по отношению к
подлежащим изучению признакам (например, список сотрудников фирмы по
алфавиту). В зависимости от объема выборки из списка для обследования
выбирается каждая четвертая единица или каждая десятая. При проведении
механической выборки генеральная совокупность фактически разбивается на
равные по численности группы (интервалы) и из каждой такой группы
отбирается одна единица.
В том случае, когда к механическому отбору прибегают с целью
повышения репрезентативности, списки единиц генеральной совокупности
составляют в форме ранжированного ряда (по возрастанию или убыванию
какого-то признака). Так, при изучении бюджета служащих фирмы
используется механический отбор из списков, составленных в порядке
убывания величины средней месячной зарплаты.
Механический отбор полезен и тогда, когда невозможно заранее
составить список элементов массива. Например, выборка берется из
совокупности постепенно формирующейся во времени или практически
бесконечной совокупности.
Так, при контроле качества продукции проверять, например, каждую
пятую сходящую со станка деталь и т.д.
При проведении механической выборки нужно выполнить следующие
процедуры:
1 Установить шаг отсчета (размер интервала) h, т.е. выбрать расстояние
между отбираемыми единицами.
Шаг устанавливают в зависимости от предполагаемого процента отбора.
Его размер равен обратной величине доли выборки. Так, при 2 %-ной выборке
отбирается каждая 50-я единица (1:0,02), при 5 %-ной выборке (1:0,05) −
каждая 20-я единица и т.д.
Допустим, из генеральной совокупности объемом 1000 единиц
обследованию подлежат 100 элементов (т.е. 10 %). Это значит, что из каждых
10 единиц обследование пройдет только одна единица. Следовательно, шаг отсчета равен 10.
Это означает, что шаг можно определить как отношение h =
N
.
n
2 Выбрать начало отсчета, т.е. номер той единицы, которая должна быть
обследована первой.
Выбор начала отсчета связан со способом расположения единиц генеральной совокупности в списках. В случае неупорядоченного расположения
31
единиц из совокупности единиц первого интервала путем случайного отбора
выбирают начальную единицу. Предположим, что для случая отбора 100
элементов из массива в 1000 единиц в результате жеребьевки номер начальной
единицы составил 4. Тогда в выборку попадут элементы массива, стоящие в
списке под номерами 4, 14, 24, 34,…, 984, 994.
Если элементы в списке были ранжированы, то за начало отсчета принимают единицу, лежащую в середине первого интервала. В данном примере
из первых десяти единиц нужно выбрать пятую или шестую единицу, Тогда в
выборку попадают единицы с порядковыми номерами 5, 15, 25, 35,…, 985 и
995 (или же 6, 16, 26, 36, …, 986 и 996).
1.11 Компьютерное формирование выборочной совокупности
Существует также компьютерный метод выполнения этой процедуры на
основе применения приложения Excel. Программа «Анализ данных», в
которую вложен инструмент «Выборка» реализует две методики:
- с повторным отбором (с возвращением);
- с бесповторным отбором (без возвращения).
1.11.1 Повторный отбор
Для удобства рассмотрим случай с уже знакомыми нам мотками проволоки. Напомним, что генеральная совокупность, подлежащая изучению,
насчитывает 120 элементов (мотков проволоки). В соответствии с полученными расчетами для доверительной вероятности P = 0,95 и доверительного
интервала x = 3 объем случайной выборки n должен составить 12 единиц.
Полагаем, что всем моткам присвоены номера от 1 до 120.
1 Запускаем Excel и указываем заголовок «Выборка с возвратом». Текст
довольно длинный, он захватывает несколько ячеек – А1, В1 и С1. Чтобы
заголовок удобно располагался, лучше эти ячейки объединить. Для этого в
главном меню выберем опции «Формат/Ячейки…» В появившемся окне
диалога «Формат ячеек» активизируем вкладку «Выравнивание» и в списке
«Отображение» отметим флажком «Объединение ячеек». Схожим образом
поступим с заголовками «Номер мотка» и «Выборка случайная ( n = 12 )». Они
займут соответственно ячейки А3:В3 и С3:Е3.
2 Поместим затем номера мотков в ячейки А4:А123. Чтобы быстро ввести
числа от 1 до 120 в ячейки А4 и А5 введем цифры 1 и 2. Затем выделим эти
ячейки и протянем маркер заполнения (черный квадратик в правом нижнем
углу) вниз столбца А, следя за счетчиком заполняемых ячеек (он появится
справа от маркера). Остановимся, когда счетчик укажет число 120.
3 Откройте вкладку «Файл», нажмите кнопку «Параметры» и выберите
категорию Надстройки. В раскрывающемся списке «Управление» выберите
пункт «Надстройки Excel» и нажмите кнопку «Перейти». В окне «Надстройки»
установите флажок «Пакет анализа». В меню «Анализ» вкладки «Данные»
32
выберете «Анализ данных» и в открывшемся окне «Инструменты анализа»
выделим опцию «Выборка».
4 В появившемся окне «Выборка» укажем диапазон входящих данных.
Для этого в текстовом поле «Входной интервал» отметим диапазон ячеек
рабочего листа А3:А123 (вместе с заголовком). Поэтому установим флажок
«Метки».
5 Укажем метод отбора, а именно: «Случайный». Отметим также нужный нам объем выборочной совокупности − «Число выборок» (оно равно 12),
а также ячейку (С4), в которую будет помещен полученный результат – это
«Выходной интервал» (рисунок 1.7).
Рисунок1.7 – Исходные данные и диалоговое окно Выборка
Полученный результат показан на рисунок 1.8.
Рисунок1.8 – Результаты формирования случайной выборки
33
Пояснение. Не исключено, что могут случаться повторы (ибо рассматривался способ
с возвращением). В таком случае можно повторять отбор, пока в выборке не окажутся
только неповторяемые номера.
Рассмотрим извлечение из этого же массива в режиме механического
(периодического) отбора. Установим шаг h, пусть он составит 10, тогда из
совокупности в 120 единиц нужно будет отобрать те же 12 мотков. В диапазоне
ячеек С18:F18 запишем «Выборка периодическая (шаг h = 10 )». Далее будем
действовать в соответствии с алгоритмом, приведенным выше.
В диалоговом окне «Выборка» воспользуемся опцией «Периодический»
и в текстовом поле «Период» укажем шаг, с которым должны извлекаться
значения из исходного массива данных. Затем отметим ячейку (С20), в
которую будет помещен полученный результат – это «Выходной интервал»
(рисунок 1.9).
В данном случае в выборку попадают мотки проволоки под номерами 10,
20, 30, …, 110 и 120 (рисунок1.10). Начало отсчета Excel организует случайным образом.
Рисунок 1.9 – Формирование выборки способом механического отбора
Рисунок 1.10 – Результаты формирования выборки механическим отбором
34
В практической статистике обычно принято отдавать предпочтение
случайной выборке. Применение систематической выборки приведет к
некорректным результатам в том случае, если в основе выборки существует
определенный повторяемый фрагмент, который по размеру соответствует
шагу отбора. Понятно, что результаты окажутся некорректными, поскольку о
репрезентативности такого выборочного массива говорить не приходится.
1.11.2 Бесповторный отбор
Во многих случаях возникает ситуация, когда нужно получить такую
выборку, чтобы каждое значение, извлеченное из генеральной совокупности,
встречалось не более одного раза.
Реализуем бесповторный отбор, воспользовавшись примером с мотками
проволоки, с помощью программы Excel:
1 В ячейках А1:B1 укажем «Выборка без возврата», а также поместим
заголовки «Номер мотка» и «Случайное» в соответственно в ячейки А3 и В3.
Затем в столбец А введем номера элементов исследуемой совокупности под
номерами от 1 до 120.
2 Следующий столбец В с помощью генератора случайных чисел
заполним равномерно распределенными случайными числами, находящимися
в интервале от 0 до 1. С этой целью в столбец В вводим функцию СЛЧИС, для
чего вписываем формулу =СЛЧИС() в ячейку В4 (рисунок 1.11).
3 Затем дважды щелкаем по маркеру заполнения в правом нижнем углу
ячейки В4 (маленький черный крестик) и протягиваем его до ячейки В123. Весь
столбец В в диапазоне В4:В123 оказывается заполненным случайными
числами. Здесь можно сразу можно установить нужную разрядность, укажем
три знака после запятой.
Результат представлен на рисунке 1.12.
Рисунок 1.11 – Лист Excel c данными для формирования бесповторной
выборки
35
Рисунок 1.12 – Случайные числа до сортировки
4 Выделим теперь ячейки, содержащие функцию СЛЧИС (В4:В123),
щелкнем правой кнопкой мыши и выберем «Копировать» в контекстном меню.
5 При выделенных ячейках В4:В123 щелкнем правой кнопкой еще раз и
укажем в контекстном меню опцию «Специальная вставка». В появившемся
окне отметим пункты «Значения» и «Нет», затем снимем отметки с пунктов
«Пропускать пустые ячейки» и «Транспортировать».
Результат представлен на рисунке 1.13.
36
Рисунок 1.13 – Диалоговое окно «Специальная вставка»
6 Выделим теперь целиком сам массив и случайные числа (А4:В123).
Выберем «Сортировка» в меню «Данные». В диалоговом окне «Сортировка»
диапазона укажем позицию «Случайное» в ниспадающем меню списка
«Сортировать по» и щелкнем по кнопке «По возрастанию» (рисунок 1.14).
Рисунок 1.14 – Диалоговое окно «Сортировка диапазона»
Тем самым будет выполнена сортировка строк на основе тех значений,
которые располагаются в столбце со случайными числами.
В итоге указанные манипуляции позволяют отсортировать содержимое
обоих столбцов (А и В) таким образом, чтобы обеспечить упорядочение чисел
во втором столбце. В результате все элементы генеральной совокупности
будут перемешены случайным образом. Для того, чтобы осуществить выборку,
нужно взять первые n элементов из этой перемешанной генеральной
совокупности.
37
Окончательный результат представлен на рисунке 1.15. Как видно, числа
первого столбца (номера мотков) расположены в случайном порядке. В
зависимости от требуемого объема формируемой случайной выборки следует
отсчитать первые n значений.
Рисунок 1.15 – Случайные числа после сортировки
Отметим, что полученная таким образом случайная выборка будет
обладать теми же свойствами, что и выборка, построенная с использованием
таблицы случайных чисел.
1.12 Обработка экспериментальных результатов
Итак, выше были рассмотрены следующие вопросы:
- какой должен быть по объему выборочный массив;
- каким образом организовать его формирование.
Теперь нужно выяснить, какие потребуется определить показатели для
выборки, которые позволили бы количественно судить о уже самой
генеральной совокупности.
1.12.1 Определение среднего арифметического и стандартного
отклонения
38
Продолжим рассмотренную выше задачу с мотками стальной проволоки.
Для выбранного массива из 12 мотков стальной проволоки было
проведено взвешивание каждого из них и был получен следующий первичный
ряд экспериментальных данных, кг: 60,5; 62,8; 58,1; 57,5; 62,4; 61,2; 60,9; 62,2;
58,5; 61,0; 54,2; 58,6.
Следует определить:
- наличие грубого промаха;
- среднее генеральной совокупности (истинное значение) ~x путем
расчета среднего арифметического выборки x и доверительного интервала
(предельной ошибки) x .
Алгоритм решения задачи в Excel:
1 Представим полученные данные в табличной форме в виде двух
столбцов (рисунок 1.16), снабдив их соответствующими заголовками «Номер
мотка» (ячейка А1) и «Вес, кг» (ячейка В1). В диапазоне А2:А13 укажем номера
мотков от 1 до 12, а в В2:В13 – соответствующие весовые значения. Далее в
ячейках А14 и А15 запишем «Ср. ариф-е» и «Ст. откл-е». Зарезервируем
дополнительные ячейки В14 и В15, в которых будут размещены рассчитанные
значения среднего арифметического x и среднеквадратичного отклонения S n .
2 Выделим ячейку В14 , в которую будет помещен искомый результат;
затем активизируем «Мастер функций» кнопкой f x .
Рисунок 1.16 – Диалоговое окно «Мастер функций»
3 В появившемся диалоговом окне выберем нужную функцию из списка
(все функции разбиты на категории); для этого в окне «Категория» укажем
требуемую опцию под названием «Статистические».
39
Затем в нижнем окне выделим собственно нужную функцию – «Срзнач»
4 Появится окно «Аргументы функции». Подведем маркер к окну ввода
«Число1» и выделим все ячейки второго столбца, т.е. это те ячейки, где
расположены числовые результаты нашего опыта (В2:В13).
Пояснение. Если панель «Аргументы функции» закрывает значительную часть поля
листа и числа в столбце В не видны, то можно поступить следующим образом. Свернем
диалоговое окно, для чего нажмем кнопку справа от поля ввода. В результате можно будет
увидеть всю таблицу. Выделим столбец, где находятся данные, после этого нажмем на
кнопку – окно вновь полностью раскроется (рисунок 1.17).
Рисунок 1.17 – Диалоговое окно «Аргументы функции»
5 Подобные манипуляции проделаем и для последней ячейки В15 –
среднеквадратичного (стандартного) отклонения. Сделаем только одно
замечание. При работе с «Мастер функций» нужно будет активизировать
функцию «Стандотклон».
В обеих ячейках (В14 и В15) будут размещены рассчитанные значения
среднего арифметического x и среднеквадратичного отклонения S n .
Теперь надлежит рассчитать доверительный интервал. Для этого в
ячейке А16 запишем «Доверит. интервал», а в ячейке В16 предусмотрим
размещение самого результата вычисления.
6 В диалоговом окне в имеющихся строках ввода укажем
последовательно величину уровня значимости «Альфа» (0,05), значение
стандартного отклонения «Станд.откл» (отметим ячейку В15) и объем
выборочного массива «Размер» (12).
На рисунке 1.18 показан соответствующий лист Excel.
40
Рисунок 1.18 – Вид диалоговое окна при вычислении доверительного
интервала
В окончательном виде наши табличные данные можно видеть на рисунке
1.19.
Рисунок 1.19 – Итоговые данные расчета показателей выборки
Заметим, что здесь приведены итоговые значения с учетом необходимой
разрядности (с одним знаком после запятой, как и у самих исходных данных).
1.12.2 Нахождение грубого промаха
41
Одна из обязательных процедур статистической обработки результатов
измерений включает оценку так называемых грубых промахов, или
выскакивающих значений. Ими могут быть случайные ошибки большой
величины, вероятность которых весьма мала. Задача статистического анализа
состоит в том, чтобы выскакивающее значение подвергнуть специальной
проверке, на основании чего значение оставляют в массиве или удаляют из
него.
В теории статистики известны различные рекомендации по поводу
отсева грубых промахов. Один из таких способов – широко применяемый
метод максимального относительного отклонения. Его принято использовать в
случае малой выборки ( n 25 ).
Для расчета максимального относительного отклонения макс часто
используется соотношение, которое оценивает относительное отличие
проверяемого (или так называемого крайнего) результата xкр от среднего
арифметического х выраженное в долях среднеквадратичной ошибки S n .
Полученный результат (его абсолютное значение) затем сравнивается со
специальным статистическим эталоном. Математическая статистика создает
такие эталоны, которые называются критическими, или табличными,
значениями. Сама процедура сопоставления вычисленной характеристики с
табличным значением именуется проверкой гипотезы или проверкой на
адекватность.
Итак, используется следующее соотношение:
макс =
x − xкр
Sn
табл
(1.22)
В случае весьма малой выборки ( n 10 ) принято использовать
уточнённое выражение для определения макс :
макс =
x − xкр
1
−
табл
Sn
(n − 1) / 1
(1.23)
Таким образом, для выявления выскакивающих значений нужно
рассчитанное значение макс сопоставить с табличным табл , т.е. проверить
соотношение макс табл .
Если это соотношение соблюдается, то проверяемый результат считается
входящим в данную числовую совокупность и его отбрасывать нельзя. В
случае же обратного итога, т.е. макс табл , анализируемый результат признается
ошибочным и его надлежит исключить из дальнейшего рассмотрения.
42
При статистических расчетах такую проверку принято осуществлять для
заданной доверительной вероятности P или же соответствующего уровня
значимости = P − 1.
Вернемся к примеру.
Предположим, что 11-й моток, равный 53,1 кг, оказался по весу за
пределами оговоренных условий поставки.
При расчете максимального относительного отклонения воспользуемся
выражением для n 10 .
Вновь обратимся к Excel и продолжим предыдущий расчет. Действуем
следующим образом:
1 В ячейках А18 и А19 последовательно запишем «Крайнее значение» и
«Макс.отн.откл-е», а в соседнюю ячейку В18 потом поместим xкр = 53,1.
2 Выделим ячейку В19 и в поле ввода формул запишем = ( B14 − B18) / B15 .
После этого нажмем клавишу Enter и в ячейке появится число 3,4 (рисунок
1.20).
Полученный результат макс теперь надлежит сопоставить с табличным
значением табл . В имеющемся приложении Б для заданных условий ( n = 12 и
= 0,05 ) находим, что табл = 2,39 . Выполняется условие макс табл , поэтому с
вероятностью 95 % (или иначе с риском ошибиться на 5 %) можно утверждать,
что проверяемый результат является грубым промахом и его следует удалить
из данного массива.
Рисунок 1.20 – Результаты расчета максимального относительного
отклонения
Теперь надлежит изъять выскакивающее значение из табличного
массива. Для этого вновь воспользуемся Excel.
43
В таблице удалим результат, соответствующий номеру 11. Для этого
выделим ячейку В12 и нажмем клавишу Delete. После этого в ячейках,
указывающих значения среднего арифметического, стандартного и
доверительного интервала отклонения, автоматически устанавливаются их
обновленные показатели (рисунок 1.21).
Формально процедуру отсева полагается повторять и для следующего
крайнего значения. Однако предварительно следует пересчитать x и S n для
выборки нового объема, т.е. уже для n − 1 . Такой пересчет Excel, как мы видим,
выполнил (рисунок 1.21).
Рисунок 1.21 – Показатели выборочного массива после удаления
грубого промаха
Попробуем выполнить аналогичную проверку для следующего по
ранжиру крайнего значения. Им является результат под номером 4, равный
57,5. Для этого случая рассчитанная величина макс составляет 1,7 (рисунок
1.22). Значение табл , извлеченное из приложения Б, в этом случае составит
2,34, т.е. выполняется соотношение макс табл , Следовательно, этот результат
входит в данную совокупность (с вероятностью 95%).
44
Рисунок 1.22 – Проверка на грубый промах следующего крайнего
значения
На этом анализ закончен. В окончательном виде результат измерения
среднего генеральной совокупности (истинного значения) ~x можно
представить так:
~
x = x x = 59,9 0,9кг
(1.24)
Следовательно, если исключить из рассмотрения результат измерения
веса в 53,1 кг, то с надежностью 95% метизно-металлургический завод
поставляет продукцию по весу, практически совпадающему с заявленным
параметром (при среднем весе, равном 59,9 кг, и регламентированном
показателе в 60,0 кг), и при этом со значительно меньшей погрешностью (±0,9
кг), чем это предусмотрено условиями контракта (±3,0 кг).
1.13 Построение гистограмм
Одним из способов графического изображения результатов
статистического распределения какой-либо величины x по количественному
признаку является представление их в виде гистограмм или столбчатых
диаграмм. Гистограмма распределения позволяет оценить, сколько раз
измеренные значения x укладываются в заданные дискретные промежутки
1,..., k (интервалы или разряды), охватывающие весь диапазон изменения
этой величины. Гистограмма графически строится в виде столбцов,
образующих совокупность смежных прямоугольников, построенных на
45
прямой линии. Их высота (по оси ординат) соответствует количеству
попаданий чисел из рассматриваемого массива n в заданный интервал
изменения x, на который опирается столбик (на горизонтальной оси).
Гистограммы обычно строят для абсолютных частот (это когда считают
число попаданий f k в k-м разряде). Иногда удобнее анализировать
относительные частоты wk , которые определяются как wk =
fk
. Здесь n = f k , т.е.
n
сумма отдельных частот f k дает общее количество измерений п, т.е. объем
выборки.
Целесообразность подобного графического изображения полученных
экспериментальных результатов представляется разумной в тех случаях, когда
приходится исследовать большой массив однородных случайных величин,
подверженных очевидному статистическому разбросу.
Обычно построение гистограммы оправдано в тех случаях, когда
рассматривается массив из достаточно большого числа измерений n.
Считается, что такие построения представляются более надежными для
n 75 − 100 , а при n 25 − 30 использование гистограмм в статистическом
смысле становится неоправданным.
Построение гистограмм возможно в программе Excel. Для этого
приложение оснащено специальной программой «Гистограмма», входящей в
особый пакет «Анализ данных».
Познакомимся с приемами построения гистограмм с помощью Excel. Для
этого рассмотрим пример.
Было проведено исследование по поводу производительности
процессоров для ПК. Результаты тестирования выражены в процентах от
производительности самого быстрого процессора, имеющего 100% результат
в каждом тесте, и представлены в таблице 1.4.
Таблица 1.4
Исходные данные для построения гистограммы
Наименование
1
CPU Intel Xeon E5-2690 V4 2.6 GHz/14core/3+35Mb/135W/9.6 GT/s LGA2011-3
CPU Intel Xeon E5-2680 V4 2.4 GHz/14core/3+35Mb/120W/9.6 GT/s LGA2011-3
CPU Intel Core i7-6950X BOX (без кулера)3.0 GHz/10core/2+25Mb/140W LGA2011-3
CPU Intel Xeon E5-2690 V3 2.6 GHz/12core/3+30Mb/135W/9.6 GT/s LGA2011-3
CPU Intel Xeon E5-2680 V3 2.5 GHz/12core/3+30Mb/120W/9.6 GT/s LGA2011-3
CPU Intel Core i7-6900K 3.2 GHz/8core/2+20Mb/140W LGA2011-3
CPU Intel Xeon E5-2670 V3 2.3 GHz/12core/3+30Mb/120W/9.6 GT/s LGA2011-3
CPU Intel Xeon E5-2660 V4 2.0 GHz/14core/3+35Mb/105W/9.6 GT/s LGA2011-3
CPU Intel Xeon E5-2680 V2 2.8 GHz/10core/2.5+25Mb/115W/8 GT/s LGA2011
CPU Intel Xeon E5-2650 V4 2.2 GHz/12core/3+30Mb/105W/9.6 GT/s LGA2011-3
Результат
2
94.00%
88.30%
87.50%
87.20%
82.20%
77.40%
75.60%
74.80%
73.10%
71.40%
46
CPU Intel Xeon E5-2670 V2 2.5 GHz/10core/2.5+25Mb/115W/8 GT/s LGA2011
68.50%
Продолжение таблицы 1.4
1
CPU Intel Xeon E5-2660 V3 2.6 GHz/10core/2.5+25Mb/105W/9.6 GT/s LGA2011-3
CPU Intel Core i7-5960X 3.0 GHz/8core/2+20Mb/140W/5 GT/s LGA2011-3
CPU Intel Xeon E5-2630 V4 2.2 GHz/10core/+25Mb/85W/8 GT/s LGA2011-3
CPU Intel Core i7-6850K 3.6 GHz/6core/1.5+15Mb/140W LGA2011-3
CPU Intel Xeon E5-2650 V3 2.3 GHz/10core/2.5+25Mb/105W/9.6GT/s LGA2011-3
CPU Intel Xeon E5-2650 V3 BOX (без кулера)2.3 GHz/10core/2.5+25Mb/105W/9.6 GT/s
LGA2011-3
CPU Intel Core i7-6850K BOX (без кулера)3.6 GHz/6core/1.5+15Mb/140W LGA2011-3
CPU Intel Xeon E5-2680 2.7 GHz/8core/2+20Mb/130W/8 GT/s LGA2011
CPU Intel Core i7-6800K BOX (без кулера) 3.4 GHz/6core/1.5+15Mb/140W LGA2011-3
CPU Intel Core i7-6800K 3.4 GHz/6core/1.5+15Mb/140W LGA2011-3
CPU Intel Core i7-5930K BOX (без кулера) 3.5 GHz/6core/1.5+15Mb/140W/5 GT/s
LGA2011-3
CPU Intel Core i7-5930K 3.5 GHz/6core/1.5+15Mb/140W/5 GT/s LGA2011-3
CPU Intel Xeon E5-2640 V3 2.6 GHz/8core/2+20Mb/90W/8 GT/s LGA2011-3
CPU Intel Xeon E5-2630 V3 BOX (без кулера) 2.4 GHz/8core/2+20Mb/85W/8 GT/s
LGA2011-3
CPU Intel Xeon E5-2660 2.2 GHz/8core/2+20Mb/95W/8 GT/s LGA2011
CPU Intel Xeon E5-2620 V4 2.1 GHz/8core/+20Mb/85W/8 GT/s LGA2011-3
CPU Intel Core i7-5820K BOX (без кулера) 3.3 GHz/6core/1.5+15Mb/140W/5 GT/s
LGA2011-3
CPU Intel Core i7-5820K 3.3 GHz/6core/1.5+15Mb/140W/5 GT/s LGA2011-3
CPU Intel Xeon E5-2640 V2 2.0 GHz/8core/2+20Mb/95W/7.2 GT/s LGA2011
CPU Intel Core i7-6700K 4.0 GHz/4core/SVGA HD Graphics 530/1+8Mb/91W/8 GT/s
LGA1151
CPU Intel Core i7-6700K BOX (без кулера) 4.0 GHz/4core/SVGA HD Graphics
530/1+8Mb/91W/8 GT/s LGA1151
CPU Intel Xeon E5-2650 2.0 GHz/8core/2+20Mb/95W/8 GT/s LGA2011
CPU Intel Xeon E5-2630 V2 2.6 GHz/6core/1.5+15Mb/80W/7.2 GT/s LGA2011
CPU Intel Core i7-4790K 4.0 GHz/4core/SVGA HD Graphics 4600/1+8Mb/88W/5 GT/s
LGA1150
CPU Intel Core i7-6700 BOX 3.4 GHz/4core/SVGA HD Graphics 530/1+8Mb/65W/8 GT/s
LGA1151
CPU Intel Core i7-6700 3.4 GHz/4core/SVGA HD Graphics 530/1+8Mb/65W/8 GT/s
LGA1151
CPU Intel Xeon E3-1240 V5 3.5 GHz/4core/1+8Mb/80W/8 GT/s LGA1151
CPU Intel Xeon E5-2620 V3 2.4 GHz/6core/1.5+15Mb/85W/8 GT/s LGA2011-3
CPU Intel Xeon X5670 2.93 GHz/6core/12Mb/95W/6.40 GT/s LGA1366
CPU Intel Xeon E3-1230 V5 3.4 GHz/4core/1+8Mb/80W/8 GT/s LGA1151
CPU Intel Xeon E3-1245 V5 3.5 GHz/4core/SVGA HD Graphics P530/1+8Mb/80W/8 GT/s
LGA1151
CPU Intel Core i7-5775C 3.3 GHz/4core/SVGA Iris Pro 6200/1+6Mb/65W/5 GT/s LGA1150
CPU Intel Core i7-4770K BOX 3.5 GHz/4core/SVGA HD Graphics 4600/1+8Mb/84W/5
GT/s LGA1150
2
64.30%
63.90%
63.20%
62.70%
62.10%
62.10%
61.70%
59.60%
59.50%
59.50%
59.20%
59.20%
57.40%
56.90%
52.50%
52.40%
47.60%
47.60%
47.20%
47.10%
47.10%
46.80%
45.50%
44.90%
43.60%
43.60%
43.00%
42.80%
42.70%
42.50%
42.40%
41.90%
41.70%
47
CPU Intel Xeon E5-2640 2.5 GHz/6core/1.5+15Mb/95W/7.2 GT/s LGA2011
41.70%
Продолжение таблицы 1.4
1
CPU Intel Core i7-4770 3.4 GHz/4core/SVGA HD Graphics 4600/1+8Mb/84W/5 GT/s
LGA1150
CPU Intel Core i7-4790 BOX 3.6 GHz/4core/SVGA HD Graphics 4600/1+8Mb/84W/5 GT/s
LGA1150
CPU Intel Core i7-4790 3.6 GHz/4core/SVGA HD Graphics 4600/1+8Mb/84W/5 GT/s
LGA1150
CPU Intel Xeon E3-1241 V3 3.5 GHz/4core/1+8Mb/80W/5 GT/s GA1150
CPU Intel Xeon X5660 2.8 GHz/6core/12Mb/95W/6.40 GT/s LGA1366
CPU Intel Xeon E3-1241 V3 BOX 3.5 GHz/4core/1+8Mb/80W/5 GT/s LGA1150
CPU Intel Xeon E3-1245 V3 3.4 GHz/4core/SVGA HD Graphics P4600/1+8Mb/84W/5 GT/s
LGA1150
CPU AMD FX-9590 BOX (без кулера) Black Edition (FD9590F) 4.7 GHz/8core/
8+8Mb/220W/5200 MHz Socket AM3+
CPU Intel Xeon E3-1240 V3 3.4 GHz/4core/1+8Mb/80W/5 GT/s LGA1150
CPU Intel Xeon E3-1231 V3 3.4 GHz/4core/1+8Mb/80W/5 GT/s LGA1150
CPU Intel Core i7-4820K 3.7 GHz/4core/1.0+10Mb/130W/5 GT/s LGA2011
CPU Intel Xeon E3-1231 V3 BOX 3.4 GHz/4core/1+8Mb/80W/5 GT/s LGA1150
CPU Intel Xeon E5-2620 V2 2.1 GHz/6core/1.5+15Mb/80W/7.2 GT/s LGA2011
CPU Intel Xeon E3-1240 V2 3.4 GHz/4core/1+8Mb/69W/5 GT/s LGA1155
CPU Intel Xeon E3-1230 V3 3.3 GHz/4core/1+8Mb/80W/5 GT/s LGA1150
CPU Intel Core i5-6600T 2.7 GHz/4core/SVGA HD Graphics 530/1+6Mb/35W/ LGA1151
CPU Intel Xeon E5-2623 V3 3.0 GHz/4core/1+10Mb/105W/8GT/s LGA2011-3
CPU Intel Xeon E3-1230 V2 3.3 GHz/4core/69W LGA1155
CPU AMD FX-9370 BOX (без кулера) Black Edition (FD9370F) 4.4 GHz/8core/
8+8Mb/220W/5200 MHz Socket AM3+
CPU Intel Core i7-4790T 2.7 GHz/4core/SVGA HD Graphics 4600/1+8Mb/45W/5 GT/s
LGA1150
CPU Intel Core i5-6600K BOX (без кулера) 3.5 GHz/4core/SVGA HD Graphics
530/1+6Mb/91W/ LGA1151
CPU Intel Core i5-6600K 3.5 GHz/4core/SVGA HD Graphics 530/1+6Mb/91W/ LGA1151
CPU Intel Core i5-6600 3.3 GHz/4core/SVGA HD Graphics 530/1+6Mb/65W/ LGA1151
CPU Intel Core i5-6600 BOX 3.3 GHz/4core/SVGA HD Graphics 530/1+6Mb/65W/ LGA1151
CPU AMD FX-8350 (FD8350F) 4.0 GHz/8core/ 8+8Mb/125W/5200 MHz Socket AM3+
CPU Intel Xeon E5-2620 2.0 GHz/6core/1.5+15Mb/95W/7.2 GT/s LGA2011
CPU Intel Core i5-5675C 3.1 GHz/4core/SVGA Iris Pro 6200/1+4Mb/65W/5 GT/s LGA1150
CPU Intel Core i5-4690K BOX 3.5 GHz/4core/SVGA HD Graphics 4600/1+6Mb/88W/5 GT/s
LGA1150
CPU Intel Xeon E5-2609 V4 1.7 GHz/8core/2+20Mb/85W/6.4 GT/s LGA2011-3
CPU Intel Core i5-4670 BOX 3.4 GHz/4core/SVGA HD Graphics 4600/1+6Mb/84W/5 GT/s
LGA1150
CPU Intel Xeon E3-1220 V5 3.0 GHz/4core/1+8Mb/80W/8 GT/s LGA1151
CPU Intel Core i5-4590 3.3 GHz/4core/SVGA HD Graphics 4600/1+6Mb/84W/5 GT/s
LGA1150
2
41.60%
41.50%
41.50%
40.40%
40.40%
40.00%
39.00%
38.90%
38.90%
38.80%
38.80%
38.80%
38.00%
37.60%
37.60%
37.30%
36.90%
36.70%
36.60%
36.20%
35.10%
35.10%
34.70%
34.70%
34.50%
34.20%
34.10%
33.70%
33.30%
33.00%
32.20%
31.90%
48
CPU Intel Core i5-4690 3.5 GHz/4core/SVGA HD Graphics4600/1+6Mb/84W/5 GT/s
LGA1150
31.90%
Продолжение таблицы 1.4
1
CPU Intel Core i5-4690 BOX 3.5 GHz/4core/SVGA HD Graphics 4600/1+6Mb/84W/5
GT/s LGA1150
CPU Intel Core i5-6500 3.2 GHz/4core/SVGA HD Graphics 530/1+6Mb/65W/ LGA1151
CPU Intel Core i5-6500 BOX 3.2 GHz/4core/SVGA HD Graphics 530/1+6Mb/65W/
LGA1151
CPU AMD FX-8320 (FD8320F) 3.5 GHz/8core/ 8+8Mb/125W/5200 MHz Socket AM3+
CPU Intel Xeon E3-1220 V3 3.1 GHz/4core/1+8Mb/80W/5 GT/s LGA1150
CPU Intel Core i5-6400 BOX 2.7 GHz/4core/SVGA HD Graphics 530/1+6Mb/65W/
LGA1151
CPU Intel Core i5-6400 2.7 GHz/4core/SVGA HD Graphics 530/1+6Mb/65W/ LGA1151
CPU Intel Core i5-3470 3.2 GHz/4core/SVGA HD Graphics 2500/1+6Mb/77W/5 GT/s
LGA1155
CPU Intel Core i5-4460 3.2 GHz/4core/SVGA HD Graphics 4600/1+6Mb/84W/5 GT/s
LGA1150
CPU Intel Core i5-4460 BOX 3.2 GHz/4core/SVGA HD Graphics 4600/1+6Mb/84W/5
GT/s LGA1150
CPU Intel Xeon E3-1220 V2 3.1 GHz/4core/69W LGA1155
CPU Intel Core i5-4690T 2.5 GHz/4core/SVGA HD Graphics4600/1+6Mb/45W/5 GT/s
LGA1150
CPU Intel Core i5-3340 3.1 GHz/4core/SVGA HD Graphics 2500/1+6Mb/77W/5 GT/s
LGA1155
CPU Intel Core i5-4670T 2.3 GHz/4core/SVGA HD Graphics 4600/1+6Mb/45W/5 GT/s
LGA1150
CPU Intel Xeon E5-2609 V3 1.9 GHz/6core/1.5+15Mb/85W/6.4 GT/s LGA2011-3
CPU Intel Xeon E5640 2.66 GHz/4core/12Mb/80W/5.86 GT/s LGA1366
CPU Intel Core i5-4430S 2.7 GHz/4core/SVGA HD Graphics4600/1+6Mb/65W/5 GT/s
LGA1150
CPU Intel Xeon E5-2603 V4 1.7 GHz/6core/1.5+15Mb/85W/6.4 GT/s LGA2011-3
CPU Intel Xeon E5630 2.53 GHz/4core/12Mb/80W/5.86 GT/s LGA1366
CPU AMD FX-8300 (FD8300W) 3.3 GHz/8core/ 8+8Mb/95W/5200 MHz Socket AM3+
CPU AMD FX-8370E (FD837EW) 3.3 GHz/8core/ 8+8Mb/95W/5200 MHz Socket AM3+
2
31.90%
31.60%
31.60%
30.60%
30.60%
30.20%
30.20%
29.80%
29.60%
29.60%
29.40%
28.80%
27.20%
26.90%
26.60%
26.10%
26.00%
25.30%
25.10%
24.70%
24.20%
А теперь обратимся к вновь к Excel. Действуем в следующей
последовательности.
1 Запустим Excel и введем исходные данные. Для этого в ячейку А1
поместим надпись «Наименование», а затем скопируем названия из первого
столбца таблицу 1.4, разместив их в ячейках А2:А101 файла Excel.
Пояснение. Попытка представить эти данные в виде компактной таблицы (с
несколькими колонками) приведет к тому, что Excel станет рассматривать каждый столбец
как самостоятельную совокупность чисел и выдаст потом результаты для каждой колонки
отдельно, что создаст некорректный результат.
49
2 В ячейке В1 запишем «Результат, %» и введем наши исходные данные.
Для рассматриваемого массива чисел нам нужно получить в виде
сводной таблицы основные статистические характеристики. С этой целью
воспользуемся специальной программой «Описательная статистика».
1 Для того чтобы ее запустить, в главном меню выберем последовательно
пункты «Данные/Анализ данных/Описательная статистика».
2 Далее заполним появившееся диалоговое окно ввода данных и
параметров вывода, для этого проделаем следующее (рисунок 1.23):
- укажем «Входной интервал» (в виде абсолютных ссылок $В$2:$В$101);
- отметим способ «Группирования» (в нашем случае по столбцам);
- выделим «Выходной интервал», для этого достаточно указать левую
верхнюю ячейку будущего диапазона; пусть это будет ячейка $C$2;
- установим флажок, показывающий, что нам нужна информация в виде
«Итоговой статистики».
Рисунок 1.23 – Диалоговое окно ввода параметров «Описательная статистика»
Результаты вычисления Excel представит нам в табличной форме
(рисунок 1.24). При этом таблица содержит шапку «Показатели статистики» (в
ячейках С1:С2) и «Результат расчета» (D1:D2). Дело в том, что при построении
таблицы Excel автоматически ввел заголовок «Столбец 1», который помещался
в ячейке С1, поэтому приходится менять надпись на более приемлемую. Для
этого дважды щелкнем последовательно в этих ячейках, чтобы они
превратилась в поля ввода; запишем нужные слова и затем нажмем клавишу
Enter.
Отметим еще одну особенность. В столбце С содержатся наименования
статистических характеристик. Целиком текст может и не помещаться, так как
50
ширина ячейки оказывается недостаточной, поэтому ставим курсор на правой
границе заголовка столбца С и дважды щелкаем левой клавишей. В результате
ширина столбца стала такой, что весь текст поместился в его поле и можно
читать самые длинные названия.
Рисунок 1.24 – Результаты расчета статистических показателей
Сделаем некоторые пояснения по поводу содержимого листа Excel,
приведенного на рисунке 1.24. В столбце С перечислены статистические
характеристики, а в соседнем столбце D указаны их значения.
Обратимся к программе «Гистограмма». Сначала необходимо задать
разряды (интервалы), на которые исследуемый массив следует разделить. Excel
сам автоматически выберет разряды, равномерно распределив их между
минимальным и максимальным числовыми значениями, однако попробуем
осуществить разбиение на интервалы самостоятельно. В нашем случае удобно
задаться шагом, равным 10, так как измеренные величины располагаются
между 24,2 и 94 (см. рисунок 1.24). Выберем ячейку Е1 и там запишем
51
«Разряды». Затем, начиная с ячейки Е3, вводим столбиком выбранные границы
разрядов – 10, 20, 30 и т.д. вплоть до 100. Здесь мы намеренно выберем крайние
интервалы (1–10 и 91–100), в которых заведомо содержатся нулевые
результаты.
В итоге придуманные нами разряды будут размещены в ячейках Е3:Е12.
В главном меню откроем вкладку «Данные», а далее «Анализ данных/Гистограмма» (рисунок 1.25). В появившемся диалоговом окне заполним
«Входные данные»:
- укажем Входной интервал, отмечая диапазон ячеек, где располагается
наш массив, а именно: $В$3:$В$102;
- следующая позиция – «Интервал карманов» (в терминологии Excel под
карманами понимаются те разряды, на которые нужно будет разделить
рассматриваемый массив); отметим ячейки $Е$3:$Е$12 (с числами);
- проигнорируем флажок «Метки», тем самым Excel должен будет
самостоятельно позаботиться о заголовке.
Рисунок 1.25 – Диалоговое окно ввода параметров «Гистограмма»
Теперь заполним «Параметры вывода».
- укажем «Выходной интервал»; здесь достаточно дать ссылку на левую
верхнюю ячейку выходного интервала, поскольку размер выходного диапазона
будет создан автоматически; Пусть такой ячейкой станет ячейка с
координатами $F$2.
- отметим флажком «Вывод графика».
В результате получим искомые материалы – табличную форму
распределения чисел рассматриваемого массива и саму гистограмму (рисунок
1.26).
Займемся сначала изучением таблицы, содержащейся на рисунке 1.26. В
ней содержатся две колонки (F и G), указывающие заданные интервалы (под
52
названием «Карман») и количество попаданий в каждый интервал чисел
данного массива (именуется «Частота»). Причем эти заголовки были внесены
самим Excel.
Рисунок 1.26 – Табличная и графическая формы представления результатов
В последней строке стоит разряд с именем «Еще». Он показывает
интервалы (возможные), которые располагаются за пределами выбранного
нами диапазона. Поскольку эта строка никакой полезной информации в
данном случае не несет, то ее можно удалить.
И, наконец, последнее. Эти же результаты, которые мы изобразили
гистограммой, можно представить и в другой форме – в виде кривой частоты
или так называемого многоугольника (полигона) распределения. В этом случае
график будет представлять собой ломаную линию, построенную на основании
расчета среднеинтервальных значений рассматриваемого массива.
Делается это следующим образом:
1 Поместим курсор в поле диаграммы, чтобы высветилась надпись
«Изменить тип диаграммы».
2 Щелкнем правой клавишей – появится контекстное меню. В нем в
категории «Тип» укажите «График».
53
На
рисунке
1.27
представлен
производительности процессоров.
полигон
распределения
Рисунок 1.27 – Полигон распределения производительности процессоров
На этом задачу можно считать решенной.
54
2 КОРРЕЛЯЦИОННАЯ СВЯЗЬ И ЕЕ СТАТИСТИЧЕСКОЕ
ИЗУЧЕНИЕ В ИНЖЕНЕРНОЙ ДЕЯТЕЛЬНОСТИ
Исследование отдельных статистических объектов позволяет получить о
них вполне полезную информацию и описать их стандартными показателями.
При этом изучаемую совокупность можно представить в виде ряда
распределения путем ранжирования (в порядке возрастания или убывания
анализируемого количественного признака), дать характеристику этой
совокупности, указав центральные значения ряда (среднее арифметическое,
медиану, моду), размах варьирования, форму кривой распределения. Такого
рода сведения могут быть вполне достаточными в случаях, когда приходится
иметь дело с одномерными данными (т.е. лишь с одной характеристикой,
например, сопротивлением) о каждой единице совокупности (скажем, о
резисторе).
Когда же мы анализируем двумерные данные (например, сопротивление
и рассеиваемая мощность), всегда есть возможность изучать каждое измерение
по отдельности − как часть одномерной совокупности данных. Однако
реальную отдачу можно получить лишь при совместном изучении обоих
параметров. Основной смысл такого подхода – создается возможность выявить
взаимосвязь между ними.
2.1 Типы зависимостей
Следовательно, помимо традиционных измерений и последующих
вычислений при анализе статистических данных приходится решать проблему
и более высокого уровня – выявление функциональной зависимости между
воздействующим фактором и регистрируемой (изучаемой) величиной.
Указанные ситуации весьма типичны в статистической практике, и в этом
смысле аналитическая работа инженера весьма богата такими примерами.
Зависимость одной случайной величины от значений, которые
принимает другая случайная величина, в статистике называется регрессией.
Если этой зависимости придан аналитический вид, то такую форму
представления изображают уравнением регрессии.
Процедура поиска предполагаемой зависимости между различными
числовыми совокупностями обычно включает следующие этапы:
- установление значимости связи между ними;
- возможность представления этой зависимости в форме
математического выражения (уравнения регрессии).
Первый этап в указанном статистическом анализе касается выявления
так называемой корреляции или корреляционной зависимости. Корреляция
рассматривается как признак, указывающий на взаимосвязь ряда числовых
последовательностей. Иначе говоря, корреляция характеризует силу
Статистический смысл термина значимость означает, что анализируемая зависимость проявляется
сильнее, чем это можно было бы ожидать от чистой случайности.
55
взаимосвязи в данных. Если это касается взаимосвязи двух числовых массивов
xi и yi , то такую корреляцию называют парной.
При поиске корреляционной зависимости обычно выявляется вероятная
связь одной измеренной величины x (для какого-то ограниченного диапазона
ее изменения, например от x1 до xn ) с другой измеренной величиной y (также
изменяющейся в каком-то интервале y1... yn ). В таком случае мы будем иметь
дело с двумя числовыми последовательностями, между которыми надлежит
установить наличие статистической (корреляционной) связи. На этом этапе
пока не ставится задача определить, является ли одна из этих случайных
величин функцией, а другая – аргументом. Отыскание количественной
зависимости между ними в форме конкретного аналитического выражения
y = f (x) – это задача уже другого анализа, регрессионного.
Таким образом, корреляционный анализ позволяет сделать вывод о силе
взаимосвязи между парами данных х и y, а регрессионный анализ используется
для прогнозирования одной переменной (y) на основании другой (х). Иными
словами, в этом случае пытаются выявить причинно-следственную связь
между анализируемыми совокупностями.
Схематическое изображение изложенных соображений представлено на
рисунке 2.1.
Рисунок 2.1 – Схематическое пояснение сути корреляционного
и регрессионного анализов
Строго говоря, принято различать два вида связи между числовыми
совокупностями – это может быть функциональная зависимость или же
статистическая (случайная). При наличии функциональной связи каждому
значению воздействующего фактора (аргумента) соответствует строго
определенная величина другого показателя (функции), т.е. изменение
56
результативного признака всецело обусловлено действием факторного
признака.
Аналитически функциональная зависимость представляется в
следующем виде:
y = f (x).
(2.1)
Графически это (при наличии линейной зависимости) может быть
представлено в виде прямой линии (рисунок 2.2а).
а
б
Рисунок 2.2 – Зависимость:
а – функциональная; б – статистическая
В случае статистической связи значению одного фактора соответствует
какое-то приближенное значение исследуемого параметра, его точная
величина является непредсказуемой и поэтому получаемые показатели
оказываются случайными величинами. Это значит, что изменение
результативного признака у обусловлено влиянием факторного признака х
лишь частично, т.к. возможно воздействие и иных факторов, вклад которых
обозначен как :
y = ( x) + .
(2.2)
По своему характеру корреляционные связи – это соотносительные
связи. Примером корреляционной связи показателей инженерной
деятельности является, например, взаимосвязь между изменениями основных
функциональных параметров биполярного транзистора при длительном
использовании и обратимыми изменениями этих параметров при действии
57
имитационного неразрушающего воздействия в начальный момент времени. В
этой связи помимо факторного признака х на результативный признак у влияют
и другие факторы, в том числе и неучтенные, порождающие вклад .
Такая зависимость графически изображается в виде экспериментальных
точек, образующих поле рассеяния или, как принято говорить, поле
корреляции (рисунок 2.2б). Следовательно, такие двумерные данные можно
анализировать с использованием диаграммы рассеяния в координатах «х–у»,
которая дает визуальное представление о взаимосвязи исследуемых
совокупностей.
Для количественной оценки существования связи между изучаемыми
совокупностями
случайных
величин
используется
специальный
статистический показатель – коэффициент корреляции r. Если предполагается,
что эту связь можно описать линейным уравнением типа y = a + bx (где a и b−
константы), то принято говорить о существовании линейной корреляции.
Коэффициент r – это безразмерная величина, она может меняться от 0 до
1. Чем ближе значение коэффициента к единице (неважно, с каким знаком),
тем с большей уверенностью можно утверждать, что между двумя
рассматриваемыми совокупностями переменных существует линейная связь.
Иными словами, значение какой-то одной из этих случайных величин (y)
существенным образом зависит от того, какое значение принимает другая (x).
Если окажется, что r = 1 (или -1), то имеет место классический случай
чисто функциональной зависимости (т.е. реализуется идеальная взаимосвязь).
При анализе двумерной диаграммы рассеяния можно обнаружить
различные взаимосвязи. Простейшим вариантом является линейное
соотношение, которое выражается в том, что точки размещаются случайным
образом вдоль прямой линии. Диаграмма свидетельствует об отсутствии
взаимосвязи, если точки расположены случайно и при перемещении слева
направо невозможно обнаружить какой-либо уклон (ни вверх, ни вниз).
Если точки на ней группируются вдоль кривой линии, то диаграмма
рассеяния характеризуется нелинейной взаимосвязью. Такие ситуации вполне
возможны. Тем не менее, для удобства понимания сути корреляционного
соотношения мы ограничимся рассмотрением варианта линейной
зависимости.
2.2 Методы определения корреляционной связи
Корреляцию и регрессию принято рассматривать как совокупный
процесс статистического исследования и поэтому их использование в
статистике часто именуют корреляционно-регрессионным анализом.
Если между парами совокупностей связь просматривается вполне
очевидная, то, минуя стадию корреляции, можно сразу приступать к поиску
уравнения регрессии.
58
Если же исследования касаются какого-то нового процесса, ранее не
изучавшегося, то наличие связи между совокупностями является предметом
специального поиска.
При этом условно можно выделить методы, которые позволяют оценить
качественно наличие связи, и методы, дающие количественные оценки.
Чтобы выявить наличие качественной корреляционной связи между
двумя исследуемыми числовыми наборами экспериментальных данных,
существуют различные методы, которые принято называть элементарными.
Ими могут быть приемы, основанные на следующих операциях:
- параллельном сопоставлении рядов;
- построении корреляционной или групповой таблиц;
- графическом изображении с помощью поля корреляции.
Другой метод, более сложный и статистически надежный, − это
количественная оценка связи посредством расчета коэффициента корреляции
и его статистической проверки.
Познакомимся со способом оценки корреляционной связи посредством
расчета коэффициента корреляции, рассмотрев конкретный пример.
2.3 Расчет коэффициента парной корреляции и его статистическая
проверка
Существуют
различные
аналитические
приемы
определения
коэффициента r. Наиболее часто рекомендуется использовать выражение:
n
r=
n
n
n xi yi − xi yi
i =1
i =1
i =1
n
2
2
2
n
х
−
(
х
)
n
y
−
(
yi ) 2
i
i
i
i =1
i =1
i =1
i =1
n
n
n
,
(2.3)
где n – число измерений (элементов) в каждой совокупности;
xi и yi − текущие значения единиц обеих совокупностей.
Зная
коэффициент
корреляции,
можно
дать
качественноколичественную оценку тесноты связи. Используются, например, специальные
табличные соотношения (так называемая шкала Чеддока). Ее представление
может иметь следующий вид (таблица 2.1).
Таблица 2.1
Качественная оценка тесноты связи
59
Величина коэффициента
парной корреляции
До 0,3
0,3–0,5
0,5–07
0,7–0,9
0,9–0,99
Характеристика силы связи
Практически отсутствует
Слабая
Заметная
Сильная
Очень сильная
Такие оценки носят общий характер и не претендуют на статистическую
строгость, поскольку не дают гарантий на вероятностную достоверность.
Поэтому в статистике принято использовать более надежные критерии
для оценки степени тесноты связи, основываясь на рассчитанных значениях
коэффициента парной корреляции (КПК).
Здесь может помочь только эталон, с которым можно было бы сравнить
вычисленную характеристику. Статистика как раз и занимается созданием
таких эталонов, которые называются критическими (табличными),
значениями.
Процедуру установления корреляционной зависимости принято
называть проверкой гипотезы. Ее принято проводить в следующей
последовательности:
- вычисление линейного коэффициента парной корреляции между
совокупностями случайных величин xi и yi ;
- его статистическая оценка (проверка значимости).
Статистическую оценку КПК проводят путем сравнения его абсолютной
величины с табличным (или критическим) показателем rкрит , значения которого
отыскиваются из специальной таблицы (см. приложение Б).
Если окажется, что rрасч rкрит , то с заданной степенью вероятности
(обычно 95 %) можно утверждать, что между рассматриваемыми числовыми
совокупностями существует значимая линейная связь. Или, по-другому, –
гипотеза о значимости линейной связи не отвергается.
В случае же обратного соотношения, т.е. при rрасч rкрит , делается
заключение об отсутствии значимой связи.
Перейдем теперь к рассмотрению конкретного примера.
Рассмотрим два фактора, характеризующих процессор:
- быстродействие микропроцессора – определяется тактовой частотой;
- объем оперативной памяти.
Сравним семь различных устройств и выясним, какой из параметров в
большей степени влияет на производительность процессора.
Таблица 2.2
Производительность процессора и параметры, влияющие на нее
60
Наименование процессора
1
CPU Intel Xeon E5-2690 V4 2.6
GHz/14core/3+35Mb/135W/9.6 GT/s LGA2011-3
CPU Intel Xeon E5-2680 V4 2.4
GHz/14core/3+35Mb/120W/9.6 GT/s LGA2011-3
CPU Intel Core i7-6950X BOX (без кулера) 3.0
GHz/10core/2+25Mb/140W LGA2011-3
2
3
Объем
оперативной
памяти, Гб
4
94,00
2,6
1536
88,30
2,4
1536
87,50
3,0
128
Производит Тактовая
ельность, % частота, ГГц
Продолжение таблицы 2.2
1
CPU Intel Xeon E5-2690 V3 2.6
GHz/12core/3+30Mb/135W/9.6 GT/s LGA2011-3
CPU Intel Xeon E5-2680 V3 2.5
GHz/12core/3+30Mb/120W/9.6 GT/s LGA2011-3
CPU Intel Core i7-6900K 3.2
GHz/8core/2+20Mb/140W LGA2011-3
CPU Intel Xeon E5-2690 V4 2.6
GHz/14core/3+35Mb/135W/9.6 GT/s LGA2011-3
2
3
4
87,20
2,6
768
82,20
2,5
768
77,40
3,2
128
94,00
2,6
1536
Работать будем с приложением Excel, поэтому запустим его и перенесем
информацию из таблицы 2.2 (рисунок 2.3).
Укажем также таблицу, в которой поместим расчетные значения
коэффициента. Выделим для этого диапазон ячеек F2:G2, где будут находиться
необходимые заголовки. Сами же значения коэффициента корреляции будем
помещать в ячейки G3 и G4.
61
Рисунок 2.3 – Исходные данные и расчет коэффициента корреляции
Далее определим коэффициент корреляции с помощью «Мастера
функций». Вначале выполним расчет для соотношения «Производительность
– тактовая частота».
Действуем в такой последовательности:
1 В итоговой таблице активизируем ячейку G3, куда и будет помещено
первое рассчитанное значение КПК.
2 Запустим «Мастер функций» (ищем в инструментальной строке значок
f x ) и в появившемся диалоговом окне укажем требуемую категорию –
«Статистические», а затем выделим нужную функцию «Коррел» (рисунок 2.4).
Рисунок 2.4 – Диалоговое окно «Мастер функций»
3 В появившейся панели «Коррел» нужно заполнить текстовые поля для
«Массив 1» (т.е. указать диапазон ячеек B2:B8) и для «Массив 2» (C2:C8); для
этого выделим в таблице последовательно 2-ю и 3-ю колонки, причем каждый
раз в соответствующих окнах должен находиться маркер (мерцающая
вертикальная черточка); выделенная колонка по периметру будет обрамлена
бегущей пунктирной линией (рисунок 2.5).
62
Рисунок 2.5 – Диалоговое окно ввода параметров корреляции
Аналогичным образом поступим для расчета второго коэффициента,
используя вновь 2-ю колонку, а также следующую 4-ю колонку.
В выделенных ячейках G3 и G4 (рисунок 2.6) появятся числа,
указывающие соответствующие значения коэффициентов корреляции. После
установления нужной разрядности в окончательном виде получим следующие
значения: rрасч1 = −0,53 и rрасч2 = 0,76 .
Рисунок 2.6 – Рассчитанные значения коэффициента корреляции
Первый коэффициент показывает, насколько заметна теснота связи
параметров «Производительность – тактовая частота». Второй показатель
характеризует другую изучаемую связь «Производительность – объем
оперативной памяти». Отметим, что первый коэффициент имеет знак минус,
что говорит об обратном соотношении указанных параметров.
63
Теперь надлежит дать статистическую оценку выполненных нами
расчетов, т.е. проверить на адекватность рассматриваемые события. Для этого
сопоставим расчетные значения коэффициентов rрасч с табличным показателем
rкрит . Используя приложение Б, находим, что для уровня значимости (т.е.
вероятности допустимой ошибки в прогнозе) = 0,05 и заданного числа
измерений n табличное значение rкрит = 0,754 .
Сравнив табличное значение с рассчитанными получаем, что rрасч rкрит
для связи параметров «Производительность – объем оперативной памяти» и
rрасч rкрит для связи параметров «Производительность – тактовая частота». С
уверенностью 95 % можно полагать, что между производительностью
процессора и объемом оперативной памяти существует корреляционная связь.
Пояснение. Заметим, что в таблице для rкрит (см. приложение Б) вместо привычных
значений числа измерений n стоит показатель f , характеризующий степень свободы. Число
степеней свободы, как отмечалось, определяется путем вычисления разности между
количеством опытов (измерений) n и числом коэффициентов (констант), которые уже
рассчитаны по результатам этих опытов, т.е. f = n − k , где k– это количество вычисленных
констант. В нашем случае в формуле для r участвуют две константы x и y поэтому на r
остается только n − 2 «свободных» измерений, т.е. n − 2 = 7 − 2 = 5.
2.4 О ложной корреляции (влияние «третьего фактора»)
Часто корреляцию и причинную обусловленность считают синонимами.
Этот тезис имеет определенные основания, поскольку если нечто является
причиной чего-либо другого, то можно говорить о связи первого и второго и,
следовательно, об их коррелированности (например, действие и результат,
проверка и качество).
Однако корреляция может быть и без причинной обусловленности. Это
можно представить так: корреляция – лишь число, которое указывает на то, что
большим значениям одной переменной соответствуют большие (или же
меньшие) значения другой переменной. Корреляция не может объяснить,
почему эти две переменные связаны между собой. Она просто констатирует,
что между этими величинами существует определенное соответствие.
Одним из возможных оснований для существования «корреляции без
причинной обусловленности» является наличие некоторого скрытого,
ненаблюдаемого, третьего фактора, который «маскируется» под другую
переменную. В результате фиксируется так называемая «ложная корреляция».
Допустим, была выявлена высокая корреляция между приемом на работу
новых рабочих и созданием новых производственных мощностей. Возможно,
именно рабочие являются «причиной» капиталовложений в новые
производственные мощности? Или же, наоборот, создание новых
производственных мощностей послужило «причиной» приема на работу новых
рабочих? Скорее всего, здесь проявляется действие третьего фактора – высокая
64
потребность в продукции предприятия, что и послужила причиной и приема на
работу новых сотрудников и создания новых производственных мощностей.
В качестве статистического показателя может быть использован также
коэффициент (индекс) детерминации (причинности) R 2 ,который равен
квадрату коэффициента корреляции. Он показывает, в какой мере
изменчивость у (результативного признака) объясняется поведением х
(факторного признака), или иначе: какая часть общей изменчивости у вызвана
собственно влиянием х. Этот показатель вычисляется путем простого
возведения в квадрат коэффициента корреляции. Тем самым доля
изменчивости у, определяемая выражением 1 − R 2 , оказывается необъясненной.
Допустим к примеру, что коэффициент корреляции совокупности
данных, относящихся к производственным затратам, равняется 0,869.
Следовательно, значение R 2 равно
R 2 = 0,869 2 = 0,756 или 75,6 %.
Это значение R 2 говорит о том, что 75,6 % вариации (изменчивости),
скажем, недельных затрат объясняется количеством изделий, выпущенных за
неделю. Остальная часть (24,4 %) вариации общих затрат объясняется какимито другими причинами. Это значит, что более чем на 75 % мы знаем, что влияет
на изменение изучаемого параметра, но почти на 25 % ничего не можем сказать
о причинах наблюдаемой изменчивости.
Величина этого коэффициента меняется в пределах от 0 до 1. Чем ближе
он к единице, тем, следовательно, меньше в нашей модели процесса влияние
неучтенных факторов и тем больше оснований считать, что указанная
зависимость отражает степень эффективности воздействия изучаемого
фактора.
2.5 Измерение степени тесноты связи между качественными
признаками (ранговая корреляция)
При определении корреляционной зависимости нужно было иметь
числовой набор двух совокупностей. Однако возможны случаи, когда
имеющиеся данные не поддаются выражению числом единиц.
Это обстоятельство заставляет прибегать к использованию так
называемых непараметрических методов. Они позволяют измерять
интенсивность взаимосвязи между качественными (атрибутивными)
признаками. В основу непараметрических методов положен принцип
нумерации значений статистического ряда. Каждой единице массива
присваивается порядковый номер (ранг) в ряду, который будет упорядочен
(ранжирован) по уровню признака.
Следовательно, важным условием является возможность сделать
рассматриваемые совокупности упорядоченными.
Предварительное представление о наличии или отсутствии связи между
рассматриваемыми массивами можно получить, если сопоставить
последовательность
взаимного
расположения
рангов
факторного
65
(воздействующего) и результативного (подверженного влиянию) признаков.
Для этого ранги измеренных значений факторного признака располагают в
порядке возрастания. Если ранги результативного признака обнаруживают
тенденцию к увеличению, то можно говорить о наличии прямой связи. Если
картина противоположная, то и связь толкуется как обратная.
В статистике известны коэффициенты корреляции, основанные на
использовании рангов. Одним из таковых является коэффициент корреляции
рангов Спирмена. Он основан на рассмотрении разности рангов значений
факторного и результативного признаков и ее обозначают как d i .
Представим себе, что имеются две выборки, которые классифицированы
по каким-то двум признакам: х и у.
Выборки (их объем): 1, 2, 3, …, n.
1-я совокупность (признак х): x1 , x2 , x3 ,..., xn .
2-я совокупность (признак у): x1 , x2 , x3 ,..., xn .
Здесь оба параметра х и у принимают только целочисленные значения в
количестве, равном n.
Тогда формула коэффициента корреляции рангов Спирмена (этот
коэффициент обозначают как р) имеет следующий вид:
n
p = 1−
6 d i2
i =1
2
n(n − 1)
,
(2.4)
где d i = xi − yi .
Рассмотрим определение этого коэффициента на следующем примере.
Было организовано соревнование по компьютерному программированию
среди студенческих команд нескольких университетов. Количество таких
команд равнялось 12. На предварительном этапе экспертная группа дала
прогнозную оценку ожидаемых результатов конкурса, представив ее в виде
ранжированного ряда (в порядке убывания). В основу подобного анализа
экспертами были учтены разные факторы: уровень профессиональной
подготовки команд, их прошлое участие в аналогичных соревнованиях и,
соответственно, имеющиеся достижения, наличие научной школы и известные
традиции в области программирования. После завершения соревнования были
получены фактические данные, характеризующие распределение мест среди
команд (их ранжированное положение).
В таблице 2.3 укажем условные порядковые номера команд, их место
(ранг), которое было предсказано экспертами, а также действительные
результаты в виде баллов, набранных командами (по пятибалльной шкале), и
фактические места, ими полученные.
Таблица 2.3
66
Расчетная таблица для определения коэффициента
ранговой корреляции
Порядковый номер
команд
Ранг команд по
результатам оценки
экспериментов R x
1
1
2
3
4
5
6
7
8
9
10
11
12
2
6
5
11
4
8
3
10
12
7
9
1
2
Итоговые баллы
команд по
результатам
соревнования
3
3,3
3,0
2,8
4,1
2,1
2,7
2,5
2,3
3,2
2,6
3,1
4,5
Ранг команд по
результатам
соревнования R у
4
3
6
7
2
12
8
10
11
4
9
5
1
Как видно из результатов в одних случаях ранги были вполне
совпадающими (например, у команд под номерами 2, 7, 8, 10 и 12) , у других
же заметно различались (например, у команд под номерами 3, 5, 6 и 11).
Возникает вопрос: насколько точно результаты экспертной оценки (прогноза)
предугадали действительные итоги соревнования по программированию?
Задачу решим, используя компьютерные расчеты.
1 Запустим программу Excel. В открывшемся рабочем листе сформируем
таблицу, в которую поместим данные, соответствующие содержимому
столбцов 1-4 из таблицы 2.3. Кроме того, добавим столбцы E и F, в которых
поместим соответственно значения разности рангов d = Rx − R y и d 2 . Укажем
также итоговую строку 14. В результате таблица будет располагаться в ячейках
A1:F14.
2 Заполним столбец E. Для этого в ячейке E3 запишем = B3 − D3 , появится
цифра 3. Выделим эту ячейку и, когда будет зафиксирован справа крестик
(Маркер заполнения), протянем его вдоль всей колонки до ячейки E14 –
получим полностью сформированный столбец E3:E14. Схожим образом
организуем следующий столбец, для чего в ячейке F3 запишем = E32 .
Активизировав эту ячейку F3(там будет находиться цифра 9), аналогичным
приемом заполним столбец F3:F14. В итоговой ячейке F14 укажем сумму
(нужно будет выделить весь столбец F3:F14 и в панели инструментов
активизировать опцию «Автосумма»).
В окончательном виде таблица представлена на рисунке 2.7.
67
Рисунок 2.7 – Исходные данные и результаты вспомогательных расчетов
3 Для выполнения последующих расчетов используем итоговый
результат, отражающий сумму разностей квадратов рангов, равную 98. Для
этого ниже имеющейся таблицы в соответствующих ячейках укажем значение
d 2 = 98 , размер выборки n = 12 , а также предусмотрим в ней ячейку, где
поместим затем рассчитанное значение коэффициента ранговой корреляции р
(ячейка D19).
4 Поместим курсор в ячейку D19, а затем в поле формулы запишем
уравнение, по которому будем рассчитать коэффициент р. Выглядит оно так:
= 1 − 6 ( D17) /( D18 ( D182 − 1)) .
В ячейке появится искомый результат – коэффициент корреляции рангов
составляет 0,657. В окончательном виде лист Excel будет иметь вид,
представленный на рисунке 2.8.
68
Рисунок 2.8 – Фрагмент рабочего листа Excel с обобщенной таблицей
и данными для расчета коэффициента корреляции Спирмена
Как и линейный коэффициент корреляции, коэффициент ранговой
корреляции может также меняться от −1 до +1. Если воспользоваться шкалой
Чеддока, то по результатам расчета коэффициента р можно предположить
наличие заметной прямой зависимости между данными прогноза и
фактическими результатами. Однако следует учесть, что ранговый показатель
был рассчитан по небольшому объему исходной информации ( n = 12 ). Не
является ли отличие рангового коэффициента от нуля лишь результатом
случайных совпадений оценок экспертов с результатами конкурса по данным
малого числа участвующих команд?
Чтобы ответить на этот вопрос более определенно, оценим
статистическую значимость расчетного коэффициента. Для этого его значение
p расч нужно сопоставить с критическими (табличными) показателями p табл .
Используется таблица, напоминающая таблицу t-критерия (см. приложение В).
Найдем табличное значение коэффициента pтабл , для = 0,05 и n = 12 его
величина составит 0,580. Поскольку p расч pтабл (0,657 и 0,580), то с
вероятностью 95 % можно утверждать, что исследуемая связь является
значимой. Однако для уровня значимости = 0,01 табличное значение
69
pтабл = 0,723 . Тем самым уже для вероятности 99 % наличие связи становится
неочевидной.
Таким образом, общий вывод можно свести к следующему тезису:
следовало бы повысить число участвующих команд (увеличить объем
выборки), а при отсутствии такой возможности высказанные экспертные
оценки следует воспринимать с определенной осторожностью.
Заметим, что коэффициент ранговый корреляции может быть
использован не только для оценки связи качественных признаков, но и
количественных. Принципиальное условие − значения признаков поддаются
ранжированию (как именно − по степени убывания или возрастания − это не
столь важно).
70
3 РЕГРЕССИОННЫЙ МЕТОД ПРОНОЗИРОВАНИЯ
В практике статистического исследования весьма часто возникает
необходимость определить не только корреляционное соотношение между
изучаемыми
характеристиками,
но
и
установить
определенную
обусловленность между ними, представив выявленную связь в строгой
аналитической форме. В этом случае результат исследования –
экспериментальная зависимость воздействия какого-либо фактора на
изменение изучаемого параметра − может быть не только представлен в виде
графика, но и описан математически с использованием аппроксимирующего
выражения (эмпирической формулы).
Исследование такой ситуации и является задачей регрессионного
анализа, который дает предсказание (прогнозирование) одной переменной на
основании другой. Регрессионный анализ четко распределяет роли между
изучаемыми характеристиками – что является аргументом, а что функцией.
Переменная, которая прогнозируется (функция), обозначается как у, а
переменная, которая используется для такого прогнозирования (аргумент или
фактор) – это х.
Таким образом, в случае выявления корреляции дается попытка ответить
на вопрос: «Существует ли связь?» Целью регрессионного анализа является
поиск ответа на уже более сложный вопрос: «Каков вид этой связи? Что на что
влияет?» Однако в последнем случае речь не идет о выяснении механизма
причинности обнаруженной связи, т.е. не ставится вопрос «Почему существует
связь?» Это уже считается проблемой специального исследования,
касающегося выявления физической (или социальной) природы изучаемого
процесса.
3.1 Аппроксимационные модели
При изучении любого процесса (физического, социального) приходится
сталкиваться с необходимостью представлять его в качестве некоторой
модели, т.е. в виде какого-то образа. Этот образ может быть заявлен в
описательной форме (эпистолярный жанр), может изображаться в форме
математического уравнения (формулы) или же показан как графическое
изображение. Следовательно, сам оригинал (например, физический процесс)
заменяется некоторым аналогом, «эрзацем» (т.е. моделью). Такое создание
«заместителя оригинала» и принято называть аппроксимацией.
Обычно под аппроксимацией (от лат. Approximatio – приближение)
понимают замену одного объекта другим, более известным и более простым,
однако весьма близким к исходному по своему содержанию. В этом случае
связь между исходным объектом (оригиналом) F и его приближенным
представлением (моделью) f соответствует приближенному равенству F f
(рисунок 3.1).
71
Рисунок 3.1 – Схематическая связь между оригиналом и моделью объекта
Задача аппроксимации часто возникает при обработке результатов
экспериментов, когда становится необходимым подобрать математическую
модель изучаемого процесса, т.е. дать его аналитическое описание в виде так
называемой эмпирической формулы.
При
подборе
эмпирических
формул
обычно
используется
феноменологический подход. Этот термин означает, что изучаемому процессу
придается чисто описательный вид, при котором довольствуются только
сведениями о внешнем характере этого процесса, но игнорируется
причинность проявления рассматриваемой зависимости. В этом смысле
феноменологический подход можно уподобить кибернетической модели
«черного ящика». Как известно, при этом анализируется комбинация «входвыход», т.е. характер влияния воздействующего фактора (аргумента) на
исследуемый параметр (отклик или функцию). Однако содержимое «черного
ящика» остается вещью в себе, т.е. физическая природа процесса не
обсуждается. Принципиальная особенность физического подхода состоит в
том, что исследуемый процесс оценивается с позиций причин его проявления.
Следовательно, если при феноменологическом подходе основной вопрос
ставится в формулировке «Как произошло?», то при физическом описании
−«Почему произошло?»
Тем самым феноменология дает чисто формальное, внешнее описание
процесса, физический же подход основывается на выяснении его причин, его
природы.
3.2 Выбор формул лучшего вида
При изучении связи показателей инженерной деятельности применяются
различного вида уравнения прямолинейной и криволинейной связи.
Формально могут возникать ситуации двух типов:
1 Вид функциональной зависимости неизвестен. В этом случае нужно
решить предварительно задачу, направленную на отыскание подходящей
функциональной зависимости. Это достаточно сложная задача, но она успешно
решается современными средствами информационных технологий (программа
Excel).
2 Вид функциональной зависимости известен и требуется только найти
ее параметры (коэффициенты регрессии b0 , b1 , b2 ,... ) .
72
Термином линейный регрессионный анализ обозначают такое
прогнозирование, которое описывается линейной взаимосвязью между
исследуемыми переменными:
y = b0 + b1 x.
(3.1)
В случае криволинейных зависимостей применяются математические
функции следующего вида:
- гиперболическая y = b0 + b1 / x ;
- показательная y = b0 + b1 x ;
- степенная y = b0 x b1 ;
- параболическая y = b0 + b1 x + b2 x 2 ;
- логарифмическая y = b0 + b1 lg x ;
- экспоненциальная y = b0 exp(b1 x) и другие.
Решение математических уравнений связи предполагает вычисление по
исходным данным их параметров (свободного члена b0 и коэффициентов
регрессии b1 , b2 ,... ).
При всем разнообразии эмпирических формул все же имеется вид
аналитической зависимости, получивший широкое распространение. Им
является уравнение регрессии в виде многочленов (полинома), расположенных
по восходящим степеням изучаемого фактора и одновременно линейных ко
всем коэффициентам.
Такая формула имеет вид:
y = f ( x) = b0 + b1 x + b2 x 2 + ... + bm x m ,
(3.2)
где b0 , b1 , b2 ,..., bn – коэффициенты, подлежащие определению.
Этот ряд – сходящийся, т.к. стремится к некоторому пределу.
Эмпирические формулы (аппроксимирующие уравнения) всегда имеют
ограниченную область применения, которая не должна выходить за пределы
имеющихся опытных данных.
Широкое применение аппроксимирующих уравнений объясняется
следующими причинами:
1 Точное аналитическое выражение зависимости между исследуемыми
величинами может оставаться неизвестным и поэтому по необходимости
приходится ограничиваться приближенными формулами эмпирического
характера.
2 Точная функциональная зависимость выражается формулой настолько
сложной, что ее непосредственное применение при вычислениях было бы
очень затруднительным.
73
Эмпирические формулы могут быть разнообразными, т.к. при выборе
аналитической зависимости ставят только одно условие − возможно близкое
соответствие значений, вычисленных по формуле, c опытными данными.
Таким образом, формально описание одного и того же процесса можно дать
разными по виду уравнениями. Их пригодность оценивается только по одному
критерию – наиболее точное предсказание экспериментального результата.
В эмпирическую формулу можно вводить различное число постоянных
параметров (коэффициентов), величину которых нужно определить с большой
точностью. Более удачными (удобными) следует считать уравнения с
небольшим числом коэффициентов (не более 2−3). В противном случае
возрастают трудности с применением таких формул.
3.3 Метод наименьших квадратов
Для определения коэффициентов уравнения регрессии b применяют
разные методы (графический, метод средних), однако наибольшее
распространение получил метод наименьших квадратов (МНК).
Пусть обсуждается некоторая зависимость y = f (x) , которая отражает
какой-то процесс, имеющий плавное течение и поэтому все параметры
системы изменяются постепенно, без скачков. В этих случаях
экспериментальные точки, нанесенные на графике, должны бы укладываться
на некоторую плавную кривую (в частном случае, прямую). Однако на
практике определенный разброс экспериментальных точек всегда
наблюдается, что связано с изменчивостью (ошибками) регистрируемых
измерений. Понятно, что такой разброс удалось бы избежать, если бы
результаты измерений оказались совершенно свободными от ошибок, и тогда
точки, отвечающие этим результатам, строго ложились бы на
соответствующую плавную кривую (или прямую линию). Поэтому все
процессы, которые имеют заведомо плавное течение, принято изображать
также плавными кривыми, проводя их не через точки, а так, чтобы кривая
проходила по возможности ближе ко всем точкам на графике.
Однако такое указание оставляет при построении кривых определенный
произвол. Его частично можно устранить основным положением МНК: сумма
квадратов отклонений i экспериментальных точек от кривой по
вертикальному направлению, т.е. сумма квадратов величин i , должна быть
наименьшей ( i 2 = минимум).
Или
иначе
−
сумма
квадратов
отклонений
известных
(экспериментальных) значений исследуемой функции и соответствующих
значений аппроксимирующей функции (теоретических показателей) должна
быть наименьшей.
Довольно часто при описании аппроксимирующей функции
ограничиваются простым видом полиноминальной зависимости, полагая ее
линейной, т.е. в виде уравнения прямой y = b0 + b1 x.
74
Здесь свободный член b0 характеризует сдвиг и равен тому значению у,
которое получается при x = 0 , а коэффициент b1 определяет наклон линии.
Отыскание коэффициентов b0 и b1 осуществляется по МНК.
Пусть имеется n экспериментальных точек (n пар наблюдений):
( x1 , y1 ); ( x2 , y 2 );...( xn , y n ) . Введем следующие обозначения: y i – это измеренные
(экспериментальные) значения изучаемого параметра, а ŷ i – его теоретические
(рассчитанные по уравнению) показатели.
Предположим, что экспериментальные точки на графике укладываются
так, что по ним вполне возможно провести прямую линию (рисунок 3.2).
Значения функции ŷ i в этом случае можно записать в виде линейного
уравнения:
yˆ i = b0 + b1 x1 ,
(3.3)
Расстояние по ординате (вертикали) от точки y i до прямой составит:
b0 + b1 x1 − yi = i ,
(3.4)
где b0 + b1 x1 = yˆ i − рассчитанное (теоретическое) значение функции;
y i – ее измеренное (опытное) значение;
i – разница (расстояние) между ŷ i и y i .
В соответствии с МНК полагаем, что искомая прямая будет наилучшей,
если сумма квадратов всех расстояний (b0 + b1 x1 − yi ) 2 = i 2 окажется
наименьшей.
75
Рисунок 3.2 – Схематическое пояснение содержания метода
наименьших квадратов
Минимум этой суммы ищется по правилам дифференциального
исчисления. В результате для определения b0 и b1 используются следующие
уравнения:
n
b0 =
n
n
n
x y −x x y
i =1
2
i
i =1
i
n
n
i =1
2
i
n x − ( x i )
i =1
2
i
n
b1 =
i =1
i
i
(3.5)
i =1
n
n
n xi y i − xi y i
i =1
i =1
n
n
i =1
2
n x − ( x i )
i =1
2
i
(3.6)
i =1
Особенности МНК:
а) Этот метод не дает ответа на вопрос о том, какого вида функция лучше
всего аппроксимирует конкретные экспериментальные точки.
Вид интересующей нас функции должен быть задан на основе каких-то
физических или экономических соображений (либо специальным образом
отыскан). МНК позволяет лишь выбрать, какая из прямых (парабол, экспонент)
является лучшей прямой (параболой, экспонентой) для прогнозирования.
б) Вычисления по МНК являются достаточно громоздкими, поэтому
основная нагрузка − на компьютерные программы.
МНК является достаточно точным приемом и позволяет получить вполне
надежные результаты. Одновременно он является интерполяционным
76
методом, поскольку обеспечивает с определенной вероятностью предсказание
любых значений y i в интервале изученных значений xi .
Экстраполяционный метод (в отличие от интерполяционного) дает
возможность предсказывать результаты за пределами изученной области.
После того, как уравнение регрессии найдено, необходимо определить
его статистическую пригодность, т.е. выяснить, насколько оно верно (надежно)
предсказывает в интервале x1 , x2 ,..., xn экспериментальные результаты для у.
Подобную оценку принято называть проверкой на значимость или
адекватность.
3.4 Поиск уравнения регрессии
Рассмотрим на конкретном примере решение задачи по построению
уравнения регрессии.
Необходимо проанализировать временные затраты на сборку
оборудования. В течение восьми рабочих дней регистрировались результаты
сборки оборудования. Итоги представлены в таблице 3.1.
Таблица 3.1
Результаты сборки оборудования
Время, затраченное на сборку
оборудования, х, ч
Количество собранного
оборудования у, шт
1,5
4,0
5,0
7,0
8,5
10,0
11,0
12,5
5,0
4,0
7,0
6,0
9,0
9,0
11,0
9,0
Итак, исследуется некоторая зависимость y = f (x) . Будем исходить из
предположения, что эта зависимость описывается линейным уравнением. Об
этом предварительно можно судить по виду построенного графика (рисунок
3.3).
3.4.1 Использование традиционных способов расчета
Вычисление на первом этапе проведем традиционным способом, т.е. без
использования прикладных программ.
77
Рисунок 3.3 – Графическое изображение исследуемой
зависимости y = f (x)
Вычисление коэффициентов регрессии удобнее проводить в табличной
форме. Для этого заполним таблицу 3.2, в которой, помимо исходных данных
(их мы расположим по столбцам), в графах 4-8 укажем вспомогательные
расчетные данные.
Для проверки правильности вычисления в таблице можно использовать
следующее выражение:
( x + y)
2
= x 2 + 2 xy + y 2
(3.7)
1 Определим среднее арифметическое для каждого ряда − для х и у. Они
составят соответственно: x =
60
59,5
= 7,5 шт.
= 7,44 ч и y =
8
8
Значения полученных сумм подставляем в формулу (3.7) для
последующей проверки. Получим 223,2 = 7,44 2 + 2 7,44 7,5 + 7,52 = 223,2 .
Следовательно, вычисления выполнены правильно.
Таблица 3.2
Вспомогательная таблица для расчета коэффициентов регрессии
х
у
х2
у2
ху
х+у
(х+у)2
1,5
4,0
5,0
7,0
5,0
4,0
7,0
6,0
2,25
16,00
25,00
49,00
25,00
16,00
49,00
36,00
7,50
16,00
35,00
42,00
6,50
8,00
12,00
13,00
42,25
64,00
144,00
169,00
78
8,5
10,0
11,0
12,5
Σ=59,5
9,0
9,0
11,0
9,0
Σ=60
72,25
100,00
121,00
156,25
Σ=541,75
81,00
81,00
121,0
81,00
Σ=490,00
76,50
90,00
121,00
112,50
Σ=500,5
17,50
19,00
22,00
21,50
Σ=119,50
306,25
361,00
484,00
462,25
Σ=2032,75
2 Рассчитаем теперь коэффициенты b0 и b1 по известным формулам (3.5)
и (3.6).
b0 =
541,75 60 − 59,5 500,5
= 3,43 шт.
8 541,75 − 59,5 2
b1 =
8 500,5 − 60 59,5
= 0,55 шт/ч.
8 541,75 − 59,5 2
Таким образом, уравнение регрессии, т.е. формула, с некоторой
вероятностью отображающая зависимость у от х, имеет следующий вид:
yˆ = 3,43 + 0,55x.
(3.8)
3 Для проверки значимости (пригодности) полученного уравнения
регрессии применяют специальные приемы. Такую проверку называют
проверкой адекватности модели.
Для количественной проверки гипотезы об адекватности можно
использовать так называемый F-критерий (критерий Фишера):
F=
2
S ад
.
2
S общ
(3.9)
Здесь S ад2 – остаточная дисперсия или дисперсия адекватности. Она
характеризует величину среднего разброса экспериментальных точек y
относительно линии регрессии, т.е. y = yi − yˆ i ( y есть ошибка в
прогнозировании
экспериментального
результата
на
основании
математической модели).
Остаточная дисперсия, таким образом, позволяет оценить ошибку, с
которой уравнение регрессии предсказывает фактический результат.
Следовательно, минимальная величина остаточной дисперсии должна
свидетельствовать о более удачном выборе линии регрессии.
Вообще в статистике принято считать, что применение критерия
минимальности остаточной дисперсии является вполне надежным способом
отбора адекватных математических моделей.
79
Чтобы определить, велика или мала ошибка в предсказании
эмпирических результатов, ее нужно сопоставить с некоторой статистической
величиной (эталоном), принимаемой в качестве критической. Вот почему
используется расчетный F-критерий, который затем сравнивают с Fкрит .
Если Fрасч Fкрит , то модель принимается адекватной, т.е. с заданной
степенью достоверности (надежности) она верно предсказывает реальный
результат. Если же Fрасч Fкрит то вывод обратный данное уравнение не может
с заданной надежностью прогнозировать эмпирические данные.
Проверка адекватности модели по критерию Фишера дает возможность
ответить на вопрос, во сколько раз модель предсказывает результат хуже по
сравнению с опытом.
Остаточная дисперсия рассчитывается путем деления остаточной суммы
квадратов на число степеней свободы f по следующей формуле:
n
2
S ад
=
y
2
i =1
(3.10)
.
f
Здесь число степеней свободы f = n − (k + 1) , где n− число опытов в
эксперименте (т.е. может составлять объем случайной выборки); k − число
изучаемых факторов.
Для однофакторного эксперимента имеем f = n − 2 и тогда
n
2
S ад
=
y
n
2
i =1
n−2
=
( y − yˆ )
2
i =1
n−2
(3.11)
.
Вторая характеристика в формуле для расчета F-критерия (знаменатель)
− это так называемая усредненная, или общая, дисперсия. В качестве таковой
2
принимается квадрат стандартной ошибки S общ
. Этот показатель фактически
характеризует случайную ошибку для всей выборки, т.е. оценивает
несоответствие между конкретными (текущими) значениями результата
эксперимента и средним арифметическим.
Общая дисперсия рассчитывается как
n
2
S общ
=
( y − yˆ ) 2
i =1
f
n
=
( y − yˆ )
i =1
n −1
2
.
(3.12)
80
Вернемся к нашему примеру. Оценим статистическую пригодность
полученного линейного уравнения. Показатель S ад2 удобно вычислять в
табличной форме (таблица 3.3).
Расчет проведем по формулам (3.10) и (3.12).
n
2
S ад
=
y
2
i =1
=
n−2
10,3
= 1,72.
6
n
2
S общ
=
( y − yˆ )
2
i =1
n −1
=
30,017
= 4,29.
7
Таблица 3.3
Вспомогательная таблица для проверки уравнения на адекватность
xi
yi
yˆ = 3,43 + 0,55x.
yi − yˆ i
( yi − yˆ i ) 2
yi − yˆ i
( yi − yˆ i ) 2
1
1,5
4,0
5,0
7,0
8,5
10,0
11,0
12,5
2
5,0
4,0
7,0
6,0
9,0
9,0
11,0
9,0
3
4,255
5,63
6,18
7,28
8,105
8,93
9,48
10,305
4
0,745
-1,63
0,82
-1,28
0,895
0,07
1,52
-1,305
5
0,555
2,657
0,672
1,638
0,801
0,005
2,310
1,703
6
3,245
1,870
1,320
0,220
-0,605
-1,430
-1,980
-2,805
7
10,530
3,497
1,742
0,048
0,366
2,045
3,920
7,868
Табличное значение определим для = 0,05 , а также степеней свободы
2
f 2 ). Они составят соответственно
для числителя ( S ад2 f1 ) и знаменателя ( S общ
число опытов в эксперименте (объем случайной
f1 = n − (k + 1) , где n
выборки); k число изучаемых факторов х. Для однофакторного эксперимента
имеем f1 = n − 2 .
Для второго показателя f 2 = n − m , где m
количество вычисленных
констант для переменной у, которая соответствует среднему арифметическому
y (т.е. m = 1). Тогда f 2 = n − 1 . В нашем случае имеем f1 = 8 − 2 = 6 и f 2 = 8 − 1 = 7 .
В итоге для = 0,05 получим Fкрит = 3,87 (см. приложение Г).
Используя формулу (3.9), найдем критерий Фишера: F =
1,72
= 0,4.
4,29
Поскольку 0,4 3.87 , то с вероятностью 95 % можно утверждать, что
рассматриваемое уравнение адекватно, и оно способно с указанной
достоверностью предсказывать экспериментальные результаты.
81
Можно спрогнозировать с надежностью 95 % результат сборки
оборудования: так, например, за 8 часов работы он составит почти 8 изделий (
3,43 + 0,55 8 = 7,83 ).
Пояснение. В литературе по статистики обычно используются два подхода к оценке
2
2
2
2
, либо как S общ
. Соответственно и статистический
Fрасч : либо как отношение S ад
/ S общ
/ S ад
вывод на основании сравнения вычисленного F-критерия и эталонного Fкрит дается с учетом
2
2
принятого соотношения. Нами рассматривается версия, когда Fрасч = S ад
; в то же
/ S общ
2
2
время в компьютерной программе используется обратное отношение, т.е. Fрасч = S общ
.
/ S ад
Это различие не носит принципиального характера. Важно помнить, какой прием для
анализа используется и, следовательно, каким образом дается надлежащее заключение.
3.4.2 Расчет с использованием компьютерной программы
А теперь покажем, что всю эту громоздкую и довольно затратную по
времени процедуру можно заменить расчет в программе Excel.
Для этого на рабочем листе Excel предварительно организуем таблицу с
исходными данными, в которой укажем содержимое таблицы 3.1. Причем саму
таблицу построим по столбцам и поместим ее в ячейках A1:C9. Итоговый
результат показан на рисунке 3.4.
Далее будем действовать привычным образом:
1 В главном меню запустим серию команд «Данные / Анализ данных /
Регрессия».
2 В появившемся диалоговом окне заполним поля ввода данных для
обоих параметров у и х; для этого в каждое окно поместим данные, выделив их
предварительно в соответствующих столбцах (напомним, что для функции у
данные находятся в третьем столбце С2:С9, а для переменной х – во втором,
т.е. В2:В9; при этом выделяются только те ячейки, которые содержат
исключительно числовые показатели).
3 Отметим уровень надежности (доверительную вероятность), равный 95
%.
4 Укажем в окне вывода «Выходной интервал» ту ячейку, от которой
будет формироваться весь блок получаемых статистических показателей, это
D11.
Ниже представлены заполненное диалоговое окно «Регрессия» (рисунок
3.4) и рассчитанные статистические показатели под заголовком «Вывод
итогов» (рисунок 3.5).
82
Рисунок 3.4 – Диалоговое окно «Регрессия»
Рисунок 3.5 –Результат расчета коэффициентов регрессии
Excel представил, как мы видим, разнообразные статистические
материалы. Выберем, однако, из них пока только те, которые нам потребуются
для заключительных рассуждений.
Интерес представляют показатели, которые именованы как
«Коэффициенты». Один из них назван «Y-пересечение», а второй «Переменная
Х 1». Это и есть нужные нам коэффициенты регрессии – свободный член b0 и
коэффициент b1 при аргументе х. Если затем провести надлежащее округление
до второго знака после запятой, то получим знакомые уже нам числа 3,73 и
0,53, которые были рассчитаны ранее.
Таким образом, на примере предложенной задачи мы познакомились с
проведением регрессионного анализа различными приемами − весьма
архаичным, требующим значительных и трудоемких расчетов, и
компьютерным, легко и быстро позволяющим получить итоговый результат.
83
И последнее. После вычисления коэффициентов полученное уравнение
регрессии надлежит подвергнуть проверке на адекватность. Такая процедура
нами была выполнена, когда рассматривался первый вариант анализа. Однако
и Excel позволяет сделать то же самое. Тот набор показателей, который мы
проигнорировали, когда оценивали представленные данные под заголовком
«Вывод итогов», как раз и призван сделать необходимые по этому поводу
заключения. Ограничимся пока этими результатами, но более обстоятельно с
этими возможностями Excel познакомимся в следующей главе.
3.5 Компьютерный подбор оптимального уравнения регрессии
Анализируемый процесс может быть описан в математической форме,
при этом используемые эмпирические формулы могут иметь различный вид.
Поэтому выбор оптимального уравнения диктуется только одним
соображением – данные теоретического расчета (т.е. полученные из
уравнения) должны в наибольшей степени совпадать с фактическими
результатами.
Рассмотрим на конкретном примере возможность решения подобной
задачи с использованием приложения Excel.
Обсуждается следующая задача: проведено N = 8 опытов по изучению
некоторой зависимости y = f (x) . В каждом варианте опыты повторялись n раз,
при этом число параллельных измерений для каждого конкретного варианта
опыта могло заметно различаться (от 3 дублей до 5). Полученные
экспериментальные данные представлены в табличной форме (таблица 3.4).
Таблица 3.4
Результаты опыта по исследованию зависимости y = f (x)
Номер опыта N
Значение аргументаx
1
2
3
4
5
10
20
30
40
50
Значение функции y в повторных опытах
1
2
3
4
5
15
21
16
15
14
20
22
21
21
20
27
28
26
27
36
35
–
36
35
49
48
50
49
48
6
7
8
60
70
80
65
87
117
Продолжение таблицы
64
88
115
66
86
116
65
118
117
Надлежит выполнить следующие процедуры:
1 Провести первичную статистическую обработку экспериментальных
данных с выявлением грубых промахов, определением среднеквадратичного
84
отклонения и вычислением доверительного интервала для уровня значимости
= 0,05 .
2 Построить график рассматриваемой зависимости и подобрать для нее
эмпирическую формулу.
3 Дать статистическую оценку подобранному уравнению.
Приступим к решению данного примера. Удобнее всего придерживаться
привычного алгоритма, т.е. будем указывать пошаговую последовательность
наших манипуляций при работе с компьютером.
1 Запустим Excel и откроем рабочий лист, в котором будет
формироваться документ.
2 Введем опытные данные. Для этого фактически придется повторить
исходную таблицу, т.е. указать номера опытов, значения аргумента x и все
значения функции y в параллельных опытах. Далее добавим к нашей таблице
еще два столбца, в которые будут введены среднее арифметическое x ,
среднеквадратичное отклонение S n и доверительный интервал x для каждого
опыта, т.е. итоговые расчеты для каждой строки.
3 Для расчета среднего арифметического и стандартного отклонения для
каждой строки нужно воспользоваться «Мастером функций». Перед запуском
нужно выделить ту ячейку, в которую будет помещен искомый результат.
Например, для определения среднего арифметического значения данных
первой строки активизируем верхнюю ячейку предпоследней колонки. Затем
запустим «Мастер функций» (кнопкой f x или же в строке меню используем
команды «Вставка/Функция»). Затем в появившемся диалоговом окне следует
выбрать нужную функцию из списка (все функции разбиты на категории). Для
этого в левой части панели (там перечислены категории) выберем требуемую
под названием «Статистические», затем в правой части, где указаны функции,
активизируем собственно нужную функцию «Срзнач». Далее необходимо
выделить все ячейки первой строки, относящиеся к параметру y, т.е. это те
ячейки, где расположены дубли первого опыта. Если теперь взглянуть на
содержимое ячейки среднего арифметического, то там и будет указан
полученный результат.
4 Далее полагалось бы подобную процедуру проделать для всей матрицы
(таблицы). Для этого, выделим ячейку, где содержится среднее
арифметическое, и протянем маркер заполнения (маленький квадратик в
правом нижнем углу) вдоль всей предпоследней колонки вниз. Во всех
соответствующих ячейках будут содержаться готовые расчетные данные
среднего значения.
5 Подобные манипуляции проделываем и для следующей колонки –
среднеквадратичного (стандартного) отклонения. Сделаем только одно
пояснение. При работе с «Мастером функций» нужно будет активизировать
функцию «Стандотклон».
Если окажется, что число знаков после запятой велико, то разрядность
можно отрегулировать, активизировав соответствующую ячейку с данным
85
числом, а затем в инструментальной строке использовать команду
«Уменьшить разряд».
6 Для расчета доверительного интервала используем те же опции
посредством «Мастера функций». Вся необходимая процедура становится
понятной из рисунков 3.6 и 3.7: нужно выделить функцию «Доверитнорм»
(рисунок 3.6), а затем в появившемся окне «Аргументы функции» заполнить
запрашиваемые строки (рисунок 3.7). Для уровня значимости укажем 0,05;
затем введем значение уже рассчитанного стандартного отклонения S n и число
дублей n. Для первой строки это будет выглядеть так, как показано на рисунок
3.7.
Рисунок 3.6 – Поиск функции «Доверитнорм»
Рисунок 3.7 – Панель для заполнения опции «Аргументы функции»
Тут следует обратить внимание на следующее обстоятельство. При
вычислении доверительного интервала нужно указывать число дублей, но их
86
значения оказываются неодинаковыми – меняются от 3 (в 7-ом опыте) до 5 (в
5-и случаях). Поэтому такой расчет нужно будет провести самостоятельно для
каждой строки. Итоговый результат можно видеть на рисунке 3.8.
Рисунок 3.8 – Экспериментальные данные после статистической обработки
7 Теперь пришел черед проверить имеющиеся экспериментальные
данные на наличие грубого промаха. Так, в первой серии настораживает
результат 2-го измерения. Проверку надлежит провести по методу
максимального относительного отклонения, который рассматривался в разделе
1.11.2. Допустим, выполненные расчеты показали, что с вероятностью 95 %
этот результат следует признать грубым промахом (он не соответствует данной
числовой совокупности). По этой причине его надлежит исключить из
дальнейшего рассмотрения (т.е. в окончательном варианте число дублей
первого опыта составит n=4).
8 Удалим ту ячейку, в которой содержится выскакивающий результат.
Ячейка станет свободной, но при этом автоматически поменяются значения
«Срзнач» и «Стандотклон».
Несколько иначе выглядит процедура определения доверительного
интервала. Особенность структуры данной электронной таблицы такова, что
изъятие выскакивающего результата не повлияет на изменение данных в
ячейке. Причина та же – число дублей, как отмечалось, в разных опытах
неодинаково. Поэтому для анализируемого варианта (1-й строки) придется
отдельно вновь рассчитать х .
Окончательный результат показан на рисунке 3.9. Пустые позиции в
таблице означают отсутствие данных измерения в указанном повторном опыте
или изъятие выскакивающего результата.
9 Строим в графической форме анализируемую зависимость.
87
Рисунок 3.9 – Итоговые данные
9.1 Откроем вкладку «Вставить» и выберем «График с маркерами».
9.2 Перейдем во вкладку «Конструктор» и выберем «Выбрать данные».
В окне будет активизирована вкладка «Выбор источника данных». Теперь во
вкладке «Элементы легенды (ряды)» следует добавить данные из столбца со
значениями у. Отметим, что на оси ординат будут указаны заданные численные
значения аргумента, а на оси абсцисс пока содержатся нейтральные показатели
типа 1, 2, 3 и проч.
9.3 Во вкладке «Подписи горизонтальной оси (категории)» выделим
столбец со значениями х – на графике по оси абсцисс появятся фактические
значения аргумента.
9.4 Во вкладке «Макет» можно добавить название диаграммы, названия
осей и другими способами редактировать внешний вид диаграммы.
Получаем график, имеющий вид, представленный на рисунок 3.10.
Экспериментальная зависимость
140
120
100
80
60
40
20
10
20
30
40
50
60
70
80
Рисунок 3.10 – График исследуемой зависимости
88
Может оказаться, что габариты графика не устраивают. Для придания
ему более удобного вида выделим «Область диаграммы» (должны появиться
по периметру маркеры-засечки) и поменяем размеры (указатель мыши
подведём к маркерам – должны возникнуть двойные стрелки, которые и нужно
перемещать). Схожим образом можно изменить габариты самого графика (в
пределах имеющейся области диаграммы), выделив «Область построения
диаграммы».
10 Заключительная процедура – это аналитическое описание
построенной экспериментальной зависимости. Для этого во вкладке «Макет»
выберем «Линию тренда». Из открывшегося списка выберем наиболее
подходящий график, т.е. «Экспоненциальное приближение». Затем в том же
окне выберем «Дополнительные параметры линии тренда», где отметим
команды «Показать уравнение на диаграмме» и «Поместить на диаграмме
величину достоверной аппроксимации R 2 ». График примет окончательный вид
(рисунок 3.11). Отметим, что наша экспериментальная кривая совпала с
теоретической. Это неудивительно, поскольку аппроксимирующий
коэффициент близок к 1 – идеальное соответствие.
Экпериментальная зависимость
140
y = 11,166e0,2937x
R² = 0,999
120
100
80
60
40
20
10
20
30
40
50
60
70
80
Рисунок 3.11 – Окончательный вид аналитической зависимости
Фактически данную работу на этом можно считать и законченной.
Однако сделаем еще некоторые оценки. Дело в том, что мы, пользуясь
эталонным набором кривых аналитических зависимостей (вкладка «Тип» из
окна «Формат рядов данных»), удачно выбрали полиноминальный вид
функции.
Количественно об этом можно судить по величине аппроксимирующего
коэффициента R 2 . Можно вполне обоснованно показать, что выбранная
зависимость является, похоже, наилучшей. С этой целью для наглядности
проверим и другие функции, нанеся на график соответствующую линию
89
тренда, а также показав получаемые уравнения регрессии и величины
коэффициента R 2 .
Такую процедуру нетрудно выполнить, после чего для рассмотренного
примера полученные показатели R 2 для разных уравнений регрессии будут
иметь следующий вид:
- экспоненциальная − R 2 = 0,999 ;
- полиномиальная − R 2 = 0,997 ;
- линейная − R 2 = 0,925 ;
- степенная − R 2 = 0,922 ;
- логарифмическая − R 2 = 0,730 .
Как видно, обсуждаемая зависимость y = f (x) лучше всего, как и
предполагалось, описывается экспоненциальным уравнением. Этот вывод
базируется не только на визуальных впечатлениях (вполне адекватное
совпадение экспериментальной кривой и линии тренда), но и на строгом
количественном расчете с использованием статистического коэффициента R 2 .
Вместе с тем можно утверждать, что еще более обоснованным представляется
описание аппроксимации в виде экспоненциального уравнения, поскольку в
этом случае рассчитанное значение коэффициента фактически оказывается
равным единице.
90
4 МНОЖЕСТВЕННАЯ РЕГРЕССИЯ
До сих пор нами рассматривалась ситуация, когда на зависимую
переменную (функцию) воздействовал только один фактор (аргумент).
Подобное прогнозирование принято называть простой регрессией. Такие
зависимости мы уже рассмотрели ранее.
Однако в подавляющем большинстве случаев приходится иметь дело с
экспериментальными данными, касающимися влияния более чем одного
фактора. Прогнозирование единственной переменной y на основании
нескольких переменных xi называется множественной регрессией. В этом
случае математическая модель процесса представляется в виде уравнения
регрессии с несколькими переменными величинами, т.е. y = f (b0 ,..., xk ) .
Общий вид уравнения множественной регрессии обычно стараются
представить в форме линейной зависимости:
y = b0 + b1x1 + b2 x 2 + ... + bkxk ,
(4.1)
где b0 – свободный член (или сдвиг);
b1 , b2 ,..., bk − коэффициенты регрессии, которые подлежат вычислению
методом наименьших квадратов.
При анализе уравнения множественной регрессии (как и в случае
простой регрессии) также используется такое понятие как ошибка
прогнозирования y . Под этим понимается разность между рассчитанным
(теоретическим) значением функции ŷ i и ее измеренным (опытным) значением
y i , т.е. y = yˆ i − yi .
Статистический вывод о пригодности (значимости) уравнения обычно
проверяется в следующей последовательности.
1 Сначала проводится общая проверка методом «F-теста», целью
которой является выяснение, объясняют ли x -переменные значимую долю
вариации y , т.е. превалирует ли влияние факторов xi на изменение функции y
над «еt» колебаниями случайного порядка; если регрессия не является
значимой, то говорить больше не о чем.
2 Если регрессия оказывается значимой, то можно продолжить анализ,
используя t-тесты для отдельных коэффициентов регрессии; в этом случае
пытаются выяснить, насколько значимой является влияние той или иной
переменной x на параметр y при условии, что все другие факторы xi остаются
неизменными. Построение доверительных интервалов и проверки гипотез на
адекватность для отдельного коэффициента регрессии основывается на
определении стандартной ошибки. Каждый коэффициент регрессии имеет
свою стандартную ошибку S b1 , S b 2 ,..., S bk .
Рассмотрим конкретный пример.
91
Необходимо выяснить, каким образом объём месячной продажи y (штук
в день) зависит от присутствия среди покупателей парней с девушками (их
доля от общего числа покупателей x1 , %) и участия в коммерции второго
продавца (относительное время x 2 , когда он помогал работать за прилавком,
%). Результаты наблюдений за 20 рабочих дней представлены в таблице 4.1.
При этом порядковые номера торговых дней были расположены в случайном
порядке и никак формально не отражали какое-либо внятное изменение объема
продажи.
Таблица 4.1
Результаты опыта по исследованию зависимости y=f(x)
Порядковый
номер дня у, шт/день
продажи
1
6
2
4,6
3
4,4
4
4,5
5
5,5
6
4,8
7
5,1
8
5,2
9
7
10
5,3
х1, %
х2, %
40
20
31
32
34
35
37
32
39
35
30
33
20
25
29
20
21
20
35
30
Порядковый
номер дня у, шт/день
продажи
11
7,5
12
7,7
13
7,3
14
7
15
6,7
16
5,7
17
6
18
6,4
19
7,1
20
6,3
х1, %
х2, %
50
37
50
38
50
35
46
49
51
45
35
30
40
42
39
35
36
38
41
34
Требуется написать уравнение множественной регрессии, оценить
статистическую значимость уравнения, а также определить значимость
коэффициентов регрессии и пояснить характер влияния исследуемых
факторов.
Если поставленную задачу сформулировать в более понятных
категориях, то нужно выяснить, влияют ли указанные факторы на
коммерческую деятельность, а если это так, то насколько ощутимо.
4.1 Расчет коэффициентов регрессии и представление уравнения
множественной регрессии
Итак, нам надлежит выполнить предложенную задачу. Вся прелесть
исходной ситуации состоит в том, что по представленным данным
решительно невозможно обнаружить какую-то сколь-нибудь заметную
тенденцию. Поэтому решение задачи постараемся обеспечить с
использованием компьютерных программ.
Запускаем Excel и затем воспроизводим в табличной форме
имеющиеся исходные результаты (таблица 4.1). В данном случае все
92
экспериментальные данные (по каждой позиции) представляем в виде
самостоятельных колонок. Размещаем всю таблицу в ячейках от A1 до D21,
при этом сами исходные данные (т.е. для y и x1 , x 2 ) будут находиться в
диапазоне B1: D21.
Рисунок 4.1 – Лист Excel с исходными табличными результатами
После этого получим сводную таблицу основных статистических
характеристик для функции y . Для этого воспользуемся известным методом
анализа данных – программой «Описательная статистика».
Предпримем следующие шаги:
1 В главном меню выберем последовательно пункты «Сервис/Анализ
данных/Описательная статистика», после чего щелкнем по кнопке «ОК».
2 Заполним диалоговое окно для ввода данных и параметров вывода. Для
этого проделаем следующие манипуляции (рисунок 4.2):
- укажем «Входной интервал» (в виде абсолютных ссылок $B$1:$D$21),
т.е. адресуем все ячейки, в которых находятся значения функции у и
аргументов x1 , x 2 ;
- отметим способ «Группирования» (в нашем случае по столбцам);
- установим флажок для «Метки», показывающий, что первая строка
содержит название столбца;
93
- выделим «Выходной интервал», для этого достаточно указать левую
верхнюю ячейку будущего диапазона ($F$1);
- установим флажки, показывающие, что нам нужна информация в виде «Итоговой статистики», а также «Уровень надежности», равный 95 %; после
чего − кнопка «ОК».
Рисунок 4.2 – Диалоговое окно ввода параметров «Описательная статистика»
Полученные результаты статистического расчета показаны на рисунке
4.3 в виде соответствующего листа Excel.
Рисунок 4.3 – Лист Excel с результатами расчета статистических показателей
Из представленного набора статистических показателей выберем те,
которые нам потребуются для последующего анализа − среднее
94
арифметическое и стандартное отклонение (среднеквадратичное отклонение)
Sn .
В таблице 4.2 приведены указанные статистические показатели для
функции у и обеих переменных x1 и x 2 . Отметим, что для функции y её среднее
арифметическое y составляет 6,01, а и стандартное отклонение S n равно 1,06.
Таблица 4.2
Статистические показатели для функции у и переменных x1 и x 2
Показатели
Среднее арифметическое
Стандартное отклонение Sn
Y
6,01
1,06
X1
39,3
8,26
X2
31,5
7,25
3 Расчет показателей регрессии также исполняется по компьютерной
программе. Для ее запуска исполним следующие команды:
в
главном
меню
выберем
пункты
«Сервис/Анализ
данных/Регрессия», после чего щелкнем по кнопке «ОК»;
- заполним диалоговое окно ввода данных для параметра y и обеих
характеристик x1 и x 2 ; для этого в каждое окно (Интервал Y и Интервал Х)
поместим наши данные, выделив их предварительно в соответствующих
столбцах (напомним, что для функции y данные находятся во втором столбце
В2:В21, а для переменных x1 и x 2 – в третьем и четвертом, т.е. C2:D21; заметим,
что при этом выделяются только те ячейки, которые содержат исключительно
числовые показатели);
− выделим в текстовом поле «Выходной интервал» ту ячейку, от которой будет формироваться весь блок получаемых статистических пока-зателей;
при этом укажем другой лист − Лист 2; − после чего кнопка ОК.
Заполненное диалоговое окно для программы «Регрессия» представлено
на рисунке 4.4.
95
Рисунок 4.4 – Диалоговое окно ввода параметров «Регрессия»
Как видно, мы получили набор разнообразных статистических
материалов (рисунок 4.5). Выберем, однако, из них такие, которые нам
потребуются для последующего анализа.
Рисунок 4.5 – Лист Excel с результатами расчета статистических показателей
регрессии
Для этого организуем таблицу 4.3, в которой поместим расчетные
значения коэффициентов регрессии, стандартную ошибку, величины t критерия и показатели уровня значимости . Укажем также (ниже таблицы)
рассчитанные показатели для самой функции y .
96
Таблица 4.3
Данные регрессионной статистики
Независимая переменная
Свободный член
Х1
Х2
Коэффициент
1,61
0,06
0,07
Стандартная ошибка
0,77
0,23
0,03
t
2,09
2,59
2,57
p (или )
0,05
0,02
0,02
Для функции y : S Y = 0,65; R -квадрат = 0,67; R -квадрат
(нормированный) = 0,63
Таким образом, для рассматриваемого примера уравнение регрессии
(или уравнение прогнозирования) будет иметь следующий вид:
шт
ŷ (объем продаж,
) = 𝑏0 + 𝑏1𝑥1 + 𝑏2𝑥2 =1,61 + 0,06
день
(доля среди покупателей парней с девушками, %) + 0,07
(относительный вклад участия в торговле второго продавца, %).
Запишем полученное уравнение в окончательной редакции:
yˆ = 1,61 + 0,06 x1 + 0,07 x 2 .
Теперь займемся статистическим анализом этого уравнения регрессии.
4.2 Интерпретация коэффициентов регрессии
Свободный член (сдвиг) b0 , равный 1,61, формально надлежит понимать
следующим образом: объём продажи, когда отсутствуют среди покупателей
парни с девушками и нет второго продавца, составляет 1,61 штук в день.
Однако мы полагаем, что в указанной совокупности исходных данных нет
подобных примеров (всегда среди покупателей окажутся парни с девушками,
а второй продавец помогает ежедневно). Поэтому сдвиг b0 следует обсуждать
как вспомогательную величину, необходимую для получения оптимальных
прогнозов, и не истолковывать ее столь буквально.
Коэффициенты регрессии b1 и b2 следует рассматривать как степень
влияния каждой из переменных (присутствие парней с девушками и вклад
второго продавца) на размер продажи, если все другие независимые
переменные остаются неизменными. Так, коэффициент b1 , равный 0,06,
указывает, что (при прочих равных условиях) повышение доли парней с
девушками на 1% приводит к возрастанию продажи на 0,06 штук в день.
Относительно коэффициента b1 можно заметить, что увеличение
относительного участия второго продавца на 1 % приводит также к
97
повышению продажи и этот прирост составляет почти такую же величину −
0,07 штук/день.
Еще раз заметим, что все названные коэффициенты регрессии отражают
влияние на исследуемый параметр y только какой-то одной переменной x при
непременном условии, что все другие переменные (факторы) не меняются.
Скажем, применительно к коэффициенту b2 это нужно понимать так:
указанное влияние коммерческой помощи второго продавца проявляется при
условии, когда сохраняется среди покупателей неизменной доля парней с
девушками.
4.3 Ошибки прогнозирования (определение качества
регрессионного анализа)
Можно воспользоваться двумя приемами для оценки добротности
выполненного нами регрессионного анализа. В статистике для этого
используют:
- стандартную ошибку ( S y ), которая дает представление о
приблизительной величине ошибки прогнозирования;
- коэффициент детерминации ( R 2 ), указывающий, какой процент
вариации функции y объясняется воздействием факторов xi .
Рассмотрим оба подхода более подробно:
1 Результаты статистического расчета показывают, что стандартная
ошибка для функции составляет 0,65. Этот результат применительно к нашему
примеру следует рассматривать следующим образом: фактическая величина
объёма продаж изделий отличается от прогнозируемых показателей не более
чем на 0,65 штук/день. Однако ценность этого показателя невелика, если не
назвать, какова же надежность этого утверждения. При условии сохранения
нормального распределения можно полагать, что примерно 2/3 фактических
данных будут находиться в пределах S y от прогнозируемых показателей;
примерно 95 % − в пределах 2 S y и т.д.
Эта стандартная ошибка S y , равная 0,65, указывает отклонение
фактических данных от прогнозируемых на основании использования
воздействующих факторов x1 и х2 (влияние среди покупателей парней с
девушками и второго продавца). В то же время мы располагаем обычным
стандартным отклонением S n , равным 1,06 (см. таблицу 4.2), которое было
рассчитано для одной переменной, а именно: сами текущие значения y i и
величина среднего арифметического у (оно равно 6,01). Легко видеть, что S y
S n ; следовательно, ошибки прогнозирования, как правило, оказываются
меньшими, если использовать уравнение регрессии (т.е. учитывается вклад
факторов x1 и x 2 ), а не ограничиваться только значением y .
98
Сказанное можно истолковать следующим образом. Если бы нам ничего
не было известно про переменные x1 и x 2 , то в качестве оптимальной
приблизительной величины среднего уровня продаж пришлось бы
использовать показатель y = 6,01 штук/день и полагать, что наши прогнозы
дают ошибку S n , равную 1,06 штук/день. Однако если нам известны такие
характеристики, как влияние особой категории покупателей (парней с
девушками) и роль высококвалифицированного Кости, то для
прогнозирования можно воспользоваться уравнением регрессии. В этом случае
наши предсказания будут давать ошибку уже примерно в 0,65 штук/день.
Такое сокращение погрешности прогнозирования с 1,06 до 0,65 и
является одним из преимуществ использования регрессионного анализа.
2 Если вновь обратиться к нашему примеру, то коэффициент
детерминации R 2 (на рисунке 4.5 Excel его подает как R -квадрат) равен 0,67
или же составляет 67 %. Этот результат следует толковать так: все
исследуемые воздействующие факторы (влияние особой категории
покупателей и коммерческого таланта Кости) объясняют 67 % вариации
анализируемой функции (объема проданных изделий). Остальное же (33 %, что
весьма весомо) остается необъясненным и может быть связано с влиянием
других, неучтенных факторов.
Для нашего примера показатель R 2 (67 %) считается умеренным и
поэтому можно полагать, что именно эти два фактора в данном конкретном
случае оказываются достаточно влияющими.
4.4 Проверка значимости модели
Итак, нами получено уравнение множественной регрессии,
коэффициенты которого bi формально показывают, как и в каком направлении
действуют (пока лишь вероятно!) исследуемые факторы xi , и какой процент
изменчивости функции y объясняется влиянием именно этих факторов.
Теперь нам надлежит определить статистическую значимость
полученного аналитического выражения. Принято придерживаться
следующей последовательности:
1 Сначала выполняется общая проверка полученного уравнения на
пригодность.
2 Если результат оказался положительным (уравнение значимо), то
проверяют на значимость уже каждый коэффициент уравнения регрессии bi .
3 Дается сравнительная оценка степени влияния каждого из
анализируемых факторов xi .
4.4.1 Проверка на адекватность уравнения регрессии
Статистическую оценку полученного уравнения (так называемый
статистический вывод) принято начинать с проведения F -теста, целью
которого является выяснение способности исследуемых факторов xi объяснить
99
значимую часть колебания функции y . Этот тест используется как
своеобразные «входные ворота» в статистический вывод: если результат теста
значим, то связь, следовательно, существует и можно приступать к еѐ
исследованию и объяснению. Если показатель теста незначим, то заключение
лишь одно − мы имеем дело с набором случайных чисел, никак не связанных
между собой. И больше делать нечего, так как нет предмета для анализа…
Заметим при этом, что сам формальный факт отсутствия значимости на
деле может и не соответствовать отсутствию взаимосвязи как таковой. Просто
в указанных обстоятельствах у нас не хватило экспериментальных данных
доказать, что такая связь вообще-то есть. Иначе говоря, она может и быть, но
из-за малого размера выборки или случайности нам не удалось ее доказать на
основании тех опытных данных, которые фактически были в нашем
распоряжении.
Использование так называемой нулевой гипотезы для F -теста означает,
что между переменными xi и y значимая связь отсутствует. Следовательно,
признается, что параметр y является чисто случайной величиной и значения
переменных xi не оказывают на него никакого систематического влияния.
Применительно к уравнению регрессии это утверждение можно трактовать как
случай, когда все коэффициенты уравнения равны нулю.
В свою очередь альтернативная гипотеза F -теста говорит о том, что
между параметром у и переменными xi существует определенная
прогнозирующая взаимосвязь. Следовательно, параметр у уже не является
чисто случайной величиной и должен зависеть хотя бы от одной из
переменных xi . Тем самым альтернативная гипотеза настаивает на том, что, по
крайней мере, один из коэффициентов регрессии отличен от нуля. Как видно,
здесь принимается во внимание следующее обстоятельство: совершенно
необязательно, чтобы каждая x -переменная влияла на параметр у, вполне
достаточно, чтобы влияла хотя бы одна из них.
Для выполнения F -теста воспользуемся результатами компьютерного
расчета, который исполнил замечательный Excel. Здесь обычно рекомендуются
следующие приемы:
1 Решение принимается на основе критерия Фишера.
Это достаточно традиционный способ, им привычно пользуются при
статистических анализах, хотя по удобству и простоте он может уступать
другим методам.
Обычно F -тест проводится путем сопоставления вычисленного
значения F -критерия с эталонным (табличным) показателем Fтабл для
соответствующего уровня значимости. Если выполняется неравенство
Fрасч Fтабл , то с уверенностью, например, на 95 %, можно утверждать, что
рассматриваемая зависимость y = b0 + b1x1 + b2 x 2 + ... + bkxk является статистически
значимой. Соответственно, и наоборот.
2 Решение принимается на основе уровня значимости .
100
Для этого обратим внимание на представленные значения уровня
значимости (в интерпретации Excel это показатель p ). Если p -значение
больше, чем 0,05, то полученный результат нужно понимать как незначимый
(для 95-процентной вероятности). В том случае, когда величина p оказывается
меньше 0,05, то вывод такой − уравнение значимое с вероятностью 95 %. Если
же p 0,01, то полученный результат является высоко значимым (т.е. степень
риска ошибиться в нашем утверждении оказывается меньше 1 %, или, что то
же, степень надежности составляет 99 %).
3 Решение принимается на основе коэффициента детерминации R 2 .
2
В этом случае имеющуюся расчетную величину R расч
(это то, что нам
выдал Excel, см. рисунок 4.5) необходимо сравнить с табличными
2
(критическими) значениями Rкрит
для соответствующего уровня значимости
2
2
Rкрит
(повторим еще раз, обычно это 0,05). Если окажется, что R расч
, то с
упомянутой степенью вероятности (95 %) можно утверждать, что
анализируемая регрессия является значимой.
Теперь проанализируем наше уравнение с использованием
рассмотренных статистических критериев:
1 Проведем проверку по F -критерию. Компьютерная распечатка выдала
нам величину Fрасч , равную 16,99 (см. лист Excel на рисунке 4.5). С учетом
сделанных замечаний (стр. 90) для анализа уравнения будем пользоваться
величиной Fрасч , обратной представленной Excel. Она составит 1:16,99=0,06.
Отыщем по эталонной таблице (см. приложение Д) критическую величину
Fкрит при условии, что для числителя степень свободы f1 = n − k − 1 = 20 − 2 − 1 = 17
, а для знаменателя f 2 = n − m = 20 − 1 = 19 . Тогда для = 0,05 будем иметь Fкрит
2,2. Понятно, что для всех рассмотренных вероятностей выполняется
соотношение Fрасч Fкрит , поэтому уверенно можно говорить о высокой степени
адекватности анализируемого уравнения;
2 Выполним проверку с использованием уровня значимости (еще раз
напомним, что Excel этот показатель именует как p ). На рисунке 4.5 , где дано
изображение листа Excel, находим позицию «Значимость F». Там указана
величина 8,84Е-5, т.е. это число 8,84, перед которым стоит 5 нулей. Фактически
можно признать, что = 0,000. Это говорит о том, что действительно
обнаруживается устойчивая зависимость рассматриваемой функции y
(величина продажи молока) от воздействующих факторов x1 и x 2 , т.е. объём
реализации не является чисто случайной величиной. Правда, нам пока
неизвестно, какие именно факторы (оба x1 и x 2 или какой-то один из них)
реально участвует в прогнозировании, но нам доподлинно понятно, что по
крайней мере один из них влияет непременно;
2
3 Напомним, что по нашим расчетам коэффициент детерминации R расч
составляет 0,67 или 67 %. Таблица для тестирования на уровне значимости 5%
101
в случае выборки n = 20 и числа переменных k = 2 дает критическое значение
2
Rкрит
= 0,297 (см приложение Е). Поскольку выполняется соотношение
2
2
R расч
Rкрит
, то с вероятностью 95% можно утверждать о наличии значимости
данного уравнения регрессии.
Кстати заметим, что для наших обстоятельств ( n = 20, k = 2) можно
2
оценить критическое значение Rкрит
для = 0,01 (высокая значимость). В этом
2
случае Rкрит составляет 0,418, что, как видно, все равно остается меньше
2
расчетного показателя R расч
, т.е. 0,67. Из чего следует заключить, что
обсуждаемое нами уравнение действительно характеризуется очень высокой
степенью значимости.
Как видно, все три рассмотренных приема статистической проверки
дают одинаковый результат. В этом примере мы воспользовались подобным
разнообразием расчетов только с одной целью – дать представление о
существующих методах такой проверки. На практике же нет нужды проводить
статистическую оценку с использованием всех указанных вариантов. Вполне
разумно (да и экономично) ограничиться каким-то одним методом. Каким
именно? Более распространенным методом считается выполнение проверки по
F -критерию.
4.4.2 Проверка на адекватность коэффициентов регрессии
Итак, нами проведена проверка на значимость самого уравнения, т.е. мы
понимаем, что существует взаимосвязь между параметром y и переменными
xi . Однако нам пока неясно, каково влияние на исследуемую функцию у
конкретных факторов x1 и x 2 (действуют ли они оба или только какой-то из
них один). Поэтому предстоит определить значимость отдельных
коэффициентов регрессии b1 и b2 .
Проверку на адекватность коэффициентов регрессии рекомендуется
проводить по следующим эквивалентным методам.
1 Использование t -критерия. Необходимые расчеты делает
исполнительный Excel, который выдает соответствующую компьютерную
распечатку с обозначением значений показателя t . Анализируемый
коэффициент считается значимым, если его абсолютная величина превышает
2,00 (точнее 1,96), что соответствует уровню значимости 0,05. В нашем
примере имеем для коэффициентов b0 , b1 и b2 следующие показатели критерия
Стьюдента: t b0 = 2,09 ; t b1 = 2,59 и t b 2 = 2,57 . Из представленного ряда следует,
что значимыми оказываются все коэффициенты нашего уравнения.
2 Использование уровня значимости. В этом случае оценка проводится
путем анализа показателя p , т.е. уровня значимости . Коэффициент
признается значимым, если рассчитанное для него p -значение (эти данные
выдает Excel) меньше (или равно) 0,05 (т.е. для 95%-ной доверительной
102
вероятности). Видим, что показатель p составляет для коэффициентов b0 , b1 и
b2 следующие величины: pb0 = 0,05 ; pb1 = 0,02 и pb 2 = 0,02 .
Эти данные позволяют также заключить, что все рассмотренные
коэффициенты статистически значимы. Иначе говоря, можно сделать вывод о
неслучайном характере влияния всех изученных параметров.
Таким образом, проверка обоими методами дает вполне согласованные
результаты. Поэтому в окончательном виде наше уравнение регрессии (для
уровня значимости 0,05) следует записать так:
yˆ = 1,61 + 0,06 x1 + 0,07 x 2 .
4.4.3 Сравнительная оценка степени влияния факторов
При анализе полученного уравнения множественной регрессии
закономерно встает вопрос, а какой фактор xi из числа рассмотренных
оказывает наибольшее влияние на исследуемый параметр y ? К сожалению,
исчерпывающего ответа на этот вопрос нет. Это связано с тем, что наличие
возможной взаимосвязи между x -переменными (например, парное
взаимодействие типа x1 x 2 , тройное x1 x 2 x3 и т.д.) может сильно усложнить
ситуацию. В результате станет принципиально невозможным выяснить, какая
именно из переменных xi в действительности отвечает за поведение параметра
y.
Тем не менее, в статистике даются полезные рекомендации,
позволяющие получить хотя бы оценочные представления по этому поводу. В
качестве примера познакомимся с одним из таких методов − сравнение
стандартизованных коэффициентов регрессии.
В общем случае все коэффициенты регрессии b1 , b2 , …, bk могут быть
выражены в разных единицах измерения. Тем самым непосредственное их
сравнение становится фактически некорректным, поскольку, скажем,
формально меньший по величине коэффициент на деле может оказаться наиболее важным, чем больший. Короче говоря, в данной ситуации мы сталкиваемся
с классической проблемой «сравнения кита и слона – кто кого поборет».
Стандартизованные коэффициенты регрессии позволяют решить эту проблему
за счет представления коэффициентов регрессии в некоторых кодированных
единицах измерения.
Стандартизованный коэффициент регрессии вычисляется путем
умножения коэффициента регрессии bi на S xi и деления полученного
произведения на S y . Это означает, что каждый стандартный коэффициент
регрессии измеряется как величина bi S xi / S y .
Применительно к нашему примеру получим следующие результаты
(таблица4.4).
103
Таблица 4.4 – Стандартизированные коэффициенты регрессии
1. Стандартные отклонения
Объем продажи
S y = 1,06
Парни с девушками
S x1 =8,26
Помощь Кости
S x 2 =7,25
2. Коэффициенты регрессии
Парни с девушками
b1 = 0,06
Помощь Кости
b2 =0,07
3. Стандартизованные коэффициенты регрессии
Парни с девушками
b1 S x1 / S y = 0,06∙8,26/1,06=0,47
Помощь Кости
b2 S x 2 / S y =0,07∙7,25/1,06=0,48
Как видно, теперь мы можем вполне разумно сопоставлять полученные
коэффициенты. Для обоих анализируемых факторов стандартизованные
коэффициенты практически одинаковы.
Таким образом, приведенное сравнение абсолютных величин
стандартизованных коэффициентов регрессии позволяет получить пусть и
довольно грубое, но достаточно наглядное представление о важности
рассматриваемых факторов. Еще раз напомним, что эти результаты не
являются идеальными, поскольку не в полной мере отражают реальное
влияние исследуемых переменных (мы оставляем без внимания факт
возможного взаимодействия этих факторов, что может исказить
первоначальную картину).
В целом же проведенный регрессионный анализ дает основание Артему
по достоинству оценить коммерческий талант Кости и задуматься о
перспективах делового сотрудничества со своим приятелем из университета.
Оказывает также влияние и конкретная категория покупателей (парни с
девушками). Вместе с тем для Артема остаются поводы для творческих
размышлений – он явно не принял во внимание какие-то иные факторы
(вспомним про 33 %, приходящихся на неучтенные причины), поскольку
решил ограничиться рассмотрением более понятных и очевидных воздействий
на результативность своего бизнеса.
104
5 АНАЛИЗ «ХИ-КВАДРАТ»: ПОИСК ЗАКОНОМЕРНОСТЕЙ
ДЛЯ КАЧЕСТВЕННЫХ ДАННЫХ
Если качественные признаки не поддаются упорядочению, то
использовать непараметрические способы уже нельзя. Единственный подсчет,
который в этом случае можно выполнить, − это попытаться определить
частоты проявления исследуемых признаков. Приходится прибегать к оценке
наличия связи путем определения так называемого «хи-квадрата».
Критерий «хи-квадрат» используют для проверки гипотез о
качественных данных, представленных не числами, а категориями. Здесь
принято оперировать подсчетом частоты (поскольку ранжирование или
арифметические действия выполнять невозможно).
Критерий (тест) «хи-квадрат» основан на частотах, которые
представляют собой количество единиц выборки, попадающую в ту или иную
категорию. Суть показателя «хи-квадрат» ( 2 ) – он измеряет разницу между
наблюдаемыми (экспериментальными) частотами f Э и ожидаемыми
(теоретическими) частотами f Т . Конкретно такой показатель рассчитывается
как сумма квадратов разности этих частот, выраженная в долях частоты
теоретической. Это утверждение можно записать следующим образом:
2 =
( f Э − fТ ) 2
.
fТ
(5.1)
Использование такого статистического подхода возможно в разных
обстоятельствах. Рассмотрим наиболее распространенные.
5.1 Комбинация: нынешние и прошлые события (критерий «хиквадрат» соответствия)
Данный способ широко применяется в тех случаях, когда нужно
прояснить ситуацию по поводу того, является ли наш нынешний опыт
(выраженный в частотах или процентах) типичным по отношению к прошлому
опыту (набор так называемых опорных величин). Такую ситуацию можно
условно обозначить фразой «Это было недавно, а то было давно. Между ними
есть соответствие?»
Тест «хи-квадрат» в отношении соответствия процентов используется
для проверки гипотезы о том, что комбинация наблюдаемых частот или
процентов (характеризующих одну качественную переменную) построена на
данных из некоторой генеральной совокупности с уже известными значениями
процентов (опорными величинами).
Можно сформулировать высказанные соображения и по-другому: те
результаты, которые мы наблюдаем сейчас (фактические данные, т.е. наш
нынешний опыт), на самом деле по характеру такие же, как и те, которые
105
относятся к прошлым данным (опорным величинам). А это объясняется тем,
что и те и другие относятся к одной и той же генеральной совокупности, просто
они извлекались в разное время (сейчас и когда-то давно).
Ожидаемое значение частоты для каждой категории рассчитывается как
произведение заданного опорного значения процента в генеральной
совокупности на размер выборки n . На основании имеющихся знаний о
наблюдаемой частоте и частоте ожидаемой анализируемого события
определяется собственно показатель хи-квадрат. Расчетное значение хиквадрат затем сравнивают с критическим (табличным) показателем для
соответствующего числа степеней свободы (определяется как количество
категорий минус единица).
2
2
крит
Если оказывается справедливым неравенство расч
, то с заданной
вероятностью (или уровнем значимости) можно утверждать, что наблюдаемые
частоты (наш опыт) значимо отличаются от тех, которые ожидаются исходя из
известных нам опорных значений процентов (частот). Следовательно,
обоснованно можно делать вывод о том, что наблюдаемые выборочные проценты
значимо отличаются от заданных опорных значений.
2
2
крит
Если имеем соотношение расч
, то наблюдаемые значения не
очень-то отличаются от опорных показателей и, следовательно, наши
фактические результаты не имеют значимых отличий от заданных опорных
значений.
При выполнении такого анализа принято придерживаться следующего
эмпирического правила: ожидаемые частоты в каждой категории должны
быть, по крайней мере, не меньше пяти (поскольку критерий хи-квадрат
остается приблизительной, а не совсем точной оценкой).
Анализ критерия соответствия процентов (частот) удобно выполнять,
придерживаясь следующей схемы:
1 Имеются табличные данные частот для каждой категории одной
качественной переменной. Обсуждаются следующие гипотезы:
а) частоты (проценты) нынешнего опыта равны набору известных,
фиксированных опорных величин (из прошлого опыта);
б) частоты (проценты) нынешнего опыта не равны набору опорных
величин (данных прошлого опыта).
2 Ожидаемые частоты вычисляются так: нужно для каждой категории
умножить известное значение еѐ доли в общем количестве (генеральной
совокупности) на размер выборки n .
При этом предполагается:
а) набор данных представляет собой случайную выборку из
рассматриваемой генеральной совокупности
б) ожидается наличие, по крайней мере, пяти объектов в каждой из
категорий.
3 Анализ «хи-квадрат» проводится с использованием уже упомянутого
выражения 5.1
106
Степень свободы f рассчитывается так:
f = k − 1,
(5.2)
где k – это число категорий, т.е. количество анализируемых параметров.
4 Интерпретация результата теста «хи-квадрат»: наличие значимой связи
отмечается тогда, когда расчетное значение «хи-квадрат» больше табличного
2
2
крит
или критического (т.е. расч
), в противном случае значимой связи нет.
Теперь приступим к знакомству с анализом и, самое главное, выясним,
как такой расчет можно выполнить с использованием компьютерной программы Excel.
Рассмотрим следующий пример.
Среди студентов, проходивших практику на заводе по производству
радиоэлектронных средств, был проведен опрос с целью выяснить, какие
факторы влияют на появление брака в изготовляемой продукции. Число
опрошенных студентов составляло 50 человек.
Наиболее часто упомянутыми причинами были указаны следующие:
1 Старое оборудование.
2 Не высококвалифицированные работники.
3 Плохое обслуживание станков.
4 Некачественное сырье, заготовки.
Эти ответы можно условно разделить на следующие категории:
1 Станки.
2 Работники.
3 Недосмотр.
4 Материалы.
В таблице 5.1 приведены данные о причинах получения «брака» в
партии, а также указаны значения опорных величин, взятые из документов на
заводе о выпускаемой продукции (по таким же категориям).
Таблица 5.1
Данные о причинах брака на производстве во время прохождения
практики студентами и аналогичные данные (опорные) за прошлую практику
Причина
Станки
Работники
Недосмотр
Материалы
Итого
Наблюдаемые данные
(за прошедшую практику)
Процент от общего
Частота
числа
28
57,0
10
19,0
7
14,0
5
10,0
50
100
Опорное значение,%
(ожидаемые данные)
59,0
14,0
20,0
7,0
100
107
Как видно, по количественным показателям все анализируемые причины
за прошедшую сессию формально отличаются от опорных значений. Однако
это различие оказывается далеко неравноценным. Так, можно признать, что в
категории самооценки («Станки») фактические данные отличаются от
соответствующих опорных величин относительно слабо (например, 57 % по
сравнению с 59 % для прошлых сессий). В то же время по другим категориям
относительное различие выглядит более заметным. Особенно бросается в глаза
несоответствие по позиции «Недосмотр».
Вопрос заключается в том, значима ли эта разница? Иначе говоря, могут
ли полученные по итогам прошедшей практики бракованные изделия
рассматриваться как результат извлечения случайной выборки из генеральной
совокупности, в которой проценты брака соответствуют опорным величинам?
Или еще по-другому: достаточно велика ли наблюдаемая разница, чтобы ее
нельзя было объяснить только случайностью?
Тест хи-квадрат соответствия процентов позволит дать ответ на этот
вопрос. Утвердительное заключение получим при условии, когда окажется
2
2
крит
справедливым соотношение расч
. Его нужно будет истолковать так:
результаты нынешней сессии и результаты прошлых сессий отличаются между
собой принципиально, поскольку различие между ними не носит случайного
характера.
2
2
крит
Если окажется справедливым неравенство расч
, то с заданной
вероятностью можно будет говорить о незначимости различия между
анализируемыми результатами.
В таблице 5.2 укажем частотные величины для обеих информационных
позиций – текущие данные («Наблюдение») и сведения за прошлые годы
(«Ожидание»). Расчет частоты для графы «Ожидание» проведем путем
умножения значений опорных величин процентов (59 %, 14 %, 20 % и 7 %) на
размер выборки ( n . = 50). В результате получим следующие значения частот:
0,59·50 = 29,5; 0,14·50 = 7,0 и т.д. Заметим, что в итоговой строке для обеих
колонок общая сумма частот одинакова – равна 50.
Таблица 5.2
Наблюдаемые и ожидаемые данные (частоты) о причинах
неудовлетворительных отметок
Причина
Станки
Работники
Недосмотр
Материалы
Итого
Наблюдение
28
10
7
5
50
Ожидание
29,5
7,0
10,0
3,5
50,0
108
Эти данные и будем использовать для решения вопроса о значимом
соответствии (или несоответствии) фактических и ожидаемых результатов.
Воспользуемся для этого теми возможностями, которые предоставляет
приложение Excel. Напомним, что нам для анализа нужно располагать
2
2
величинами расч
и крит
. Все эти характеристики вычисляются с помощью
приложения Excel.
2
Пояснение. Вообще-то значения крит
, как обычно это делается при статистическом
анализе, извлекаются из специальных таблиц, содержащих заранее рассчитанные эталонные
значения этой характеристики. Однако в нашем случае используем возможности Excel,
поскольку подобную услугу он способен оказать совершенно элементарно.
1 Откроем лист Excel и составим нашу таблицу с имеющими данными
(рисунок 5.1). Пусть они будут находиться в диапазоне ячеек (вместе с
названиями) B2:D6. Пристроим к таблице еще одну графу (Е2:Е6), в которой,
помимо заголовка, будут находиться расчетные значения хи-квадрат,
вычисленные для каждой строки (т.е. для каждого анализируемого фактора).
2 Расчет проведем по известной формуле (5.1).
Рисунок 5.1 – Фрагмент рабочего листа Excel с исходными данными
и результатами анализа хи-квадрат
Чтобы выполнить расчет для данных первой строки, выделим ячейку Е3
и в строке формул запишем = (С3 − D3)^2 / D3 . Полученный результат расчета
появится в этой ячейке. С округлением до третьего знака это составит 0,076.
109
Аналогичные вычисления проделаем для остальных позиций. Для этого вновь
выделим ячейку Е3 и протянем «Маркер заполнения» (маленький квадратик в
правом нижнем углу) вдоль всей графы вниз – во всех соответствующих
ячейках будут содержаться готовые расчетные значения хи-квадрат.
Просуммируем эти данные, получим величину 2,905. Это и есть наш искомый
2
расч
.
2
3 Теперь займемся вычислением показателя крит
. Для этого применим
функцию «ХИ2ОБР». Для ее запуска предназначена специальная программа.
Воспользуемся «Мастером функций».
Поступим следующим образом:
- выделим ту ячейку, в которой должен находиться получаемый
результат;
- активизируем «Мастер функций» кнопкой f x ;
- в появившемся диалоговом окне выберем нужную категорию из
имеющегося списка и укажем опцию «Статистические»;
- затем отыщем собственно нужную нам функцию «ХИ2ОБР.ПХ», после
чего нажмем на кнопку «ОК».
4 На экране появится диалоговое окно для ввода параметров,
необходимых для вычисления критического (табличного) значения хиквадрата (рисунок 5.2). В первом текстовом поле ввода (Вероятность) укажем
выбранную величину уровня значимости . Примем традиционный
показатель степени риска, равный 0,05.
5 Во втором поле ввода (Степени свободы) запишем число степеней
свободы. Поскольку в нашем примере фигурируют четыре компонента
(причины брака), то число степеней свободы составит: f = k − 1 = 4 − 1 = 3 .
После нажатия на кнопку «ОК» в выбранной нами ранее ячейке (Е11)
2
появится значение крит
, равное 7,815 (после надлежащих округлений).
Рисунок 5.2 – Диалоговое окно ввода параметров для определения
критического (табличного) значения хи-квадрат
110
Вот с этим-то числом нам и нужно будет затем сравнивать расчетное
2
2
2
крит
значение расч
. Поскольку выполняется соотношение расч
(т.к. 2,905 <
7,815), то с вероятностью 95% можно утверждать, что наблюдаемые
(фактические) показатели незначимо отличаются от ожидаемых (опорных)
значений.
Анализ хи-квадрат в режиме Excel можно выполнить и по-другому, с
использованием так называемого хи-теста. Функция «ХИ2ТЕСТ» позволяет
определить вероятность того, является ли различие между наблюдаемыми и
ожидаемыми значениями статистически значимым результатом.
Покажем это на нашем примере.
6 Для этого вновь действуем с помощью «Мастера функций»:
- выделяем ячейку (допустим Е13), в которой должен находиться
получаемый результат;
- активизируем «Мастер функций»;
- в диалоговом окне выбираем нужную категорию и указываем опцию
«Статистические»;
- отыскиваем функцию «ХИ2ТЕСТ», после чего нажимаем на кнопку
«ОК».
В появившемся диалоговом окне (рисунок 5.3) нужно заполнить
текстовые поля, в которых следует указать имеющиеся данные, относящиеся к
фактическим и ожидаемым результатам. Напомним, эти данные занимают
соответственно ячейки C3:C6 и D3:D6.
Рисунок 5.3 – Диалоговое окно ввода параметров для определения
расчетного значения хи-квадрат
Кстати, после введения интервальных ячеек справа от каждого поля
ввода в скобках будут перечислены те табличные значения, которые
содержались в соответствующих столбцах (см. рисунок 5.3). Там же в окне
111
можно будет прочитать и полученное расчетное значение уровня значимости,
равное 0,406530471. А после нажатия на клавишу «ОК» этот результат будет
помещен в выделенную нами ячейку.
Проведем округление полученного результата до третьего знака после
запятой и в окончательном виде получим 0,407. Теперь попытаемся оценить
полученные данные.
Указанное число показывает, что гипотеза о том, что результаты
нынешней сессии отличаются от итогов прошлых лет, высказывается с риском
допустить ошибку на 40,7 %. И напротив, почти с вероятностью 60 % можно
говорить о том, что различие между этими данными несущественное.
Как же следует толковать данные анализа хи-квадрат, исполненные
2
2
обоими способами (сравнением расч
и крит
, а также применением функции
«хи2-тест»)? Покажем, что оба подхода идентичны.
1 Нами сделано заключение о статистической неразличимости
наблюдаемых и ожидаемых результатов на основании сопоставления значений
2
2
расч
(2,905) и крит
(7,815). Напомним, что этот вывод был сделан для уровня
значимости = 0,05 (т.е. для 5-процентной степени риска). Теперь попытаемся
выяснить, при каких же условиях можно отважиться на утверждение, что
данные, полученные во время практики, нынешние и прошлые (по характеру
влияния на их итоги рассматриваемых факторов) все-таки разнятся. Иными
словами, полагать, что с точки зрения статистического подхода эти данные
являются извлечением не из одной и той же генеральной совокупности, а
принадлежат совершенно различным массивам.
Для этого, используя функцию «ХИ2ОБР.ПХ», рассчитаем значения
2
крит для различных уровней значимости, постепенно повышая вероятность
допустить ошибочный прогноз (увеличивая ). На рабочем листе Excel
2
(рис.5.1) в виде списка приведены полученные значения крит
для , равного
соответственно 0,05; 0,1; 0,2 и т.д. Закончим же расчет для случая равно
0,407 и 0,41. Почему именно эти числа, станет сейчас понятным.
2
2
Наше расчетное значение расч
(2,905) окажется превышающим крит
(2,902), когда будет больше 0,407. Например, для = 0,41 уже можно
2
2
крит
определенно говорить, что условие расч
(2,905* > 2,883) выполняется и
допустимо утверждение, что обе рассматриваемые совокупности являются
различными.
2 Теперь дадим оценку только что сделанному заявлению. Прелесть
статистики состоит в том, что она любое утверждение всегда дает с
определенной гарантией надежности, т.е. страхуется от проявления
возможных случайностей (погрешностей). Совершенно недостаточно
высказать какое-то соображение.
Важно обязательно также определить, с какой степенью вероятности
(или уровнем риска впасть в ошибку) оно формулируется.
112
Когда мы заявили, что влияние рассматриваемых факторов на брак
продукции во время текущей практики и практике прошлых лет различаются,
то сделали это с риском оказаться неправыми почти на 41 %! Совершенно
чудовищная степень ошибочности утверждения! Кто всерьез примет в расчет
такое мало обоснованное соображение?
Поэтому в ситуациях, когда мы должны высказывать суждения с
достаточной степенью надежности (обычно при = 0,05, а еще лучше 0,01),
величина порогового (критического) значения 2 имеет очевидную тенденцию
к возрастанию. А это означает, что при разумном объеме единиц наблюдения
(в данном случае это студенты, большие знатоки производства) мы лишь
можем говорить о незначимости рассматриваемых итогов.
Чтобы все-таки обнаружить подобное возможное различие, следовало
было бы провести более масштабное по охвату обследование. Однако можно
тихо утешиться тем обстоятельством, что проделать всю эту процедуру весьма
проблематично вследствие недостаточного числа студентов на практике.
Итак, резюме. Для обсуждаемого примера можно заключить, что брак на
производстве, выявленный во время практики, по характеру причин (в
интерпретации самих студентов) соответствуют тем же показателям, что
случались и в прошлые годы.
5.2 О коэффициентах взаимной сопряженности
На основе хи-квадрата принято также оценивать показатели степени
тесноты связи – коэффициенты взаимной сопряженности К.Пирсона и
А.Чупрова.
Коэффициент Пирсона рассчитывается по формуле:
КП =
2
,
п+ 2
((5.3)
где 2 – k расчетное значение хи-квадрата;
n – общее число наблюдений (объем выборки).
Коэффициент Чупрова позволяет учесть число групп по каждому
признаку и определяется следующим образом:
КЧ =
2
п (k1 − 1)(k 2 − 1)
,
((5.4)
где k1 и k 2 – соответственно число значений (групп) для первого и второго
признаков или, по-другому, число строк и столбцов в таблице;
n – общее число наблюдений.
Попробуем выполнить такие расчеты для нашего примера.
113
2
2,905
КП =
=
= 0,234;
2
п+
50 + 2,905
КЧ =
2
п (k1 − 1)(k 2 − 1)
=
2,905
= 0,205.
50 (3 − 1)(2 − 1)
Как видно, расчет обоих коэффициентов дает весьма малые величины,
что свидетельствует об отсутствии связи между исследуемыми
характеристиками. Это же подтверждают и оценки по таблице Чеддока –
рассчитанные коэффициенты (по модулю меньше 0,3) говорят об отсутствии
корреляционной связи. Иначе говоря, использование и этих коэффициентов
подтверждает ранее высказанное соображение – анализируемая ситуация по
своим параметрам соответствует опорным (ожидаемым) показателям и посему
не требует введения каких-либо корректировок.
5.3 Проверка взаимосвязи между двумя качественными
переменными (критерий «хи-квадрат» независимости)
Возможны ситуации, когда имеются две качественные переменные,
характеризующие события, не связанные с временным фактором. После
изучения каждой из них отдельно с помощью анализа частот (или процентов)
может возникнуть вопрос о наличии связи между ними.
Считается, что две качественные переменные являются независимыми,
если знание значения одной переменной не помогает предсказать значение
другой.
Представим себе, что ваша фирма разработала технологию
гальванического покрытия никелем для защиты радиоэлементов от корозии. В
среднем процент брака, связанного с отслаиванием покрытия, составляет 3,1
%. Однако когда работает технолог г-н Безенчук, размер брака достигает 11,2
%. В этом случае знание значения одной переменной (имя конкретного
технолога) помогает спрогнозировать значение другой переменной (объем
брака определенного типа), поскольку 3,1 % и 11,2 % различаются между
собой. Появление брака более вероятно во время работы г-на Безенчука и
менее вероятно, когда работает кто-то другой. Следовательно, эти две
переменные не являются независимыми.
Использование критерия «хи-квадрат» позволяет решить вопрос о том,
являются ли рассматриваемые качественные совокупности зависимыми или же
независимыми друг от друга. В этом случае применяется так называемый
критерий «хи-квадрат» независимости, который устанавливает наличие (или
отсутствие) связи между двумя качественными переменными. Для такого
анализа используется таблица частот, которые можно было бы ожидать в том
случае, если переменные оказались бы независимыми.
114
В общем случае критерий «хи-квадрат» независимости принято
представлять в виде такой схемы:
1 Имеются исходные данные в форме табличного списка частот всех
комбинаций категорий двух качественных переменных. Обсуждаются
следующие гипотезы:
а) две переменные не зависят одна от другой;
б) две переменные связаны, они не являются независимыми друг от
друга.
2 Составляется таблица ожидаемых частот. Для их расчета частоту одной
категории (результат эксперимента) следует умножить на частоту другой
категории (также экспериментальный показатель) и полученное произведение
поделить на общий объем выборки n . Или более компактно в символьной
форме:
f ОЖ (Т ) =
f Э1 f Э 2
.
п
((5.5)
При этом считается, что набор данных представляет собой случайную
выборку из рассматриваемой генеральной совокупности и для каждой
комбинации категорий ожидаемая частота, по крайней мере, не меньше пяти.
3 Далее проводится анализ «хи-квадрат», расчет выполняется с
использованием знакомого выражения:
2 =
( f Э − fТ ) 2
.
fТ
((5.6)
Степень свободы вычисляется следующим образом:
f = (k1 − 1) (k 2 − 1) ,
((5.7)
где k1 и k 2 – число категорий соответственно для первой и второй переменной.
4 Результат теста «хи-квадрат» трактуется так: наличие значимой связи
проявляется тогда, когда расчетное значение «хи-квадрат» больше
2
2
крит
критического (т.е. расч
), в противном случае значимой связи нет.
Более подробно познакомимся с этим видом статистического анализа,
для чего рассмотрим следующий пример.
Предприниматель Сидорчук, занявшись бизнесом связанным с продажей
радиоэлементов, решил провести исследование, чтобы уяснить, какой вид
продукции предпочитают те или иные покупатели. Для каждой покупки
фиксировались две качественные переменные – вид продукции и тип
покупателя. В качестве продаваемой продукции фигурировали печатные
115
платы, резисторы и диоды. Покупателей Сидорчук условно разделил на две
категории – практичные и импульсивные. К первым он отнес тех покупателей,
которые идут в магазин уже с четко сформулированным намерением
относительно того, что купить и сколько именно. Вторую же категорию
составили покупатели, которые решение принимают на месте,
непосредственно перед покупкой.
Полученные данные статистического опроса Сидорчук изложил в
табличной форме (таблица 5.3), в которой для каждого вида продукции указал
количество совершаемых покупок тем или иным покупателем (т.е. привел
фактическую частоту).
Необходимо дать заключение по итогам статистической проверки по
критерию «хи-квадрат», т.е. сформулировать вывод и пояснить результат с
практической точки зрения (какую рыночную стратегию должен избрать
Сидорчук и, следовательно, на какого покупателя и на какой вид продукции
ему надлежит ориентироваться).
Решение этой задачи вновь проделаем в двух вариантах –
консервативным способом («вручную») и компьютерным.
Таблица 5.3
Результаты опроса о перспективах молочного бизнеса
Вид продукции
Диоды
Резисторы
Печатные платы
Частота предпочтений
Практичный покупатель
Импульсивный покупатель
38
15
24
31
18
27
Но сначала таблицу с исходными данными дополним. Для этого введем
итоговые строку и столбец и их заполним, выполнив несложные расчеты
(таблица 5.4).
Визуально трудно ответить, есть ли взаимосвязь между этими
признаками (разными категориями покупателей и видами молочной
продукции).
Таблица 5.4
116
Дополненные данные по результатам опроса о перспективах продажи
радиоэлементов
Вид продукции
Диоды
Резисторы
Печатные платы
Итого
Частота предпочтений
Импульсивный
Практичный покупатель
покупатель
38
15
24
31
18
27
80
73
Итого
53
55
45
153
Поэтому необходимо дать анализ распределения частот в таблице по
строкам и графам.
Будем исходить из следующего постулата. Если признак, положенный в
основу группировки по строкам (вид продукции), не зависит от признака,
положенного в основу группировки по столбцам (тип покупателя), то в каждой
строке (столбце) распределение частот должно быть пропорционально
распределению их в итоговой строке (столбце). Такое распределение можно
рассматривать как теоретическое (ожидаемое), частоты которого рассчитаны в
предположении отсутствия связи между изучаемыми совокупностями.
Рассчитаем ожидаемые частоты внутри таблицы пропорционально
распределению частот в итоговой строке.
Так, диоды как один из видов продукции в зависимости от поведения
посетителей рынка по частоте попадания в категории «Практичный
покупатель» и «Импульсивный покупатель» имеет следующие показатели:
53 80
= 27,7
153
53 73
f12 =
= 25,3.
153
f11 =
Для второй стоки, т.е. для категории резисторы, эти показатели имеют
уже такие значения:
55 80
= 28,8
153
55 73
=
= 26,2.
153
f 21 =
f 22
Для третьей строки (категория печатные платы):
f 31 =
45 80
= 23,5
153
117
f 32 =
45 73
= 21,5.
153
Полученные результаты (вычисленные значения частот) поместим в
таблицу 5.5.
Таблица 5.5
Данные о перспективе молочного бизнеса с учетом ожидаемых частот
Вид продукции
Диоды
Резисторы
Печатные платы
Итого
Частота предпочтений
Импульсивный
Практичный покупатель
покупатель
27,7
25,3
28,8
26,2
23,5
21,5
80
73
Итого
53
55
45
153
Расчетное значение критерия хи-квадрат определим по формуле:
k2 i
kj
=
2
( f ij − f ij* ) 2
f
i =1 j =1
*
ij
,
((5.8)
где f ij и f ij* – соответственно фактические и теоретические (ожидаемые)
частоты в i -й строке и j -го столбца; k1 и k 2 – соответственно число категорий
в строках и столбцах таблицы.
Выполним соответствующие расчеты:
2
расч
(38 − 27,7) 2 (15 − 25,3) 2 (24 − 28,8) 2 (31 − 26,2) 2 (18 − 23,5) 2
=
+
+
+
+
+
27,7
25,3
28,8
26,2
23,5
+
(27 − 21,5) 2
= 12,4.
21,5
2
Далее полагается сравнить расчетное значение расч
с табличным
показателем (обычно для уровня значимости 0,05 или 0,01). В
рассматриваемом примере число степеней свободы равно трем, т.е. f = (3-1)
2
(2-1)=2*. При =0,05 табличное значение табл
при f = 2 составляет 5,99, а для
2
2
табл
, то с
=0,01 соответственно 9,21 (см. приложение Ж). Поскольку расч
уверенностью на 95 % и даже 99 % можно утверждать, что влияние
психологического типа покупателя очевидным образом сказывается на
118
результатах коммерческой деятельности Сидарчука. Ему, как видно, есть над
чем поразмышлять.
Теперь посмотрим, что нам покажет Excel.
Прежде всего, перенесем табл.5.4 и 5.5 в рабочий лист Excel (рисунок
5.4). При этом в ячейке А22 запишем «ХИ2крит», а соседние ячейки В22 и С22
2
зарезервируем за численными значениями крит
. Считать будем для двух
значений уровня значимости – 0,05 и 0,01 (их заголовки разместим в ячейках
В21 и С21). Кроме того, в ячейках А30 и А32 запишем «ХИ2расч» и «Рез-т
ХИ2-тест», а соседние ячейки В39 и В32 подготовим для будущих итоговых
расчетов.
После этого приступим собственно к самой работе в компьютерном
варианте.
Рисунок 5.4 – Лист Excel с результатами расчета критерия хи-квадрат
2
1 Для определения показателя крит
применим функцию ХИ2ОБР.
Воспользуемся «Мастером функций», а затем командами Статистические/
Хи2обр.
При заполнении диалогового окна укажем следующие параметры: для
= 0,05 и 0,01, а для степени свободы – 3.
После исполнения всех манипуляций и необходимых округлений в
ячейках В22 и С22 будут содержаться следующие результаты: 7,815 и 11,345.
119
Затем произведем необходимые
Используем уже знакомое выражение:
f ОЖ (Т ) =
подсчеты
ожидаемых
частот.
f Э1 f Э 2
.
п
Здесь поступим следующим образом. Вычисленные значения будем
помещать в диапазоне ячеек B11:C13. Запишем формулу вычисления
ожидаемых частот, которую затем станем копировать для заполнения всей
таблицы. Будем использовать знак $ для задания «абсолютного адреса». Так,
для расчета первого ожидаемого значения частоты используем выражение
=B$9×$D6/$D$9 и получим 27,7124183 (с округлением 27,7).
2 Чтобы теперь получить остальные значения ожидаемых частот,
проделаем следующее. Выделим ячейку В11 и появившийся маркер
заполнения протянем вниз, захватывая ячейки В12 и В13. Тот же час в ячейках
окажутся рассчитанные значения частот. Если теперь эти ячейки
последовательно выделять и протягивать вправо, то в диапазоне С11:С13
появятся остальные показатели.
А теперь посмотрим на эти результаты и на скопированную нами
таблицу 5.5 с ожидаемыми частотами. Что-то ужасно знакомое! С учетом
необходимых округлений это же полная копия.
Теперь мы наглядно представляем, насколько легко Excel справляется с
расчетами, над которыми нам перед этим (вспомним ручной счет) пришлось
основательно потрудиться.
Продолжим расчеты.
3 Анализ хи-квадрат выполним с помощью функции ХИ2ТЕСТ.
Действием уже привычным образом, используя следующие команды: Мастер
функций/ Статистические / ХИ2ТЕСТ.
Ячейку В32 выделим для ХИ2ТЕСТ.
4 При заполнении диалогового окна (рисунок 5.5) в текстовом поле
«Фактический интервал» укажем адрес ячеек B6:С8, в которых находятся
экспериментальные данные по частотам (см. таблицу 5.4). Соответственно в
текстовом поле «Ожидаемый интервал» укажем диапазон B16:С18,
содержимое которого отражает теоретические значения частот (см. таблицу
5.5).
120
Рисунок 5.5 – Диалоговое окно ввода параметров
В окончательном виде в ячейке В32 будет находиться следующий
показатель – 0,002.
Как же следует трактовать полученный результат? Тезис о
независимости обсуждаемых параметров (вид продукции и психологический
тип покупателя) можно было бы принять, если бы уровень значимости был
бы меньше 0,002. Но для 95-процентной вероятности и даже 99-процентной
установленные значения (0,05 и 0,01) превышают 0,002. Это говорит о
высокой степени значимости и, следовательно, указанные две качественные
переменные являются вполне зависимыми друг от друга.
Вспомним, что вывод о значимости связи между сопоставляемыми
2
2
переменными можно сделать также на основе сравнения значений расч
и табл
. Табличные значения у нас уже есть, это 7,815 и 11,345 (для уровней
2
значимости 0,05 и 0,01). Теперь рассчитаем расч
, для этого по формуле
2 =
( f Э − fТ ) 2
для каждой комбинации наблюдаемых (экспериментальных) f Э
fТ
и ожидаемых (теоретических) частот f Т вычислим текущие значения 2 , а
затем их просуммируем. Результат приведен в виде списка на рис.5.4 и он, как
и в случае ручного счета, равен 12,4 (ячейка В30). Ну а дальше знакомые
2
2
процедуры – сравнение значений расч
(12,4) и табл
(7,815 и 11,345) указывает
на то, что анализируемые качественные переменные не являются
независимыми (мы это утверждаем с риском ошибиться на 5 и даже 1 %).
Как видно, и ручной и компьютерный расчеты приводят нас к одному и
тому же статистическому выводу – значимая связь между двумя
рассматриваемыми качественными совокупностями имеет место быть.
Таким образом, как мы и утверждали по итогам ручного счета,
Сидарчуку надлежит внимательно продумать свою дальнейшую
121
коммерческую стратегию – продаваемая продукция существенного зависит от
того, кто ее покупает. Причем наиболее заметно это проявляется по поводу
торговли диодами. Очевидно, что диоды предпочитают главным образом
покупатели основательные, хорошо обдумывающие свой поход на рынок. В
тоже время импульсивные визитеры эту продукцию заметно игнорируют,
более полагаясь на резисторы и печатные платы.
122
6 СТАТИСТИЧЕСКИЕ МЕТОДЫ ИЗУЧЕНИЯ ДИНАМИЧЕСКИХ
ПРОЦЕССОВ
Временными (хронологическими) рядами или рядами динамики
называются такие ряды, в которых статистические данные находятся в
функциональной зависимости от времени.
В случае динамических рядов сама последовательность наблюдений
несет в себе важную информацию. Так, чтобы охарактеризовать какую-то совокупность данных в целом, нам уже недостаточно знать лишь типичное значение этих данных (например, среднее арифметическое или стандартное отклонение). В данной ситуации желательно знать, что, скорее всего, произойдет дальше. Тем самым подобный прогноз должен экстраполировать ближайшее поведение исследуемой системы с точки зрения её функционирования
в прошлом.
6.1 Понятие о статистических рядах динамики
Таким образом, главная цель анализа временных рядов заключается в
создании прогнозов, т.е. предсказание будущего. Эти прогнозы основываются
на той или иной модели (ее называют математической моделью или процессом). Модель представляет собой систему уравнений, которая позволяет получить некий набор искусственных совокупностей данных, относящихся к
категории временных рядов. Прогноз позволяет получить ожидаемое (т.е.
среднее) значение будущего поведения оцениваемой модели.
Подобно всем оценкам, прогноз обычно не в полной мере соответству-ет
действительности. Границами прогноза являются доверительные границы
прогноза (если используемая модель позволяет их определить). Если модель
корректна по отношению к исследуемым данным, то будущее наблюдение с
вероятностью, например, 95 % попадает в эти границы.
Следовательно, динамическими рядами называются статистические
данные, отражающие развитие исследуемого процесса во времени.
В каждом ряду динамики содержатся два основных элемента:
- показатель времени ;
- соответствующие им уровни развития изучаемого процесса y .
В качестве показателя времени в рядах динамики выступают
- либо определенные даты (моменты) времени;
- либо отдельные периоды (годы, кварталы, месяцы, сутки).
Статистические показатели, характеризующие изучаемый объект, называют
уровнями ряда. Уровни отображают количественную оценку (меру) развития
исследуемого процесса во времени.
По форме выражения уровни могут быть абсолютными, относительными или средними величинами. При этом они могут отражать состояние
процесса
- на определенный момент времени (на начало месяца, квартала, года);
123
- за определенные интервалы времени (за сутки, месяц, год и т.п.).
Соответственно по фактору времени принято различать моментные и
интевальные динамические (временные) ряды (рисунок 6.1).
Рисунок 6.1 – Схематическое изображение рядов динамики
по фактору времени
Отличительная особенность интервальных рядов динамики абсолют-ных
величин − можно суммировать их уровни, поскольку они не содержат
повторного счета. Тем самым можно суммировать уровни как за более
короткий промежуток времени (сутки, недели, месяц), так и за более
длительный (квартал, год). В результате суммирования уровней интервального
динамического ряда получаются так называемые накопленные итоги, которые
имеют вполне реальное содержание.
Пример интервального ряда динамики – скажем, выпуск университетом
специалистов по годам.
Вместе с тем моментным рядом динамики может служить, допустим,
число студентов в университете. Уровни данного ряда − это обобщенные итоги
учета числа студентов по состоянию на определенную дату. Ею может быть
конец или начало соответствующего учебного года. При этом отдельные
уровни моментного ряда динамики содержат элементы так называемого
повторного счета. Суть сказанного состоит в следующем: большая часть
студентов, учитываемая, например, в прошедшем учебном году, естественно,
наличествует (за вычетом выпускников и отчисленных) и в настоящее время,
являясь единицами совокупности и в текущем учебном году. Вот почему
суммирование уровней моментных рядов динамики (в отличие от
интервальных) становится процедурой, лишенной очевидного смысла.
6.2 Изучение основной тенденции развития
Мы рассмотрели наиболее используемые статистические характеристики, которые применяются для количественной оценки динамических ря124
дов. Теперь основное внимание уделим тому, как на основании анализа временного ряда можно прогнозировать развитие событий в будущем.
Важным направлением в исследовании закономерностей экономических процессов является изучение общей тенденции развития (тренда).
Изменения уровней временных рядов обусловливаются влиянием на
изучаемый процесс различных факторов. В общем случае они неоднородны по
силе, направлению и времени воздействия. Принято выделять так называемые
систематическую СТ и случайную С Л составляющие. При этом в зависимости
от формы разложения динамического ряда различают аддитивную и
мультипликативную модели. В первом случае исходные данные
динамического ряда ИД описывается в виде суммы этих показателей (т.е.
выражением ИД = СТ + С Л , во втором – их произведением ( ИД = СТ С Л ).
В свою очередь систематическая составляющая СТ является интегральной характеристикой, поскольку отражает влияние нескольких факторов.
Во-первых, это постоянно действующие факторы, которые оказывают обычно
определяющее влияние, и именно они формируют в рядах динамики основную
тенденцию развития, так называемый тренд Т Р . Во-вторых, воздействие других
факторов может проявляться лишь периодически. Это вызывает повторяемые
во времени колебания уровней динамического ряда – либо сезонного характера
(сезонный компонент С З ), либо в виде каких-то циклических событий
(циклический компонент Ц К ).
Случайная составляющая С Л отражает действие разовых (спародических) факторов, которые проявляются в виде непредсказуемых и нерегулярных изменений уровней рядов динамики.
На рис.6.2 дано структурное изображение основных составляющих динамических рядов.
Таким образом, анализ рядов динамики фактически сводится к оцениванию четырех базовых компонентов помесячных (или поквартальных) временных рядов:
- долгосрочного тренда (тенденции) Т Р ;
- сезонных колебаний (сезонности) С З ;
- циклической вариации Ц К ;
- случайных колебаний (нерегулярного компонента) С Л .
125
Рисунок 6.2 – Структурная схема базовых компонентов рядов динамики
Поэтому в общем случае базовая модель динамического ряда представляет собой некие числа в этом ряду в виде произведений, полученных путем
перемножения указанных компонентов:
Исходные данные (ИД) = Т Р С З Ц К С Л
Дадим пояснения по поводу этих составляющих:
1 Долгосрочный тренд Т Р указывает действительное долгосрочное поведение временного ряда , как правило, в виде прямой линии или экспоненциальной кривой. Здесь имеется в виду движение, представляющее нормальное развитие явления (процесса) в течение длительного времени. Это движение является постоянным и медленным, оно отражает основную тенденцию
изменений. Например, возрастание добычи железной руды за последние 50
лет; развитие потребления электроэнергии за последние 10 лет.
2 Точно повторяющийся сезонный компонент С З определяет влияние
времени года. Сезонные колебания это изменения, происходящие в связи с
праздниками, различными событиями, обязательными распоряжениями,
влияние которых ограничивается определенным сроком. Сезонные изменения
бывают порой столь сильными, что нарушают основную линию развития
явления. Так, пассажирское движение на Российских железных дорогах очень
сильно увеличивается в периоды отпусков (июль-сентябрь). В замерзающих
зимой портах в декабре-марте не происходит вообще никакого движения
транспорта.
3 Среднесрочный циклический компонент Ц К
состоит из
последовательных повышений и понижений, которые не повторяются каждый
год. Циклические колебания это движение по принципу «туда и обратно». В
ос-нове лежит последовательная смена состояний подъема и спада, т.е. определенный экономический цикл.
126
4 Краткосрочный нерегулярный (случайный) компонент С Л
представляет остаточную вариацию, которую невозможно объяснить. Это
результат случайных колебаний. В нем проявляется действие тех однократных
событий, которые происходят с течением времени случайно, а не
систематически.
Колебания случайного характера выпадают из ритма изменений. Примером могут служить изменения, вызванные последствиями забастовок, финансового краха, издания новых законов в области налогообложения и проч.
В качестве графического пояснения дадим изображение динамического
ряда с разложением на все составляющие (рисунок 6.3).
Рисунок 6.3 – Базовые компоненты динамического ряда
Разграничение указанных четырех базовых компонентов (причин хронологических изменений) не всегда удается четко провести.
Итак, мы теперь знаем, что временное развитие процесса в общем случае складывается из нескольких составляющих (их четыре). Нас главным образом интересует тренд, поскольку именно он позволяет судить о динамике
развития изучаемого процесса и дает возможность заглянуть в будущее. Однако вокруг него «толпятся» другие факторы, которые путают общую картину и роль тренда может оказаться менее яркой, более размазанной. Вот почему важно уметь выделить:
а) влияние каждого из обсуждаемых факторов;
б) отметить их «весовой» вклад;
в) оценить, наконец, в чистом виде роль самого главного для нас
параметра – тренда.
Эти четыре базовых компонента временного ряда (тренд, сезонность,
циклический и нерегулярный компоненты) можно оценивать различными
способами. Наиболее удобным и часто применяемым является метод, который
называется отношением к скользящему среднему.
127
1
Скользящее среднее используется для устранения сезонных
эффектов путем усреднения по всему году, для уменьшения
нерегулярной составляющей и получения комбинации тренда и
циклического компонента.
2
Деление исходного ряда на сглаженный ряд скользящего
среднего дает нам отношение к скользящему среднему, которое
включает как сезонные, так и нерегулярные значения. Выполняя
группирование по времени года, а затем усреднение в полученных
группах, находим сезонный индекс для каждого времени года. Исполняя
после этого деление каждого значения ряда на соответствующий
сезонный индекс для соответствующего времени года, находим значения
с сезонной поправкой.
3
Регрессия ряда с сезонной поправкой по времени служит для
оценки долгосрочного тренда в виде прямой линии как функции от
времени. Этот тренд (тенденция) не отражает сезонных колебаний и дает
возможность получить прогноз с сезонной поправкой.
4
Прогнозирование можно выполнять с помощью сезонности
тренда. Получая из уравнения регрессии прогнозируемые значения
(тренд) для будущих периодов времени и затем умножая их на
соответствующий сезонный индекс, мы получаем прогнозы, которые
отражают как долгосрочную тенденцию, так и сезонное поведение.
5
Теперь познакомимся с анализом динамического ряда на
конкретном примере.
6
Студентка четвертого курса университета информатики и
радиоэлектроники Маша Хорошевская проходила производственную
практику в производственном отделе солидной торгово-закупочной
компании «Максимус», занимающейся поставками компонентов
радиоэлетроники для предприятий радиоэлектронной направленности. С
учетом имеющегося спроса на различного рода электронику руководство
фирмы заинтересовалось возможными перспективами на предстоящий
год. С этой целью производственному отделу было поручено
спрогнозировать объемы потребления товарной продукции фирмы.
Поскольку Маша в рамках изучения университетского курса
«Статистика» была знакома с особенностями анализа динамических
рядов, то шеф отдела решил поручить такую исследовательскую работу
будущему специалисту. Смышленая студентка, желая поддержать
реноме родного университета и утвердить собственные амбициозные
планы, активно включилась в увлекательный творческий процесс…
7
В таблице 6.1 приведены статистические данные о
квартальных продажах (в млн руб.) за три последних года (2014-2016).
По этим данным нужно получить прогнозные соображения относительно
перспектив на ближайший год (2017).
128
Таблица 6.1
Исходные данные о продажах
Год
2014
2015
2016
Квар
тал
I
II
III
IV
I
II
III
IV
I
II
III
IV
Про
дажа
, млн
1
1
1
1
1
2
2
1
2
2
2
2
руб. 130,6 131,4 127,1 118,4 149,9 203,8 202,3 196,2 225,7 243,5 265,7 257,3
Вот такая задача поставлена перед нашей студенткой. Постараемся
вместе с ней разобраться с этой проблемой.
6.3 Общее описание динамического процесса
Решение сформулированной задачи следует начать с представления
исходных данных в формате Excel. Для этого откроим Лист 1 и в нем организуем таблицу, в которую поместим столбиком показатели фактических продаж. В ячейках А1:С13 отметим заголовки, укажем необходимые временные
интервалы («Год», «Квартал»), а также в колонку с названием «Объем продаж»
введем сами статистические данные (рисунок 6.4) .
Рисунок 6.4 – Лист Excel с исходными данными
Построим теперь в графической форме анализируемую зависимость.
Во вкладке «Вставка» выберем «Диаграмма», затем «График» и «График
с маркерами». Выделив окно с графиком, перейдем в появившеюся вкладку
129
«Макет», где добавим названия осей. Получим график, имеющий вид,
представленный на рисунке 6.5.
Может оказаться, что габариты графика нас решительно не устраивают.
Для придания ему более благообразного и удобного вида выделим Область
диаграммы (должны появиться по периметру маркеры-засечки) и поменяем
размеры (указатель мыши подведем к маркерам – должны возникнуть двойные
стрелки, которые и нужно перемещать). Схожим образом можно изменить
габариты самого графика (в пределах имеющейся области диаграммы),
выделив Область построения диаграммы.
Теперь внимательно посмотрим на нашу экспериментальную зависимость. На основании визуального анализа можно отметить следующие особенности:
- фиксируются очевидные сезонные колебания (наблюдается спад в
четвертом квартале);
- просматривается определенная долговременная тенденция, а именно:
общее повышение объема продаж (кривая ползет вверх);
- наблюдается некоторая нерегулярность поведения.
Объем продаж, млн руб
300
250
200
150
100
50
I
II
III
2014
IV
I
II
III
2015
Время
IV
I
II
III
IV
2016
Рисунок 6.5 – График динамического ряда поквартальных продаж
7 Нанесем линию тренда, для этого во вкладке «Макет» выберем «Линия
тренда», а в раскрывшемся окне нажмем на «Дополнительные параметры
линии тренда», где в параметрах линии тренда выберем «Линейная» и отметим
команды «Показать уравнение на диаграмме» и «Поместить на диаграмме
величину достоверной аппроксимации R 2 ». После нажатия клавиши «ОК»
график примет окончательный вид (рисунок 6.6). Отметим, что наша
экспериментальная кривая характеризуется довольно большим показателем
статистического соответствия с линией тренда – аппроксимирующий
коэффициент (коэффициент детерминации) R 2 составляет 0,90. Это
130
свидетельствует о существовании сильной корреляционной связи между
изучаемыми совокупностями.
Объем продаж, млн руб
300
y = 14,305x + 94,679
R² = 0,9041
250
200
150
100
50
I
II
III
2014
IV
I
II
III
2015
Время
IV
I
II
III
IV
2016
Рисунок 6.6 – Исходные данные и линия тренда с уравнением регрессии
6.4 Вычисление скользящего среднего
Наша цель состоит в том, чтобы выделить четыре базовых компонента
ряда динамики. Разложение исходного динамического ряда на эти составляющие и позволяет получить четкую картину влияния каждого компонента.
Начнем с усреднения данных за год, чтобы избавиться от сезонного
компонента и уменьшить случайный (нерегулярный) компонент.
Скользящее среднее представляет собой новый ряд, полученный путем
усреднения соседних наблюдений динамического ряда и перехода к следующему периоду времени − в результате получится более гладкий ряд. Выполняя усреднение данных за целый год, мы приходим к тому, что вклад сезонных колебаний − независимо от времени года − остается практически
одинаковым. Суть метода скользящего среднего − замена абсолютных данных
средними арифметическими за определенные периоды. Расчет средних
величин ведется способом скольжения, т.е. постепенным исключением из
принятого периода скольжения первого уровня и включением следующего.
Здесь сглаживание динамического ряда можно осуществить, например,
методом трех-членной (скажем, за три месяца, т.е. за квартал) или
четырехчленной скользящей средней.
Для метода скользящего среднего условно можно записать следующие
процедуры:
- выполнить усреднение соседних наблюдений за определенный пери-од
(этот временной интервал принято называть «окном»), например, год;
- осуществить операцию скольжения, т.е. обеспечить переход к следующему среднему путем исключения из принятого «окна» первого уровня и
131
включения следующего – получается, что выбранный интервал («окно»)
скользит вдоль ряда.
Схематически это показано на рисунке 6.7.
Рисунок 6.7 – Сглаживание динамического ряда методом скользящего
среднего
Таким образом, скользящее среднее СС можно охарактеризовать как
показатель, учитывающий влияние тренда Т Р и цикличности Ц К :
Скользящие среднее ( СС )= Т Р Ц К
Найти скользящее среднее значение для поквартальных данных за
определенный период времени можно следующим образом.
1 Начнем с текущего значения y i и добавим к нему значения его
«соседей» справа yi +1 и слева yi −1 .
2 Прибавим затем половину значений следующих «соседей», т.е.
получится 0,5 yi + 2 и 0,5 yi −2 .
3 Имеющуюся сумму разделим на 4.
Такое взвешенное среднее нужно для того, чтобы интервал по обе стороны от базового периода времени был симметричным и вместе с тем охватывал в точности данные за один год. Взвешивая крайние точки коэффициентом 0,5, мы гарантируем, что этот квартал учтен в скользящем среднем точно
так же, как и другие кварталы.
132
Следовательно, можно записать так:
yi =
0,5 yi + yi −1 + yi + yi +1 + 0,5 yi + 2
и т.д.
4
Пояснение. В отечественной литературе по статистике рекомендуется
вторых (и третьих) «соседей» прибавлять справа и слева целиком (не делить
пополам):
y1 =
y1 =
y1 + y 2 + y3
y +y +y
; y 2 = 2 3 4 ; … или
3
3
y1 + y 2 + y3 + y 4
y +y +y +y
; y 2 = 2 3 4 5 и т.д.
4
4
В этой связи использование метода скользящего среднего учитывает
такую особенность, как размер окна сглаживания, длина которого может выражаться как четным, так и нечетным числом. В случае четного числа усредненное значение нельзя приписать какому-то определенному моменту времени, поскольку средняя величина может быть отнесена только к середине между
двумя смежными датами, находящимися в середине окна сглаживания. Для
определения сглаженных уровней при размере окна в виде четного числа
применяется так называемых «метод центрирования», который заключается в
нахождении среднего арифметического из двух смежных скользящих средних
для отнесения полученного уровня к определенной дате.
А теперь приступим собственно к решению нашей задачи. Напомним,
что нам нужно попытаться разложить временной ряд на его составляющие.
Расчет выполняется для случая суммирования «без крайних половинок».
Вначале займемся сглаживанием динамического ряда с помощью метода скользящего среднего. Предпримем следующие шаги.
1 Введем данные, приведенные в столбцах А:С (рисунок 6.4), на новый
лист. Для этого их скопируем и перенесем в Лист 2. Зарезервируем в колонках
А и В ячейки для четырех кварталов 2017 года (это в дальнейшем нам
потребуется на этапе построения прогноза).
2 Отметим заголовки (метки) «Раньше_ СС », «Позже_ СС » и
«Центриро-ванное_ СС » в ячейки D1:F1, как показано на рисунке 6.8.
3 Выделим ячейку D4 и введем формулу =СРЗНАЧ(С2:С5). Указан-ное
среднее первых четырех кварталов соответствует точке между вторым и
третьим кварталами. Оно расположено в строке третьей четверти и будет
обозначаться как «Раньше_СС».
4 Затем выделим ячейку Е4 и введем формулу =СРЗНАЧ(С3:С6). Тем
самым будет рассчитано среднее кварталов со второго по пятый и этому станет
соответствовать точка между третьим и четвертым кварталами. Это среднее
133
располагается также в строке третьей четверти и примет обозначение
«Позже_СС».
5 Выделим ячейку F4 и введем формулу =СРЗНАЧ(D4:Е4). Будет получено среднее значений «Раньше_СС» и «Позже_СС», которое покажет
центрированное значение для третьего квартала.
6 Теперь выделим ячейки D4:Е4 и щелкнем по маркеру заполнения в
правом нижнем углу выделенной области и протянем его к ячейке F11.
Полученные результаты представим с одним разрядом после запятой (рисунок
6.8).
Рисунок 6.8 – Лист Excel с центрированными скользящими средними
Чтобы на самой диаграмме отобразить скользящее среднее, проделаем
следующее.
7
Выделим ячейки С1:С13. Удерживая нажатой клавишу Ctrl,
активизируем диапазон ячеек F1:F13 и во вкладке «Вставка» выберем «График
с маркерами».
Перейдем во вкладку «Конструктор», где выберем «Выбрать данные». В
«Элементы легенды(ряды)» добавим информацию из диапазонов ячеек С2:С13
и F4:F11. В «Подписи горизонтальной оси(категории)» укажем диапазон
A2:B13. Во вкладке «Макет» добавим названия осей. Полученный результат
можно видеть на рисунке 6.9. Приведенный график следует толковать
следующим образом: удалось устранить сезонные и случайные колебания
объемов продаж сортовой металлопродукции, однако остался тренд и
сохранилось влияние циклического компонента.
134
300,0
Объем продаж, млн руб
250,0
200,0
150,0
Объем продаж, млн руб
100,0
Цен_СС
50,0
0,0
I
II
III
2014
IV
I
II
III
IV
I
II
2015
Время
III
IV
2016
Рисунок 6.9 – График фактических продаж и центрированных
скользящих средних
Чтобы выделить сезонное поведение, прежде всего, нужно получить
отношение исходных значений к скользящему среднему. Именно отсюда
происходит название «отношение к скользящему среднему». Полученный
результат будет включать сезонный и случайный компоненты, поскольку
скользящее среднее исключает из данных тренд и циклическую
составляющую.
Сказанное можно представить в такой записи:
Отношение к скользящему среднему=
ИД Т Р С З Ц к С Л
=
= СЗ С Л
СС
ТР ЦК
8
Введем метки «Отношение», «СрОтношение» и «Нормированные»
в ячейки G1:I1. Выделим ячейку G4 и запишем формулу =C4/F4. При
выделенной ячейке G4, нажмем клавишу «Enter», затем щелкнем по маркеру
заполнения и перетащим к ячейке G15. Результаты этой манипуляции
предстанут в столбце G (рисунок 6.10).
Данные числа являются отношением фактических продаж (абсолютных
данных) к скользящему среднему. Например, число 0,841 в ячейке G5
показывает, что фактические продажи за четвертый квартал 2014 года
составили 84,1 % от средних продаж в течение года.
135
Рисунок 6.10 - Лист Excel с сезонными индексами
6.5 Анализ сезонных колебаний
Теперь, чтобы устранить случайный (нерегулярный) компонент, мы
усредним эти значения для каждого сезона. Сезонный компонент проявляется,
поскольку он присутствует ежегодно, тогда как нерегулярный компонент, как
правило, удается усреднить.
Нужно будет рассчитать так называемый сезонный индекс, который
представляет собой усредненную сезонную компоненту на весь рассматриваемый период времени (для нашего примера – это три года). Для этого необходимо выбрать все отношения скользящего среднего за конкретный период,
например, третий квартал, их просуммировать и затем разделить на общее
число этих кварталов за рассматриваемый период (их будет два). И так следует поступить с остальными временными интервалами.
В удобном виде это можно представить так:
ИД
Сумма СС за соответствующий период
Сезонный индекс (СИн)=
Общее число n этого периода
9 Выделим ячейку Н2 и введем = (G6+G10)/2, а затем при выделенной
этой ячейке щелкнем по маркеру заполнения и протянем его к ячейке Н3.
10 Активизируем теперь уже ячейку Н4 и введем формулу =(G4+G8)/2,
выделенную ячейку (после клавиши «Enter») с помощью маркера перетащим в
позицию Н5. Результат можно увидеть в столбце Н (рисунок 6.10). Здесь даны
итоговые значения «Отношения» квартала для всех лет.
11 Теперь выделим ячейку Н6 и запустим опцию «Автосумма» на инструментальной панели (значок ∑). При отсутствии сезонного компонента
индекс должен быть равен 1,00, поэтому сумма всех четырех индексов должна
составлять 4. Для нормирования средних отношений (чтобы их сумма
136
равнялась четырем) выделим ячейку I2 и введем фор-мулу =H2*4/$H$6. При
выделенной I2 щелкнем по маркеру заполнения и протянем его к ячейке I5.
Выделим ячейку I6 и щелкнем дважды по инструменту «Автосумма».
Как видно, сумма сезонных индексов в столбце I будет равна 4 (рисунок 6.10).
Пояснение. Например, если рассмотреть третьи кварталы соответственно 2014 и
2015 годов, то для них расчет будет выглядеть так: (0,983+1,024)/2=1,004. После
нормирования этот показатель станет равным 1,020. Это и есть сезонный индекс для
третьего квартала. Он был получен путем усреднения отношений за третий квартал по всем
рассматриваемым годам.
Схожим образом выполнятся вычисления сезонного индекса и для
других кварталов.
12
Построим график в виде столбиковой диаграммы, иллюстрирующий типичную картину изменения сезонных индексов в течение года
(рис.6.11). Прием уже знакомый – выделим ячейки Н2:Н5, запустим «Мастер
диаграмм», а далее уже привычным способом. Заметим, что при выполнении
первого шага выберем график в виде гистограммы, затем при втором шаге в
окне «Подписи оси Х» отметим диапазон В2:В5 (там указаны номера
кварталов). И еще одно замечание. Для удобства столбики дополним
числовыми значениями индексов. Поступим так: при выполнении третьего
шага выберем вкладку «Подписи данных» и активизируем окно «Значения».
Можно затем придать более приятный вид диаграмме – изменить ширину столбцов, масштаб по оси ординат. Для этого последовательно следует
активизировать опции «Формат рядов данных» и «Формат оси». Чтобы вызвать
эти команды, нужно проделать следующее. В первом случае подведем маркер
к какому-либо столбцу и, нажав правую клавишу, вызовем нужное контекстное
меню. Во втором случае проделаем аналогичную процедуру, только маркером
следует предварительно указать ось ординат.
После того как вычислен каждый сезонный индекс, его можно использовать везде – даже там, где нельзя вычислить скользящее среднее, посколь-ку,
по определению, сезонные колебания в точности повторяются каждый год.
Рисунок 6.11 иллюстрирует типичную картину сезонных колебаний в
течение года. Представленный график надлежит понимать следующим
образом. Сезонные индексы для рассматриваемой ситуации показывают, что
объемы продаж металлопроката, как правило, достигают пика во втором
квартале (на 7,8 % выше среднегодового показателя, или так называемого
типичного квартала). Затем они падают до минимума в четвертом квартале (на
11,7 % ниже уровня типичного квартала), а затем снова повышаются вплоть до
сле-дующего второго квартала. И такая картина повторяется из года в год для
данного исследуемого процесса.
137
1,200
Сезонный индекс
1,000
1,078
1,004
0,973
0,883
0,800
0,600
0,400
0,200
0,000
I
II
III
IV
Кварталы
Рисунок 6.11 - Лист Excel с сезонными индексами
6.6 Поправка на сезонный фактор
Поправка на сезонные колебания − она устраняет из результатов
измерения ожидаемый сезонный компонент. Это позволяет сравнивать один
квартал или месяц с другим (после внесения поправки на сезон), выявляя тем
самым те или иные скрытые тенденции.
Поясним сказанное следующим примером. Так, для розничной торгов-ли
декабрь является обычно наиболее благополучным месяцем. Если объём
продаж в декабре оказывается выше по сравнению с ноябрем, то это вполне
ожидаемый результат. Но если объём продаж в декабре оказывается выше даже
по сравнению с ожидаемыми показателями, это значит, что даже с уче-том
поправки на сезонные колебания продажи существенно возросли. Если же
объём продаж в декабре оказался выше, чем ноябре, но все же меньше
ожидаемого, то можно говорить, что с поправкой на сезонные колебания декабрьские продажи на самом деле снижаются.
Чтобы найти некоторое значение с поправкой на сезонные колебания,
достаточно разделить исходные данные на сезонный индекс для соответствующего месяца или квартала.
Значение с поправкой на сезон=
=
Тр ∙Сз ∙Цк ∙Сл
СИн
Исходные данные(ИД)
=
Сезонный индекс
= Тр ∙Цк ∙Сл
Продолжим наши расчеты.
13 Укажем заголовки «СзИндекс», «Тренд», «Периоды» и «Прогноз» в
ячейках
138
J1:M1. Затем выделим ячейки I2:I5 и нажмем кнопку «Копировать» (или подругому: щелкнем правой клавишей мышки и в появившемся контекстном
меню выберем опцию «Копировать»). Выберем ячейку J2, щелкнем правой
клавишей и укажем «Специальная вставка» в контекстном меню. В диалоговом
окне «Специальная вставка» отметим
«Вставить значения» и «Нет» в разделе «Операция». Пункты
«Пропускать пустые ячейки» и «Транспортировать» оставим выключенными.
После чего – клавиша «ОК».
14 Скопируем содержимое ячеек J2:J5 и вставим их в ячейки J6, J10 и
J14. Получим столбец J, в котором периодически повторяются четыре числа –
сезонные индексы (коэффициенты сезонности).
15 Выделим теперь ячейку K2 и введем формулу =C2/J2. При активизированной ячейке K2 щелкнем маркером заполнения и протянем его до
позиции К13. Теперь в диапазоне К2:К13 будут находиться сезонноскорректированные данные.
16 Отметим ячейки К2:К13 и опцию «Копировать», затем щелкнем правой клавишей и в контекстном меню повторим знакомую процедуру:
Специальная вставка/Вставить значения/Операция/Нет. Проигнорируем
пункты «Пустые ячейки» и «Транспортировать» и затем «ОК».
17 При выделенных ячейках К2:К13 активизируем маркер заполнения и
протащим его к ячейке К17. Результаты будут представлены в столбце К. В
этом случае Excel дополнит ряд чисел К2:К17, используя линейный тренд
(рисунок 6.12).
Прокомментируем выполненные процедуры на конкретном примере.
Если обратиться к таблице на рис.6.12, то видно, что фактический объем
продаж во втором квартале 2016 года составил 243,5 млн руб. (см. ячейку С11),
а сезонный индекс для этого же периода равнялся 1,095 (ячейка J11). Результат
деления первого числа на второе, равный 222,4 млн руб. (ячейка К11), составит
объем продаж с поправкой на сезонные колебания.
Рисунок 6.12 - Лист Excel с сезонными индексами и прогнозом
139
Как видно, результат с поправкой на сезон оказался меньше фактического объема продаж. Дело в том, что объем продажи во втором квартале, как
правило, выше по сравнению с типичным кварталом года. В сущности, мы
заранее можем рассчитывать на то, что объем продаж во втором квартале будет
примерно на 9,5 % выше (исходя из сезонного индекса, равного 1,095). Деление
на сезонный индекс нивелирует влияние этой ожидаемой сезонной
флуктуации. В результате объем продажи во втором квартале приводится в
соответствие с типичным кварталом года (т.е. снижая его).
В следующем квартале (третьем, 2016 год) объем продажи с поправкой
на сезонные колебания равняется 265,7/1,020 = 260,7. Видно, что наблюдается
повышение фактического объема продаж (с 243,5 во втором квартале до 265,7
в третьем, т.е. на 9,2 %). Если же воспользоваться поправкой на сезон, то
окажется, что объем продажи и в этом случае возрос, но более существенно −
с 222,4 до 260,6, что составит 17,3 %. Это говорит о том, что отмеченное нами
повышение объема продаж на самом деле оказалось более серьезным, чем
можно было ожидать для этого времени года.
Еще пример. Так, бросается в глаза значительное снижение объема
продаж в четвертом квартале 2016 года (с 265,7 упало до 257,3, что составит –
3,2 %). Но если воспользоваться поправкой на сезон, то оказывается, что в этом
квартале фиксируется вполне приличный рост (с 260,7 до 286,7, т.е. на 7,7 %!).
Введение сезонной поправки, таким образом, позволяет получить более
объективное представление о реальном поведении исследуемой зависимости.
В нашем случае она показывает, что мы имеем дело с «настоящим» ростом
объема продаж, а не просто с сезонным увеличением.
18 Теперь нужно отобразить фактические значения продаж, сезонноскорректированные продажи, а также линейную экстраполяцию на диаграмме.
Для этого воспользуемся уже знакомым алгоритмом и получим график,
который показан на рисунке 6.13.
140
350,0
Объем продаж, млн руб
300,0
250,0
200,0
150,0
100,0
Объем продаж, млн руб
Тренд
50,0
0,0
I
II
III
2014
IV
I
II
III
IV
I
2015
II
III
2016
IV
I
II
III
IV
2017
Время
Рисунок 6.13 – Экстраполяция сезонно-скорректированных значений продаж
Графическое представление объемов продаж с поправкой на сезонные
колебания показывает, что динамический ряд оказывается более гладким, чем
исходные данные, поскольку нам удалось избавиться от сезонных отклонений.
Итак, только сейчас, на этом этапе, удалось полностью «очистить» наши
исходные данные от сезонного поведения. Вместе с тем сохраняется
маскирующее воздействие на тренд других составляющих – цикличности и
нерегулярности.
Продолжим анализ.
6.7 Долгосрочный тренд и прогноз с поправкой на сезонность
Когда динамический ряд демонстрирует долгосрочную линейную тенденцию к нарастанию или снижению, для оценки этой тенденции и прогнозирования будущего можно воспользоваться регрессионным анализом.
Регрессионный анализ в этом случае сводится к следующему. Для прогнозирования ряда, в котором учитывается поправка на сезонность (переменная у), используется период времени (переменная х). Результирующее уравнение регрессии будет представлять долгосрочный тренд. Подставляя будущие временные периоды в качестве новых значений х, мы получим возможность экстраполировать эту долгосрочную тенденцию в будущее.
При описании временных рядов важно выбрать числа так, чтобы они
были распределены равномерно. Этого можно добиться, если воспользоваться числами 1, 2, 3,… для представления непосредственно в виде номера временного периода (квартала или месяца).
141
Поэтому в нашей таблице (рисунок 6.12) используем зарезервированную
колонку «Период», где укажем в виде номеров (от 1 до 16) кварталы за весь
анализируемый временной интервал, т.е. 2014-2016 годы.
Построим график. Для этого воспользуемся уже знакомыми командами
(см. пункты 1-7). Используем данные, расположенные в столбцах C, K и L.
Фактически получится график (рисунок 6.14), аналогичный показанному ранее
на рис.6.5. Отличие только в том, что в данном случае уравнение регрессии построено на основании данных, учитывающих сезонные колебания и
рассматривающих более продолжительный временной интервал (четыре года,
а не три). Зависимость, как и следовало ожидать, хорошо описывается
линейной функцией и характеризуется более высокой достоверностью
(коэффициент детерминации R 2 близок к 1).
350
300
y = 14,976x + 91,397
R² = 0,9489
Объем продаж, млн руб
250
200
Ряд с поправкой на
сезонность
150
Линейный тренд
100
50
1
2
3
4
5
6
7
8
9
10
Номер квартала
11
12
13
14
15
16
Рисунок 6.14 – Тренд с учетом сезонности и линия регрессии
Небольшое добавление. Чтобы на полях графика разместить поясняющие надписи («Ряд с поправкой на сезонность», «Линия регрессии»), нужно
запустить опцию «Исходные данные» во вкладке «Ряд», и заполнить соответствующей фразой позицию «Имя». В левом окошке «Ряд» появится данная запись. При необходимости можно вводить следующую фразу, активизировав
функцию «Добавить».
Таким образом, уравнение регрессии, построенное посредством метода
наименьших квадратов, имеет следующий вид:
y = 89,7 + 15,2 x .
Оно показывает, что объемы продаж сортовой металлопродукции компании «Максимус» увеличиваются в среднем на 15,2 млн руб. за квартал.
Этот долгосрочный тренд легко прогнозировать, подставляя в уравнение регрессии соответствующий временной период. Например, чтобы найти
142
значение тренда для первого квартала 2014 года, нужно использовать значение x =13, которое будет представлять период времени, следующий за окончанием нашего временного ряда. В этом случае прогноз будет иметь следующий вид:
y = 89,7 + 15,2 13 = 287,2
(в млн руб.).
В нашей основной таблице (рис.6.12) представлены прогнозируемые
значения (показатели долгосрочного тренда и его прогноз на один год вперед
по отношению к имеющимся у нас данным).
Таким образом, линия тренда отражает поведение динамического ряда: с
одной стороны, учитывается поправка на сезонные колебания, а с другой, –
благодаря экстраполяции – определяется прогноз на будущее (с поправкой на
сезонность).
6.8 Прогноз: тренд с учетом сезонности
Чтобы в полной мере иметь возможность прогнозировать будущее,
нужно учесть сезонность в долгосрочном тренде. Иначе говоря, следует вернуть ему ожидаемую сезонную изменчивость. Для этого достаточно умножить
значение тренда на значение сезонного индекса для того периода вре-мени,
который подлежит прогнозу. Фактически этот процесс является обратным по
отношению к внесению поправки на сезонные колебания.
Результирующий прогноз включает долгосрочный тренд и сезонную
вариацию:
Прогноз = Т Р СИн
Чтобы предсказать объемы продаж компании «Максимус» за первый
квартал 2014 года, достаточно умножить значение тренда, равное 287,2 (вычисляется с помощью уравнения регрессии для 13-го временного периода), на
сезонный индекс для первого квартала, равный 0,988:
287,2∙0,988 = 283,8 (в млн руб.).
Мы проделали такую рутинную операцию, чтобы было понятно, каким
образом получились прогнозные показатели. А теперь проделаем это же самое, используя возможности Excel.
19 Совместим сезонный компонент и тренд в прогнозе. Для этого выделим ячейку М14 и введем формулу =J14*K14. Затем при выделенной ячейке
М14 дважды щелкнем маркером заполнения – итоговые данные можно видеть
на рисунке 6.12. Тем самым получим прогнозные данные на год вперед (на
2016-й) по отношению к имеющимся данным.
143
20 Перейдем к заключительному этапу – построим график, иллюстрирующий наши фактические данные по поводу продаж и, самое главное, взгляд
в будущее, т.е. долгожданный прогноз. Построим график в привычном режиме.
Итоговый результат можно видеть на рисунке 6.15.
350,0
Объем продаж, млн руб
300,0
250,0
200,0
150,0
100,0
50,0
0,0
I
II
III
2014
IV
I
II
III
IV
I
2015
II
III
2016
IV
I
II
III
IV
2017
Время
Рисунок 6.15 – Фактические данные объема продаж и результаты
прогнозирования на 2017 год
Таким образом, график показывает, как этот тренд, учитывающий сезонность, отражает анализируемый нами ряд и продолжается (путем экстраполяции) вправо, обеспечивая достаточно надежные прогнозы, включающие
ожидаемое сезонное падение объемов продаж.
Итак, на этом наше исследование закончено. Полагаем, что руководство
компании надлежащим образом оценило усердие и способности Маши
Хорошевской и прозрачно намекнуло на желательность иметь в своем штате
такого полезного сотрудника.
И последнее. Напомним, что практически все прогнозы не очень-то достоверны. В конце концов, нерегулярный компонент невозможно предсказать
по определению.
Однако положительная роль прогнозов заключается хотя бы в том, что
они позволяют выявить долгосрочные тенденции нарастания (или убывания),
а также повторяющиеся сезонные колебания. В нашем случае было бы заманчиво провести сравнения между фактическими значениями объемов продаж в 2017 году с тем, что дает прогноз. Тогда можно будет достаточно
определенно судить о надежности наших прогнозных предсказаний.
144
ПРИЛОЖЕНИЕ А
(справочное)
Статистическая таблица значения t-критерия в зависимости от доверительной
вероятности Р и числа измерений n
Таблица А.1
Статистическая таблица значения t-критерия в зависимости
от доверительной вероятности Р и числа измерений n
n
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
0,6
1,376
1,061
0,978
0,941
0,920
0,906
0,896
0,889
0,883
0,879
0,876
0,873
0,870
0,868
0,866
0,865
0,863
0,862
0,861
0,860
0,859
0,858
0,858
0,857
0,856
0,856
0,855
0,855
0,854
0,854
Коэффициенты Стьюдента
Значения Р
0,8
0,95
0,99
3,078
12,706
63,657
1,886
4,303
9,925
1,638
3,182
5,841
1,533
2,776
4,604
1,476
2,571
4,032
1,440
2,447
3,707
1,415
2,365
3,499
1,397
2,306
3,355
1,383
2,262
3,250
1,372
2,228
3,169
1,363
2,201
3,106
1,356
2,179
3,055
1,350
2,160
3,012
1,345
2,145
2,977
1,341
2,131
2,947
1,337
2,120
2,921
1,333
2,110
2,898
1,330
2,101
2,878
1,328
2,093
2,861
1,325
2,086
2,845
1,323
2,080
2,831
1,321
2,074
2,819
1,319
2,069
2,807
1,318
2,064
2,797
1,316
2,060
2,787
1,315
2,056
2,779
1,314
2,052
2,771
1,313
2,048
2,763
1,311
2,045
2,756
1,310
2,042
2,750
0,999
636,61
31,598
12,941
8,610
6,859
5,959
5,405
5,041
4,781
4,587
4,437
4,318
4,221
4,140
4,073
4,015
3,965
3,922
3,883
3,850
3,819
3,792
3,767
3,745
3,725
3,707
3,690
3,674
3,659
3,646
145
n
40
60
120
∞
0,6
0,851
0,848
0,845
0,842
Коэффициенты Стьюдента
Значения Р
0,8
0,95
0,99
1,303
2,021
2,704
1,296
2,000
2,660
1,289
1,980
2,617
1,282
1,960
2,576
0,999
3,551
3,460
3,373
3,291
146
ПРИЛОЖЕНИЕ Б
(справочное)
Квантили распределения максимального относительного отклонения при
отсеве грубых погрешностей
Таблица Б.1
Квантили распределения максимального относительного отклонения
при отсеве грубых погрешностей
Уровни значимости
Уровни значимости
n
n
0,1
0,05
0,025
0,01
0,1
0,05
0,025
0,01
3
1,41
1,41
1,41
1,41
15
2,33
2,49
2,64
2,80
4
1,65
1,69
1,71
1,72
16
2,35
2,52
2,67
2,84
5
1,79
1,87
1,92
1,96
17
2,38
2,55
2,70
2,87
6
1,89
2,00
2,07
2,13
18
2,40
2,58
2,73
2,90
7
1,97
2,09
2,18
2,27
19
2,43
2,60
2,75
2,93
8
2,04
2,17
2,27
2,37
20
2,45
2,62
2,78
2,96
9
2,10
2,24
2,35
2,46
21
2,47
2,64
2,80
2;98
10
2,15
2,29
2,41
2,54
22
2,49
2,66
2,82
3,01
11
2,19
2,34
2,47
2,61
23
2,50
2,68
2,84
3,03
12
2,23
2,39
2,52
2,66
24
2,52
2,70
2,86
3,05
13
2,26
2,43
2,56
2,71
25
2,54
2,72
2,88
3,07
14
2,30
2,46
2,60
2,76
–
–
–
–
–
147
ПРИЛОЖЕНИЕ В
(справочное)
Критические значения корреляции rкрит для уровня значимости и степени
свободы f
Таблица В.1
Критические значения корреляции rкрит для уровня
значимости и степени свободы f
f
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
25
30
35
40
45
50
60
70
80
90
100
0,1
0,05
0,01
0,988
0,900
0,805
0,729
0,669
0,622
0,582
0,549
0,521
0,497
0,476
0,457
0,441
0,426
0,412
0,400
0,389
0,378
0,369
0,360
0,323
0,296
0,275
0,257
0,243
0,231
0,211
0,195
0,183
0,173
0,164
0,997
0,950
0,878
0,811
0,754
0,707
0,666
0,632
0,602
0,576
0,553
0,532
0,514
0,497
0,482
0,468
0,455
0,444
0,433
0,423
0,381
0,349
0,325
0,304
0,287
0,273
0,250
0,232
0,217
0,205
0,196
0,999
0,990
0,959
0,917
0,874
0,834
0,798
0,765
0,735
0,708
0,684
0,661
0,641
0,623
0,606
0,590
0,575
0,561
0,549
0,537
0,487
0,449
0,418
0,393
0,372
0,354
0,325
0,302
0,283
0,267
0,254
148
ПРИЛОЖЕНИЕ Г
(справочное)
Значения коэффициента корреляции рангов Спирмена для уровня
значимости и числа измерений n
Таблица Г.1
Значения коэффициента корреляции рангов Спирмена
для уровня значимости и числа измерений n
n
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
0,1
0,800
0,800
0,771
0,679
0,619
0,583
0,552
0,527
0,496
0,478
0,459
0,443
0,426
0,412
0,399
0,390
0,379
0,369
0,360
0,352
0,344
0,336
0,330
0,324
0,318
0,311
0,306
0,05
–
0,900
0,829
0,745
0,714
0,683
0,636
0,609
0,580
0,555
0,534
0,518
0,500
0,485
0,472
0,458
0,445
0,435
0,424
0,415
0,406
0,398
0,389
0,382
0,375
0,368
0,362
0,01
–
–
0,943
0,893
0,857
0,817
0,782
0,746
0,727
0,698
0,675
0,654
0,632
0,615
0,598
0,582
0,568
0,554
0,543
0,531
0,520
0,510
0,500
0,492
0,483
0,474
0,466
149
ПРИЛОЖЕНИЕ Д
(справочное)
Значения F-критерия для уровня значимости = 0,05 и числа степеней
свободы f
Таблица Д.1
Значения F-критерия для уровня значимости = 0,05 и числа
степеней свободы f
f2
f1
1
2
3
4
5
6
8
12
20
30
1
161,45 199,5 215,71 224,58 230,16 234,00 238,90 243,91 248,01 250,10
2
18,51 19,00 19,16 19,25 19,30 19,33 19,37 19,41 19,45 19,46
3
10,13
9,55
9,28
9,12
9,01
8,94
8,86
8,74
8,66
8,62
4
7,71
6,94
6,59
6,39
6,26
6,16
6,04
5,91
5,80
5,75
5
6,61
5,79
5,41
5,19
5,05
4,95
4,82
4,68
4,56
4,50
6
5,99
5,14
4,76
4,53
4,39
4,28
4,15
4,00
3,87
3,81
8
5,32
4,46
4,07
3,84
3,69
3,58
3,44
3,28
3,15
3,08
10
4,96
4,10
3,71
3,48
3,33
3,22
3,07
2,91
2,77
2,70
12
4,75
3,88
3,49
3,26
3,11
3,00
2,85
2,69
2,54
2,47
20
4,35
3,49
3,10
2,87
2,71
2,60
2,45
2,28
2,12
2,04
30
4,17
3,32
2,92
2,69
2,53
2,42
2,27
2,09
1,93
1,84
150
ПРИЛОЖЕНИЕ Е
(справочное)
2
Критические значения R для уровня значимости , числа переменных
(аргументов) x и количества опытов n
Таблица Е.1
Критические значения R 2 для уровня значимости , числа
переменных (аргументов) x и количества опытов n
0,1
Число
опытов n
3
4
5
6
7
8
9
10
11
12
13
14
15
16
18
20
22
24
26
28
30
1
0,976
0,810
0,649
0,532
0,448
0,386
0,339
0,302
0,272
0,247
0,227
0,209
0,194
0,181
0,160
0,143
0,129
0,118
0,109
0,101
0,094
2
–
0,990
0,900
0,785
0,684
0,602
0,536
0,482
0,438
0,401
0,369
0,342
0,319
0,298
0,264
0,237
0,215
0,197
0,181
0,168
0,157
3
–
–
0,994
0,932
0,844
0,759
0,685
0,622
0,568
0,523
0,484
0,450
0,420
0,394
0,351
0,316
0,287
0,263
0,243
0,2225
0,210
Уровень значимости
0,05
Число переменных х
1
2
3
0,994
–
–
0,902
0,997
–
0,771
0,950
0,998
0,658
0,864
0,966
0,569
0,776
0,903
0,499
0,698
0,832
0,444
0,632
0,764
0,399
0,575
0,704
0,362
0,527
0,651
0,332
0,486
0,604
0,306
0,451
0,563
0,283
0,420
0,527
0,264
0,393
0,495
0,247
0,369
0,466
0,219
0,329
0,417
0,197
0,297
0,378
0,179
0,270
0,345
0,164
0,248
0,317
0,151
0,229
0,294
0,140
0,213
0,273
0,130
0,199
0,256
0,01
1
1,000
0,980
0,919
0,841
0,765
0,696
0,636
0,585
0,540
0,501
0,467
0,437
0,411
0,388
0,348
0,315
0,288
0,265
0,246
0,229
0,214
2
–
1,000
0,990
0,954
0,900
0,842
0,785
0,732
0,684
0,641
0,602
0,567
0,536
0,508
0,459
0,418
0,384
0,355
0,330
0,308
0,289
3
–
–
1,000
0,993
0,967
0,926
0,879
0,830
0,784
0,740
0,700
0,663
0,629
0,598
0,544
0,498
0,459
0,426
0,396
0,371
0,349
151
ПРИЛОЖЕНИЕ Ж
(справочное)
2
Значения критерия табл для уровня значимости и степени свободы f
Таблица Ж.1
2
Значения критерия табл
для уровня значимости и степени свободы f
f
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
0,1
2,71
4,61
6,25
7,78
9,24
10,64
12,02
13,36
14,68
15,99
17,28
18,55
19,81
21,06
22,31
23,54
24,77
25,99
27,20
28,41
29,62
30,81
32,01
33,20
34,38
35,56
36,74
37,92
39,09
40,26
51,80
63,17
74,40
85,53
96,58
107,56
118,50
0,05
3,84
5,99
7,81
9,49
11,07
12,59
14,07
15,51
16,92
18,31
19,68
21,03
22,36
23,68
25,00
26,30
27,59
28,87
30,14
31,41
32,67
33,92
34,17
36,42
37,65
38,89
40,11
41,34
42,56
43,77
55,76
67,50
79,08
90,53
101,88
113,14
124,34
0,01
6,63
9,21
11,34
13,28
15,09
16,81
18,48
20,09
21,67
23,21
24,72
26,22
27,69
29,14
30,58
32,00
33,41
34,81
36,19
37,57
38,93
40,29
41,64
42,98
44,31
45,64
46,96
48,28
49,59
50,89
63,69
76,15
88,38
100,42
112,33
124,12
135,81
152
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1 Бараз, В.Р. Корреляционно-регрессионный анализ связи показателей
коммерческой деятельности с использованием программы Excel: учебное
пособие. – Екатеринбург : ГОУ ВПО «УГ-ТУ-УПИ»,2005. – 103 с.
2 Бараз, В.Р. Применение программы Excel для статистических
расчетов в материаловедении : учебное пособие. – Екатеринбург : ГОУ ВПО
«УГ-ТУ-УПИ»,2003. – 46 с.
3 Сигал, Э. Практическая бизнес-статистика.– М.: издательский дом
«Вильямс», 2002. – 1056 с.
4 Годин, А.М. Статистика:учебник. М.: издательско-торговая
корпорация «Дашков и К°», 2002. – 368 с.
5 Хайкин, Б.Е. Построение аппроксимационных математических
моделей в условиях обработки металлов давлением: учебное пособие. –
Свердловск: УПИ, 1991. – 101 с.
6 Макарова , Н. В., Трофимец В.Я. Статистика в Excel: учебное
пособие. – М.: Финансы и статистика, 2002. – 192 с.
153
Св. план 2017, поз.
Учебное издание
Алексеев Виктор Федорович
Пискун Геннадий Адамович
МЕТОДЫ КОМПЬЮТЕРНОЙ ОБРАБОТКИ
ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
Рекомендовано кафедрой проектирования информационно-компьютерных
систем в качестве учебно-методического пособия
для магистрантов высших учебных заведений специальности
1-39 81 01 Компьютерные технологии проектирования электронных систем
Ответственный за выпуск В.Ф.Алексеев
Редактор
Корректор
Компьютерная верстка В.Ф.Алексеев
Подписано в печать
Формат 60х84 1/16. Бумага офсетная. Гарнитура «Таймс»
Отпечатано на ризографе. Усл. печ. л. 11,25. Уч.-изд. л. 14,9.Тираж 100 экз.
Заказ
Издатель и полиграфическое исполнение: учреждение образования
«Белорусский государственный университет информатики и радиоэлектроники».
Свидетельство о государственной регистрации издателя, изготовителя,
распространителя печатных изданий №1/238 от 24.03.2014,
№2/113 от 07.04.2014, №3/615 от 07.04.2014.
ЛП № 02330/264 от 14.04.2014.
220013, Минск, П.Бровки, 6
154