«Статистика» - конспект лекции

Конспект лекции по дисциплине «Статистика», Word формат

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное автономное образовательное учреждение высшего профессионального образования «САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ» Кафедра №85 СТАТИСТИКА Методы анализа статистической информации Текст лекций Санкт - Петербург 1. МЕТОДОЛОГИЯ СТАТИСТИЧЕСКИХ СРАВНЕНИЙ 1.1. Основные принципы статистического сравнения Сравнение (сопоставление) данных является основным приемом статистического анализа. Применяются два способа сопоставления статистических данных  разностное сопоставление и относительное сопоставление. Разностное – это нахождение разности между сопоставляемыми величинами, относительное – нахождение отношения, частного от деления одной величины на другую. Разность показывает, на сколько одна величина больше (или меньше) другой. Отношение показывает, во сколько раз одна величина больше другой, или какую долю (сколько процентов) составляет одна по отношению к другой. Путем сопоставления данных получаются некоторые общие показатели, например, относительные величины. Сравнения применяются во всех науках – естественных, технических, экономических, гуманитарных, социальных и др. Сравнения в экономических исследованиях имеют большое теоретическое и практическое значение. Теоретическое значение заключается в том, что сравнения выступают важнейшим методом научных обобщений и обоснований, формирования экономических показателей и понятий. Практическое значение сравнений состоит в том, что, являясь средством временного и пространственного анализа, они способствуют подготовке и принятию оптимальных решений, помогают выявлять резервы производства. Главной целью сравнительного анализа является исследование отношений сходства и различия объектов. Отношения сходства свидетельствуют о той или иной связи, родстве, едином происхождении или действии одинаковых причин и законов различных явлений и процессов. Отношения различия выражают своеобразие, специфику отдельных явлений и их частей. Сходство и различие может быть выражено в разной степени. Те из объектов и явлений, у которых больше сходства, чем различия, как среди существенных, так и несущественных признаков, могут быть названы сходными. Если объекты содержат больше различий, чем сходств признаков, они считаются несходными. Наивысшее сходство существенных и несущественных признаков свидетельствует о тождестве объектов, наивысшее различие, доходящее до взаимоисключения друг друга, характеризует объекты как противоположные. Сравнения делятся на качественные (описательные) и количественные. Качественные сравнения относятся, как правило, к объектам, характеризуемым одним обобщенным свойством или системой свойств, и дают общую информацию об отношении сравниваемых объектов. Сравнения в экономике являются количественными, так как они оперируют со множеством объектов, характеризуемыми значениями различных показателей. 2 Все многообразие экономических сравнений подразделяется на сравнение одноименных и разноименных явлений. Одноименные объекты (явления) количественно могут быть различными во времени или в пространстве. Посредством сравнений устанавливаются различия плановых и отчетных данных (например, относительные показатели выполнения плана). Одноименные объекты, с которым сравниваются исследуемые объекты, называются базой сравнения. Различаются три основных вида баз сравнения – предшествующий период, пространственный объект, план (норматив или другой расчетный показатель). При этом сравнения объектов в пространстве могут быть сравнением территориальных объектов (область с областью, город с городом) и сравнением данных по аналогичным объектам (предприятие с предприятием). Сравнения разноименных явлений, выраженных в виде относительных показателей, делятся на: сравнения явлений, находящихся в причинно– следственных связях; сравнение явлений, находящихся в некоторой общей связи (например, относительные показатели координации); сравнения явлений с породившей их средой (относительные показатели интенсивности) и ряд других разновидностей. В экономических исследованиях большое значение имеет сравнение разноименных показателей, находящихся в причинно–следственных связях, например, объема продукции и численности работников, участвующих в ее производстве; объема продукции и стоимости основных фондов. В результате таких сравнений образуются относительные показатели причинно–следственных связей, в данном случае показатели производительности труда и фондоотдачи. Процедура сравнения может быть осуществлена тогда, когда сравниваемые объекты сравнимы, т.е. имеют между собой нечто общее, что является основанием для сравнения. Сравнимость (несравнимость) данных в общем виде зависит от продолжительности интервала времени, в пределах которого производится сравнение. Чем дальше во времени отстоят сравниваемые объекты, тем большую несравнимость исследуемых объектов можно ожидать. Сравнимость зависит от сложности исследуемых явлений: чем сложнее сравниваемые явления, тем больше вероятность их несравнимости. Таким образом, в зависимости от цели, поставленной перед сравнениями, продолжительности периода, охватываемого исследованиями, сложности изучаемых объектов или явлений и других факторов может наблюдаться различная степень сравнимости или несравнимости объектов, однородности или неоднородности их совокупностей. Главным условием сравнимости является однородность исследуемых явлений, т.е. сравнение однородных величин. Однородность представляет собой социально–экономическую или функционально–техническую однокачественность. Например, однородны государственные предприятия, поскольку они основаны на государственной собственности. Однородность означает не тождественность, а однотипность явлений. Одной из важнейших 3 задач статистического исследования является приведение сравнимому (сопоставимому) виду. данных к 1.2. Приведение статистических данных к сопоставимому виду Приведение статистических данных к сопоставимому виду представляет собой устранение причин несопоставимости статистических данных в пространстве, во времени, в содержании или методологии их расчета. Оно достигается пересчетом данных: приведением данных к одним и тем же единицам измерения; отграничением и выделением из всего объема данных однородной и сопоставимой совокупности (сопоставимого круга); заменой абсолютных величин относительными величинами; заменой абсолютных величин средними величинами; специальной группировкой материала; перегруппировкой данных (метод вторичной группировки); стандартизацией структуры совокупности; классификацией статистических данных. Если данные оказались несопоставимыми вследствие изменения территориальных (или административно–ведомственных) границ, то они могут быть приведены пересчетом в одни и те же территориальные или административно–ведомственные границы, обычно новые. Также пересчет осуществляется тогда, когда данные несопоставимы во времени вследствие того, что в одних случаях регистрация их производилась на одну дату, а в других – на другую. В случаях, когда данные несопоставимы вследствие разной методологии их вычисления, сопоставимости можно добиться, рассчитав величины показателя для всех случаев по одной и той же методологии. Особенно часто к таким пересчетам приходится прибегать в международных сопоставлениях. Если сопоставляются данные в денежном выражении и оказывается, что они несопоставимы вследствие того, что в одних случаях был принят один уровень цен, в других – другой, то данные могут быть приведены к сопоставимому виду пересчетом в единые, так называемые сопоставимые, или неизменные цены. Это может быть достигнуто прямой непосредственной оценкой изучаемого показателя или отдельных его элементов в сопоставимых ценах или посредством индекса цен. Многие показатели измеряются в разных единицах измерения, что затрудняет сопоставление данных, приведение таких данных к одним и тем же единицам измерения во многих случаях производится при помощи соответствующих коэффициентов перевода одних единиц измерения в другие (использование, например, условно–натуральных единиц). В данных за различное время, или относящихся к разным территориям, необходимо выделить один и тот же круг единиц изучаемой совокупности. Например, если в одном случае приведены данные по предприятиям, включая частные предприятия, а в другом – без частных предприятий, то для приведе4 ния данных к сопоставимому виду необходимо либо в первом случае исключить данные о частных предприятиях, либо во втором прибавить их. Иногда сопоставимость данных достигается путем замены абсолютных величин относительными. Относительные величины можно сравнивать, так как они обладают свойством абстрагироваться от различия абсолютных величин. В ряде случаев данные, несопоставимые по суммарному значению показателя, сопоставимы по его средним размерам. Если общие итоговые цифры по изучаемой совокупности в целом оказываются несопоставимыми, можно воспользоваться методом группировок – разбить совокупность на типичные группы, в пределах которых данные могут оказаться пригодными для сравнений. Если две группировки одноименных объектов, произведенные для различных территорий или в разное время, несопоставимы между собой (разные интервалы группировки, разное число групп, разные признаки группировки), для приведения их к сопоставимому виду можно воспользоваться методом вторичной группировки. Иногда средние и относительные величины несопоставимы между собой вследствие различий в структурах статистических совокупностей, для которых они рассчитаны. В таких случаях их рассчитывают по одинаковой, стандартной структуре совокупности. В качестве стандартной может быть принята одна из этих структур или какая–нибудь другая, специально взятая для этих целей. Показатели, рассчитанные таким образом, называются стандартизованными. Стандартизация статистических показателей чаще всего применяется в статистике населения, а также при построении территориальных индексов. Для выделения однородных совокупностей могут использоваться статистические классификации, которые являются разновидностью группировок. Классификации отличаются от группировок единообразным и подробным разделением изучаемого явления на группы и подгруппы по основным, обычно качественным, признакам, они имеют общеметодологическое, программное значение. Классификации вырабатываются на длительное время, имеют фундаментальное значение для всей программы статистических работ. Таким образом, классификация – это устойчивая фундаментальная группировка по атрибутивному (качественному) признаку, содержащая подробную номенклатуру групп и подгрупп, перечень которых рассматривается как статистический стандарт. Например, классификация отраслей народного хозяйства, классификация профессий, классификация отраслей промышленности и т.д. Процесс классификации включает следующие процедуры: отбор существенных признаков, описывающих объекты классификации, их нормирование, выявление сходства и различия объектов классификации, оформляемое в виде матриц близостей или расстояний между точками векторного пространства, изображающими объекты. Выделение информативных признаков позволяет снизить размерность пространства (при 5 многомерных наблюдениях), в котором решается задача классификации. В зависимости от используемых методов и вида априорной информации о классах различаются следующие разновидности классификации: распознавание образов, таксономия, кластерный анализ, дискриминантный анализ, экспертный метод. 1.3. Международные сопоставления статистической информации Международные сопоставления направлены на достижение сравнимости показателей социально–экономического развития различных стран или их групп. В разных странах, как правило, не совпадают количество публикуемых статистических сведений и приемы их сбора, содержание и способы построения стоимостных показателей, применяемые экономические классификации. Международные сопоставления проводятся на основе унификации экономического содержания сравниваемых стоимостных показателей и их пересчета из национальной валюты в сопоставимую (единую) валюту. Для сравнения важнейших стоимостных показателей развития народного хозяйства различных стран (национальный доход, капитальные вложения, продукция промышленности и сельского хозяйства) применяется индексный метод. Исторически международные сопоставления получили развитие в начале ХХ в. После 1–й мировой войны начались разработки данных о натуральных показателях производства, курсах валют, мировых индексах промышленного производства. Мировые индексы вычислялись как средние взвешенные из национальных индексов. После 2–й мировой войны начали проводиться развернутые экономические соизмерения на базе межгосударственных соглашений в рамках Организации европейского экономического сотрудничества (с 1961 – Организация экономического сотрудничества и развития, ОЭСР) были проведены международные сопоставления валового национального продукта (ВНП) западноевропейских стран (Англия, Бельгия, Дания, Италия, Нидерланды, Норвегия, Франция, ФРГ) и США. Для международных сопоставлений был использован индексный метод на базе подобранных 150 товаров–представителей с ценами; индексы цен рассчитывались как соотношение валют США и каждой из сопоставляемых стран. В рамках Европейского экономического сообщества были проведены международные сопоставления по данным за 1970, 1975, 1980 годы на основе отобранных товаров–представителей многосторонним методом, в котором для сравнения использовались международные цены. Развернутые сопоставления валового внутреннего продукта (ВВП) были проведены Статистической комиссией ООН по данным за 1967 г. и 1970 г. (10 стран), 1973 г.(16 стран), 1975 г.(34 страны). На 4–м этапе за 1980 г. и последующих этапах за 1985 г. и далее международные сопоставления в 6 рамках ООН проводились по региональному принципу: страны мира разделены на несколько регионов. Вначале осуществлялось сопоставление показателей стран внутри региона, затем региональные результаты международных сопоставлений увязывались между собой. Для сопоставления показателей использовались средние международные цены. Индексный метод в международных сопоставлениях, применяемый для анализа уровня и динамики социально–экономического развития стран, используется для парных, многосторонних (группы стран) и региональных сопоставлений. В современных условиях применяются как простейшие индексы, основанные на данных национальной статистики, простые формы агрегатных индексов, так и индексы, исчисляемые с помощью метода главных компонент и кластерного анализа, и индексы, рассчитываемые при помощи специального математического аппарата международных соизмерителей (цен и т.д.). Выбор способа расчета индексов (формул индексов, весов, способов агрегирования частных индексов в средние) зависит от экономического содержания, целей и задач международного сопоставления, от исходной информации, степени ее детализации, точности и сопоставимости, а также от аналитических требований, предъявляемых к индексам международных сравнений. К основным аналитическим требованиям относятся: характерность – применяемые системы весов и соизмерителей должны отражать национальные особенности структур показателей и систем соизмерителей всех сравниваемых стран; инвариантность – независимость результатов от выбора базы сравнения; транзитивность – результаты прямых парных сопоставлений должны равняться результатам косвенных сопоставлений через третьи страны; внутренняя согласованность – индексы для показателя в целом должны согласовываться с индексами для составляющих его элементов. В международных сопоставлениях макроэкономических стоимостных показателей в основном используется индексный метод на основе товаров– представителей. Общая схема этого метода заключается в следующем: экспертным путем отбираются идентичные или аналогичные товары– предста–вители; определяются национальные цены и групповые индексы цен; рассчитываются сводные индексы цен, которые используются для переоценки в сравнимую валюту. До 70–х гг. проводились, как правило, парные сопоставления: исчислялись индексы на основе цен для двух стран (индексы Ласпейреса и Пааше), которые для получения однозначного результата усреднялись по формуле невзвешенной геометрической средней. Парные сопоставления стран с последующим сведением их в единую систему обеспечивают относительную характерность результатов, однако нетранзитивность индексов может приводить к противоречивым результатам сравнения. 7 Для многосторонних сопоставлений были разработаны особые методы, которые можно применять на различных ступенях агрегирования показателей. Первая группа включает методы, основанные на усреднении индексов парных сопоставлений (методы Уолша, Эджворта, метод ЭКШ (Элтете, Кэвеш, Шульц) и др.). Методы второй группы (методы Ван Изерена, Гири–Камиса, Жерарди и др.) основываются на использовании средних расчетных международных цен, которые исчисляются как средние величины (взвешенные и невзвешенные) из национальных цен. Применение средних международных цен ограничивается только рамками сопоставлений. В современных условиях более широкое распространение получают индексы второй группы. Наиболее активно применяется метод Гири–Камиса в различных модификациях. Каждый из элементов расчета имеет свои условности и ограниченную сферу применения и, следовательно, не может быть рекомендован в качестве универсального, пригодного для любых международных сопоставлений. 2. КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ СВЯЗЕЙ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ЯВЛЕНИЙ При изучении массовых социально–экономических явлений и процессов связь между факторами проявляется в виде корреляционной связи, то есть такой связи, при которой на величину результативного признака оказывают влияние, помимо факторного признака, множество других, действующих в различных направлениях одновременно или последовательно. Корреляционная связь часто называется неполной, статистической или частичной связью, в отличие от функциональной связи, которая выражается в том, что при определенном значении одной переменной величины (аргумента) другая переменная величина (функция) принимает строго определенное значение, которое можно рассчитать по формуле, связывающей переменные величины. Функциональная связь между переменными величинами называется полной связью. Если функциональная связь проявляется в каждом отдельном случае, то наличие корреляционной связи можно выявить только на основании множества фактов, то есть в виде общей тенденции при массовом наблюдении. При этом каждому значению факторного признака соответствует не одно определенное значение результативного признака, а целая совокупность его значений. В этом случае для определения действующей связи возникает необходимость нахождения среднего значения результативного признака для каждого значения факторного признака. При измерении связи между социально–экономическими явлениями определяется форма связи, а также устанавливается направление и теснота связи. 8 При определении формы связи выявляется изменение результативного признака в среднем из–за изменения факторного признака, при гипотезе неизменности других признаков. При установлении направления и тесноты связи возможны три случая: увеличение (уменьшение) факторного признака приводит к увеличению (уменьшению) результативного признака, в этом случае связь прямая; увеличение (уменьшение) факторного признака приводит к уменьшению (увеличению) результативного признака, в этом случае связь обратная; изменение факторного признака не приводит к изменению результативного признака, в этом случае связи нет. Методом исследования взаимозависимости признаков в генеральной совокупности является корреляционный анализ. Признаки представляют собой случайные величины, имеющие нормальное многомерное распределение. Основными задачами корреляционного анализа являются: оценка параметров многомерной нормально распределенной генеральной совокупности (генеральных средних, дисперсий и парных коэффициентов корреляции), множественных и частных коэффициентов корреляции; проверка значимости оцениваемых параметров взаимосвязи, получение интервальных оценок для значимых из них, выявление структуры взаимосвязи признаков; построение различных уровней регрессий и статистические выводы относительно полученных уравнений и коэффициентов регрессии (корреляционно–регрессионный анализ). Содержание корреляционно–регрессионного анализа связей количественных признаков приведено на рис.2.1. Регрессия представляет собой функцию f(x1,x2,...,xn), описывающую зависимость условного математического ожидания зависимой переменной Y (вычисленного при условии, что независимые переменные зафиксированы на уровнях x1,x2,...,xn) от заданных фиксированных значений независимых переменных. 9 2.1. Анализ формы статистической связи количественных показателей 2.1.1. Анализ парной корреляции Анализ парной корреляции заключается в определении влияния вариации факторного признака x на результативный y на основе установления аналитической формы связи с использованием различных математических функций yx=f(x,а0,а1, ... ,аn), где yx – выравненное (аппроксимированное, теоретическое) значение результативного признака; а0,а1, ... ,аn – параметры уравнения. При изучении связи социально–экономических явлений применяются линейные и различные нелинейные зависимости: гиперболическая yx = а0+а1x ; yx = а0+а1x+а2x2 ; yx = а0+а11/x ; степенная yx  a0x a1 ; линейная параболическая показательная логарифмическая и другие. yx = а0а1x ; yx = а0+а1 lgx 10 Анализ связей количественных признаков Парная связь Множественная связь Анализ формы связи Анализ степени тесноты связи Линейные связи Нелинейные связи Коэффициент детерминации Индекс детерминации Коэффициент корреляции Индекс корреляции парный множественный частный Рис.2.1. Содержание анализа связей количественных признаков Выравнивание эмпирических (опытных) данных осуществляется методом наименьших квадратов. В основу этого метода положено требование 11 минимальности сумм квадратов отклонений эмпирических данных выравненных yx . n yi от n S   ( yi  y x )   [ yi  f ( xi , a0 , a1 ,..., an )]2  min . 2 i 1 i 1 Частные производные функции S по а0 , а1, ..., аn приравниваются нулю n S f   2[ yi  f ( xi , a 0 , a1 ,..., a n )](  )  0;  a 0 i 1  a0 n S f   2[ yi  f ( xi , a 0 , a1 ,..., a n )](  )  0;  a1 i 1  a1 ..................................................................... n S f   2[ yi  f ( xi , a 0 , a1 ,..., a n )](  )  0.  a n i 1  an Постоянные коэффициенты а0, а1, следующей системы уравнений: ... , аn n  [ yi  f ( xi , a0 , a1 ,..., an )] i 1 n  [ yi  f ( xi , a0 , a1 ,..., an )] i 1 определяются из решения f  0;  a0 f  0;  a1 ......................................................... n [ y i  f ( xi , a 0 , a1 ,..., a n )] i 1 f  0.  an Если с увеличением факторного признака результативный признак равномерно возрастает или убывает, то такая зависимость является линейной и выражается уравнением прямой yx = а0+а1x = f(x,a0,a1). Частные производные функции f по a0 и a1 12 f f  x, ( )i  xi .  a1  a1 f f )i  1;  1, (  a0  a0 Для определения параметров а0 и а1 на основе требований метода наименьших квадратов составляется система нормальных уравнений  n  [ yi  ( a 0  a1 xi )]  0;  i 1  n  [ y  ( a  a x )]x  0, i 1 i i  i 1 или после преобразований n  n  yi  na 0  a1  xi ;  i 1 i 1  n n n 2  xy a  i i 0  xi  a1  xi ,  i 1 i 1 i 1 где xi, yi – индивидуальные значения соответственно факторного и результативного признаков; а0, а1 – параметры уравнения прямой (уравнения регрессии). Коэффициент регрессии а1 показывает, к какому изменению средней величины результативного признака приводит изменение факторного признака на одну единицу. Из решения системы уравнений получаются следующие параметры уравнения регрессии: n n n n  2 yi  xi   xi yi  xi   i 1 i 1 a0  i  1 i n1 ; n  n xi2  ( xi ) 2  i 1 i 1  n n n  n xi yi   yi  xi  i 1 i 1 i 1 . a1  n n  n xi2  ( xi ) 2  i 1 i 1 13 Если связь между признаками нелинейная и с возрастанием факторного признака происходит ускоренное возрастание или убывание результативного признака, то корреляционная зависимость может быть выражена параболой второго порядка yx = а0+а1x+а2x2 . Частные производные функции ( f в i–й точке f f f ) i  xi ; ( ) i  xi2 . ) i  1; (  a1  a2  a0 Значения праметров параболы системы нормальных уравнений а0, а1, а2 определяются из решения n 2  [ yi  ( a 0  a1 xi  a 2 xi )]  0;  i 1 n 2  [ yi  ( a 0  a1 xi  a 2 xi )]xi  0;  i 1 n 2 2  [ yi  ( a 0  a1 xi  a 2 xi )]xi  0.  i 1 Если результативный признак с увеличением факторного признака возрастает (или убывает) не бесконечно, а стремится к конечному пределу, то для анализа такого признака применяется уравнение гиперболы yx = а0+а11/x . Для определения параметров этого уравнения используется система нормальных уравнений n n 1 y  na  a ; 1  i  i 1 i 1 xi n n n 1 1 1 2  y  a  a ( ) . i 0 1  i 1 xi i 1 xi i 1 xi 14 Полученную систему уравнений удобнее решать, произведя замену переменной 1/x = z : n  n  yi  na 0  a1  zi ;  i 1 i 1  n n n 2  zy a  i i 0  z i  a1  ( z i ) .  i 1 i 1 i 1 Если связь между признаками слабая нелинейная, то для характеристики этой связи в экономических исследованиях применяется степенная функция yx  a0x a1 . Для определения праметров производится логарифмирование степенной функции lg y  lg a 0  a1 lg x. Для определения параметров логарифмической функции строится система нормальных уравнений по способу наименьших квадратов n  n  lg yi  n lg a 0  a1  lg xi ;  i 1 i 1  n n n 2  lg y lg x  lg a  i i 0  lg xi  a1  (lg xi ) .  i 1 i 1  i 1 При статистическом анализе нелинейной корреляционной связи возможно применение уравнения регрессии показательной функции yx = а0а1x. Для решения уравнения производится его логарифмирование lg y  lg a 0  x lg a1 . С учетом требований метода наименьших квадратов составляется система нормальных уравнений 15 n  n  lg yi  n lg a 0  lg a1  xi ;  i 1 i 1  n n n 2  x lg y  lg a x  lg a x  i i 0 i 1 i .  i 1 i 1  i 1 При статистическом анализе криволинейной связи может применяться логарифмическая функция yx = а0+а1 lgx. Параметры логарифмической функции определяются из системы нормальных уравнений, отвечающих требованию метода наименьших квадратов: n  n  yi  na 0  a1  lg xi ;  i 1 i 1  n n n 2  y lg x  a lg x  a (lg x ) .    i i i 1 i  i 1 i 1  i 1 Аналогичным образом с использованием метода наименьших квадратов определяются параметры любой формы связи между результативным и факторным признаками. При численности единиц совокупности до 30 возникает необходимость проверки параметров уравнения регрессии на их типичность, не являются ли полученные значения параметров результатами действия случайных причин. Для проверки на типичность параметров уравнения регрессии используется t – критерий Стьюдента. Для выбора оптимальной математической функции, адекватно отражающей эмпирические данные, рекомендуется исходить из качественного анализа показателей, определяющих изменение результативного признака. Сложность экономических явлений не всегда позволяет выявить все влияющие факторы, учесть их взаимодействия друг с другом. На основе только качественного анализа не удается получить надежные выводы о форме связи. При подборе адекватной математической функции важное значение имеет остаточная дисперсия результативного признака 16 n  2  2 ( y  y )  i xi i 1 n , где y , yx – соответственно эмпирические (фактические) и выравненные значения результативного признака. Чем меньше остаточная дисперсия, тем лучше подбор линии регрессии, так как эта линия должна проходить в максимальной близости от эмпирических данных. Для оценки адекватности уравнения регрессии также может использоваться показатель средней ошибки аппроксимации yi  yxi 1     100, n yi где yi – yxi – линейные отклонения абсолютных величин эмпирических и выравненных точек регрессии. 2.1.2. Анализ множественной корреляции Изменение экономических явлений обычно происходит под влиянием не одного, а большого числа самых разнообразных факторов. Статистическая модель, показывающая связь между результативным и несколькими факторными признаками, представляет собой уравнение множественной регрессии. Уравнения множественной регрессии могут быть линейными, криволинейными и комбинированными. Наиболее простым видом уравнения множественной регрессии является линейное уравнение с двумя независимыми переменными yx1x2  a0  a1x1  a2 x2 . Параметры этого уравнения определяются решением системы нормальных уравнений, составленных в результате применения метода наименьших квадратов: 17 n n n  na0  a1  x1i  a2  x2i   yi ; i 1 i 1 i 1  n n n  n 2 a0  x1i  a1  xi  a2  x1i x2i   yi x1i ; i 1 i 1 i 1  i 1 n n n  n 2 a0  x2i  a1  x1i x2i  a2  x2i   yi x2i . i 1 i 1 i 1  i 1 В общем виде линейная регрессия переменными имеет вид yi с m независимыми yi  a0  a1x1  a2 x2 ...a j x j ...amxm. В случае множественной регрессии оценки параметров уравнения регрессии aj с помощью метода наименьших квадратов удобнее представить в матричном виде. Уравнение регрессии с оцененными параметрами в матричном виде y = Xa , а = (аj) – вектор оценок параметров; X = (xij) – матрица значений независимых переменных (факторных признаков) размерностью n(m+1) где 1 x11  1 x21 . . . . X 1 xi1  . . . . 1 xn1 x12 ... x1 j ... x1m   x22 ... x2 j ... x2 m  ..........  . xi 2 ... xij ... xim   ..........  xn 2 ... xnj ... xnm  18 Линейная модель в векторном виде имеет вид y = Xa + e, где e = (ei ) – вектор ошибок в уравнении с оцененными параметрами. Сумма квадратов отклонений равна n Q   ei2  e T e = (y - Xa) T (y - Xa) = y T y - a T X T y i -y T Xa + a T X T Xa = y T y - 2a T X T y + a T X T Xa.   n  n  x T X X =   i1 i 1  .  n  xim  i 1 n x ... x ... i1 i 1 n 2 i1 i 1 n . x ... x i1 im  xim   i =1  n xi1 xim .   i =1  . n  2 xim    i =1 n ... i 1  n    yi   ni =1   yx  T X y =   i i1 . i 1  ...   n   yi xim   i =1  В данных выражениях знак “т” обозначает операцию транспонирования, т.е. строки исходной матрицы в транспонированной матрице занимают положение столбцов. 19 2.2. Оценка тесноты статистической связи количественных показателей 2.2.1. Парный коэффициент корреляции Парный коэффициент корреляции– числовая характеристика совместного распределения двух случайных величин, выражающая их взаимосвязь следующим образом:  xy   (X,Y)  M (X - MX) (Y - MY) , Sx Sy где MX, MY – математическое ожидание соответственно факторного и результативного признаков; Sx , Sy – среднее квадратическое отклонение величин X и Y. Если (X, Y) является двумерной нормально распределенной величиной, то коэффициент корреляции зависимости величин X и Y.  является измерителем степени Если закон распределения двумерной величины (X,Y) отличен от нормального, то  измеряет степень линейной зависимости. Выборочный коэффициент корреляции rxy рассчитывается по результатам n наблюдений двумерной величины (X,Y) по следующе формуле: n n xi yi ( x  )( y  )    i i i 1 n i 1 n rxy  i1 , n x y где  x , y n – выборочные средние квадратические отклонения X и Y. Величина | r | измеряет степень линейной зависимости результатов yi при i= 1, n xi и r>0 , то при увеличении значения одной тенденцию к увеличению. Если r<0 , то при наблюдений. Если из величин вторая имеет увеличении значений одной величины вторая имеет тенденцию к уменьшению. При статистической оценке парного коэффициента корреляции удобно пользоваться следующими формулами : 20 n rxy  (x i 1 n x y i i 1 n   i  x )( yi  y ) i n x  y n   n x  yi  i 1 n y  xi n  x y xy  x y  x y  x y  x y  nx y n   i 1 xy  x y  x y . Средние квадратические отклонения имеют следующий вид : n  (x i x   i 1 n n   x) n 2 x 2 i i 1 n n x 2 i  2x i 1 n n x i i 1 n n x n x i x 2 i i  2( i 1 ) 2  ( i 1 ) 2  n n n y  y 2 i i 1 n 21 n( x ) 2   n i 1 n n y i  ( i 1 ) 2 . n n x i  ( i 1 ) 2 ; n Парный коэффициент корреляции может быть представлен следующим образом : rxy  xy  x y  x y xy  x y  n n 2 x  i  xi  ( i 1 ) n i 1 n n n n 2 y  i i 1 2 n  n y i  ( i 1 ) 2 n n x y x y i i i 1 n  n  i i 1 n n 1 2 2 n x  ( x )   i i n2 i 1 i 1  i i 1 2 n n i 1 i 1  n yi2  (  yi ) 2 n n n i 1 i 1 i 1 n xi yi   xi  yi n n i 1 i 1 n xi2  (  xi ) 2 n n i 1 i 1 . n y 2 i  (  yi ) 2 Величина коэффициента корреляции находится в пределах от –1 до +1. Чем ближе по абсолютной величине коэффициент корреляции к 1, тем теснее связь. Квадрат коэффициента корреляции называется коэффициентом детерминации Dxy  rxy2 22 и характеризует долю влияния результативного. факторного признака на вариацию 2.2.2. Индексы корреляции и детерминации Теснота связи между признаками при любой (отличной от линейной) форме связи характеризуется индексами корреляции и детерминации. При парных связях между параметрами индекс корреляции имеет следующий вид : Rxy  где  2y x  2y  2y  2 y x  2y   2  2  1 2 , 2 y y – факторная дисперсия результативного признака y ; – общая дисперсия результативного признака;  2 – остаточная дисперсия. Факторная дисперсия результативного признака отображает вариацию результативного признака признака y только от воздействия изучаемого факторного x n  2y  2 ( y  y )  xi i 1 n x где yxi , – теоретические значения результативного признака (значения линии регрессии) при значениях факторного признака y xi ; – среднее значение результативного признака. ( yxi  y ) характеризуют колеблемость выравненных (теоретических) значений y x от их общей средней величины (рис.2.2). Отклонения 23 Общая дисперсия результативного признака отображает совокупное влияние всех факторов (рассматриваемого факторного признака и прочих неучтенных признаков): y yx5 .y yx4 y2 . .y yx3 5 4 y y1 . yx2 y3 . yx1 x Рис.2.2. Эмпирические данные результативного признака линия регрессии 24 yx yi и n  2y  2 ( y  y )  i i 1 , n y где i – эмпирические значения результативного признака. Остаточная дисперсия характеризует вариацию результативного признака от всех прочих признаков кроме факторного n  2  Отклонения ( yi  yxi )  (y i i 1  yxi ) 2 . n характеризуют колеблемость эмпирических (фактических) значений результативного признака значений yi от их выравненных yxi . При функциональной связи значения линии регрессии индивидуальными эмпирическими значениями дисперсия  2  0 yi . yx совпадают с Тогда остаточная , факторная совпадает с общей дисперсией  2y   2y Rxy равен 1. При наличии и индекс корреляции корреляционной связи всегда факторная дисперсия меньше общей дисперсии x и | Rxy | 1. При линейной связи между признаками индекс корреляции совпадает с парным коэффициентом корреляции. Индекс детерминации 2  y By  Rxy2  2 y x выражает долю факторной дисперсии в общей дисперсии, т.е. характеризует, какая часть общей вариации результативного признака изучаемым фактором x. 25 y объясняется 2.2.3. Множественный коэффициент корреляции Множественный коэффициент корреляции (коэффициент множественной корреляции, совокупный коэффициент множественной корреляции) ry характеризует степень тесноты линейной статистической связи (зависимости) результативного x1, x2, . . ., xm y и линейной комбинацией факторных признаков  2y12...m  2y (12...m) ry   1 ; 2 2 y y  2y   2y12...m   2y (12...m) ,  2y12...m где – факторная дисперсия результативного признака, полученная с учетом факторов x1, x2, . . ., xm ; 2 y – общая дисперсия результативного признака, полученная с  учетом факторных признаков x1, x2, . . ., xm и всех прочих признаков; 2 y (12 ...m) – остаточная дисперсия результативного признака, полученная при элиминации (исключении) влияния факторных признаков  x1, x2, . . ., xm. Факторная, остаточная и общие дисперсии результативного признака определяются следующим образом : n  2y12...m  2  ( y  y )  i i 1 n n  2 y (12 ...m)  ;  (y i  yi ) 2 i 1 n 26 ; n  2y  2 ( y  y )  i i 1 , n i , y , yi – соответственно расчетное (теоретическое), среднее и где y эмпирическое (опытное) значения результативного признака. Чем плотнее фактические значения линии регрессии дисперсия) и, yi располагаются относительно yi , тем меньше остаточная дисперсия (больше факторная следовательно, больше величина множественного коэффициента корреляции ry . Таким образом, коэффициент множественной корреляции, как и величина остаточной дисперсии, характеризует качество подбора уравнения регрессии. При отсутствии связи между результативным и факторными признаками факторная дисперсия, а также коэффициент множественной корреляции   y. равны нулю и линия регрессии совпадает со средним значением y При функциональной связи факторная дисперсия совпадает с общей дисперсией, а множественный коэффициент корреляции равен 1. Множественный коэффициент корреляции никогда не уменьшается с расширением набора факторных признаков, относительно которых измеряется зависимость результативного признака. Квадрат величины коэффициента множественной корреляции является коэффициентом множественной детерминации 2 y12 ...m 2 y y 2 y и характеризует долю влияния выбранных факторных признаков на результативный фактор. B r    При статистической оценке тесноты связи между результативным двумя факторными признаками формула : ryx1 x 2  y и x1, x2 может быть использована следующая ryx2 1  ryx2 2  2ryx1 ryx 2 rx1 x 2 1 r 2 x1 x 2 27 , где ryx1 , ryx2 , rx1x2 ryx1  ryx2  rx1x2  – парные коэффициенты корреляции. n n n i 1 i 1 i 1 n yi x1i   yi  x1i n n n n i 1 i 1 i 1 i 1 ; [n x12i  ( x1i ) 2 ] [n yi2  ( yi ) 2 ] n n n i 1 i 1 i 1 n yi x 2i   yi  x 2i n n n n i 1 i 1 i 1 i 1 ; [n x 22i  ( x 2i ) 2 ] [n yi2  ( yi ) 2 ] n n n i 1 i 1 i 1 n x1i x 2i   x1i  x 2i n n n n i 1 i 1 i 1 i 1 . [n x12i  ( x1i ) 2 ] [n x 22i  ( x 2i ) 2 ] Методика оценки тесноты связи при нелинейной модели регрессии такая же, как при линейной. Коэффициент связи при этом называется индексом множественной корреляции, а его квадрат – индексом множественной детерминации. 2.2.4. Частный коэффициент корреляции Частные коэффициенты корреляции служат для оценки вклада во множественный коэффициент корреляции каждого из факторов. Частный коэффициент корреляции является мерой линейной зависимости между двумя случайными величинами из некоторой совокупности случайных величин в том случае, когда исключено влияние остальных. В общем случае 28 формула для определения частного коэффициента корреляции между y факторами имеет вид и xm при исключении влияния факторов Rym(12...m1) x1,x2, ... ,xm–1  2y12...m   2y12...m1   2  y (12...m1)  2y12...m   2y12...m1  , 2 2  y   y12...m1 где  2y12...m – факторная дисперсия результативного признака, полученная с учетом влияния факторов x1,x2, ... ,xm;  2y12...m1 – факторная дисперсия результативного признака, полученная с учетом влияния факторов x1,x2, ... ,xm–1;  2y (12...m1) – остаточная дисперсия результативного признака, полученная с учетом влияния рассматриваемого фактора  2y xm и прочих факторов; – общая дисперсия результативного признака. Абсолютная величина частного коэффициента корреляции лежит в пределах от 0 до 1, а знак определяется знаком соответствующих параметров регрессии. Частный коэффициент корреляции результативного признака и первого фактора x1 при элиминации второго фактора Ry1( 2 ) x2 равен  2y12   2y 2  . 2 2  y   y2 Частный коэффициент корреляции результативного признака и второго фактора x2 при элиминации первого фактора 29 x1 равен Ry 2 (1)  2y12   2y1  . 2 2  y   y1 Частный коэффициент корреляции может быть рассчитан через парные коэффициента корреляции rxy, например: ry1( 2 )  ryx1 ( x 2 )  ryx1  ryx 2 rx1 x 2 (1  r )(1  r 2 yx 2 2 x1 x 2 . ) Квадрат частного коэффициента корреляции является частным коэффициентом детерминации 2 ym(12 ...m1) ym(12...m1) B r . 2.3. Анализ статистических связей качественных признаков Оценка степени тесноты связей качественных признаков осуществляется для парных и множественных связей, представленных альтернативными значениями и в порядковой шкале признаков (рис.2.3). 2.3.1. Коэффициенты ассоциации и контингенции Для определения коэффициентов ассоциации и контингенции, характеризующих связь между двумя альтернативными признаками, используются четырехклеточные таблицы сопряженности двух дихотомических (разделенных надвое) признаков с альтернативными значениями A,A и B, B (табл.2.1.). 30 Анализ связей качественных признаков Парная связь Множественная связь Альтарнативные значения признаков Порядковая шкала (ранги) признаков Коэффициент ассоциации Коэффициент конкордации Коэффициент контингенции Порядковая шкала (ранги) признаков Коэффициент корреляции рангов Рис.2.3. Содержание анализа связей качественных признаков 31 Таблица 2.1 Таблица сопряженности признаков Значения признаков B (да) B (нет) Суммарные значения a b a+b c d c+d a+c b+d A (да) A (нет) Суммарные значения В таблице записываются количества единиц совокупности, обладающих одновременно двумя значениями признаков, или соответствующие вероятности. Например: a = nAB ; b = nAB или a = pAB  n nAB ; b = pAB  AB , n n nAB , nAB где – соответственно число единиц совокупности, одновременно обладающие значениями AB или AB ; pAB , pAB – соответственно вероятности одновременного появления двух значений AB или AB ; n – число единиц совокупности. Коэффициент ассоциации является показателем оценки тесноты связи между двумя альтернативными признаками и вычисляется по формуле Ka  ad - bc . ad + bc Близость коэффициента ассоциации к единице свидетельствует о тесной положительной связи. Если один из показателей в четырехклеточной таблице (табл.2.1) отсутствует, коэффициент ассоциации равен единице (преувеличен-ная оценка тесноты связи). В этом случае предпочтение отдается коэффициенту контингенции, также характеризующему степень зависимости между двумя альтернативными признаками. Он вычисляется на основе формулы 32 Kk  ad - bc . (a + b)(b + d)(a + c)(c + d) Коэффициент контингенции изменяется от –1 до +1, но всегда меньше коэффициента ассоциации, если он не менее 0,3, то это свидетельствует о наличии связи между качественными признаками. Пример. По предприятию имеются следующие данные: Таблица 2.2 Таблица сопряженности технического обучения и выполнения норм выработки Число рабочих в группе, чел. Группы рабочих выполнивших и перевыполнивших норму выработки не выполнивших норму выработки всего 115 20 135 15 50 65 130 70 200 Прошедшие техническое обучение Не прошедшие техническое обучение Итого Коэффициенты ассоциации и контингенции имеют следующие значения Ka  115  50 - 20  15  0,9008; 115  50 + 20  15 Kk  115  50 - 20  15  0,61. 135  70  130  65 33 Значения коэффициентов указывают на наличие тесной положительной связи между техническим обучением и выполнением норм выработки. 2.3.2. Коэффициент корреляции рангов Коэффициент корреляции рангов (коэффициент ранговой корреляции) представляет собой показатель, характеризующий статистическую связь двух признаков, измеряемых в порядковой шкале. Для признаков, измеренных в порядковых шкалах, наиболее известным является коэффициент ранговой корреляции Спирмена. Если признак строго ранжирует данное множество объектов, то рангами являются номера объектов в порядке возрастания градаций. Если же имеются связанные ранги, т.е. эквивалентные объекты, то им приписывается один и тот же ранг, равный среднему арифметическому значению номеров этих объектов в ранжированном вариационном ряду. Если связанных рангов нет, то коэффициент Спирмена вычисляется по формуле n   1 где dk n 6 d i 1 3 n 2 k n n  1  (i i 1 2  i ) k1 k2 n(n  1) 2 , – разность рангов k–го объекта; – количество объектов; ik1, ik2 – ранги k–го объекта соответственно по первому и второму признакам. Ранговые коэффициенты корреляции являются наиболее простыми показателями степени тесноты корреляционной зависимости. Они могут применяться не только для качественных, но и для количественных признаков. Пример. По 10 предприятиям имеются данные (табл.2.3) о размере основных фондов (факторный признак) и выпуске продукции (результативный признак). 34 Таблица 2.3 Эмпирические данные о распределении размера основных фондов и выпуске продукции Показатель Размер основных фондов, млрд.р. Выпуск продукции, тыс.шт. Величина показателя 4,3 5,4 3,6 6,9 3,9 4,7 4,0 6,4 5,5 6,8 22,4 18,6 13,1 25,1 10,2 19,2 15,7 23,4 16,0 21,5 Индивидуальные значения размера основных фондов располагаются в порядке возрастания (или убывания) и устанавливаются ранги (порядковые номера величины признака): Размер основных фондов, млрд.р. Ранги 3,6 3,9 4,0 4,3 4,7 5,4 5,5 6,4 6,8 6,9 1 2 3 4 5 6 7 8 9 10. Аналогично ранжируется выпускаемая продукция. Составляется расчетная таблица (табл.2.4) для вычисления рангового коэффициента корреляции. По данным табл.2.4 коэффициент корреляции рангов n 6 d k2 6  34   1  1  0,79. n(n  1) 10(100  1) i 1 2 35 Таблица 2.4 Расчет рангового коэффициента корреляции Номер предприя– тия 1 2 3 4 5 6 7 8 9 10 Итого Размер Выпуск Ранги Ранги основных продукции, размера выпуска фондов, тыс.шт. основных продукц млрд.р. фондов ии 4,3 5,4 3,6 6,9 3,9 4,7 4,0 6,4 5,5 6,8 22,4 18,6 13,1 25,1 10,2 19,2 15,7 23,4 16,0 21,5 4 6 1 10 2 5 3 8 7 9 8 5 2 10 1 6 3 9 4 7 dk d k2 –4 1 –1 1 –1 –1 3 2 16 1 1 1 1 1 9 4 34 Величина коэффициента ранговой корреляции свидетельствует о наличии прямой тесной связи между размером основных фондов и выпуском продукции. 2.3.3. Коэффициент конкордации Коэффициент конкордации характеризует связь между несколькими признаками, измеряемыми в порядковой шкале. Имеется выборка объемом n из m –мерной генеральной совокупности X = (X1, X2, . . . , Xm), признаки Xj которой можно измерить в порядковой шкале (табл.2.5). Если при ранжировании имеются совпадающие наблюдения, то вместо обычных рангов, определяемых в вариационном ряду, приписывается каждому из этих одинаковых значений одно и то же число, равное средней арифметической их рангов. Получаемые таким образом ранги называются объединенными, или связанными. 36 Таблица 2.5 Ранги признаков Номер наблю– дения Номер признака 1 2 ... j ... i12 i22 ... i1j i2j ... 2 i11 i21 ... ... ... ... k ik1 ik2 ... ... ... ... ... ... ... ... n in1 in2 ... ... 1 где ikj – ранг k –го наблюдения члена вариационного ряда. ... ikj inj m i1m i2m ... ... ikm ... ... ... inm j –го признака, k = 1, . . . , n, или номер Например, имеется вариационный ряд для 10 наблюдений признака (себестоимости единицы продукции, тыс.р.) – 2.5; 3,0; 8,5; 9,0; 9,0; 9,0; 9,5; 9,5; 9,6; 9,6. Ранги этих значений следующие:1, 2, 3, 4, 5, 6, 7, 8, 9, 10. После вычисления связанных рангов (которые могут выражаться дробными числами) получаются следующие ранги: 1; 2; 3; 4  5 6 78  5; 5; 5;  7 ,5; 7,5; 9,5; 9 ,5. 3 2 Коэффициент конкордации (согласованности) для выборки объемом при отсутствии связанных рангов вычисляется по формуле n n m 12 m( n  1) 2 K 2 3 [ i  ].   kj m ( n  n) k 1 j 1 2 Если расчет ведется с учетом коэффициента конкордации имеет вид 37 связанных рангов, то формула n K m  [ ikj  k 1 j 1 m( n  1) 2 ] 2 m 1 2 3 m ( n  n )  m Tj 12 j 1 , m 1 j 3 ( ni  ni );  где Tj  12 i 1 ni – число неразличимых элементов (рангов) в i mj – число групп из неразличимых рангов. 38 –й группе признака Xj ; 3. МОДЕЛИ ДИНАМИЧЕСКИХ ПРОЦЕССОВ 3.1. Классификация рядов динамики Рядом динамики называется хронологический ряд, т.е. ряд последовательно расположенных в хронологическом порядке значений показателя, который в своих изменениях отражает ход развития изучаемого явления. Составными элементами ряда динамики являются цифровые значения показателя, называемые уровнями ряда динамики, и моменты или периоды времени, к которым относятся уровни. Оба элемента - время и уровень называются членами ряда динамики. Особо выделяются начальный уровень первый уровень ряда динамики, конечный уровень - последний уровень и средний уровень ряда динамики, который рассчитывается как средняя величина из уровней ряда. Классификация рядов динамики приведена в табл.3.1. Если уровни ряда динамики отражают состояние явления на момент времени (например, на начало или конец месяца, квартала, года), ряд называется моментным рядом динамики, если за определенные периоды времени - интервальным рядом динамики ( например, численность работающих на предприятии на начало года за ряд лет - моментный ряд динамики, производство продукции за ряд лет - интервальный ряд). В зависимости от формы, в которой выражены уровни, ряд динамики может быть рядом абсолютных , относительных и средних величин. Ряд динамики может быть полным и неполным. В полном ряду динамики моменты или периоды времени строго следуют один за другим в календарном порядке. Если такой строгой хронологической последовательности нет, ряд называется неполным. Таблица 3.1 Классификация рядов динамики Признак классификации Название ряда динамики Моменты или периоды времени фиксирования уровней ряда динамики Моментный ряд Интервальный ряд Ряд абсолютных величин Ряд относительных величин Ряд средних величин Формы выражения уровней ряда 39 Признак классификации Интервалы чередования моментов или периодов времени Название ряда динамики Полный ряд (ряд с равноотстоящими уровнями) Неполный ряд (ряд с неравноотстоящими уровнями) Наличие тенденции изменения уровней ряда Стационарный ряд Нестационарный ряд Размерность ряда Одномерный ряд Многомерный ряд В зависимости от наличия или отсутствия основной тенденции изменения уровней ряда различаются стационарный ряд и нестационарный ряд. При этом ряд динамики рассматривается с позиций случайных процессов, а его уровни – как математические ожидания случайных величин. Если математическое ожидание и дисперсия постоянны, не зависят от времени, то процесс считается стационарным. Социально–экономическим процессам свойственна нестационарность, т.е. наличие тенденции развития явлений. Нестационарный ряд можно преобразовать в стационарный путем исключения тенденции. Ряд может быть одномерным и многомерным, уровни которых состоят соответственно из одномерных и многомерных величин. 3.2. Характеристики рядов динамики Для изучения изменения явлений во времени в рядах динамики рассчитываются следующие характеристики: средняя хронологическая величина; абсолютные приросты; темпы роста; темпы прироста; абсолютное значение одного процента прироста; индексы сезонности. Средняя хронологическая представляет собой среднюю величину из уровней ряда динамики. Вычисляется для интервальных и моментных рядов. Она может быть средней невзвешенной (простой ) и средней взвешенной. Средняя невзвешенная определяется для рядов с равноотстоящими уровнями, взвешенная – для рядов с неравноотстоящими уровнями. Средняя хронологическая невзвешенная для интервального ряда рассчитывается следующим образом (рис.3.1,а):а) 40 y2 Уровни ряда, y3 y1 y4 y y t1 t2 t3 t4 t Время, б) y2 Уровни ряда, y1 y3 y4 y y t1 t2 t3 t Время, в) y2 Уровни ряда, y3 y1 y4 y y t1 t2 t3 t4 Время, t г) y2 Уровни ряда, y3 y1 y4 y y t1 t2 t3 Время, t Рис.3.1. Средняя хронологическая ряда динамики: а) интервального полного ряда; б) моментного полного ряда; в) интервального неполного ряда; г) моментного неполного ряда 41 n y где yi y i i 1 , n – уровень ряда, сохраняющий свое значение в течение периода времени ti; n – число уровней ряда. Средняя хронологическая невзвешенная для моментного ряда, представленного на рис.3.1,б : 0,5( y1  y2 )  0,5( y2  y3 )  0,5( y3  y4 )  n 1 0,5y1  y2  y3  0,5y4  n 1 y или в общем виде y 0,5y1  y2  y3 ...0,5yn . n 1 Средняя хронологическая взвешенная для интервального ряда (рис.3.1,в) рассчитывается по формуле n y yt i i i 1 n t . i i 1 Средняя хронологическая взвешенная для моментного ряда (рис.3.1,г) рассчитывается 0,5( y1  y2 )t1  0,5( y2  y3 )t2  0,5( y3  y4 )t3 y , t1  t2  t3 в общем виде 42 y ( y1  y2 )t1  ( y2  y3 )t 2 ...( y3  y4 )t n1 n 1 2 ti  i 1 n 1  (y i 1 i  yi 1 )ti . n 1 2 ti i 1 Абсолютный прирост представляет собой разность двух уровней ряда динамики. Абсолютный прирост характеризует скорость (в абсолютном выражении) изменения уровней ряда динамики в единицу времени. Сравниваемый уровень называется текущим, а уровень, с которым производится сравнение – базисным. Если производится сравнение каждого данного уровня ( yi ) с непосредственно ему предшествующим ( yi1 ), то получаются цепные абсолютные приросты: ci  yi  yi 1. Если каждый уровень ( yi ) сравнивается с начальным ( y1 ) или каким– либо другим, принятым за постоянную базу сравнения ( базисные абсолютные приросты bi  yi  y1 y 0 ), то получаются bi  yi  y0 . или Сумма цепных приростов за определенный период времени равна базисному абсолютному приросту за весь этот период или равна разности между конечным и начальным уровнями ряда динамики: n1 n1     (y c i i 1 i  yi1 )  bn  yn  y1 . i 1 43 Обобщающим показателем скорости абсолютного изменения уровней ряда является средний абсолютный прирост n 1   c i i 1 n 1  yn  y1 . n 1 Темп роста – относительный показатель динамики, выражаемый в коэффициентах или в процентах. Представляет собой отношение двух уровней ряда динамики. Темп роста показывает, во сколько раз больше или сколько процентов данный уровень составляет по отношению к другому уровню, принятому за базу сравнения. В качестве базы сравнения для каждого данного уровня может приниматься какой–либо один постоянный уровень (чаще всего начальный уровень ряда) либо непосредственно предшествующий данному уровню. Таким образом, темпы роста могут быть вычислены с постоянной и переменной базой сравнения. Первые называются b c T T базисными ( p ), вторые – цепными ( p ). Темп роста характеризует интенсивность изменения величины ны уровня ряда динамики в единицу времени. Цепные и базисные темпы роста вычисляются по формулам Tpic  yi  100,%; yi 1 Tpib  yi  100,%. y1 Обобщающим показателем темпа роста уровней ряда динамики служит их T средняя величина, называемая средним темпом роста ( p ). Средний темп роста показывает, как в среднем изменились уровни ряда динамики на протяжении исследуемого периода, он рассчитывается по формуле Tp  n1 n1 yi 1 yn  n1 .  y1 i 1 yi Темп прироста – относительный показатель динамики, представляющий собой отношение абсолютного прироста к уровню динамики, по сравнению с 44 которым он рассчитан. Темп прироста обычно выражается в процентах. Для ряда динамики темпы прироста могут быть вычислены с переменной базой c T сравнения, они называются цепными ( np ), и с постоянной – называются b T базисными ( np ). Они рассчитываются следующим образом: c npi T yi  yi 1  ; yi 1 yi  y1 T  . y1 b npi Темпы прироста могут быть определены и как разность между темпом роста, выраженном в процентах, и 100%, т.е. Tnpi  Tpi  100. Обобщающим показателем темпов прироста уровней ряда динамики служит их средняя величина, называемая средним темпом прироста. Он обычно вычисляется как разность между средним темпом роста и 100%. Средний темп прироста показывает, как в среднем (например, на сколько процентов) изменялся уровень ряда на протяжении исследуемого периода. Абсолютное значение одного процента прироста представляет собой отношение абсолютного прироста к темпу прироста, выраженному в процентах. Показывает, какая абсолютная величина показателя приходится на один процент прироста. Абсолютное значение одного процента прироста рассчитывается по формуле ci yi  yi1 | Ai |    0,01  yi1 , y  y Tnpi ,% i i 1  100 yi1 т.е. количественно абсолютное значение одного процента прироста равно одной сотой части базисного уровня. Индексы сезонности являются показателями интенсивности сезонных колебаний. В общем виде определяются как отношение каждого уровня ряда динамики в виде помесячных (реже поквартальных) данных к теоретическому или среднему уровню, принимаемому в качестве базы сравнения. Индексы сезонности обычно выражаются в процентах. Формулы расчета индексов сезонности следующие: Is  yi  100,%; yti Is  45 yi 100,%, y где yi – фактические уровни ряда динамики; yti – сглаженные y – средняя (выравненные, теоретические) уровни ряда динамики; величина из уровней ряда динамики. Совокупность индексов сезонности представляет собой сезонную волну. Способы определения индексов сезонности зависят прежде всего от характера основной тенденции ряда динамики. Для нестационарных рядов используется сравнение с теоретическими уровнями, для стационарных – со средним уровнем. Расчет по второй формуле называется способом простых средних. При этом способе средние уровни одноименных месяцев (если помесячные данные взяты за несколько лет) сопоставляются со средним месячным уровнем за весь период, охватываемый рядом. Применяются также способы расчета индексов сезонности на основе метода скользящих средних и аналитического выравнивания. 3.3. Модели рядов динамики Укрупненными составляющими изменения уровней ряда динамики (компонентами динамических рядов) являются: долговременные, кратковременные, случайные колебания и тенденция или тренд. К долговременным относятся циклические колебания, отражающие конъюнктурные циклы и состоящие в переходе от более или менее благоприятной конъюнктуре к кризису, депрессии и снова оживлению и благоприятной конъюнктуре. Кратковременные колебания являются сезонными, представляющими собой повторяющиеся из года в год изменения показателя в определенные промежутки времени. Наблюдая их в течение ряда лет для каждого квартала или месяца, можно вычислить соответствующие средние или медианы, которые принимаются за характеристики сезонных колебаний. Например, можно в течение ряда лет наблюдать, на сколько процентов значение показателя в январе отличается от среднегодового и отсюда вычислить среднюю (или медиану), то же сделать для февраля, марта и т.д. Всего 12 таких средних дадут общую характеристику сезонных колебаний. Сезонные колебания являются результатом влияния природных, общественных и экономических факторов. Сезонные колебания характеризуются длительностью периода колебаний (отрезок времени между соседними точками максимума и минимума), амплитудой (разность между максимальными и минимальными значениями показателя) и размещением максимумов во времени. В зависимости от вида сезонности применяются различные статистические методы для определения сезонных колебаний, например, расчет индексов сезонности, сезонной волны, спектральный анализ. 46 Случайные колебания представляют собой разность между фактическими значениями ряда динамики и его выравненными значениями. В некоторых случаях выравненные значения сочетают тренд, циклические колебания и сезонные колебания. Тренд – это изменение, определяющее общее направление развития, основную тенденцию рядов динамики. Для выявления тренда используются различные способы выравнивания (сглаживания) ряда, при этом уровни ряда выражаются в виде функции ряда. К наиболее употребительным способам выравнивания относятся: метод скользящих средних; выравнивание с помощью среднего прироста; аналитическое выравнивание по линейной функции, по многочленам различной степени и т.д. с использованием метода наименьших квадратов. Одним из наиболее распространенных видов тренда в экономических исследованиях является линейный тренд ( рис.3.1) вида yt  a  bt , где t – время; a и b – параметры, которые находятся, как правило, методом наименьших квадратов. Параметр b определяет средний абсолютный прирост ряда динамики. Степенной тренд – тренд вида (рис.3.2) yt  at b . Параметры a и b определяются из линейной регрессии после логарифмирования степенного тренда ln yt  ln a  b ln t . С помощью степенного тренда можно выравнивать временные ряды с разной степенью роста: b > 1 – степень роста выше, чем у линейного тренда, b < 1 – степень роста ниже, чем у линейного. Экспоненциальный тренд yt  aebt широко используется в экономических исследованиях. Параметр b соответствует среднегодовому темпу прироста ряда динамики. Для оценивания параметров экспоненциального тренда необходимо перейти к логарифмам 47 Рис.3.1. Линейный тренд Рис.3.2. Степенной тренд 48 ln yt  bt  ln a и применить метод наименьших квадратов. При анализе рядов динамики используются также и другие виды трендов, вид которых приведен на рис.3.3–3.8. Оценкой колеблемости ряда динамики служит отклонение уровней ряда динамики от их средней величины или от сглаженных значений. Мерой колеблемости является среднее квадратическое отклонение. Если ряд стабилен, то степень колеблемости ряда динамики определяется по формуле n   (y i  y )2 i 1 n , где yi – уровень ряда динамики; – средний уровень ряда; n – число уровней ряда. При заметно выраженном росте или падении уровней ряда показатель колеблемости ряда динамики рассчитывается по формуле y n  2  ( y  y )  i i i 1 n , y где i – сглаженные (выравненные, теоретические) значения уровней ряда динамики. 3.4. Выравнивание рядов динамики Выравнивание (сглаживание) рядов динамики является методом исследования рядов статистических данных о социально–экономических явлениях и процессах. Заключается в нахождении расчетных (теоретических, выравненных) значений показателей и замене ими фактических для выявления закономерностей развития процессов, отображаемых этими рядами. Выравнивание применяется обычно в тех случаях, когда в изменениях фактических статистических данных ряда не наблюдается никакой (или почти никакой) последовательности и закономерности, тенденции развития неясны. 49 Рис.3.3. Экспоненциальный тренд Рис.3.4. Параболический тренд 50 Рис.3.5. Многочлен третьего порядка Рис.3.6. Гиперболический тренд 51 Рис.3.7. Тренд в виде показательной функции Рис.3.8. Логарифмическая кривая тренда Для выравнивания в зависимости от характера изменения данных в ряду могут использоваться различные способы: метод скользящих средних, 52 выравнивание с помощью среднего прироста, аналитическое выравнивание, экспоненциальное сглаживание. 3.4.1. Метод скользящих средних Метод скользящих средних состоит в замене фактических данных средними арифметическими из нескольких уровней ряда динамики (трех, четырех, пяти, шести и т.д.). Число усредняемых уровней называется интервалом скольжения. Расчет средних ведется способом скольжения, т.е. постепенным исключением из принятого интервала скольжения первого уровня и включением последующего. Интервал скольжения может включать нечетное и четное число уровней ряда. В зависимости от этого меняется и техника сглаживания ряда динамики. Например, y1 , y2 , y3 ,..., yn – данные ряда динамики за несколько лет. Для определения первого члена сглаженного ряда по трехчленной скользящей средней складываются первые три члена и сумма их делится на три: y1  y2  y3 y1  . 3 Полученное значение относится ко второй дате, находящейся в середине интервала. Для определения следующего сглаженного уровня подсчет сумм трех членов ряда начинается со второго члена и кончается четвертым: y2  y3  y4 y2  . 3 Полученное значение относится к третьей дате и т.д. Скользящие средние при четном числе усредняемых уровней приходятся на промежуток между датами, находящимися в середине интервала скольжения. Из этих средних с помощью центрирования определяются скользящие двучленные средние y  y2 ~ y  y3 ~ y1  1 ; y2  2 2 2 и т.д., которые приходятся на определенные даты. Примеры расчета скользящих средних при интервалах скольжения три и четыре приведены соответственно в табл.3.2 и 3.3. Таблица 3.2 Ряд динамики объема производства, выравненный 53 с использованием трехлетней скользящей средней, тыс.шт. Скользящая Трехлетняя Объем трехлетняя сумма скользящая Год, i объема средняя, производства, yi производства y 1 2 3 4 5 6 7 8 9 – 32,7 33,0 35,2 39,5 44,8 49,7 51,4 – 10,0 10,7 12,0 10,3 12,9 16,3 15,6 17,8 18,0 – 10,9 11,0 11,8 13,2 14,9 16,6 17,1 – Таблица 3.3 Ряд динамики объема производства, выравненный с использованием четырехлетней скользящей средней, тыс.шт. Год, i Скользящая Четырехлетняя Двухчленная Объем четырехлетняя скользящая скользящая производства, сумма объема средняя, средняя, ~ производства y y y i 1 – 10,0 – 2 – 10,7 43,0 3 11,2 12,2 13,4 14,8 16,3 16,9 – 17,8 – 9 15,7 15,6 67,7 8 13,8 16,3 62,6 7 12,9 12,9 55,1 6 11,5 10,3 51,5 5 10,8 12,0 45,9 4 – – – 18,0 54 3.4.2. Выравнивание рядов динамики с помощью среднего прироста Средний абсолютный прирост ряда динамики (см.п.3.2.) определяется следующим образом:  yn  y1 . n 1 Средний прирост позволяет путем последовательного прибавления его к первому фактическому уровню найти последующие уровни y1  y1; y2  y1  ; y3  y2  ; . . . yi  yi 1  , где yi – выравненные уровни ряда динамики, которые отличаются от фактических тем, что они вычислены в предположении их плавного возрастания (или убывания), без скачков. 3.4.3. Аналитическое выравнивание рядов динамики Аналитическое выравнивание заключается в выборе модели тренда ряда динамики (см.п.3.3.) методом наименьших квадратов (см.п.2.1.). В качестве фактора, влияющего на значение показателя, в рядах динамики выступает время. Для линейной модели тренда yt  a  bt методом наименьших квадратов составляется система используемая для расчета параметров уравнения тренда n  n  yi  na  b t i ;  i 1 i 1  n n n  t y  a t  b t2.   i i i i  i 1 i 1 i 1 Для модели тренда в виде параболы yt  a  bt  ct 2 система уравнений имеет следующий вид: 55 уравнений, n n n 2  yi  na  b ti  с ti ; i 1 i 1  i 1 n n n n 2 3  ti yi  a  ti  b ti  c ti ; i 1 i 1 i 1  i 1 n n n n 2 2 3 4  ti yi  a  ti  b ti  c ti . i 1 i 1 i 1  i 1 Если ряд динамики содержит нечетное число членов, то расчеты коэффициентов a, b и c удобно проводить, обозначив время t так, чтобы сумма времени в нечетных степенях равнялась нулю. Например для семи членов ряда время можно обозначить: –3; –2; –1; 0; 1; 2; 3, тогда системы уравнений для расчета коэффициентов моделей линейного и параболического трендов упрощаются и имеют следующий вид: n  yi  na ;  i1 n n  t y b t 2 .  i i i  i 1 i 1 n n 2 y  na  c t  i ;  i i 1  i1 n n 2  ti yi  b ti ; i 1  i1 n n n 2 2 4  ti yi  a  ti + c ti . i 1 i 1  i1 56 3.4.4. Экспоненциальное сглаживание рядов динамики Экспоненциальное сглаживание представляет собой модифицированный метод наименьших квадратов, при котором более поздним наблюдениям придается больший вес, что учитывает их большую информационную ценность. Осуществляется с помощью экспоненциально– взвешенных скользящих средних, или кратко, экспоненциальных средних: St  xt  St 1 , где St – значение экспоненциальной средней в момент ряда в момент t ;  t ; xt – уровень – постоянная сглаживания 0    1,   1   . Экспоненциальную среднюю можно записать следующим образом: St  xt  (1   ) St 1  St 1   ( xt  St 1 ). Для того, чтобы экспоненциальную среднюю выразить через значения ряда динамики x , используются указанные рекуррентные соотношения. Например, при трех уровнях ряда St  xt  St 1  xt   (x t 1  St  2 )   xt  x t 1   2 (x t  2  St  3 )  2  xt  x t 1   x t  2   St  3     i xt i   3S0 . 2 3 i0 В общем виде экспоненциальная средняя в момент вид: t имеет следующий N 1 St     i xt i   N S0 , i 0 где N – число уровней ряда; средней. S0 – начальное значение экспоненциальной 57 При N  N  0 , а сумма коэффициентов     i  1. i0 Тогда  St     i xt  i . i0 Эта величина равна средней взвешенной всех членов ряда, причем веса падают по мере увеличения давности наблюдения. Процедура экспоненциального сглаживания работает как фильтр, на вход которого в виде потока последовательно поступают члены исходного ряда, а на выходе формируются текущие значения экспоненциальной средней. Чем меньше постоянная сглаживания  , тем в большей степени подавляются колебания исходного ряда. Повторное применение экспоненциального сглаживания к результатам предшествующего экспоненциального сглаживания позволяет получить экспоненциальные средние более высоких порядков. Многократное экспоненциальное сглаживание используется при прогнозировании уровней ряда динамики. 3.5. Прогнозирование экономических процессов Прогнозирование представляет собой научное выявление состояния и вероятных путей развития явлений и процессов, основанное на системе установленных причинно–следственных связей и закономерностей. Прогнозирование предполагает оценку показателей, характеризующих эти явления и процессы, для будущего. Прогнозирование распространяется на такие процессы, управление которыми в момент выработки прогноза либо возможно в весьма малом диапазоне, либо совсем невозможно, либо оно возможно, но требует учета действия таких факторов, влияние которых не может быть полностью или однозначно определено. Прогнозы экономических явлений и процессов разрабатываются в виде качественных характеристик развития и количественных оценок прогнозируемых показателей. Качественные характеристики дают общее описание тенденции и ожидаемого характера изменений, а в самом простом случае – утверждение о возможности или невозможности наступления какого–либо события. Количественные оценки могут быть точечными и интервальными и сопровождаются определением вероятностей достижения величины прогнозируемого показателя. Правильность исходных теоретических предпосылок и методологической основы прогноза решающим образом влияет на его результаты и возможность их практического использования. 58 Составление прогнозов, как правило, предшествует процессу планирования и служит для него исходной базой. В планировании используется система прогнозов: демографических, социальных, экономических, научно–технического прогресса, природных ресурсов и др. Точечный прогноз дается в виде единственного значения прогнозируемой величины. Интервальный прогноз охватывает совокупность значений прогнозируемой величины. Чем шире интервальный прогноз, тем выше вероятность осуществления прогноза (надежность прогноза), но меньше его априорная точность. Интервальный прогноз чаще всего определяется на основе расчета доверительных границ прогноза и учитывает лишь ту неопределенность, которая связана с ошибками параметров прогнозной модели и принятой степенью надежности прогноза. Интервальные прогнозы y определяются на основе точечного прогноза следующим образом: y  y  t Sp , t – значение t –статистики Стьюдента; Sp –  – точечный прогноз; где y средняя квадратическая ошибка прогноза. Значения Sp для наиболее употребительных прогнозных моделей определяются следующим образом (табл.3.4): Таблица 3.4 Средняя квадратическая ошибка прогноза Прогнозная модель Формула для расчета Средняя Экспоненциальная средняя (для стационарного ряда) y  Линейный тренд  1 1 n  2 2  1 (t L  t ) 2 1  n n  (t  t ) 2 t 1 59 Sp где  – среднее квадратическое отклонение прогнозируемой величины (по n данным наблюдений); сглаживания; y – число наблюдений;  – коэффициент – среднее квадратическое отклонение фактических t = 1, . . . n ; tL – время, для которого делается экстраполяция, т.е. tL = n + L; t – среднее n 1 t  . значение времени, 2 наблюдений от расчетных; t – порядковый номер в ряду, Экстраполяцией называется нахождение значений показателя за пределами области определения ряда динамики. Экстраполяция может быть перспективной и ретроспективной. Перспективная экстраполяция (прогнозирование) – продолжение уровней ряда в будущее. Ретроспективная экстраполяция – продолжение уровней ряда в прошлое. При анализе рядов динамики может возникать необходимость определения промежуточных значений (интерполяция) уровней ряда в области его определения. Эмпирической мерой точности прогноза служит величина его ошибки – абсолютная или относительная разность между фактическим значением (реализацией прогноза) и точечным прогнозом. Обобщающими характеристиками точности могут служить средняя или медианная погрешность, средняя квадратическая ошибка прогноза, коэффициент несоответствия. Коэффициент несоответствия определяется следующим образом: L  (P  A ) t v t 1 L 2 t , 2 A  t t 1 где Pt и At – прогнозное и фактическое (реализованное) изменения показателя (приросты). Коэффициент v = 0, когда фактические изменения равны предсказанным; v = 1, когда процесс прогнозирования приводит к такой же средней квадратической ошибке, что и “наивная” экстраполяция неизменности; v > 1, когда прогноз дает худшие результаты, чем предположение о неизменности исследуемого явления. Верхней границы коэффициент не имеет. 60 Интервальный прогноз считается оправдавшимся, если фактическое значение показателя попадает в этот интервал. Обобщающей характеристикой точности серии интервальных прогнозов может служить относительное число оправдавшихся прогнозов в общем их числе. Априорной мерой точности при разработке прогноза служит дисперсия применяемой прогнозной модели, например, дисперсия выборочной, скользящей и экспоненциальной средней, дисперсия тренда, уравнения регрессии и т.д. Модель, дающая более узкий доверительный интервал при всех прочих равных условиях, рассматривается как более точный инструмент прогноза. 3.6. Приведение рядов к сопоставимому виду Одним из приемов объединения двух или более рядов динамики, характеризующих изменение одного и того же явления, в один (более длинный) ряд является смыкание рядов динамики. Смыкание рядов применяется в случаях, когда уровни рядов динамики несопоставимы в связи с территориальными , ведомственными, организационными изменениями, изменением методологии исчисления показателя и т.п. Первый способ смыкания рядов состоит в следующем: по данным двух рядов определяется коэффициент соотношения уровней переходного периода (момента), т.е. периода (момента), в котором произошло изменение. Данные за предшествующий изменению период умножаются на коэффициент (например, на соответствующий индекс цен, если ряд стоимостных показателей выражен в разных ценах) и получаются условно сопоставимые уровни, и ряды смыкаются (соединяются). Второй способ смыкания рядов динамики заключается в том, что уровни переходного периода принимаются для каждого из смыкаемых рядов за 100%, а остальные пересчитываются в процентах по отношению к этим уровням соответственно до и после изменения. В табл.3.5 приведен пример смыкания рядов динамики. Таблица 3.5 Смыкание рядов динамики Показатель Объем произведенной продукции промышленными предприятиями района, трл.р. – в старых границах района – в новых границах района Год 1 2 3 4 5 6 19,7 – 20,0 – 21,2 22,8 – 23,6 – 24,5 – 26,1 61 Сомкнутый (по первому способу) ряд, трл.р. 21,2 21,5 22,8 23,6 24,5 26,1 Сомкнутый (по второму способу) ряд, % к третьему году 92,9 94,3 100,0 103,5 107,5 114,5 Несопоставимыми ряды динамики являются в том случае, если они составлены из разновеликих по продолжительности периодов времени. Это прежде всего относится к рядам внутригодовой динамики с месячными и квартальными уровнями. Пример. Имеются следующие данные о производстве изделий предприятием по кварталам (шт.): Квартал 1 квартал 2 квартал 3 квартал 4 квартал Объем производства, шт. 2340 1820 1380 2024 Для приведения этого ряда динамики к сопоставимому виду для каждого квартала определяется среднедневной выпуск 1 квартал 2 квартал 3 квартал 4 квартал 2340 : 90 = 26 шт. 1820 : 91 = 20 шт. 1380 : 92 = 15 шт. 2024 : 92 = 22 шт. Полученный ряд динамики имеет сопоставимые уровни объема производства Квартал 1 квартал 2 квартал 3 квартал 4 квартал Среднедневной выпуск, шт. 26,0 20,0 15,0 22,0 Одним из приемов преобразования рядов динамики является приведение рядов к общему основанию. Пример. Имеются данные (табл.3.6) о производстве продукции на двух предприятиях. 62 Таблица 3.6 Приведение рядов динамики к общему основанию Годы 1 2 3 4 5 6 7 8 9 10 11 12 Объем производства продукции, млрд.р. Базисные темпы роста, Tp , % 1 предприятие 2 предприятие 1 предприятие 2 предприятие 17,0 21,2 100,0 100,0 18,7 25,6 110,0 120,8 19,4 27,9 114,1 131,6 21,0 30,4 123,5 143,4 21,9 32,4 128,8 152,8 23,3 35,1 137,1 165,6 23,3 36,0 137,1 169,8 24,5 38,2 144,1 180,2 25,2 39,7 148,2 187,3 27,2 43,0 160,0 202,8 29,2 45,0 171,2 212,3 30,5 46,6 179,4 219,8 Чтобы привести различные ряды динамики к единому основанию, необходимо уровни рядов сравнить с одним уровнем, принятым за базу. В данных рядах за базу сравнения принимается уровень первого года и вычисляются базисные темпы роста (табл.3.6). За указанные годы прирост объема производства составил на первом предприятии 79,4%, на втором – 119,8%. Чтобы узнать, во сколько раз объем производства выше на втором предприятии по сравнению с первым, необходимо сравнить базисные темпы роста за изучаемый период, т.е. вычислить коэффициенты опережения: Ko  Tp 2 Tp1 , где Tp2 , Tp1 – базисные темпы роста объема производства, соответственно на втором и первом предприятиях. Для 6–го года коэффициент опережения для 12–го года – Ko = 165,6 : 137,1 = 1,21 ; Ko = 219,8 : 179,4 = 1,23 . 63 Коэффициенты опережения показывают, что по сравнению с первым годом объем производства на втором предприятии в 6–м году был в 1,21 раза (или на 21%) выше, чем на первом, в 12 –м – в 1,23 раза выше. 4. МЕТОД ВЫБОРОЧНЫХ НАБЛЮДЕНИЙ 4.1. Выборочное исследование При статистическом исследовании экономических явлений могут применяться выборочные наблюдения, при которых характеристики генеральной совокупности получаются на основании изучения части генеральной совокупности, называемой выборочной совокупностью или выборкой. Выборочное наблюдение (выборочное исследование) заключается в обследовании определенного числа единиц совокупности, отобранного, как правило, случайным образом. При выборочном методе обследованию подлежит сравнительно небольшая часть всей изучаемой совокупности (обычно до 5–10%, реже до 15–20%). Отбор единиц из генеральной совокупности производится таким образом, чтобы выборочная совокупность была представительна (репрезентативна) и характеризовала генеральную совокупность. Степень представительности выборки зависит от способа организации выборки и от ее объема. Полной репрезентативности выборки достичь не удается. Поэтому необходима оценка надежности результатов выборки и возможности их распространения на генеральную совокупность. В зависимости от характеристик выборочных совокупностей выборки могут быть представительными, расслоенными, засоренными и цензурированными. Представительная выборка – выборка наблюдений из генеральной совокупности, наиболее полно и адекватно представляющая ее свойства. Расслоенная выборка – выборка, включающая ряд выборочных совокупностей, взятых из соответствующих слоев генеральной совокупности. Широко используется при выборочном обследовании в экономике, демографии и социологии. Засоренная выборка – выборка наблюдений, содержащая “грубые” ошибки. Основная масса элементов засоренной выборки является реализацией случайной величины X , закон распределения которой известен. Такие элементы – “типичные” – появляются в совокупности с вероятностью 1  . С вероятностью  (0    1) элементы совокупности оказываются реализацией другой случайной величины Y , закон распределения которой в общем случае неизвестен. Такие элементы 64 называются “грубыми” ошибками. Обычные оценки, например, средняя арифметическая выборочная, на засоренной выборке теряют свои оптимальные свойства (эффективность, несмещенность) с ростом интенсивности засорения  . Цензурированная выборка – выборка, полученная из вариационного ряда наблюдений путем отбрасывания некоторого числа экстремальных наблюдений. Если отбрасывание производится по признаку выхода наблюдений за пределы заданного интервала, то такой прием называется цензурирование первого типа. В этом случае число оставшихся наблюдений является случайной величиной. Если отбрасывается фиксированная доля крайних малых значений и фиксированная доля   крайних больших значений, то это называется цензурированием второго типа уровня ( ,  ). При этом, число оставшихся в рассмотрении наблюдений является величиной заранее заданной. Проведение выборочных исследований статистической информации состоит из следующих этапов: – формулировка цели статистического наблюдения; – обоснование целесообразности выборочного наблюдения; – отграничение генеральной совокупности; – установление системы отбора единиц для наблюдения; – определение числа единиц, подлежащих отбору; – проведение отбора единиц; – проведение наблюдения; – расчет выборочных характеристик и их ошибок; – распространение выборочных данных на генеральную совокупность. Выборочное исследование осуществляется с минимальными затратами труда и средств и в более короткие сроки, чем сплошное наблюдение, что повышает оперативность статистической информации, уменьшает ошибки регистрации. В проведении ряда исследований выборочный метод является единственно возможным, например, при контроле качества продукции, сопровождающимся разрушением проверяемого изделия. Выборочный метод дает достаточно точные результаты, поэтому он может применяться для проверки данных сплошного наблюдения. Минимальная численность обследуемых единиц позволяет провести исследование более тщательно и квалифицированно. Например, при переписях населения практикуются выборочные контрольные наблюдения для проверки правильности записей сплошного наблюдения. В основе теории выборочного наблюдения лежат теоремы законов больших чисел, которые позволяют решить два взаимосвязанных вопроса выборки: рассчитать ее объем при заданной точности исследования и определить ошибку при данном объеме выборки. 65 При использовании выборочного метода обычно используются два вида обобщающих показателей: относительную величину альтернативного признака и среднюю величину количественного признака. Относительная величина альтернативного признака характеризует долю (удельный вес) единиц в статистической совокупности, обладающих изучаемым признаком. В генеральной совокупности эта доля единиц называется генеральной долей (p), а в выборочной совокупности – выборочной долей (w). Средняя величина количественного признака в генеральной совокупности называется генеральной средней ( ~ выборочной средней ( x ). x ), а в выборочной совокупности – 4.2. Виды отбора при выборочном наблюдении Процесс образования выборки называется отбором, который осуществляется в порядке беспристрастного, случайного отбора единиц из генеральной совокупности. Основным условием проведения выборочного наблюдения является предупреждение возникновения систематических (тенденциозных) ошибок, возникающих вследствие нарушения принципа равных возможностей попадания в выборку каждой единицы совокупности. Предупреждение систематических ошибок достигается в результате применения научно обоснованных способов формирования выборочной совокупности. Существуют различные способы отбора: индивидуальный, групповой (серийный), комбинированный, повторный (возвратный), бесповторный (безвозвратный),одноступенчатый, многоступенчатый, собственно– случайный, механический и типический отбор. При индивидуальном отборе в выборку отбираются отдельные единицы совокупности. Отбор повторяется столько раз, сколько необходимо отобрать единиц. Групповой (серийный) отбор заключается в отборе серий (например, отбор изделий для проверки их целыми партиями). Если обследованию подвергаются все единицы отобранных серий, отбор называется серийным, а если обследуется только часть единиц каждой серии, отбираемых в индивидуальным порядке из серии, то – комбинированным. Если в процессе отбора отобранная единица не исключается из совокупности, т.е. возвращается в совокупность, и может быть повторно отобранной, то такой отбор называется повторным или возвратным, в противном случае – бесповторным или безвозвратным. Серийный отбор, как правило, безвозвратный. При одноступенчатом отбираются единицы совокупности (или серии) непосредственно для наблюдения. При многоступенчатом отбираются 66 сначала крупные серии единиц (первая ступень отбора), наблюдению они не подвергаются. Затем из них отбираются серии, меньшие по численности единиц (вторая ступень), наблюдению не подвергаются, и так до тех пор, пока не будут отобраны те единицы совокупности (серии), которые будут подвергнуты наблюдению. Собственно–случайный отбор состоит в отборе единиц (серий) из всей генеральной совокупности в целом посредством жеребьевки или на основании таблиц случайных чисел. Жеребьевка состоит в том, что на каждую единицу отбора составляется карточка, которой присуждается порядковый номер. После тщательного перемешивания по очереди извлекаются карточки, пока не будет отобрано требуемое число единиц. Случайными числами называются ряды чисел, являющихся реализациями последовательности взаимно независимых и одинаково распределенных случайных величин. Эти последовательности чисел получаются либо с помощью физических генераторов (подбрасывание кубиков с нанесенными на их сторонами цифрами; вытягиванием из урны карточек с написанными на них цифрами, преобразование случайных сигналов и др. физико–технические процессы), либо с помощью программных генераторов (аналитическим методом с помощью программ для ЭВМ). Числа, являющиеся результатами соответствующей вычислительной процедуры, называются псевдослучайными числами. Последовательность псевдослучайных чисел носит детерминированный характер, но в определенных границах она удовлетворяет свойствам равномерного распределения и свойству случайности. Механический отбор заключается в том, что составляется список единиц генеральной совокупности и в зависимости от числа отбираемых единиц (серий) устанавливается шаг отбора, т.е. через какой интервал следует брать для наблюдения единицы (серии). Например, в простейшем случае, при 10%–м отборе, отбирается каждая десятая единица по этому списку, т.е. если первой взята единица за № 1, то следующими отбираются 11–я, 21–я и т.д. В такой последовательности производится отбор, если единицы совокупности расположены в списке без учета их “рангов”, т.е. значимости по изучаемым признакам. Начало отбора в этом случае не имеет значения, его можно начать в приведенном примере от любой единицы из первого десятка. При расположении единиц совокупности в ранжированном порядке за начало отбора должна быть принята середина интервала (шага отбора) во избежание систематической ошибки выборки. При типическом отборе генеральная совокупность разбивается на типические группы единиц по какому–либо признаку, а затем из каждой из них производится механический или собственно–случайный отбор. Отбор единиц из типов производится тремя методами: пропорционально численности единиц типических групп, непропорционально численности единиц типических групп и пропорционально колеблемости в группах. 67 4.3. Ошибки выборочного отбора Расхождение между значениями изучаемого признака выборочной и генеральных совокупностей является ошибкой репрезентативности (представи–тельности). Она может быть случайной и систематической. Случайная возникает в силу того, что выборочное статистическое наблюдение является несплошным наблюдением, и выборка недостаточно точно воспроизводит (репрезентирует) генеральную совокупность. При определении величины репрезентативной ошибки предполагается, что ошибка регистрации равна нулю. Определение ошибки производится по формулам ошибки выборочной доли и ошибки выборочной средней. Систематическая ошибка репрезентативности возникает вследствие нарушения правил отбора единиц генеральной совокупности, в частности принципа беспристрастного, непреднамеренного отбора. Систематическая ошибка может привести к полной непригодности результатов наблюдений. 4.3.1. Ошибка выборочной доли Выборочная доля представляет собой отношение числа единиц, обладающих данным признаком или данным его значением ( m ) к общему числу единиц выборочной совокупности ( n ) w m . n (Эту статистическую характеристику не следует путать с долей выборки, являющейся отношением числа единиц выборочной совокупности к числу единиц генеральной совокупности). Ошибка выборочной доли представляет собой расхождение (разность) между долей в выборочной совокупности ( w ) и долей в генеральной совокупности ( p ), возникающее вследствие несплошного характера наблюдения. Величина ошибки выборочной доли определяется как предел отклонения w от p , гарантируемый с заданной вероятностью: | w  p|   w , где  – гарантийный коэффициент, зависящий от вероятности с которой гарантируется невыход разности w – средняя ошибка выборочной доли. 68 w –p за пределы P  w ; ,  Значения гарантийного коэффициента вероятности P и соответствующие им приведены в табл.4.1. Обычно вероятность принимается  равной 0,9545 или 0,9973, а при этом равно соответственно 2 и 3. Значения средней ошибки выборки определяются по формуле  20  где n ,  20 – дисперсия в генеральной совокупности. Между дисперсиями в генеральной и выборочной совокупностях существует следующее соотношение: n   b2 , n 1 2 где b2 – дисперсия в выборке. Значения гарантийного коэффициента  1,00 1,10 1,20 1,30 1,40 1,50 1,60 P 0,6827 0,7287 0,7699 0,8064 0,8385 0,8664 0,8904   P 1,70 1,80 1,90 2,00 2,10 2,20 2,30  Таблица 4.1 0,9109 0,9281 0,9426 0,9545 0,9643 0,9722 0,9786 2,40 2,50 2,60 2,70 2,80 2,90 3,00 P 0,9836 0,9876 0,9907 0,9931 0,9949 0,9963 0,9973 n Если n достаточно велико, то n  1 близко к единице и дисперсию в генеральной совокупности можно заменить на дисперсию в выборке. Средняя ошибка выборочной доли определяется по формуле  2w w  n 69 , 2 где w – дисперсия выборочной доли. Для показателя доли альтернативного признака (выборочной доли) дисперсия определяется по формуле  2w  w(1  w). Приведенная формула средней ошибки выборочной доли применяется при повторном отборе. При бесповторном отборе численность генеральной совокупности 1 сокращается, поэтому дисперсия умножается на коэффициент n . N Формулы расчета средних ошибок выборочной доли для различных способов отбора единиц из генеральной совокупности приведены в табл. 4.2. Таблица 4.2 Формулы расчета средних ошибок выборочной доли и выборочной средней Метод отбора выборки Средняя ошибка выборочной доли Механический и собственно– случайный повторный отбор Механический и собственно– случайный бесповторный отбор Серийный отбор при бесповторном отборе серий w  w  выборочной средней w(1  w) n x  w(1  w) n (1  ) n N w   2w R  r r ( R 1 70 ) x  x   2x n  2x n (1  n ) N  2x R  r r ( R 1 ) Метод отбора выборки Средняя ошибка выборочной доли Типический отбор при повторном случайном отборе внутри групп Типический отбор при бесповторном случайном отборе внутри групп где  2w w  w  выборочной средней x  n  2w n (1  ) n N x   2x n  2x n (1  N  2w r R  2w – средняя из групповых дисперсий;  2x – дисперсия признака  2x – межсерийная дисперсия выборочных средних;  2x – средняя из выборочных дисперсий типических групп. – численность генеральной совокупности; – межсерийная дисперсия выборочной доли; – число отобранных серий; – число серий в генеральной совокупности; x ; Дисперсии в формулах расчета средних ошибок выборочной доли в табл.4.2. рассчитываются следующим образом: – межсерийная дисперсия выборочной доли r   2 w где wi w – выборочная доля в  (w i  w)2 i 1 r i –й серии; – средняя величина доли во всех сериях; 71 , n ) N – средняя из групповых дисперсий k  w (1  w )n j  2w  w(1  w)  j j j 1 , k n j j 1 где wj nj k – выборочная доля в – число единиц в j j –й типической группе; –й типической группе; – число типических групп. Предельное значение ошибки выборочной доли определяется по следующей формуле:  w   w .  w зависит от доли Величина средней ошибки выборочной доли изучаемого признака в генеральной совокупности, числа наблюдений и способа отбора единиц из генеральной совокупности для наблюдения, а величина предельной ошибки  w зависит еще и от величины вероятности P , с которой гарантируются результаты выборочного наблюдения. Распространение выборочных данных на генеральную совокупность производится с учетом доверительных интервалов. Доля альтернативного признака в генеральной совокупности равна p  w  w. 4.3.2. Ошибка выборочной средней Ошибка выборочной средней представляет собой расхождение ~ (разность) между выборочной средней x и генеральной средней x , возникающее вследствие несплошного выборочного характера наблюдения. Величина ошибки выборочной средней определяется как предел отклонения x~ от x , гарантируемый с заданной вероятностью:  | x~  x |   x , где x – средняя ошибка выборочной средней. При повторном отборе средняя ошибка определяется следующим образом: 72  2x x  , n  2x – средняя величина дисперсии количественного признака x , где которая рассчитывается по формуле средней арифметической невзвешенной n  2x   (x  x~) 2 i i 1 , n или средней арифметической взвешенной n   2 x  (x  x~ ) 2 f i i i 1 , n f i i 1 где fi – статистический вес. Формулы расчета средней ошибки выборочной средней для различных способов отбора выборочной совокупности приведены в табл.4.2. Межсерийная дисперсия выборочных средних выборочных дисперсий типических групп образом:  2x  2x  2 i i 1 r 73 и средняя из вычисляются следующим r  (x~  x~)  2x ; k  2x  2   i ni i 1 k n , i где x~i i 1 – среднее значение показателя в  i2 – дисперсия признака x в i – й серии; i – й типической группе; ni – число единиц в i –й типической группе. Предельная ошибка выражается следующим образом:  x   x и зависит от вариации изучаемого признака в генеральной совокупности, объема и доли выборки, способа отбора единиц из генеральной совокупности и от величины вероятности, с которой гарантируются результаты выборочного наблюдения. Средняя величина количественного признака в генеральной совокупности определяется с у четом предельной ошибки выборочной средней x  x~   x . 4.4. Объем выборки Определение необходимого объема выборки n основывается на формулах предельных ошибок выборочной доли и выборочной средней. Например, для повторного отбора предельные ошибки равны w   w(1  w ) ; n x   74  2x n отсюда объемы выборок для расчета выборочной доли средней nx следующие: nw   2 w(1  w) 2w nx   2 2x 2x nw и выборочной ; . Аналогичным образом определяются объемы выборок при различных способах отбора выборочной совокупности. Для серийного отбора определяется число отобранных серий. Формулы расчета приведены в табл.4.3. Таблица 4.3 Формулы расчета объема выборки Метод отбора выборки Объем выборки или число серий для определения выборочной доли Механический и собственно– случайный повторный отбор Механический и собственно– случайный бесповторный отбор Серийный отбор при бесповторном отборе серий nw  выборочной средней  2 w (1  w ) nx  2w  2 w(1  w) N nw  2  w N   2 w (1  w ) rw   2 2w R  ( R  1)    2 w 2 75 2 w  2 2x 2x  2 2x N nx  2  x N   2 2x rx   2 2x R 2x ( R  1)   2 2x Метод отбора выборки Объем выборки или число серий для определения выборочной доли Типический отбор при повторном случайном отборе внутри групп Типический отбор при бесповторном случайном отборе внутри групп nw   2  2w  2 w  2  2w N nw  2  w N   2  2w выборочной средней nx   2  2x 2x  2  2x N nx  2  x N   2  2x где nw, nx – объемы выборок соответственно для определения ошибок выборочной доли и выборочной средней; rw, rx – число отобранных серий соответственно для определения ошибок выборочной доли и выборочной средней; w ,x – предельные ошибки соответственно выборочной доли и выборочной средней. 4.5. Малая выборка Под малой выборкой понимается такое выборочное наблюдение, численность единиц которого не превышает 20–30 и может составлять 5–6. С увеличением численности выборочной совокупности повышается точность выборочных данных, однако приходится иногда ограничиваться малым числом наблюдений. Эта необходимость возникает, например, при проверке качества продукции, связанной с уничтожением проверяемой единицы продукции. В математической статистике доказывается, что при малых выборках характеристики выборочной совокупности можно распространять на генеральную, но расчет средней и предельной ошибок выборки имеет особенности. 76 Ранее указывалось, что при большом объеме выборочной совокупности n (n > 100) коэффициент , на который необходимо умножить n1 выборочную дисперсию, чтобы получить генеральную, не играет большой роли. Но когда выборочная совокупность небольшая, этот коэффициент необходимо принимать во внимание. Средняя ошибка малой выборки ( вычисляется по формуле  2m m  n m ) , где  m – дисперсия в малой выборке, которая определяется следующим образом: 2 n  2m   ( x  x~) 2 i i 1 n 1 . Предельная ошибка имеет вид  m   m . Значение коэффициента доверия  зависит не только от заданной доверительной вероятности, но и от численности единиц выборки n . Английский ученый Стьюдент доказал, что в случаях малой выборки действует особый закон распределения вероятности. В табл.4.4 приводятся значения, характеризующие вероятность ( S  ) того, что предельная ошибка  –кратную среднюю ошибку: S  P[( ~ x  x )   m ]. малой выборки не превысит Таблица 4.4 Распределение вероятности  1,0 1,5 2,0 2,5 3,0 S от значения коэффициента в малых выборках в зависимости  и численности выборки n 5 7 10 12 16 18 20 0,626 0,792 0,884 0,933 0,960 0,644 0,816 0,908 0,953 0,976 0,657 0,832 0,923 0,966 0,985 0,662 0,838 0,930 0,970 0,988 0,666 0,846 0,936 0,975 0,991 0,668 0,848 0,938 0,977 0,992 0,670 0,850 0,940 0,978 0,993 77 ОГЛАВЛЕНИЕ 1. МЕТОДОЛОГИЯ СТАТИСТИЧЕСКИХ СРАВНЕНИЙ . . . . . . . . . . . 3 1.1. Основные принципы статистического сравнения . . . . . . . . . . . . 3 1.2. Приведение статистических данных к сопоставимому виду . . . . . 5 1.3. Международные сопоставления статистической информации . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2. КОРРЕЛЯЦИОННО–РЕГРЕССИОННЫЙ АНАЛИЗ СВЯЗЕЙ СОЦИАЛЬНО–ЭКОНОМИЧЕСКИХ ЯВЛЕНИЙ . . . . . . . . . . . . . . . . . . . . 9 2.1. Анализ формы статистической связи количественных показателей . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.1.1. Анализ парной корреляции . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.1.2. Анализ множественной корреляции . . . . . . . . . . . . . . . . . . . . 18 2.2. Оценка тесноты статистической связи количественных показателей . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1. Парный коэффициент корреляции . . . . . . . . . . . . . . . . . . . 2.2.2. Индексы корреляции и детерминации . . . . . . . . . . . . . . 2.2.3. Множественный коэффициент корреляции . . . . . . . . . . . 2.2.4. Частный коэффициент корреляции . . . . . . . . . . . . . . . . . 2.3. Анализ статистических связей качественных признаков . . . . . 2.3.1. Коэффициенты ассоциации и контингенции . . . . . . . . . 2.3.2. Коэффициент корреляции рангов . . . . . . . . . . . . . . . . . . 2.3.3. Коэффициент конкордации . . . . . . . . . . . . . . . . . . . . . . . . 20 20 24 27 29 31 31 35 37 3.4. МОДЕЛИ ДИНАМИЧЕСКИХ ПРОЦЕССОВ . . . . . . . . . . . . . . . . . 39 3.1. 3.2. 3.3. 3.4. Классификация рядов динамики . . . . . . . . . . . . . . . . . . . . . . . . . . 39 Характеристики рядов динамики . . . . . . . . . . . . . . . . . . . . . . . . . 41 Модели рядов динамики . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 Выравнивание рядов динамики . . . . . . . . . . . . . . . . . . . . . . . . . . 53 3.4.1. Метод скользящих средних . . . . . . . . . . . . . . . . . . . . . . . . 53 3.4.2. Выравнивание рядов динамики с помощью среднего прироста . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.4.3. Аналитическое выравнивание рядов динамики . . . . . . . . 56 3.4.4. Экспоненциальное сглаживание рядов динамики . . . . . . 57 3.5. Прогнозирование экономических процессов . . . . . . . . . . . . . . . . 59 3.6. Приведение рядов к сопоставимому виду . . . . . . . . . . . . . . . . . . 61 78 4. МЕТОД ВЫБОРОЧНЫХ НАБЛЮДЕНИЙ . . . . . . . . . . . . . . . . . . . . . 64 4.1. Выборочное исследование . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2. Виды отбора при выборочном наблюдении . . . . . . . . . . . . . . . . . 4.3. Ошибки выборочного отбора . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1. Ошибка выборочной доли . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2. Ошибка выборочной средней . . . . . . . . . . . . . . . . . . . . . . . 4.4. Объем выборки . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 4.5. Малая выборка . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 79 64 66 68 69 73 75 77

Статистика

Тебе могут подойти лекции

Статистика. Виды статистики