«Теория статистики» - конспект лекции

Конспект лекции по дисциплине «Теория статистики», Word формат

Лекции по дисциплине «Теория статистики» Раздел 1. Описательная статистика План Лекция 1. Теоретические основы статистики как науки Лекция 2. Статистическое наблюдение Лекция 3. Статистические таблицы и графики Лекция 4. Группировка и сводка материала Лекция 5. Статистические величины: абсолютные и относительные Лекция 6. Средние величины Лекция 1 Теоретические основы статистики как науки Статистика – это общественная наука, которая изучает количественную сторону социально-экономического явления в тесной связи с его качественным содержанием. Статистика как наука является целостной системой научных дисциплин: общая теория статистики, экономическая статистика, социальная статистика. Предмет исследования статистики – массовые социально-экономические явления и процессы. Статистика изучает количественную сторону этих явлений в неразрывной связи с их качественным содержанием в конкретных условиях места и времени. Качественная сторона явления характеризуется сходством единиц по каким-либо качественным признакам (например, пол людей, принадлежность предприятия к определенной отрасли экономики и т.п.). Количественная сторона явления характеризуется числовыми значениями признаков каждой отдельной единицы явления, определяет размер явления и соотношение его частей (например, в населенном пункте 123 мужчины и 149 женщин; предприятий машиностроения в регионе 530 единиц; коммерческих банков в городе – 9 единиц). При анализе массового явления необходимо учитывать единство качественной и количественной сторон. Если не определена качественная сторона явления, то невозможно определить и его количественную сторону (например, при анализе производительности труда необходимо знать само понятие производительности, его основные характеристики и факторы, влияющие на нее). Массовое социально-экономическое явление – это явление или процесс социально-экономической жизни общества, обладающие индивидуальными и общественными признаками (например, производство и потребление продукции; перевозка грузов автомобильным, железнодорожным и другими видами транспорта; экспорт и импорт продукции; миграция населения и т.д.). Объектом статистического исследования является статистическая совокупность (в каждом конкретном случае своя). Статистическая совокупность – это множество однородных единиц, обладающих определенными признаками, объединяющими их (например, предприятия отдельной отрасли (объединены технологически), население города (объединено территориально), сберегательные банки (объединены видом и особенностями деятельности) и т.д.). По форме внешнего выражения признаки делятся на: - атрибутивные (описательные, качественные) признаки характеризуют качественную сторону изучаемого явления (пол, социальная принадлежность, уровень квалификации); - количественные (объемные) признаки, характеризуют количественную сторону изучаемого явления (уровень дохода, возраст, число человек в семье, численность рабочих). Количественные признаки всегда имеют цифровую оценку и могут быть представлены дискретными, т.е. прерывными, неделимыми величинами (например, люди, тарифный разряд) или непрерывными, т. е. величинами, которые могут принимать не только целые, но и дробные значения (например, возраст, денежный доход, прибыль). Единица статистической совокупности – отдельно взятый элемент совокупности (например, человек, отдельное предприятие). Единицы совокупности обладают индивидуальными особенностями и различиями, отличающими их друг от друга. В статистической совокупности эти отличия чаще всего отражаются количественной стороной. Количественные изменения значений признака при переходе от одной единицы совокупности к другой называются вариацией признака. Явления и процессы в статистике характеризуются статистическими показателями. Статистический показатель – это количественная оценка свойств изучаемого явления. С помощью них определяются размеры изучаемого явления, его особенности, закономерности развития и взаимосвязь с другими явлениями. Виды статистических показателей: 1. Учетно-оценочные показатели отражают объем и уровень изучаемого явления (например, число предприятий машиностроительного комплекса в регионе). 2. Аналитические показатели характеризуют особенности развития явления, распространенности его в пространстве, соотношение его частей, взаимодействие с другими явлениями (например, анализ себестоимости продукции предприятий легкой промышленности в определенные периоды времени; анализ динамики объемов производства; сравнительная характеристика каждого предприятия по качеству продукции). К аналитическим показателям относятся средние величины, показатели вариации признака, относительные величины, показатели динамики, индексы, показатели выполнения плана и планового задания и т.д. Основные задачи статистики как науки: - изучение уровня и структуры массовых социально-экономических явлений и процессов; - анализ взаимосвязей массовых социально-экономических явлений и процессов между собой и с другими явлениями и процессами; - изучение динамики развития массовых социально-экономических явлений и процессов. Современная статистика представлена тремя основными уровнями (см. рис. 1): общая теория, экономическая и социальная статистика. Первый уровень – общая теория статистики – является наукой о наиболее общих принципах, правилах и законах цифрового освещения социально-экономических явлений. Важнейшие ее разделы: статистическое наблюдение, статистическая группировка и сводка материала, статистические показатели. Категории, показатели и методы общей теории статистики используются на всех уровнях статистического исследования и во всех отраслевых статистиках. Второй уровень включает в себя экономическую и социально-демографическую статистики. Экономическая статистика изучает явления и процессы в области экономики: структуру и взаимосвязи отраслей экономики, анализирует показатели общественного производства. Социально-демографическая статистика изучает население, социальные явления и процессы: условия жизнедеятельности людей, их взаимоотношения, образ жизни, соотношение различных социальных групп между собой, уровень культурного развития людей и т.д. Общая теория статистики Экономическая статистика Социально-демографическая статистика отраслевые статистики Статистика промышленности Статистика сельского хозяйства Статистика культуры Статистика образования Статистика цен Статистика здравоохранения Статистика фондовой биржи Статистика отдыха, спорта и туризма Другие отраслевые статистики Другие отраслевые статистики Рис. 1. Структура статистической науки Третий уровень занимают отрасли экономической и социально-демографической статистики (см. рис. 1). Лекция 2 Статистическое наблюдение Статистическое наблюдение – это планомерный, научно обоснованный сбор данных или сведений о социально-экономических явлениях и процессах. Требования, предъявляемые к статистическим данным: 1) достоверность данных обеспечивается компетентностью исследователя, совершенством инструментария (бланков, инструкций, анкет и т.д.), заинтересованностью и готовностью объекта наблюдения, полнотой данных; 2) обоснованный отбор единиц наблюдения в исследуемую статистическую совокупность (так как явления социально-экономической жизни общества многообразны, исследователь вынужден проводить сбор данных лишь по части совокупности); 3) сопоставимость обеспечивается едиными единицами измерения, сбором данных в определенных границах пространства и времени; 4) своевременность (устаревшие данные не отражают действительности). Статистическое наблюдение могут проводить органы государственной статистики, научно-исследовательские институты, экономические службы банков, предприятий, фирм, бирж. Элементы статистического наблюдения: - объект наблюдения – исследуемая статистическая совокупность (население при переписи, предприятия, населенные пункты, банки и т.д.); - единица наблюдения – отдельный элемент исследуемой совокупности, который обладает определенными признаками, подлежащими регистрации (человек, факт, предмет, процесс и т.д.). Единицы наблюдения обладают множеством признаков, у человека – это возраст, пол, социальное происхождение, семейное положение, доход; - статистический признак – это конкретное свойство, качество, отличительная черта единицы наблюдения (например, пол работника, его квалификация, профессия, заработная плата и т.д.). Признаки формируются по определенным правилам: 1) отбор признаков производится с учетом целей исследования и возможностей их обработки; 2) количество отобранных признаков должно быть не большим; 3) признаки должны взаимно дополнять друг друга; 4) отбор признаков должен производиться с учетом возможностей исследователя; - отчетная единица – единица наблюдения, от которой поступают в установленном порядке данные по утвержденным формам (например, отчетными единицами могут быть предприятия, организации, банки); - программа наблюдения – перечень признаков (вопросов), подлежащих регистрации в процессе наблюдения. Требования к программе наблюдения: 1) программа должна содержать признаки, которые непосредственно характеризуют свойства, основные черты изучаемого явления; 2) вопросы программы должны быть точными и понятными; 3) программа должна содержать определенную последовательность вопросов; - статистический формуляр – документ единого образца, содержащий программу и результаты наблюдения; - момент или период наблюдения – это время, по состоянию на которое регистрируются данные. Период наблюдения – это срок, в течение которого происходит регистрация данных, т.е. время необходимое для сбора данных. Моментом или точнее является конкретная дата, например, при переписи критическим моментом наблюдения населения 1989 года критическим моментом наблюдения было 11 января 24.00 часа (все кто родился или умер до 24.00 – регистрируются, хоть на одну секунду позже – не регистрируются). Выделяют три основные формы статистического наблюдения: 1) отчетность – основная форма наблюдения, с помощью которой статистические органы в определенные сроки получают от предприятий, учреждений и организации отчетные данные; 2) специально организованное наблюдение (перепись) – проводится с целью получения сведений, отсутствующих в отчетности, или для проверки ее данных; 3) регистровое наблюдение – это форма непрерывного статистического наблюдения за долговременными процессами. Способы статистического наблюдения: 1) непосредственное наблюдение – наблюдение, при котором регистраторы непосредственно осуществляют необходимые замеры, взвешивание, подсчет и т.д. 2) документальное наблюдение – наблюдение, при котором источников статистической информации служат различного рода документы; 3) опрос – это способ наблюдения, при котором необходимые сведения получают со слов респондента (опрашиваемого, т.е. единицы наблюдения). Может проводиться в устной форме или с помощью специально разработанных опросных листов; 4) корреспондентский способ – сведения наблюдателям сообщают добровольные корреспонденты; 5) анкетный способ – сбор информации с помощью анкет; 6) явочный способ – представление сведений регистраторам в явочном порядке (например, при регистрации брака, рождений и т.д.). Виды статистического наблюдения: 1) по времени регистрации выделяют: - непрерывное (текущее) – систематизированная регистрация фактов по мере их возникновения (например, дорожно-транспортные происшествия, акты гражданского состояния: брак, рождение развод); - периодическое – сбор данных, отражающих изменение объекта, через определенные периоды времени (например, раз в 10 лет перепись населения); - единовременное – регистрация состояний объекта по мере возникновения потребности в данных (например, инвентаризация незавершенного строительства 1990 г.). 2) по охвату единиц совокупности существуют: - сплошное – охватывает при регистрации все без исключения единицы наблюдения; - несплошное – при регистрации производится сбор данных лишь по части единиц совокупности: - обследование основного массива, т.е. наблюдение за частью наиболее крупных единиц; - выборочное наблюдение – наблюдение за определенной частью единиц, отобранных в исследуемую совокупность; - монографическое наблюдение – подробное описание отдельных единиц наблюдения в совокупности Точность статистического наблюдение – это степень соответствия полученных результатов в ходе наблюдения и их действительного значения. Расхождение между расчетными и действительными значениями изучаемых величин называют ошибкой наблюдения. Выделяют два основных вида ошибок наблюдения: 1. Непреднамеренные: - случайные ошибки связаны с неточностью измерительных приборов, невнимательностью регистратора, небрежностью заполнения документов и т.д. (например, опечатки, ошибки в формулах расчета по невнимательности и т.д.); - систематические ошибки наблюдения могут быть связаны, например, с округлением полученных значений в большую сторону; - ошибки репрезентативности (представительности) встречаются только при проведении несплошного наблюдения и связаны с отбором не тех единиц в исследуемую совокупность (например, для анализа успеваемости студентов группы были выбраны только отличники, следовательно, вывод по группе в целом будет сделан ошибочный): - случайные ошибки репрезентативности возникают, если отобранные единицы не характеризуют совокупность в целом; - систематические ошибки репрезентативности связаны с нарушением принципов отбора единиц в исследуемую совокупность. 2. Преднамеренные (злостные), как правило, встречаются при получении неточных данных от отчетной единицы, где значения величин специально завышены или занижены. Лекция 3 Статистические таблицы и графики Статистическая таблица – это способ рационального изложения и обобщения данных о социально-экономических явлениях при помощи цифр, расположенных в определенном порядке. Внешне таблица представляет собой пересечение граф и строк, которые формируют ее остов (см. рис. 2). Каждое пересечение образует клетку таблицы. Название таблицы (общий заголовок) Содержание строк Наименование граф (верхние заголовки) А 1 2 3 4 Итоговая графа Наименование строк (боковые заголовки) Итоговая строка Рис. 2. Остов (основа) статистической таблицы Таблица содержит три вида заголовков: общий, верхние и боковые. Общий заголовок отражает содержание всей таблицы, располагается над ее макетом по центру и является внешним заголовком. Верхние заголовки характеризуют содержание граф, а боковые – строк. Они являются внутренними заголовками. Остов таблицы, заполненный заголовками, образует ее макет (рис. 3.). Перевозки грузов по видам транспорта общего пользования (тысяч тонн) Год Транспорт - всего В том числе: железнодорожный автомобильный морской внутренний водный воздушный 2001 2002 2003 2004 2005 Рис. 3. Макет таблицы Основными элементами статистической таблицы являются подлежащее и сказуемое: - подлежащее статистической таблицы характеризует объект исследования, это могут быть отдельные единицы совокупности (фирмы, объединения) в порядке их перечисления или сгруппированные по каким-либо признакам, обычно подлежащее таблицы размещается в левой части, в наименовании строк; - сказуемое таблицы образует система показателей, которыми характеризуется объект исследования, т.е. подлежащее таблицы. Сказуемое формирует верхние заголовки и составляет содержание граф. Основные правила построения статистических таблиц: 1) таблица должна содержать только необходимые для анализа данные, не следует «засорять» таблицу ненужной информацией; 2) заголовки таблицы должны быть краткими, четкими, содержащими суть проводимого исследования; 3) в зависимости от целей исследования, наглядности и лучшего прочтения, расположение подлежащего и сказуемого статистической таблицы может меняться местами; 4) взаимосвязанные данные должны быть представлены в сопоставимых единицах измерения; 5) по необходимости таблица может содержать примечания. В зависимости от структуры подлежащего и группировки в нем единиц совокупности различают простые и сложные таблицы. Простая таблица – таблица, подлежащее которой состоит из простого перечня объектов или территориальных единиц, т.е. в подлежащем нет группировки единиц совокупности. Среди простых статистических таблиц выделяют монографические и перечневые. Монографические таблицы содержат цифровые показатели, характеризующие не всю исследуемую совокупность, а лишь ее часть по отдельным признакам. Перечневые таблицы содержат статистические показатели по каждой единице совокупности в отдельности. Сложная таблица – таблица, которая содержит группировку единиц совокупности по одному и более признакам. Различают групповые и комбинационные сложные таблицы. Групповыми называются таблицы, подлежащее которых содержит группировку единиц совокупности по одному признаку. В отличие от групповых таблиц, подлежащее комбинационных таблиц содержит группировку единиц совокупности по двум и более признакам. В зависимости от представленного сказуемого статистические таблицы делятся на два вида: таблицы с простой разработкой сказуемого и таблицы со сложной разработкой сказуемого. При простой разработке сказуемого в сказуемом представлено перечисление признаков, характеризующих изучаемую совокупность, а цифровые значения итоговых строк (или столбцов) получают путем суммирования показателей по каждому признаку в отдельности, независимо друг от друг. Если применяется сложная разработка сказуемого, то признаки делятся на подгруппы. Статистический график – это рисунок, на котором с помощью геометрических образов, линий, символов или знаков описывается статистическая совокупность. Статистические графики используются для более наглядного представления табличных данных статистического наблюдения, результатов анализа и обобщения исходной информации. Кроме того, графики широко применяются при изучении структуры исследуемого явления, изменении его во времени и распространенности в пространстве. Графическое представление сравнительных характеристик явлений более выразительно отображает основные тенденции их развития и взаимосвязь с другими явлениями и процессами. y А B C D x Рис. 4. Элементы графика Основными элементами графика являются: - графический образ, т.е. совокупность точек, линий, фигур, с помощью которых изображаются статистические показатели (например, на рис. 5 – столбики); - поле графика – часть плоскости ограниченной осями, где расположены графические образы (см. рис. 4 – ABCD); - оси графика – по горизонтали – ось абсцисс (рис. 4 – «х»), по вертикали – ось ординат (рис. 4 – «y»); - пространственные ориентиры задаются в виде системы координатных сеток (см. рис. 5, пересечения пунктирных линий образуют координатную сетку); - масштабные ориентиры определяются масштабом (см. рис. 5 масштаб оси ординат – 10%, оси абсцисс – страна) и системой масштабных шкал; - масштабная шкала - это линия, каждая точка которой имеет цифровую меру (рис. 5 каждая шкала на оси ординат составляет 10%); - экспликация графика - словесное описание содержания графика, включающее в себя название графика, подписи вдоль масштабных шкал и пояснения к отдельным частям графика. При проведении статистического исследования применяется множество видов графиков. Все они классифицируются по разным признакам: 1) по виду геометрических знаков, используемых при построении графика различают точечные, линейные, плоскостные и пространственные, т.е. объемные; 2) по форме графического образа выделяют линейные, плоскостные и объемные графики; 3) по способу построения статистические графики делятся на диаграммы и карты; 4) в зависимости от поставленных задач исследования выделяют диаграммы сравнения, структурные диаграммы и диаграммы динамики. При построении точечных диаграмм в качестве геометрических знаков используется совокупность точек, линейные диаграммы строятся с помощью линий, геометрическими знаками плоскостных диаграмм являются геометрические фигуры, представленные на плоскости, а при построении объемных диаграмм геометрические фигуры изображаются в трехмерной системе координат. Диаграммы – наиболее распространенный способ графических изображений, основанный на применении геометрических фигур. Наиболее часто в статистических исследованиях используются линейные, столбиковые, полосовые, и секторные диаграммы. Линейные диаграммы широко применяются при построении диаграмм динамики (см. рис. 7), где по оси абсцисс откладываются периоды времени, а по оси ординат – величины количественных или качественных показателей. Столбиковые диаграммы используются при построении диаграмм сравнения, где по оси абсцисс распределяются временные или пространственные ориентиры, а по оси ординат – величины статистического показателя. От оси абсцисс поднимаются прямоугольники (столбики) на соответствующую высоту, что позволяет наглядно увидеть различия величин статистического показателя (см. рис. 8). Если при построении диаграммы сравнения поменять местами ось ординат и ось абсцисс, то получим полосовую диаграмму. Здесь основанием столбика является не горизонтальная, а вертикальная ось, поэтому столбики выглядят как полоски, отсюда и название. При анализе структуры изучаемого явления наибольшее распространение получили секторные диаграммы. Они могут быть как плоскостные, так и объемные. Секторная диаграмма представляет собой окружность, разделенную от центра на отдельные сегменты (сектора). Каждый сектор характеризует удельный вес (долю) отдельной части явления, в общем его объеме. Построение структурных диаграмм используется с целью анализа структуры явления в целом, ее изменений, а также динамики численности исследуемой совокупности. Статистические карты – это графики количественного распределения по поверхности, которые показывают пространственное размещение или пространственную распространенность статистических данных. Основными средствами представления пространственного размещения являются штриховка, фоновая раскраска и геометрические фигуры (круги, квадраты, треугольники и т.д.). Выделяют два вида статистических карт: картограммы и картодиаграммы. Картограмма – это географическая карта, на которой штриховкой, фоном, геометрическими фигурами или точками показана интенсивность территориального распространения исследуемого явления или процесса. Картодиаграмма - это географическая карта, на которой нанесены линейные, столбиковые или другие диаграммы с целью характеристики развития исследуемого явления на отдельных территориях страны. Лекция 4 Группировка и сводка материала Группировка – это расчленение единиц генеральной совокупности на однородные в отношении изучаемых признаков группы и подгруппы. В зависимости от целей проведения выделяют три основных вида группировок: 1) типологическую – разделение всей совокупности единиц на качественно однородные группы (типы) (например, группировка предприятий по форме собственности, виду деятельности и т.д.); 2) структурную - разделение всей совокупности единиц с целью анализа структуры явления (например, группировка населения по полу, возрасту, количеству детей в семье); 3) аналитическую - разделение всей совокупности единиц с целью изучения взаимосвязи между отдельными признаками явления (например, группировка банков по стоимости активов для определения влияния ее на прибыль банков). При проведении группировки и сводки материала выделяют два вида признаков: факторный (группировочный) и результативный. В свою очередь факторный признак обозначается как х, а результативный – как y. Расчленение всей совокупности единиц на группы проводится по факторному признаку. В зависимости от числа группировочных признаков выделяют: - простую группировку – разделение единиц совокупности на группы по одному (факторному) признаку, здесь результативный признак отсутствует; - сложную группировку - разделение единиц совокупности на группы по двум и более факторным признакам ( x1 , x 2 , x3 ,... ). Факторные признаки могут быть: - атрибутивными - качественными, например, профессия рабочих, социальная принадлежность населения и т.д.; - количественными - объемными, например, возраст рабочих, число человек в семье, количество мужчин в цехе. При непрерывном изменении значений признака-фактора применяют разделение его значений на интервалы. Интервал – это разность между максимальным и минимальным значениями признака в группе. В статистике применяют три вида интервалов: равные, неравные (постепенно увеличивающиеся) и специализированные. Этапы проведения аналитической группировки Этап 1. Выбор результативного и факторного признаков. При этом надо учесть, что факторный признак каким-то образом влияет на результативный. Например, из двух признаков: прибыль и производительность труда – прибыль является результативным признаком (y), а на него влияет факторный признак – производительность труда (х). При проведении любого вида группировки результативный признак один, а факторных - может быть несколько. Этап 2. Определение числа групп (если не задано). Число групп рассчитывается по формуле Стерджесса: k  1.0  3.322  lqN , где N – число единиц совокупности. Этап 3. Определение шага интервала. X  X min Для этого используют следующую формулу: i  max , k где Xmax – максимальное значение факторного признака в совокупности; Xmin – минимальное значение факторного признака в совокупности; k - число групп в группировке. Этап 4. Определение границ групп. Границами группы является интервал значений факторного признака в группе, который содержит нижнюю и верхнюю границы интервала. Нижняя граница первого интервала соответствует минимальному значению признака-фактора, верхняя – нижней границе плюс шаг интервала (см. табл.) и дальше аналогично. Таблица Определение значений верхней и нижней границ интервала Граница интервала № группы Нижняя Верхняя 1 X min X min  i  X 1 2 X1 X1  i  X 2 3 X2 X2 i  X3 … … … k X k 1 X k 1  i  X k Верхняя граница интервала последней группы должна быть больше или равна максимальному значению признака в совокупности: X k ≥ X max . При проведении группировки необходимо знать, что значение признака, учтенное в одной группе, не может быть учтено в другой. Так, если первый интервал [2 - 6], а второй – [6 - 10], то значение признака «6» учитывается в первой группе и не включается во вторую. Таким образом, под нижней границей второй группы подразумевается значение «6,1». Этап 5. Составление вспомогательной (рабочей) таблицы. В данной таблице проводится непосредственно группировка, т.е. расчленение всех единиц совокупности на группы. Таблица должна быть оформлена статистически грамотно: иметь заглавие, наименование подлежащего, сказуемого, единицы измерения показателей, итоговые характеристики показателей и т.д. Вспомогательная таблица является основанием для проведения сводки и обработки материала. Этап 6. Построение сводной групповой таблицы На основе рабочей таблицы проводится сводка материала, т.е. строится сводная групповая таблица. При проведении сводки материала вписываются итоговые строки, полученные в рабочей таблице, и определяются средние значения факторного и результативного признаков по каждой группе. Также определяются общие средние величины факторного и результативного признаков. Групповые средние значения признаков определяются по формулам: xi  xi yi ; yi  . ni ni а общие средние значения признаков определяется делением итоговых показателей: x; y  y . x n n Этап 7. Построение вывода. На основе проведенной сводки материала строится вывод, в котором отражается степень зависимости результативного признака от факторного. При построении вывода необходимо анализировать рассчитанные средние величины результативного и факторного признаков по каждой группе. Лекция 5 Статистические величины: абсолютные и относительные В статистике любой анализ исследуемой совокупности проводится с использованием статистических величин. Статистическая величина – это обобщающий показатель, характеризующий изменение, динамику или объем совокупности. В статистических исследованиях применяют три вида статистических величин: абсолютные, относительные и средние. Абсолютные величины Абсолютные величины характеризуют численность и размер (объемность) социально – экономического явления или процесса в определенные периоды времени. Они образуются путем суммирования значений признака и всегда имеют единицы измерения. Выбор единицы измерения обусловлен сущностью изучаемого явления и задачами, поставленными перед исследователем. Виды абсолютных величин 1) величины, характеризующие объем изучаемого явления на строго определенную дату (например, численность рабочих на первое июня); 2) величины, характеризующие объем явления за определенный период времени (например, объем реализованной продукции предприятия за полугодие, квартал, месяц, год). Единицы измерения абсолютных величин 1) натуральные – единицы измерения соответствуют потребительским свойствам продукта: - простые (например, ткань – в метрах; молоко – в литрах; цветочные горшки – в штуках); - сложные – образуются из двух и более простых единиц измерения (например, рабочее время – в человеко-часах, человеко-днях; потребление электроэнергии – в кВт/час, скорость – в км/ч); 2) условно–натуральные – применяются в том случае, когда надо суммировать продукцию, обладающую общностью основного потребительского свойства (например, если на предприятии используют разные виды топлива (мазут, уголь, нефть,..), то при определении общего объема потребления топлива все виды топлива переводят в тонны условного топлива с помощью коэффициентов калорийности, а потом суммируют полученные значения) 3) стоимостные – денежные единицы измерения (рубли, доллары, тысячи рублей). Очень широко используются в экономико– статистических исследованиях. Относительные величины Относительные величины - это результат сопоставления двух статистических показателей, которое дает цифровую меру их соотношения. Получает их путем деления сравниваемого показателя на показатель, принятый за базу сравнения. Виды относительных величин: 1. Результат сопоставления одноименных статистических показателей 1) результат сопоставления с прошлым периодом: - относительные величины динамики – это коэффициенты роста, которые характеризуют изменение явления во времени. Определяется коэффициент роста по y формуле: K p  1 , y0 где y 0 - уровень явления в базисном периоде; y1 - уровень явления в текущем периоде. Коэффициент роста не имеет единиц измерения и показывает, во сколько раз увеличился или уменьшился объем явления за определенный период времени. Если коэффициент роста перевести в проценты, т.е. умножить на 100, то получим темпы роста. Определить темпы роста можно двумя способами: базисным и цепным. Темпы роста с переменной базой сравнения (цепные) получают при сравнении уровня y y явления каждого периода с уровнем предшествующего периода: T p1  1 ; T p2  2 ; y0 y1 y T p3  3 и т.д. y2 Темпы роста с постоянной базой сравнения (базисные) получают путем сопоставления уровня явления в каждом периоде с уровнем периода, принятого за базу y y y сравнения: T p1  1 ; T p2  2 ; T p3  3 ;…, y0 y0 y0 где y 0 - база сравнения (как правило, уровень первого периода принимается за базисный); y1 - уровень явления второго периода; y 2 - уровень явления третьего периода; y 3 - уровень явления четвертого периода. - относительные величины планового задания определяется как отношение величины показателя по плану ( y пл ) к его фактической величине в предшествующем y периоде ( y 0 ): i пл  пл ; y0 2) результат сопоставления с планом - относительные величины выполнения плана - это отношение фактической величины показателя ( y1 ) к запланированной на тот же период его величине ( y пл ): y i впл  1 . y пл Относительные величины планового задания, выполнения плана и динамики y y y связаны между собой: 1  пл  1  i1  i пл  i в.пл ; y0 y 0 y пл 3) результат сопоставления части и целого или частей между собой - относительные величины структуры характеризуют долю отдельных частей в общем объеме совокупности и выражаются в долях единицы или в процентах. Они n определяются по сгруппированным данным с помощью формулы:   , N где n - число единиц или объем признака по группе; N - общее число единиц или объем признака по всей совокупности. Если полученное значение относительной величины структуры умножить на 100, получим удельный вес; - относительные величины координации отражает отношение численности двух частей единого целого, т.е. показывает, сколько единиц одной группы приходится в среднем на одну, на десять или на сто единиц другой группы изучаемой совокупности (например, сколько служащих приходится на сто рабочих); 4) результат сопоставления в пространстве: - относительные величины наглядности отражает результаты сопоставления одноименных показателей, относящихся к одному и тому же периоду (или моменту) времени, но к разным объектам или территориям (например, сравнивается производительность труда на двух предприятиях). 2. Результат сопоставления разноименных показателей: - относительные величины интенсивности являются именованными числами и показывают итог числителя на одну, на десять или на сто единиц знаменателя. К ним относятся: Q - показатели производства продукции: K  , N где K – показатель производства продукции на душу населения; Q - выпуск продукции в натуральном выражении за год; N - среднегодовая численность населения; - показатели потребления продуктов питания и непродовольственных товаров на душу населения; - показатели, отражающие обеспеченность населения материальными и культурными благами; - показатели, характеризующие техническую оснащенность производства, рациональность расходования ресурсов. Лекция 6 Средние величины Средней величиной называется обобщающий показатель, характеризующий уровень варьирующего количественного признака на единицу совокупности в определенных условиях места и времени. Средняя величина всегда имеет ту же размерность, что и признак у отдельных единиц совокупности. В экономических исследованиях и плановых расчетах применяют две категории средних: степенные и структурные. К степенным средним относятся: средняя арифметическая, средняя гармоническая, средняя квадратическая и средняя геометрическая. Формулы средних величин могут быть получены на основе функции степенной n средней: x  x ik f i i 1 n f i 1 где x xi fi k n , i - средняя; - величина, для которой исчисляется средняя; - частота (повторяемость) индивидуальных значений признака; - степень средней; - число единиц в совокупности. В зависимости от степени (k) получаются различные виды средних величин, их формулы представлены в таблице. Чем выше степень средней, тем большее значение средней получается в результате расчета: Х гарм. < Х геом < Х арифм< Х квадрат Таблица Значение k -1 1 2 Формулы расчета степенных средних величин Формула средней Наименование средней простая взвешенная n  f ; x  w x x 1 Гармоническая 1 1 x x f xw f x n x x x Геометрическая x   x f1  x f 2  x f n 1 Арифметическая Квадратическая x x 2 n x x n x n 1 2  xf f ; x 2 n  xw . w x  f f 2 x Вопрос о выборе средней решается в каждом отдельном случае, исходя из задачи исследования и наличия исходной информации. Средняя арифметическая и средняя гармоническая наиболее распространенные виды средних, их выбор определяется характером имеющейся в распоряжении исследователя информации. Используются они при расчетах общей средней из средних групповых, а также при выявлении взаимосвязи между признаками с помощью группировок. Средняя квадратическая применяется для расчета среднего квадратического отклонения, являющегося показателем вариации признака, а также в технике (например, при сооружении трубопроводов). Средняя геометрическая (простая) используется при вычислении среднего коэффициента роста (среднего темпа роста) в рядах динамики. Структурные средние величины К структурным средним величинам, применяемым в статистических исследованиях, относят моду и медиану. В отличие от степенных средних, структурные средние выступают как конкретные величины, совпадающие со значениями признака отдельных единиц совокупности. Мода (Мо) – это наиболее часто встречающееся значение признака в статистическом ряду. При анализе рынка потребительских товаров модой может быть, например, наиболее распространенный размер обуви, одежды. Для графического определения структурных средних используют три вида кривых: кумуляту, полигон распределения и гистограмму частот. При определении моды используют два последних вида графиков. Для построения гистограммы по оси абсцисс откладывают значения признака, а частоты повторения изображаются прямоугольниками (см. рис.3). Частота повторения обозначается буквой f и указывает, какое количество значений признака встречается в совокупности (в примере 10 частотой повторения является число рабочих определенного разряда: разряд 2 встречается 15 раз, 3 – 24 раза и т.д.). С целью определения моды правую вершину модального прямоугольника (самого высокого) соединяют с правым верхним углом предыдущего прямоугольника, а левую – с левым верхним углом последующего прямоугольника. Абсцисса точки пересечения этих прямых и будет модой. Полигон частот или полигон распределения – это замкнутая ломаная линия (см. рис. 4). По оси абсцисс откладывают значения признака, по оси ординат – частоты повторения. Полигон распределения всегда замыкается на оси абсцисс: на рисунке 4 полигон выходит с первого разряда, что свидетельствует о том, что рабочих первого разряда в цехе нет; замыкается полигон в седьмом разряде, что также свидетельствует об отсутствии его среди рабочих цеха. Мода в данном случае находится как перпендикуляр, опущенный на ось абсцисс с самой высокой точки полигона. Медиана (Ме) – значение признака, которое располагается в середине ранжированного ряда и делит этот ряд на две равные по численности части. Ранжированный ряд – это ряд статистических показателей, выстроенный в порядке возрастания или убывания значений признака. Сначала, для определения значения медианы, находится ее место в ранжированном ряду по формуле: №Ме  n 1 , 2 где n – число единиц в статистическом ряду. Если число единиц в ряду четное, то медиану принимают равной средней арифметической величине из двух срединных значений. Медиана применяется при статистическом контроле качества продукции и технологического процесса на промышленных предприятиях, при изучении распределения семей по величине дохода,… Графически медиану определяют с помощью кумуляты. Построение кумулятивной кривой (кумуляты): на оси ординат откладывают накопленные частоты, на оси абсцисс – значения признака. Соединяя полученные точки плавной линией, которая, начиная с нуля, непрерывно поднимается над осью абсцисс до тех пор, пока не достигнет высоты, соответствующей общей сумме частот. По кумуляте определяется медиана. Для ее нахождения высоту наибольшей ординаты делят пополам. Через полученную точку проводят прямую, параллельную оси абсцисс, до пересечения ее с кумулятой. Абсцисса точки пересечения является медианной величиной. Если факторный признак в группировке данных представлен интервалами значений, то определение моды и медианы имеет особенности. При определении медианы сначала указывают медианный интервал – это первый интервал, в котором сумма накопленных частот превысит половину общего числа наблюдений. Числовое значение медианы определяется по формуле: Me= x Me n 1  S ( 1) 2 i , f Me где x Me - нижняя граница медианного интервала; i - величина интервала; S(-1) – накопленная частота интервала, предшествующего медианному; f - частота медианного интервала. При определении моды в интервальном ряду сначала определяется модальный интервал, т.е. тот интервал, который имеет наибольшую частоту повторения. Конкретное значение моды определяется по формуле: Mo= x Mo  i  f f Mo  f ( Mo1) Mo  f ( Mo1)    f Mo  f ( Mo1)  где xMo - нижняя граница модального интервала; fM - частота модального интервала; f(Mo-1) - частота интервала, предшествующего модальному; , f(Mo+1) - частота интервала, следующего за модальным. При построении для интервального ряда: - гистограммы столбик выходит из нижней границы интервала и замыкается в верхней, т. е. охватывает весь интервал значений; - полигона частот координатой точки является соответствующая частота повторения и середина определенного интервала; - кумуляты координатой точки является соответствующая накопленная частота и верхняя граница определенного интервала. Раздел 2. «Аналитическая статистика План Лекция 7. Статистическое распределение Лекция 8. Кривые рядов распределения и показатели формы распределения Лекция 9. Выборочное наблюдение Лекция 10. Корреляционно-регрессионный анализ Лекция 11. Корреляционно-регрессионный анализ множественной связи Лекция 12. Определение тесноты связи с помощью коэффициентов Фехнера, корреляции рангов, ассоциации и контингенции, коэффициента взаимной сопряженности Лекция 13. Изучение динамики социально-экономических явлений Лекция 14. Использование индексов в экономико-статистических исследованиях. Индивидуальные индексы Лекция 15. Особенности применения общих индексов Лекция 16. Территориальные индексы. Индексы сезонных колебаний Лекция 7 Статистическое распределение Сводная обработка данных статистического наблюдения предполагает построение рядов распределения, основной целью которого является выявление свойств и закономерностей развития исследуемой совокупности. Выделяют два вида рядов распределения: 1) атрибутивный ряд – ряд распределения, построенный по качественным признакам (распределение населения по половому признаку, по национальности, образованию); 2) вариационный ряд - ряд распределения, построенный по количественным признакам (распределение населения по возрасту, по числу человек в семье, стажу работы). Основными характеристиками вариационных рядов являются: - показатели центра распределения; - показатели степени вариации; - показатели формы распределения. Изучение вариации предполагает: - построение вариационного ряда; - его графическое изображение; - определение основных характеристик распределения. Понятие и измерение вариации признака Различия индивидуальных значений признака у единиц совокупности называют вариацией признака. Вариация признака возникает из-за отличительных особенностей единиц совокупности, например, оценка, полученная студентом на экзамене, зависит от его способности воспринимать материал в ходе изучения, посещения занятий, способности самостоятельно изучать научную литературу и т.д. При анализе вариации признака используются абсолютные и относительные показатели. К абсолютным показателям относятся: 1) размах колебаний (размах вариации): R  X max  X min , где X max , X min - максимальное и минимальное значения факторного признака в совокупности, соответственно; 2) среднее линейное отклонение показывает, на сколько в среднем отличаются индивидуальные значения признака от его среднего значения, определяется по формулам:  xx ; - для несгруппированных данных: d  n  xx f ; - для сгруппированных данных: d  f 3) среднее квадратическое отклонение также показывает, на сколько в среднем отличаются индивидуальные значения признака от его среднего значения, определяется по формулам: - для несгруппированных данных:   - для сгруппированных данных:    (x  x) 2 ; n  (x  x) f 2 f ; 4) дисперсия – это средняя величина квадратов отклонений признака:  (x  x) 2 ; - для несгруппированных данных:  2  n (x  x) 2 f  2 - для сгруппированных данных:   . f Относительные показатели вариации определяются как отношение абсолютных показателей вариации к средней арифметической или медиане: R 1) коэффициент осцилляции: K R  100 ; x d 2) относительное линейное отклонение: K d  100 ; x 3) коэффициент вариации: V x   100 . x Наиболее часто применяется коэффициент вариации, с помощью которого не только характеризуется вариация признака, но и проводится проверка совокупности на однородность. Совокупность считается однородной, если V x ≤ 33%. Виды дисперсий и правило их сложения Выделяют три показателя дисперсии: 1) общая дисперсия характеризует вариацию признака, сформированную под влиянием всех факторов, определяющих уровень признака у единиц совокупности: ( x  x0 ) 2 f  2 , 0  f где x 0 - общая средняя арифметическая для всей изучаемой совокупности; 2) межгрупповая дисперсия (дисперсия групповых средних) отражает различия в значениях изучаемого признака, которые возникают под влиянием факторного признака: 2   (x  x n i ) 2 ni , i где x i - средняя по определенной группе; n i - число единиц в определенной группе. 3) средняя внутригрупповая дисперсия характеризует случайную вариацию, возникающую под влиянием неучтенных факторов:   i2 ni , 2   ni где  i2 - дисперсия по отдельной группе, определяется по формуле:  2 i  (x  x )  f i 2 f . Правило сложения дисперсий: величина общей дисперсии равна сумме межгрупповой дисперсии и средней внутригрупповой дисперсии:  02   2   2 . Способы построения вариационного ряда Вариационный ряд – это статистический ряд, представленный в виде групповой таблицы, построенной по количественному признаку. В сказуемом данной таблицы отражается число единиц в каждой группе. Представление вариационного ряда Признак-фактор x1 x2 x3 … xn Частота повторения f1 f2 f3 … fn Частость Накопленная частота w1  f1 f S1  f 1 w2  f2 f S 2  f1  f 2 w3  f3 f S3  S2  f 3 wi  fn f S n  S n 1  f n Как правило, ряд распределения представляют в таблице, состоящей из четырех строк (см. табл.): - в первой строке таблицы указываются конкретные значения каждого индивидуального значения признака-фактора ( x i ); - во второй строке отражается численность единиц с определенным значением признака, т.е. частота повторения ( f i ); - в третьей строке определяются частости - частоты, выраженные в относительных единицах (долях или процентах): f wi  i ,  fi где fi – частоты ряда; ∑fi - общая сумма частот: f i  f 1  f 2  f 3  ...  f n ; - в четвертой строке – определяются накопленные частоты ( S i ) путем последовательного прибавления к частоте первого интервала частот последующих интервалов. Способ построения вариационного ряда зависит от характера изменения изучаемого признака, он может быть построен в форме дискретного ряда или в форме интервального ряда распределения. Вариационный ряд представляется в форме дискретного ряда, если: - факторный признак представлен дискретными величинами (неделимыми, целыми); - число значений изучаемого признака небольшое. Для признака, имеющего непрерывное изменение, строится интервальный вариационный ряд, состоящий, так же как и дискретный ряд, из четырех строк. При его построении в первой строке отдельные значения признака-фактора указываются в виде интервалов, во второй строке – число единиц, входящих в интервал. Интервалы используются, как правило, равные и закрытые. R Величина шага интервала определяется по формуле: i  , k где R – размах колебаний признака: R = Xmax – Xmin; k – число групп. Показатели центра распределения К показателям центра распределения относятся: средняя арифметическая, мода и медиана. Для дискретного и интервального рядов распределения средняя арифметическая  x  f , x   x  f , определяется по формулам: x  f f где х – варианты значений признака; x  - середина соответствующего интервала значения признака f - частота повторения данного варианта. Медиана (Ме) соответствует значению признака, стоящему ранжированного ряда. Мода (Мо) – наиболее часто встречающееся значение признака. в середине Лекция 8 Кривые рядов распределения и показатели формы распределения Первым этапом изучения вариационного ряда является его графическое изображение. Дискретный и интервальный вариационные ряды чаще всего изображаются в виде полигона распределения частот. Графики строятся в прямоугольной системе координат. Выделяют два основных вида кривых распределения: 1) многовершинные кривые (рис. 9) свидетельствуют о ненормальности распределения, следовательно, анализ таких рядов продолжается только после перегруппировки данных; 2) одновершинные кривые свидетельствуют о нормальности распределения. Эталоном ряда распределения является кривая нормального распределения, представленная на рисунке 10. f f x x Рис. 9. Многовершинная кривая распределения Рис. 10. Кривая нормального распределения Среди одновершинных кривых распределения выделяют ассиметричные и симметричные кривые. Ассиметричные кривые распределения в свою очередь делятся на два вида: кривые с правосторонней асимметрией (рис. 11) и кривые с левосторонней асимметрией (рис. 12). Симметричные кривые распределения встречаются двух видов: островершинные (рис. 13) и плосковершинные (рис. 14). f f >0 <0 x Рис. 11. Правосторонняя асимметрия Рис. 12. Левосторонняя асимметрия x f f >0 <0 x Рис. 13. Островершинное распределение x Рис. 14. Плосковершинное распределение Показатели формы распределения Для анализа формы распределения используют два вида показателей: показатель асимметрии и показатель эксцесса. Способы определения показателя асимметрии и оценка его существенности 1. Анализ степени асимметрии проводится на основе определения относительного показателя асимметрии, предложенного английским статистиком К. Пирсоном: x  Mo x  Me или AS  , AS  x x где x - среднее значение признака; Mo - модальное значение признака; Me – медианное значение признака;  x - среднее квадратическое отклонение факторного признака. Показатель асимметрии может принимать как положительные, так и отрицательные значения. Принято считать, что асимметрия считается значительной, если AS >0,5. Незначительной асимметрия признается, если AS <0,25. Если же значение показателя асимметрии находится в интервале 0,25≤ AS ≤0,5, то асимметрия считается умеренной. 2. Другой способ расчета показателя асимметрии предложил шведский математик Линдберг: AS  П  50 , где П – удельный вес (процент) значений признака, превышающих величину средней арифметической; 50 – константа, которая характеризует процент вариант, превосходящих среднюю арифметическую ряда нормального распределения. 3. Наиболее часто применяется показатель асимметрии, определяемый через центральный момент третьего порядка: AS  3 , 3 где  3 - центральный момент третьего порядка, определяется по формуле: 3  (x  x)  f 3 f . Среднее квадратическое отклонение определяется по формулам:   ( x  x) n 2 ;  ( x  x) f 2 f . Оценка существенности показателя асимметрии производится на основе средней 6  (n  1) квадратической ошибки:  A  , S (n  1)  (n  3) где n – число наблюдений. Асимметрия является существенной и распределение признака-фактора в AS генеральной совокупности несимметрично, если >3, если же дробь меньше 3, то A S асимметрия является несущественной, ее наличие объясняется влиянием случайных величин. При анализе симметричных рядов распределения определяется показатель островершинности (эксцесса): E k  4  3, 4 (x  x) 4  f . f Положительное значение показателя эксцесса свидетельствует об островершинности кривой распределения, отрицательное значение – о плосковершинности кривой. Для приближенного определения показателя эксцесса используют формулу где  4 - центральный момент четвертого порядка:  4  Линдберга: Ek  П  38.29 , где П – удельный вес (процент) количества вариант, лежащих в интервале, равном половине среднего квадратического отклонения (в обе стороны от величины средней); 38,29 – процент количества вариант, лежащих в интервале, равном половине среднего квадратического отклонения, в общем количестве вариант ряда нормального распределения. Распределение может считаться нормальным, если показатель эксцесса не превышает среднеквадратической ошибки эксцесса, которая определяется по формуле: 24  n  (n  2)  (n  3)  Ek  . (n  1) 2  (n  3)  (n  5) При значительной или умеренной асимметрии показатель эксцесса не определяется, так как о симметричности кривой распределения не может быть и речи, но при выполнении контрольной работы желательно рассчитать оба показателя и сделать вывод по каждому из них. Лекция 9 Выборочное наблюдение Одним из наиболее эффективных способом несплошного наблюдения является выборочное наблюдение. Преимущества: - экономия труда; - быстрота проведения; - экономия средств на получение и обработку информации. Недостатком выборочного наблюдения является наличие ошибки. Здесь встречаются все виды ошибок сплошного наблюдения, а также возможно появление ошибки репрезентативности, которые свойственны только несплошным наблюдениям. Они возникают вследствие представления в выборочную совокупность единиц наблюдения, не отражающих действительность (например, если взять из группы студентов только отличников, то будет сделан вывод об очень высоком уровне знаний всей группы). Виды выборочного наблюдения и формы отбора единиц в выборочную совокупность Все виды выборочного наблюдения классифицируются по двум основным признакам: 1) по степени охвата единиц выделяют большие и малые выборки; 2) по способу формирования выделяют: - простую случайную выборку; - механическую выборку; - типическую (расслоенную, районированную) выборку; - серийную выборку; - ступенчатую выборку; - комбинированную выборку; - многофазную выборку; - метод моментных наблюдений. Наиболее часто используются простая случайная и механическая виды выборок. Формы отбора единиц в выборочную совокупность: - повторный отбор единиц (единица, один раз включенная в выборку из общей массы единиц генеральной совокупности, может быть в нее включена дважды, трижды и т.д.); - бесповторный отбор единиц (единица, один раз включенная в выборку, уже не может быть отобрана снова). Общепринятые обозначения: N - объем генеральной совокупности; n - объем выборочной совокупности; x - среднее значение признака в генеральной совокупности; ~ x - среднее значение признака в выборочной совокупности; p - доля единиц, обладающих определенным признаком в генеральной совокупности;  - доля единиц, обладающих определенным признаком в выборочной совокупности;  2 - дисперсия признака в генеральной совокупности; S 2 - дисперсия признака в выборочной совокупности;  - среднее квадратическое отклонение признака в генеральной совокупности; S - среднее квадратическое отклонение в выборочной совокупности. Задачи, которые можно решать с помощью предельной ошибки выборки При проведении анализа выборочной совокупности всегда определяется предельная ошибка выборки, которая показывает величину отклонения выборочной средней (доли) от генеральной, вероятность превышения которой вследствие случайных причин очень мала. При любом способе проведения выборочного наблюдения предельная ошибка определяется по формуле:  x  t   x или  p  t   p , где  x - предельная ошибка генеральной средней;  p - предельная ошибка генеральной доли; t - коэффициент кратности;  x - средняя ошибка генеральной средней;  p - средняя ошибка генеральной доли. Средние ошибки (  x ,  p ) для каждого вида выборочного наблюдения определяются по своим формулам (см. далее). Коэффициент кратности (t) определяется с помощью таблицы значений «Удвоенной нормированной функции Лапласа» (Приложение 1) на основе доверительной вероятности. Доверительная вероятность определяет точность расчетов: P  1 , например, если P  0.985 , то заданная точность расчетов составляет 98,5 %, а допустимая ошибка равна   1  P  0.015 (1,5 %). С помощью предельной ошибки выборки решаются три типа задач. 1. Определение пределов генеральных характеристик с заданной доверительной вероятностью: - доверительные интервалы для генеральной средней: x~ x  x ; ~ x x  x  ~ x  x ; - доверительные интервалы для генеральной доли: p p; p  p p. 2. Определение доверительной вероятности того, что генеральная характеристика отличается от выборочной не более чем на определенную заданную величину предельной ошибки: - доверительная вероятность является функцией от t, следовательно, определив  коэффициент кратности: t  x , можно найти значение доверительной вероятности по x таблице значений «Удвоенной нормированной функции Лапласа». 3. Определение необходимой численности выборки, при заданном значении предельной ошибки выборки. Формулы определения численности выборки представлены в таблице. Определение необходимой численности выборки Способ отбора единиц Численность выборки повторный бесповторный 2 2 t S t2 N S2 n  n  1. Для средней 2x 2x  N  t 2  S 2 2. Для доли t 2   (1   ) n 2p t 2  N   (1   ) n 2  p  N  t 2   (1   ) Простая случайная и механическая выборки При проведении простой случайной выборки отбор единиц в выборочную совокупность производится непосредственно из всей массы единиц генеральной совокупности в форме случайного (повторного или бесповторного) отбора. Формулы определения ошибок выборки представлены в таблице. Отбор единиц из всей массы единиц генеральной совокупности в механическую выборку производится через равные промежутки из определенного расположения единиц в генеральной совокупности: по алфавиту, в пространстве, во времени. Например, в выборку включается каждая пятая единица генеральной совокупности. Таким образом, отбор единиц в механическую выборку осуществляется только в форме бесповторного отбора. При формировании механической выборки необходимо: - определить шаг отчета (  ) - расстояние между отбираемыми единицами:  N ; n - начало отсчета, т.е. единицу, с которой начинается отбор единиц в выборку. Формулы расчета средней ошибки простой случайной выборки Способ отбора единиц Средняя ошибка повторный бесповторный - для средней - для доли x  p  S2 n (1   ) n x  p  S2 n (1  ) n N (1   ) n (1  n ) N Определение ошибок механической выборки производится по формулам простой случайной выборки при бесповторном отборе (табл. 31). Лекция 10 Корреляционно-регрессионный анализ Выделяют две основные формы взаимосвязи между признаками: - функциональная связь (полная) – связь, при которой величине факторного признака (аргументу функции) строго соответствует одно или несколько значений результативного признака (значений функции); - корреляционная связь - это связь, при которой значению аргумента (х) соответствуют случайно распределенные значения функции (y). Корреляционная связь проявляется не в каждом отдельном случае, а в массе случаев в форме тенденции средних величин. Корреляционно-регрессионный анализ посвящен изучению корреляционной связи. Основной целью анализа парной линейной связи является построение модели зависимости (уравнения регрессии) между факторным и результативным признаками для ее практического применения. Виды взаимосвязи между признаками Все виды корреляционных связей между признаками разделяют: 1) по направлению связи на прямые (с увеличением значения факторного признака растет значение результативного) и обратные (с увеличением значения факторного признака уменьшается значение результативного); 2) по аналитической форме на линейные (их можно описать уравнением линейной функции) и нелинейные (связи, которые описываются нелинейными математическими уравнениями: параболы, гиперболы, показательной функции и т.д.); 3) по взаимодействующим факторам на парную связь (связь между двумя признаками, т.е. между одним факторным и одним результативным признаками) и множественную (связь между тремя и более признаками, т.е. между двумя и более факторными и одним результативным признаками); 4) по видам взаимодействия на - ложные (связь установленная формально, в реальной жизни не существующая), - косвенные (связь слабая, так как на результативный признак оказывает заметное влияние третья неучтенная переменная), - непосредственные (взаимосвязь между взаимодействующими признаками очень тесная, они взаимосвязаны между собой непосредственно); 5) по силе на сильные и слабые. В учебном пособии Вам предстоит познакомиться и научиться проводить корреляционно-регрессионный анализ парной линейной связи, т.е. самый простой из всех возможных видов данного анализа. Этапы проведения корреляционно-регрессионного анализа парной линейной связи Этап 1. Установление результативного и факторного признаков. Этап 2. Проверка исследуемой совокупности на однородность и нормальность распределения. Для оценки однородности используется коэффициент вариации: V x  x 100% , x если полученное значение коэффициента вариации больше 33 процентов, то совокупность признается неоднородной, а ее средняя - нетипичной. В данном случае коэффициент вариации определяется по исходной, не сгруппированной информации. Следовательно, среднее квадратическое отклонение (  x ) и среднее значение факторного признака ( x ) определяются с помощью простых, а не взвешенных формул: x   (x  x) 2 ; x x. n n Проверка совокупности на нормальность распределения проводится на основе правила «трех сигм», которое представляет собой таблицу, состоящую из четырех граф (табл. 1). Первая графа содержит рассчитанные значения интервалов факторного признака (см. табл. 1), вторая – число единиц совокупности, включенных в соответствующий интервал ( n i ), в третьей графе определяется доля единиц, вошедших в соответствующий n интервал, в общем числе единиц совокупности по формуле:  i  i 100% . Четвертая n графа содержит уже рассчитанные доли единиц, вошедших в соответствующий интервал, в общем числе единиц совокупности для нормального распределения. Таблица 1 Правило «трех сигм»  i , при нормальном ni i , % Интервалы значений x распределении, % ( x i   xi )  ( x i   x i ) 68,3 ( xi  2 xi )  ( xi  2 xi ) 95,4 ( xi  3 xi )  ( xi  3 xi ) 99,7 Вывод о нормальности или ненормальности распределения производится на основе сопоставления третьей и четвертой граф: если рассчитанные доли третьей графы близки к значениям четвертой графы, то делается вывод о том, что распределение единиц в исследуемой совокупности близко к нормальному. Если в результате проведения второго этапа получена неоднородная совокупность и ненормальность распределения единиц в ней, то анализ продолжается, так как мало явлений социально-экономической жизни общества получают положительные характеристики. Этап 3. Приведение исследуемой совокупности к распределению близкому к нормальному. Для этого все значения факторного признака, не вошедшие в интервал x i  3 xi ≤ x i ≤ x i  3 xi , исключаются, и формируется новая совокупность для анализа. Этап 4. Проведение группировки и сводки материала. Вся совокупность единиц разбивается на группы по факторному признаку. В сводке материала определяются средние значения факторного и результативного признаков по каждой группе. Результатом этого этапа является вывод, построенный на основе сводки материала. В выводе указывается направление связи (прямая или обратная). Этап 5. Оценка степени тесноты связи между признаками. Поскольку проводится упрощенный анализ, то этот этап будет содержать три подэтапа. 1. Анализ степени тесноты связи на основе определения парного коэффициента xy  x  y корреляции, который рассчитывается по не сгруппированным данным: r  ,  x  y где x y - среднее из произведений значений факторного признака на результативный: xy   x y ; n  y - среднее квадратическое отклонение результативного признака: y   ( y  y) 2 . n Если значение коэффициента корреляции r < 0.3, то связь между признаками отсутствует; если же 0.3 ≤ r < 0.8, то связь между признаками существует, но она слабая; если r ≥ 0,8, то связь между признаками сильная, достаточно тесная. 2. Для определения тесноты парной линейной зависимости служит линейный  x y  xy  n коэффициент корреляции: r  ; 2 2 ( x ) ( y )  )( y2   ) ( x 2   n n где n - число единиц в совокупности. Линейный коэффициент корреляции может принимать значения в пределах от -1 до +1. Чем ближе он по абсолютной величине к 1, тем теснее связь. Знак при нем указывает направление связи: знак «+» соответствует прямой зависимости, знак «-» - обратной. 3. Коэффициент детерминации показывает, на сколько процентов результативный признак зависит от изменения факторного, и определяется по формуле:  2  2 ,  y2 где  2 - межгрупповая дисперсия;  y2 - общая дисперсия результативного признака. Межгрупповую дисперсию можно определить следующим образом: ( yi  y) 2  f i  2 ,    fi где y i - групповые средние результативного признака по группам признака-фактора; fi - число наблюдений в группах. Следовательно, межгрупповая дисперсия результативного признака определяется по сгруппированным данным в этапе 4. ( y  y) 2  2 Общая дисперсия результативного признака:  y  , т.е. она n рассчитывается по исходной, не сгруппированной информации. Принято считать, если  2 > 50%, то связь между признаками достаточно тесная. Этап 6. Построение модели связи (уравнения регрессии). Так как в данном учебном пособии рассматривается линейная связь, то модель связи будет описываться уравнением линейной функции: yˆ x  a  bx . Для определения числовых значений параметров уравнения связи (линии регрессии) используется метод наименьших квадратов и решается система нормальных уравнений. Для определения параметров a и b уравнения прямолинейной корреляционной связи система нормальных уравнений (для не сгруппированных данных) следующая:   y  an  b x .  2 xy  a x  b x     Решение указанной системы дает следующие формулы для расчета параметров a и  xy  n  x  y . b: a  y  bx ; b   x 2  n(x ) 2 Этап 7. Проверка возможности использования линейной модели связи на практике проводится в два этапа: 1) определение числового значения разности ( 2  r 2 ) , где  2 - коэффициент детерминации; r 2 - квадрат линейного коэффициента корреляции. Если ( 2  r 2 ) < 0,1, то использование построенной линейной модели связи на практике возможно;  2  r 2 1  2 2) расчет показателя  2  , : m2 nm где m – число групп, на которое разделена совокупность по факторному признаку. Если  2 < Fкр , то использование линейной модели связи на практике не опровергается. Fкр - F критерий табличное значение, определяется по таблице «Таблица значений F для доверительной вероятности P = (1-0,05) = 0,95» по числу степеней свободы: k1  m  2 и знаменателю k 2  n  m (см. Приложение 2). Этап 8. Для определения достоверности линейной функции определяется ( y  yˆ x ) 2  средняя квадратическая ошибка построенного уравнения регрессии: S l  , nl где y - значение результативного признака; ŷ x - значения результативного признака, рассчитанные по уравнению регрессии; l - число параметров в уравнении регрессии, в линейной функции – 2. Построенная модель связи (линейная функция) достаточно хорошо отображает S изучаемую взаимосвязь, если l 100% ≤ (10-15) %. y Лекция 11 Изучение динамики социально-экономических явлений Непрерывное изменение и развитие социально-экономических явлений и процессов во времени требует построения и анализа рядов динамики. Ряд динамики – это временная последовательность статистических показателей, представленная в табличной форме. Ряд динамики состоит из двух строк, первая содержит периоды (даты), вторая – значения показателей, характеризующих исследуемый объект за эти периоды (даты). Показатели второй строки называются уровнем ряда, причем первый показатель является начальным уровнем ряда, последний – конечным. Уровень ряда может быть представлен абсолютными, относительными или средними величинами. Для наглядности развития явления или процесса во времени ряды динамики изображают графически с помощью, как правило, линейной диаграммы. Задачи статистического изучения рядов динамики: 1) охарактеризовать интенсивность развития явления от периода к периоду (от даты к дате), а также среднюю интенсивность развития за весь исследуемый период; 2) выявить основные тенденции развития явления; 3) прогнозирование развития явления в будущее. Ряды динамики могут быть двух видов: интервальные и моментные. В интервальном ряду приводятся данные, характеризующие величину показателя за определенные периоды. В моментном ряду динамики приводятся данные, характеризующие размеры явления на определенные моменты (даты) времени. Для изучения интенсивности изменения уровней ряда во времени исчисляются следующие показатели динамики: абсолютные приросты, коэффициенты роста, темпы роста, темпы прироста, абсолютные значения одного процента прироста. Методы их расчета представлены в таблице. Перечисленные показатели динамики можно исчислять с переменной и постоянной базой сравнения. Если производится сравнение каждого уровня с предыдущим уровнем, то образуются показатели динамики с переменной базой (цепные показатели динамики). Если каждый уровень сравнивается с начальным уровнем или каким-то другим, принятым за базу сравнения, то образуются показатели динамики с постоянной базой сравнения (базисные показатели динамики). При расчете показателей приняты следующие обозначения: yi - уровень любого периода (кроме первого), называемый уровнем текущего периода; yi-1 - уровень периода, предшествующего текущему; yk - уровень, принятый за постоянную базу сравнения. Показатели динамики Метод расчета Наименование показателя цепные базисные 1. Абсолютный прирост (∆) ∆=yi-yi-1 2. Коэффициент роста (Кр) Кр = 3. Темп роста (Тр), % 4. Темп прироста (Тn), % 5. Абсолютное значение одного процента прироста (А) yi y i 1 ∆' =yi-yk Kp   yi yk Tp  Kp  100 Tp   Kp   100 Tn=Tp-100 Tn´=Tp´x100 A=∆/Tn A´=∆´/Tn´ Для характеристики интенсивности развития за длительный период времени рассчитываются средние показатели динамики, метод их расчета представлен в таблице. Поскольку при изучении данной дисциплины студентам необходимо научиться анализировать интервальные ряды динамики, то формулы расчета показателей для моментного ряда не даны. При написании формул приняты следующие условные обозначения: y - уровень ряда, т.е. значение показателя в определенном периоде; n – количество периодов. Средние показатели динамики Наименование показателя Метод расчета 1. Средний уровень ряда ( y ) для интервального ряда y y 2. Средний абсолютный прирост (∆) =  3. Средний коэффициент роста ( Kp ) Kp  n 1 n n 1 Kp1  Kp 2 ,..., K n 1 4. Средний темп роста ( Tp ), % T p  Kp 100 5. Средний темп прироста ( Tn ), % 6. Средняя величина абсолютного значения 1 % прироста ( A ) T n  Kp  100  A Tn При написании формул приняты следующие условные обозначения: y - уровень ряда, т.е. значение показателя в определенном периоде; n – количество периодов. Лекция 12 Использование индексов в экономико-статистических исследованиях. Индивидуальные индексы Индекс – это относительная величина, характеризующая изменение уровней сложных социально-экономических показателей во времени, в пространстве и по сравнению с планом. Индекс является результатом сравнения одноименных показателей, поэтому при их вычислении различают сравниваемый уровень (числитель индекса), называемый текущим или отчетным, и уровень, с которым производится сравнение (знаменатель индекса), называемый базисным. Выбор базы определяется целью исследования. Классификация индексов 1. По способу расчета: - цепные (сопоставление уровня текущего периода с предшествующим); - базисные (сопоставление уровня текущего периода с уровнем периода, принятым за неизменную базу сравнения). 2. По видам базы сравнения: - территориальные (за базу сравнения принимаются данные другой территории); - плановые (за базу сравнения принимаются плановые показатели). 3. В зависимости от содержания и характера изучаемых социальноэкономических показателей: - индексы количественных (объемных) показателей (индексы физического объема продукции, физического объема потребления продукции и т. д.); - индексы качественных показателей (индексы цен, себестоимости, средней заработной платы, производительности труда). 4. По степени охвата элементов совокупности: - индивидуальные (характеризуют изменение одного элемента совокупности); - сводные (общие): агрегатные и средние взвешенные. Индивидуальные индексы показывают изменение отдельного элемента сложного показателя во времени, в пространстве или по сравнению с планом. Применяются, если анализируется один вид продукции на отдельно взятом предприятии. Индивидуальный индекс физического объема характеризует изменение выпуска (реализации или потребления) одного вида продукции и определяется по формуле: q i q1 0  1 , q0 где q1 и q0 – количество продукции данного вида в натуральном выражении соответственно в текущем и базисном периодах. Индивидуальный индекс затрат на единицу продукции показывает изменение затрат на производство отдельной единицы одного вида продукции и имеет следующий z вид: i qz1 0  1 , z0 где z1 и z0 – себестоимость единицы продукции данного вида соответственно в текущем и базисном периодах. По способу расчета различают цепные и базисные индексы. Цепные индексы получают путем сопоставления показателей любого периода с показателем предшествующего периода, т.е. знаменатель индекса непрерывно меняется. Цепные индивидуальные индексы физического объема: q q q q i q 1  1 ; i q2  2 ; i q 3  3 ; i q 4  4 и т.д. 1 3 2 q0 q1 q2 q3 Цепные индивидуальные индексы цен: p p p p i p 1  1 ; i p2  2 ; i p 3  3 ; i p 4  4 и т.д. 1 3 2 p0 p1 p2 p3 Базисные индексы получают путем сравнения показателя любого периода с показателем какого-либо периода, принятого за базу сравнения (как правило, за базу сравнению принимают показатели первого периода). Следовательно, знаменатель индекса в этом случае остается неизменным. Базисные индивидуальные индексы физического объема: q q q i q 1  1 ; i q2  2 ; i q 3  3 и т.д., q0 q0 q0 p p p базисные индивидуальные индексы цен: i p 1  1 ; i p2  2 ; i p 3  3 и т.д. p0 p0 p0 Взаимосвязь цепных и базисных индексов: произведение цепных индексов за весь рассматриваемый период соответствует значению последнего базисного индекса: iq 3  iq 1  iq2  iq 3 ; i p 3  i p 1  i p2  i p 3 . 1 2 1 2 Лекция 13 Особенности применения общих индексов Агрегатные индексы характеризуют изменение сложного показателя социальноэкономического явления в целом. Применяются они для отдельно взятого предприятия, выпускающего несколько видов продукции. В зависимости от исходных данных различают агрегатные и средние взвешенные индексы. Агрегатные индексы применяются, если известны данные за все рассматриваемые периоды в абсолютном выражении. Средние взвешенные индексы используют, если данные одного из периодов представлены абсолютными величинами, а другого – изменениями показателя или индивидуальными индексами. Агрегатный индекс – сложный относительный показатель, который характеризует среднее изменение социально-экономического явления, состоящего из несоизмеримых элементов. Сложное явление характеризуется произведением объемного показателя на качественный: p1  q1 ; q1  z1 ,… Агрегат -  q 0  p 0 - сумма произведений, используется в том случае, если проводится анализ нескольких видов продукции. Агрегатный индекс физического объема продукции характеризует изменение выпуска всей совокупности продукции в текущем периоде по сравнению с периодом,  q1 p0 , принятым за базу сравнения, и исчисляется по формуле: I q  1  q0 p 0 где q1 и q0 – количество произведенных единиц отдельных видов продукции соответственно в отчетном и базисном периодах; p0 – цена единицы отдельного вида продукции в базисном периоде. Абсолютное изменение общей стоимости продукции за счет изменения объемов выпуска продукции определяется как разница между числителем и знаменателем агрегатного индекса: ∆ q qp   q1 p 0   q0 p0 .  Агрегатный индекс затрат на выпуск всей продукции имеет следующий вид:  q1 z1 , I qz1   q0 z 0 где q1z1 и q0z0 - затраты на выпуск продукции каждого вида соответственно в отчетном и базисном периодах. Абсолютное изменение общей суммы затрат на выпуск продукции за счет изменения количества выработанной продукции и ее себестоимости: ∆ qz   q1 z1   q 0 z 0 или ∆ qz  ∆ z qz +∆ q qz ,     z где ∆ qz - абсолютное изменение общей суммы затрат за счет изменения величины затрат  на выпуск каждого вида продукции; q ∆ qz - абсолютное изменение общей суммы затрат за счет изменения объемов  выпуска каждого вида продукции.  q1 p1 , Агрегатный индекс стоимости продукции: I qp1   q0 p 0  q p  q p или ∆ qp  ∆ p qp + ∆ q qp .     qp  1 1  0 0 - абсолютное изменение общей стоимости продукции за счет изменения ∆ где ∆  qp количества продукции и цен. Агрегатный индекс цен характеризует среднее изменение цен по всему  p1 q1 , ассортименту продукции и исчисляется по формуле: I p 1   p0 q1 абсолютное изменение общей стоимости продукции за счет изменения цен на каждый вид продукции в отдельности определяется как разность между числителем и знаменателем данного индекса: ∆ p qp   p1 q1   p0 q1 .  По способу определения различают цепные агрегатные индексы и базисные агрегатные индексы. Цепные индексы получают путем сопоставления показателей текущего периода с показателем предшествующего периода. Цепные агрегатные индексы физического объема следующие:  q1 p0 ; I   q2 p1 ; I   q3 p 2 и т.д. I q1  q q  q0 p0 21  q1 p1 32  q2 p 2 Цепные агрегатные индексы цен:  p1 q1 ; I  I p1  p  p0 q1 21 p q p q 2 1 2 ; I p3  2 2 p q p q 3 3 2 3 и т.д. Базисные индексы получают сравнением показателя текущего периода с неизменным показателем периода, принятого за базу сравнения. Базисные агрегатные индексы физического объема следующие:  q1 p0 ; I   q2 p0 ; I   q3 p0 и т.д. I q1  q q  q0 p 0 2 0  q0 p 0 30  q0 p 0 Базисные агрегатные индексы цен:  p1 q1 ; I   p 2 q2 ; I  I p1  p p  p0 q1 2 0  p0 q2 30 p q p q 3 3 3 и т.д. Взаимосвязь цепных и базисных агрегатных индексов: I q4  I q 1  I q2  I q3  I q4 , 1 2 3 т.е. базисный индекс последнего периода равен произведению всех цепных индексов за весь рассматриваемый период. Средние взвешенные индексы применяются в том случае, если известны индивидуальные индексы цен или объемов по отдельным видам продукции и стоимость отдельных видов продукции за один из периодов: базисный или отчетный. Данные другого периода представлены в виде индивидуальных индексов по каждому виду продукции, или изменениями показателей. Например, +3 или 103%, или в виде индивидуального индекса: i  1,03 (103:100); -6,2 или 93,8% (100-6,2), или i  0,938 (93,8:100). Средний взвешенный арифметический индекс физического объема продукции:  i q q0 p 0 , I q1   q0 p 0 где i q - индивидуальный индекс по каждому виду продукции; q0 p 0 - стоимость продукции каждого вида в базисном периоде. Средний взвешенный гармонический индекс физического объема продукции:  q1 p1 , I q1  1  i q1 p1 q где q1 p1 - стоимость продукции каждого вида в текущем периоде. Средний взвешенный арифметический индекс цен: I p 1  i p q p q где i p - индивидуальный индекс цен по каждому виду продукции; p 0 q0 - стоимость продукции каждого вида в базисном периоде. p , Средний взвешенный гармонический индекс цен: I p 1  p q 1 i p q 1 1 , 1 1 p где p1 q1 - стоимость продукции каждого вида в текущем периоде

Теория статистики

Тебе могут подойти лекции