Статистические методы в экологических исследованиях
Выбери формат для чтения
Загружаем конспект в формате doc
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Министерство природных ресурсов и экологии Российской Федерации
Министерство образования и науки Российской Федерации
ФГБУ «Национальный парк «Хвалынский»
ФГБОУ ВПО «Саратовский государственный технический университет имени Гагарина Ю.А.»
А.А. Беляченко
Статистические методы
в ЭКОЛОГИЧЕСКИх ИССЛЕДОВАНИЯх
Учебно-методическое пособие
для сотрудников организаций природоохранного профиля,
бакалавров и магистров направления 022000.62 (05.04.06) «Экология и природопользование»
Саратов 2014
УДК 519.23
ББК 20.1
Б 43
Рецензенты:
Доктор биологических наук, профессор, заведующий кафедрой ботаники, химии и экологии Саратовского ГАУ им. Н.И. Вавилова
И.В. Сергеева
Кандидат биологических наук, доцент кафедры ботаники и экологии Саратовского государственного университета им. Н.Г. Чернышевского
Т.Н. Давиденко
Одобрено
редакционно-издательским советом
Саратовского государственного технического университета
имени Гагарина Ю.А.
Беляченко А.А.
Б 43
Статистические методы в экологических исследованиях: учебно-методическое пособие для сотрудников организаций природоохранного профиля, бакалавров и магистров направления 022000.62 (05.04.06) «Экология и природопользование» / А.А. Беляченко. – Саратов: ООО «Буква», 2014. – 100 с.
ISBN
В первой части пособия приводится краткий курс лекций по дисциплине «Биометрия» для бакалавров направлений «Экология и природопользование» дневной и заочной форм обучения. Лекционный материал также используется при преподавании курса «Математическое моделирование в экологических исследованиях» и «Оценка состояния, устойчивости и прогноз развития природных комплексов» у магистров по направлению подготовки «Экология и природопользование», а также в научно-практической работе студентов и магистрантов, в ходе учебных и преддипломных практик. Во второй части пособия рассмотрены вопросы статистической обработки данных экологических исследований. Пособие составлено в соответствии с Государственным стандартом и учебным планом для бакалавров направления 022000.62 «Экология и природопользование».
УДК 519.23
ББК 20.1
ISBN
© А.А. Беляченко
© ФГБУ «Национальный парк «Хвалынский»
© СГТУ имени Гагарина Ю.А.
ВВЕДЕНИЕ
Учебно-методическое пособие состоит из двух разделов. Первый представляет собой краткий конспект лекций по дисциплине «Биометрия» для бакалавров направления «Экология и природопользование» дневной и заочной форм обучения. Некоторые материалы используются также при чтении лекций и проведении практических занятий по дисциплинам «Математическое моделирование в экологических исследованиях» и «Оценка состояния, устойчивости и прогноз развития природных комплексов» у магистров направления «Экология и природопользование».
Второй раздел пособия посвящен рассмотрению простейших методов статистической обработки результатов экологических исследований. В нем изложены основные методические подходы, и рассмотрен математический аппарат описательной статистики, корреляционно-регрессионного и дисперсионного анализов. Кроме этого, приводятся основные методы оценки достоверности различий между выборками данных, а также уделяется особое внимание анализу малых статистических выборок, распределение значений признаков в которых не соответствует нормальному. Каждый метод осваивается студентами при выполнении расчетной практической работы. В ходе подготовки отчета по практическим работам студенты приобретают навыки грамотного обращения со статистической информацией, правильной интерпретацией и визуализацией данных. Все статистические методы, описанные в пособии, просты в применении и не требуют специальных знаний. Для проведения всех расчетов достаточно инженерного калькулятора и справочного материала, размещенного в приложениях.
Пособие окажется существенным подспорьем при подготовке выпускных квалификационных работ бакалавров и магистерских диссертаций. Кроме того, рассмотренные статистические методы будут полезны сотрудникам различных подразделений профильных природоохранных организаций, работающих с объектами живой природы.
КРАТКИЙ КУРС ЛЕКЦИЙ
Лекция 1. Введение
Статистика как наука: определение, предмет, задачи, история.
Предмет любой статистической науки, в том числе и биометрии, представляет собой настолько же спорный вопрос, как и само понятие статистики. При различных пониманиях термина возможна разнообразная трактовка предмета науки.
В настоящее время насчитывается около тысячи определений статистики. Первое из них относится к 1749 г. Затем на протяжении 250 лет определение уточнялось и дополнялось. Определить статистику как науку пытались философы, математики, экономисты, социологи, государственные деятели и, конечно, сами статистики. Сначала статистику определяли как «Staaten Kunde» – государствоведение (описание достопримечательностей государств). Таким образом, предметом статистики являлось само государство и процессы, происходящие внутри него.
В настоящее время под термином «статистика» чаще всего понимают следующие:
Статистика – это самостоятельная научная, имеющая свой предмет исследования и свои специфические методы. В таком аспекте предметом науки являются природные и общественные явления.
Статистика – это эффективное орудие, инструмент познания, используемый в естественных и общественных науках для установления тех специфических закономерностей, которые действуют в конкретных массовых явлениях, изучаемых данной наукой. В этом случае предметом науки являются статистические закономерности в природных явлениях.
Статистика – это также одна из форм практической деятельности людей, цель которой – сбор, обработка и анализ массовых данных о тех или иных явлениях. Предметом науки в этом аспекте ее понимания являются массовые данные, которые необходимо собирать и изучать.
Три аспекта предмета статистики взаимосвязаны: для начала собираются первичные данные (массовые данные), затем на основании их данных выявляются статистические закономерности, характеризующие конкретные явления природы, которые, в свою очередь, дают ученым представление о живых системах, закономерностях их развития и воздействии на них различных экологических факторов.
История развития статистики
Развитие статистики похоже на развитие языка и счета. Эта наука имеет достаточно древние корни. Она зародилась как результат обобщения уже достаточно развитой статистической практики, вызванной потребностями общества.
В Китае более чем за две тысячи лет до нашей эры производились исчисления населения по полу и возрасту, собирались сведения о состоянии промышленности и сельского хозяйства. Упоминания о статистических обследованиях встречаются и в библейские времена. В Древнем Риме велась статистика численности населения и имущественного положения граждан.
Развитие торговых и международных товарно-денежных отношений явилось стимулом для дальнейшего формирования учета и статистики.
В конце IX века проводились первые учетные операции: инвентаризация королевских имений, учет населения, пригодного к военной службе. Первыми и основными учетно-статистическими источниками на Руси были Летописи. Однако сбор числовых данных в государствах древнего мира был настолько несовершенным, что говорить о научном подходе к нему не приходится. В тот период статистические операции проводились в исключительных случаях, в основном, в военных и финансовых целях. Позднее потребность в статистических операциях возникла уже с необходимостью стимулировать рост народонаселения, производительные силы страны, регулировать потребление.
Во второй половине XVII в. в Германии возникла школа государствования. Ее основателем был Г. Контринг. Дальнейшее развитие это направление получило в работах Г. Ахенваля и А. Шлецера. Г. Ахенваль в 1746 г. в Геттингенском университете стал читать новую научную дисциплину, которую назвал статистикой. Однако предмет и методы этой науки не были четко определены.
Ближе к современному пониманию статистики была английская школа политических арифметиков. Ее основоположниками были Д. Граунт, Э. Галлей и В. Петти. В их трудах наметились основные направления статистики: демографическое с уклоном к вопросам страхования жизни и статистико-экономическое.
Политические арифметики путем обобщения и анализа фактов стремились цифрами охарактеризовать состояние и развитие общества, вскрыть закономерности развития общественных явлений, проявляющиеся в массовых данных. Это те цели и задачи, которые близки к современному пониманию сущности статистики. Эти идеи имели своих последователей и в других европейских странах.
В первой половине XIX века возникло статистико-математическое направление статистики. Большой вклад в его развитие внес А. Кетле. Важнейшей его заслугой стало обоснование идеи использования закономерностей, выявленных из массы случаев, в качестве важнейшего инструмента познания объективного мира. Учение А. Кетле о статистической закономерности оказало значительное влияние на современников. Значительный вклад в развитие статистики внесли Ф. Гальтон и К. Пирсон. Ф. Гальтон применил теорию статистики к анализу закономерностей наследования признаков в процессе эволюции, обосновал понятие процентиля. К. Пирсон внес значительный вклад в развитие теории корреляции.
Яркими представителями русской описательной статистики являются И.К. Кириллов, В.Н. Татищев, М.В. Ломоносов и др.
Превращение статистики из описательной науки в науку теоретическую, формированию статистики как науки способствовали представители школы политических арифметиков, которые изучали общественные явления с использованием меры, веса, числа. Основными представителями этого направления русской статистики были Д. Бернулли, И.Ф. Герман.
Большую роль в развитии статистики сыграли представители академической школы статистики. Основоположниками этой школы были Э.Ю. Янсон, А.И. Чупров, Н.А. Каблуков, А.А. Кауфман. Особенностью взглядов ученых этой школы было стремление заменить изучение государства изучением общества.
В настоящее время ведется работа по совершенствованию статистической методологии и переходу Российской Федерации на принятую в международной практике систему учета и статистики в соответствии с требованиями развития рыночной экономики.
Основные понятия статистики
Основными понятиями статистической науки, требующими обсуждения, являются: статистическая совокупность, единица совокупности, признак, статистический показатель.
Статистическая совокупность – это множество (масса) однородных хотя бы по одному какому-либо признаку явлений, существование которых ограничено в пространстве и времени. Статистическая совокупность обладает двумя важными свойствами: неразложимостью и однородностью. Неразложимость означает, что дальнейшее дробление индивидуальных явлений не изменяет их качественной основы. Однородность означает наличие для всех элементов совокупности хотя бы одного общего свойства или признака.
Единицей (элементом) совокупности называется элемент, являющийся носителем всех свойств статистической совокупности в целом. Элементы совокупности обладают признаками. По форме внешнего выражения признаки бывают количественными и атрибутивными. Атрибутивные признаки не поддаются прямому количественному (числовому) выражению. Количественные признаки, выражающиеся в виде числовых значений, бывают непрерывными и дискретными. Непрерывные могут принимать любое числовое значение из определенного интервала, а дискретные – лишь ряд определенных значений.
Понятие статистического показателя несколько шире, чем понятие признака элемента статистической совокупности. Показатель может быть как характеристикой элемента совокупности, так и результатом проведенных расчетов, то есть, обработки первичных статистических данных. Чаще всего понятие статистического показателя применяется именно во втором случае.
Статистическая закономерность
Статистика позволяет выявить и измерить закономерности развития природных явлений и процессов, взаимосвязи между ними. Познание закономерностей возможно только в том случае, когда изучаются не отдельные явления, а совокупности явлений. В каждом явлении необходимое – то, что присуще всем явлениям данного вида, проявляется в единстве со случайным, присущим только этому явлению. Закономерности, в которых необходимость связана в каждом отдельном явлении со случайностью и лишь во множестве явлений проявляет себя как закон, называют статистическими.
Свойство статистических закономерностей проявляется лишь в массе явлений при обобщении данных по достаточно большому числу единиц. Оно получило название закона больших чисел.
Статистические закономерности обладают свойством устойчивости, то есть стабильности и повторяемости при повторных наблюдениях. Некоторые авторы выделяют такое свойство статистических закономерностей, как проверяемость, которое является частным случаем устойчивости. При этом следует помнить о том, что для проверки статистической закономерности необходимо очень точно воспроизводить все внешние условия, при которых она была установлена. В противном случае даже очевидная закономерность может не подтвердиться.
Также следует обращать внимание на то, что любое статистическое исследование проводится выборочным методом. В силу этого для каждой статистической закономерности существует понятия достоверности, или уровня значимости. То есть, всегда следует предполагать, что существует ряд явлений, который не подчиняется данной закономерности. Закон больших чисел позволяет снизить такую вероятность. Если принять за аксиому, что любой признак объекта подвержен случайной вариации, то чем больше объектов мы исследуем, тем более адекватно среднее значение признака будет отражать свойство всей совокупности, ведь его дисперсия станет меньше. Следует учитывать также, что чем больше объектов рассматривается в исследовании, тем ближе оказывается распределение варьирующих признаков к нормальному, а большинство методов описательной статистики основывается именно на этом постулате.
Этапы статистического исследования
Статистическое исследование — это массовое, планомерное, научно организованное наблюдение биологических явлений, которое заключается в регистрации отобранных признаков у каждой единицы совокупности.
Статистическое исследование может проводиться как крупными профильными организациями государственной статистики и научно-исследовательскими институтами, так и отдельными учеными. По сути, статистическая обработка данных является неотъемлемой частью любого исследования любого процесса или явления живой природы.
Проведение статистического исследования включает следующие этапы:
1. Подготовку наблюдения;
2. Проведение массового сбора данных;
3. Подготовку данных к автоматизированной обработке;
4. Разработку предложений по совершенствованию статистического исследования.
Любое статистическое исследование требует тщательной, продуманной подготовки. От нее во многом будут зависеть надежность и достоверность информации, своевременность ее получения.
Подготовка статистического исследования включает разные виды работ. Сначала решаются методологические вопросы, важнейшие из которых – определение цели и объекта исследования, состава признаков, подлежащих регистрации; разработка документов для сбора данных; выбор отчетной единицы и единицы, относительно которой будет проводиться наблюдение, а также определение методов и средств получения данных.
Кроме методологических необходимо решить проблемы организационного характера, например, определить состав наблюдателей и исследователей; подготовить кадры для проведения наблюдений; составить календарный план работ по подготовке, проведению и обработке материалов наблюдения; провести тиражирование документов для сбора данных.
Проведение массового сбора данных включает работы, связанные непосредственно с заполнением статистических формуляров. В работе биологов и экологов это чаще всего учетные ведомости, полевые дневники, карты, схемы и т.д.
Собранные данные на этапе их подготовки к автоматизированной обработке подвергаются арифметическому и логическому контролю. Оба эти контроля основываются на знании взаимосвязей между показателями и качественными признаками.
Далее проводится статистическая обработка данных. Она может проводиться как вручную, так и в автоматическом режиме с использованием пакетов прикладных программ.
На заключительном этапе проведения наблюдения анализируются причины, которые привели к неверному заполнению статистических бланков, и разрабатываются предложения по совершенствованию наблюдения. Это очень важно для организации будущих обследований.
Лекция 2. Статистическое наблюдение
Основные понятия
Основными понятиями, относящимися к любому статистическому наблюдению является: объект наблюдения, единица наблюдения, отчетная единица и критический момент наблюдения.
Определение объекта наблюдения включает определение единицы наблюдения, территории и времени наблюдения.
Единица наблюдения – это то явление, признаки которого подлежат регистрации.
Территория наблюдения охватывает все места нахождения единиц наблюдения; ее границы зависят от определения единицы наблюдения.
Время наблюдения – это то время, к которому относятся наблюдаемые данные. Время регистрации данных для всех единиц устанавливается единое. Это необходимо для предупреждения неполного учета или повторного счета, а также обеспечения сопоставимости данных.
При изучении объектов наблюдения, численность или характеристики которых быстро и (или) непрерывно изменяются во времени, устанавливается критическая дата. Это тот момент, по состоянию на который фиксируются параметры объектов.
Виды и способы статистического наблюдения
Основными способами статистического наблюдения являются непосредственное наблюдение, документальный учет фактов и опрос.
Непосредственным называют наблюдение, при котором сами регистраторы путем непосредственного замера, взвешивания, подсчета или проверки работы и т.д. устанавливают факт, подлежащий регистрации, и на этой основе производят запись в формуляр наблюдения, учетную ведомость или журнал.
Документальное наблюдение основано на использовании в качестве источника статистической информации различного рода документов, как правило, учетного характера. Этот способ наблюдения дает самые точные результаты.
Опрос – это способ наблюдения, при котором необходимые сведения получают со слов респондента. В статистике применяют следующие виды опросов: устный (экспедиционный), саморегистрация, корреспондентский, анкетный и явочный
В статистике выделяют несколько видов статистических наблюдений. При этом классификация может быть построена по нескольким признакам.
По времени регистрации фактов наблюдение бывает непрерывным (текущим), единовременным и периодическим. При текущем наблюдении измерения в отношении изучаемых явлений фиксируются по мере их наступления. Если данные собраны в течение нескольких обследований, проведенных по одной и той же методике, то такое наблюдение называется периодическим. Единовременное наблюдение проводится один раз.
По охвату единиц совокупности статистическое наблюдение бывает сплошным и несплошным. При сплошном наблюдении фиксируются признаки всех элементов, составляющих совокупность, при несплошном – признаки, полученные по группе элементов, экстраполируются на всю совокупность. Несплошное наблюдение, в свою очередь, подразделяется на выборочное, основного массива и монографическое обследование.
Программа статистического наблюдения.
Программа статистического наблюдения включает признаки, подлежащие регистрации по каждой единице наблюдения. Ее содержание зависит от целей и задач обследования. В какой-то мере программа наблюдения зависит и от выбранных средств: при незначительном количестве средств программа может быть короче, или число наблюдаемых единиц меньше. При составлении программы статистического наблюдения руководствуются следующими принципами:
1. Программа не должна включать никаких сведений, не относящихся к данному обследованию.
2. В программу не рекомендуется включать параметры, которые являются трудноизмеримыми или вопросы, которые могут показаться людям подозрительными, и на которые можно ожидать заведомо ложных ответов.
Программа наблюдения всегда включает следующие разделы:
1. Опознавательные признаки – признаки, которые характеризуют обследуемую единицу совокупности, респондента, содержат информацию о сборщике или учетчике, а также организации, проводящей исследование;
2. Вопросы и параметры, непосредственно связанные с целью исследования. При ответе на данные вопросы и измерении параметров учетчик получает информацию о том, что его действительно интересует;
3. Контрольные вопросы и измерения. Реализация данного пункта программы наблюдения позволяет проверить информацию, полученную при ответе на вопросы второй группы или проконтролировать произведенные измерения. Выделение этой группы вопросов в программе статистического наблюдения весьма условно, так как один и тот же вопрос может нести как информационную, так и контрольную функцию.
Все вопросы программы статистического наблюдения логически связаны между собой, что позволяет контролировать правильность ответов, даваемых на них.
Все вопросы программы наблюдения помещаются в статистический формуляр вместе с инструкциями по его заполнению. Это существенно облегчает работу по оценке признаков интересующих учетчика объектов.
Ошибки проведения статистического наблюдения
При проведении статистического наблюдения чаще всего используется выборочный метод, так как из соображений времени, человеческого и материально-технического ресурса вся совокупность не может быть обследована полностью. Несмотря на широкое применение выборочного метода и существенные преимущества, которые он дает исследователям, для него характерна некоторая степень ошибочности. Ошибки выборочного метода делятся на несколько категорий:
1. Ошибки регистрации являются следствием неправильного установления значения наблюдаемого признака или неправильной записи. Отметим, что такие ошибки свойственны не только выборочному, но и сплошному наблюдению.
2. Ошибки репрезентативности обусловлены тем, что выборочная совокупность не может по всем параметрам в точности воспроизводить генеральную совокупность. Получаемые расхождения носят название ошибок репрезентативности, или представительности, так как они отражают, в какой степени попавшие в выборку единицы могут представлять всю генеральную совокупность. При этом следует различать систематические и случайные ошибки репрезентативности.
Систематические ошибки репрезентативности связаны с нарушением принципов формирования выборочной совокупности. Например, если в выборку по каким-либо техническим или методическим причинам попали единицы с несколько большими или несколько меньшими значениями признаков, то это вызовет соответственно увеличение или уменьшение выборочных характеристик.
Случайные ошибки репрезентативности обусловлены действием случайных факторов, не содержащих каких-либо элементов системности в направлении воздействия на рассчитываемые выборочные показатели.
Если же статистическое наблюдение проводится не выборочным, а сплошным методом, то ошибки, возникающие при итоговом расчете параметров можно подразделить на:
1. Ошибки измерений. Являются результатом неправильной работы средств учета или учетчиков.
2. Ошибки приборов. Если в статистическом наблюдении используются приборы, следует помнить о том, что каждый из них имеет определенную погрешность измерения.
3. Ошибки расчетов. Процедуры многих статистических исследований подразумевают проведении серии расчетов различных показателей. В них могут быть допущены неточности, округления значений и т.д., которые будут влиять на значения исследуемых показателей.
4. Случайные ошибки, причины возникновения которых отследить не удается.
Контроль результатов статистического наблюдения
После получения первичных статистических данных следует, прежде всего, провести проверку их полноты, то есть определить, все ли отчетные единицы заполнили статистические формуляры, и значения всех ли показателей отражены в каждом из них.
Следующим этапом контроля точности информации является арифметический контроль. Он основывается на использовании количественных связей между значениями различных показателей. Например, если среди собранных данных имеются сведения о плотности населения птиц на определенной территории, размере учетной площади и суммарной численности птиц, то произведение первых двух показателей должно дать значение третьего показателя. Если арифметический контроль покажет, что данная зависимость не выполняется, это будет свидетельствовать о недостоверности собранных данных. Поэтому в программу статистического наблюдения целесообразно включать показатели, которые дают возможность провести арифметический контроль.
Логический контроль так же, как и арифметический, основывается на знании взаимосвязи между показателями, но не количественных, а логических. Например, достоверно сосчитать 19283 птицы в 2-х стаях невозможно. Поэтому если в учетной ведомости имеются одновременно обе записи, то это показывает, что одна из них не соответствует действительности.
Обычно для устранения ошибок, выявленных в ходе логического контроля, требуется повторно обратиться к источнику сведений.
Инструментарий статистического наблюдения
Инструментарий является важным звеном при проведении статистической работы. Основным инструментом любого статистика является статистическое наблюдение с его разнообразными видами и формами.
Непрерывное (текущее) наблюдение ведется постоянно, систематически, непрерывно по мере возникновения явлений. При периодическом наблюдении регистрация проводится через определенные, чаще всего одинаковые, промежутки времени. Единовременное наблюдение проводится один раз для решения какой-либо задачи или повторяется через неопределенные промежутки времени по мере необходимости.
При сплошном наблюдении регистрации подлежат все без исключения единицы совокупности. Несплошное наблюдение подразделяется на три способа: способ основного массива, выборочное и монографическое. При способе основного массива обследованию подвергается та часть единиц совокупности, которая вносит наибольший вклад в изучаемую совокупность. При выборочном наблюдении обследованию подвергается отобранная в определенном порядке часть единиц совокупности, а полученные результаты распространяются на всю совокупность. При монографическом наблюдении подробно описываются отдельные единицы совокупности в целях их углубленного изучения.
В любом обследовании источником получения первичных данных могут быть непосредственное наблюдение, документы и опрос. Непосредственное наблюдение осуществляется путем регистрации изучаемых единиц и их признаков на основе непосредственного осмотра, подсчета, взвешивания, показаний приборов.
Документальный способ наблюдения основан на использовании в качестве источника статистических сведений различных документов первичного учета предприятий, учреждений и организаций, поэтому этот способ часто называют отчетным.
При опросе источником данных являются сведения, которые дают опрашиваемые лица. При этом могут быть использованы различные способы сбора данных: экспедиционный, корреспондентский и саморегистрация.
Кроме способа необходимо определить также объект наблюдения, единицу наблюдения, территорию проведения наблюдения, время наблюдения и критическую дату.
В состав собственно инструментария статистического наблюдения входит статистический формуляр и инструкция по его заполнению.
Статистический формуляр – это документ единого образца, содержащий программу и результаты наблюдения. Обязательными элементами статистического формуляра является титульная и адресная части. Титульная часть содержит название статистического наблюдения и органа, проводящего наблюдение, информацию о том, кто и когда утвердил этот формуляр, иногда его номер. Адресная часть включает адрес отчетной единицы, ее подчиненность.
Формуляр может иметь разные названия: отчет, карточка, переписной лист, опросный бланк, анкета и т.д.
Кроме формуляра разрабатывается инструкция, определяющая порядок проведения наблюдения и заполнения формы отчетности, переписного листа, анкеты. В зависимости от сложности программы наблюдения инструкция публикуется в виде отдельной брошюры или помещается на оборотной стороне формуляра.
Лекция 3. Визуализация первичных данных
Таблицы в обработке статистического материала
Статистические таблицы при обработке статистических данных выполняют несколько важных функций. Во-первых, помещение разнообразных данных в таблицу дает возможность визуально оценить всю их совокупность. Концентрация разнообразных данных в пределах одной таблицы носит название сводки.
Вторая функция статистической таблицы – это группировка. Уже на этапе помещения в таблицу хаотично полученные данные приобретают некоторую структуру. В зависимости от сложности таблицы структура данных может быть простой или сложной. При использовании таблиц с одним подлежащим и сказуемым дополнительная информация, получаемая читающим таблицу из данных, помещенных в ней, весьма ограничена. Часто эта информация сводится к характеристике одной совокупности при помощи параметров другой. Если таблица имеет сложную структуру и является, например, комбинационной, то из нее можно получить гораздо больше информации. К примеру, можно проводить сравнения различных групп данных, помещенных в таблицу.
Третья функция статистических таблиц – обобщающая. В каждой статистической таблице всегда имеются итоговая строка и итоговый столбец. В некоторых таблицах могут также помещаться некоторые промежуточные итоги. В этих графах рассчитываются суммарные или средние показатели внесенного в таблицу параметра по каждой строке и столбцу. При необходимости может быть рассчитано и среднее значение признака по всем клеткам таблицы. Итоговые строки сами по себе несут для читающего таблицу гораздо большую информацию, нежели отдельные ячейки, заполненные значениями.
Четвертая функция таблиц – справочная. Чаще всего эта функция присуща лишь узко специализированным таблицам, в которые вносятся значения определенных функций, физических параметров и т.д.
Требования к статистическим таблицам
Основные требования к статистическим таблицам таковы:
1. Таблица должна быть компактной и содержать только те исходные данные, которые отражают исследуемое социально-экономическое явление в статике и динамике и необходимы для познания его сущности.
2. Заголовок таблицы и названия граф и строк должны быть четкими, краткими, лаконичными, представлять собой законченное целое, органично вписываться в содержание текста.
3. Информация, располагаемая в столбцах (графах) таблицы завершается итоговой строкой.
4. Для облегчения прочтения больших по объему таблиц после каждых пяти строк требуется оставлять двойной промежуток.
5. Столбцы и строки с названиями, несущими одну и ту же смысловую нагрузку необходимо объединять общим заголовком.
6. Графы и строки необходимо нумеровать.
7. Взаимозависимые данные всегда располагаются в соседних строках или столбцах таблицы.
8. Графы и строки должны содержать единицы измерения, соответствующие поставленным в подлежащем и сказуемом таблицы показателям.
9. В таблице всегда располагается сопоставляемая в тексте информация.
10. Числа в таблицах следует представлять в середине граф.
11. По возможности числа целесообразно округлять.
12. Отсутствующие данные всегда отмечаются в таблице тем или иным способом, например, прочерком.
13. В случае необходимости дополнительной информации, она помещается под таблицей в виде примечания.
Графики в статистическом исследовании
Графики являются самой эффективной формой представления данных с точки зрения восприятия. Часто графики используются вне связи с таблицами. С помощью графиков достигается наглядность характеристики структуры, динамики, взаимосвязи явлений, их сравнения.
Статистические графики представляют собой условное изображение числовых величин и их соотношений посредством линий, геометрических фигур, рисунков или географических карт-схем.
Графический способ облегчает рассмотрение статистических данных. На графике сразу видны пределы изменения показателя, сравнительная скорость изменения разных показателей, их колеблемость. Вместе с тем, график имеет определенные ограничения: прежде всего, он не может включить столько данных, сколько может войти в таблицу; кроме того, на нем всегда показываются округленные данные. Таким образом, график используется только для изображения общей ситуации, а не деталей. Последний минус – трудоемкость построения. Однако на современном уровне развития информационных технологий эта проблема решается при помощи компьютерных программ.
Основными элементами статистического графика являются:
1. Графический образ – это символические знаки, с помощью которых изображаются статистические данные (линии, точки, плоские геометрические фигуры).
2. Поле графика – место, на котором изображается график.
3. Пространственные ориентиры – задаются в виде системы координатных сеток.
4. Масштабные ориентиры – определяются системой масштабных шкал.
5. Экспликация – словесное описание содержания графика (название).
Виды графиков
Существует множество видов графических изображений. Их классификация основана на ряде признаков, в основе которых:
• способ построения графического образа;
• геометрические знаки, изображающие статистические показатели;
• задачи, решаемые с помощью изображения.
По способу построения статистические графики делятся на диаграммы и статистические карты.
Диаграммы – это наиболее распространенный способ графического изображения данных. Это графики количественных отношений. Виды и способы их построения разнообразны. Применяются диаграммы для наглядного сопоставления в различных аспектах (пространственном, временном и др.) независимых друг от друга совокупностей. При этом сравнение исследуемых совокупностей производится по какому-либо существенному варьирующему признаку.
Статистические карты – это графики количественного распределения по конкретной территории. По своей основной характеристике эти графики близко примыкают к диаграммам и специфичны лишь в том отношении, что представляют условные изображения статистических данных на контурной географической карте. Их задачи – отражать пространственное размещение или пространственную распространенность статистических данных. Статистические карты делятся на картограммы и картодиаграммы.
Геометрические знаки представляют собой точки, либо линии или плоскости, либо геометрические фигуры. В соответствии с этим различают графики точечные, линейные, плоскостные и пространственные (объемные).
При построении точечных диаграмм в качестве графических образов применяются совокупности точек; при построении линейных – линии. Основной принцип построения всех плоскостных диаграмм сводится к тому, что статистические показатели изображаются в виде геометрических фигур и, в свою очередь, подразделяются на столбиковые, полосовые, круговые, квадратные и фигурные.
В зависимости от круга решаемых задач выделяют диаграммы сравнения, структурные диаграммы и диаграммы динамики.
Особым видом графиков являются диаграммы распределения величин, представленных вариационным рядом, – гистограмма, полигон, огива, кумулята.
Плоскостные диаграммы как способ представления данных
Среди плоскостных диаграмм чаще всего используются столбиковые диаграммы, на которых показатель представляется в виде столбика, высота которого соответствует значению показателя. Часто на столбиковой диаграмме показываются относительные величины: при сравнении показателей по группам, по разным совокупностям, одна из которых может быть принята за 100%.
Пропорциональность площади той или иной геометрической фигуры величине показателя лежит в основе других видов плоскостных диаграмм: треугольных, квадратных, прямоугольных. В треугольной диаграмме нужно так выбрать стороны и высоту треугольника, чтобы его площадь отвечала величине показателя. Для построения квадратной диаграммы нужно задать размер одной стороны, прямоугольной — двух сторон. Можно использовать и сравнение площадей круга: в этом случае задается радиус окружности.
Ленточная диаграмма представляет показатели в виде горизонтально вытянутых прямоугольников. Как столбиковые, так и ленточные диаграммы можно применять не только для сравнения самих величин, но и для сравнения их частей. Особый тип ленточных диаграмм применяется для представления данных с разным характером изменений: положительным и отрицательным.
Из плоскостных диаграмм часто используется секторная диаграмма. Она применяется для иллюстрации структуры изучаемой совокупности. Вся совокупность принимается за 100%, ей соответствует общая площадь круга, площади секторов соответствуют частям совокупности.
Фигурные, или картинные, диаграммы усиливают наглядность изображения, так как включают рисунок изображаемого объекта, а значение признака отображается величиной этого объекта.
Лекция 4. Величины в статистике
Абсолютные величины
Первичной формой выражения статистических показателей являются абсолютные величины. Статистические показатели в форме абсолютных величин характеризуют абсолютные размеры изучаемых статистикой процессов и явлений: массу, площадь, объем, протяженность; отражают временные характеристики, а также могут представлять объем совокупности, то есть число составляющих ее единиц.
Индивидуальные абсолютные показатели получаются в процессе статистического наблюдения как результат замера, взвешивания, подсчета и оценки интересующего количественного признака.
Сводные объемные показатели, характеризующие объем признака или объем совокупности в целом как по изучаемому объекту, так и по какой-либо его части, получают в результате сводки и группировки индивидуальных значений.
Абсолютные показатели всегда являются именованными числами, то есть, имеют определенную размерность. В биологической статистике чаще всего используются натуральные единицы измерения: тонны, килограммы, унции, квадратные, кубические и простые метры, галлоны, литры, штуки и т.д. В группу натуральных входят также условно-натуральные единицы измерения, например, условные особи.
Относительные величины
Относительной величиной (показателем) является величина (показатель), полученный путем сравнения, сопоставления абсолютных или относительных величин (показателей) в пространстве (между объектами), во времени (по одному и тому же объекту) или сравнения показателей разных свойств изучаемого объекта. Относительные показатели, получаемые при сопоставлении абсолютных показателей, могут быть названы относительными показателями первого порядка, а полученные при сопоставлении относительных же показателей – показателей высших (второго, третьего и т.д.) порядков. Относительные показатели выражают связь между абсолютными показателями.
Основные виды относительных величин чаще выражаются отвлеченными числами, но могут быть также именованными относительными показателями. Их построение связано с применением различных методов статистики.
Относительные величины можно подразделить на следующие группы.
1. Относительные величины, характеризующие структуру объекта. Это доля (удельный вес) – отношение части к целому. В эту же группу входят характеристики отношения между отдельными частями объекта; показатели, характеризующие степень сложности структуры, степень неравномерности (вариации) долей и др. Доли нередко выражаются в процентах или промилле (тысячных долях)
2. Относительные величины, характеризующие динамику процесса, изменение во времени. Это отношение величин, характеризующих объект в более позднее время (текущий период), к аналогичным показателям того же объекта в более ранний (базисный период). Такие показатели называются темпами роста. К относительным величинам динамики принадлежат также темпы прироста, параметры уравнения трендов, коэффициенты колеблемости и устойчивости в динамике, индексные показатели динамики.
3. Относительные величины, характеризующие взаимосвязь признаков в совокупности явлений, а также взаимосвязь результативных признаков-следствий с факторными признаками-причинами. К таким показателям относятся коэффициент корреляции, эластичности, детерминации, а также аналитические индексы. Относительные показатели взаимосвязи могут быть как отвлеченными, так и именованными величинами.
4. Относительные величины, характеризующие соотношение различных признаков объекта между собой (показатели интенсивности). Величины соотношения признаков могут быть прямыми и обратными. И те и другие выражаются именованными числами с двойными единицами измерения обоих сравниваемых признаков (например, число особей на 1 га площади).
5. Величины, характеризующие отношение фактически наблюдаемых величин признака к его нормативным, оптимальным или максимально возможным значениям.
6. Относительные величины, возникающие в результате сравнения разных объектов по одинаковым признакам.
Цепные и базисные относительные величины динамики
Относительные показатели динамики необходимы для сравнения разных объектов, особенно если их абсолютные характеристики различны.
Темп роста – это отношение сравниваемого уровня (более позднего) к уровню, принятому за базу сравнения (более раннему). Темп роста исчисляется в цепном варианте к предыдущему уровню или в базисном варианте – к одному и тому же, обычно начальному, уровню. Расчет при этом производят по формулам:
цепной темп роста: ;
базисный темп роста: ,
где k – темп изменения.
Этот показатель говорит о том, сколько процентов составляет сравниваемый уровень по отношению к уровню, принятому за базу, или во сколько раз сравниваемый уровень больше уровня, принятому за базу. При этом, если сравниваемый уровень y выразить через уровень предыдущего года плюс прирост или уровень базисного года плюс базисное абсолютное изменение, получим:
ki/i-1=(yi-1+i)/yi-1 = 1+(i/yi-1) или 100%+(i/yi-1)*100;
ki/0=(y0+0i)/y0 = 1+(0i/y0) или 100%+(0i/y0)*100.
Величину i/yi-1 или 0i/y0, то есть отношение абсолютного изменения к предыдущему или базисному уровню, часто называют относительным приростом (относительным изменением) или же темпом прироста. Он равен k-1 или k-100%. Темп прироста может иметь как положительные, так и отрицательные значения. В этом случае сохраняют смысл только абсолютные показатели динамики.
Лекция 5. Средние величины
Средние величины в статистическом исследовании
Наиболее распространенной формой статистических показателей, используемых в исследованиях по биологии и экологии, является средняя величина. Она представляет собой обобщенную количественную характеристику признака в статистической совокупности в конкретных условиях места и времени.
Таким образом, показатель в виде средней величины отражает типичные черты и дает обобщенную характеристику однотипных явлений по одному из варьирующих признаков. Он отражает уровень этого признака, отнесенный к единице совокупности.
Широкое применение средних объясняется тем, что они имеют ряд положительных свойств, делающих их незаменимыми в анализе явлений и процессов жизни. В этом контексте важнейшим свойством средней является то, что она отражает то общее, что присуще всем единицам исследуемой совокупности. Значения признака отдельных единиц совокупности могут колебаться в ту или иную сторону под влиянием множества факторов, среди которых могут оказаться и случайные. Сущность же средней величины заключается в том, что при ее расчете погашаются отклонения значений признака отдельных единиц совокупности, обусловленные действием случайных факторов, а учитываются изменения, вызванные действием факторов основных. С точки зрения статистики эту особенность средней очень легко объяснить. Случайные ошибки имеют разный знак и разную величину, следовательно, при суммировании достаточно большого числа единиц совокупности они компенсируют друг друга. Отличия единиц совокупности, вызванные объективными факторами, всегда имеют одно направление (в большую или меньшую сторону). Это свойство средней позволяет ей отражать типичный уровень признака и абстрагироваться от индивидуальных особенностей, присущих отдельным единицам.
Виды средних и формулы для их расчета
Основными видами степенных средних являются средняя квадратическая, средняя кубическая, средняя геометрическая и средняя гармоническая величины.
Если при замене индивидуальных величин признака на среднюю величину необходимо сохранить неизменной сумму квадратов исходных величин, то средняя будет являться квадратической средней величиной (хкв). Ее формула такова:
Главной сферой применения квадратической средней величины является измерение вариации признака в совокупности.
Если по условиям задачи необходимо сохранить неизменной сумму кубов индивидуальных значений признака при их замене на среднюю величину, приходим к средней кубической, имеющей вид:
Если при замене индивидуальных величин признака на среднюю величину необходимо сохранить неизменным произведение индивидуальных величин, то следует применять геометрическую среднюю величину. Ее формула такова:
Основное применение средняя геометрическая находит при определении средних темпов роста. Кроме того, геометрическая средняя величина дает наиболее правильный результат осреднения, если задача состоит в нахождении такого значения признака, который качественно был бы равноудален как от максимального, так и от минимального значения признака.
Если по условиям задачи необходимо, чтобы неизменной оставалась сумма величин, обратных индивидуальным значениям признака, то средняя величина является гармонической средней. Формула средней гармонической величины такова:
В общем случае, формула степенной средней такова:
Если k=1, получаем среднюю арифметическую, k=2 – квадратическую; k=3 – среднюю кубическую; k=0 – геометрическую среднюю; k=-1 – среднюю гармоническую.
Существует также соотношение средних величин, называемое правилом мажорантности средних:
хгармхгеомхарифмхквадрхкуб
Свойства средней арифметической
Средняя арифметическая обладает некоторыми математическими свойствами, более полно раскрывающими ее сущность, и в ряде случаев используемыми при ее расчетах.
1. Произведение средней на сумму частот равно сумме произведений отдельных вариантов на соответствующие им частоты:
2. Сумма отклонений индивидуальных значений признака от средней арифметической равна нулю:
3. Сумма квадратов отклонений индивидуальных значений признака от средней арифметической меньше, чем сумма квадратов их отклонений от любой произвольной величины. Разница между первой и второй суммой квадратов составляет или
4. Если все осредняемые варианты уменьшить или увеличить на постоянное число А, то средняя арифметическая соответственно уменьшится или увеличится на ту же величину:
5. Если все варианты значений признака уменьшить или увеличить в А раз, то средняя также соответственно увеличится или уменьшится в А раз:
6. Если все веса уменьшить или увеличить в А раз, то средняя арифметическая от этого не изменится:
Методика расчета простой и взвешенной средней арифметической
Наиболее простым видом средних величин является средняя арифметическая, которая, как и все средние, может быть простой или взвешенной.
Средняя арифметическая простая (невзвешенная) используется в тех случаях, когда расчет осуществляется по несгруппированным данным. Расчет средней арифметической простой сводится к суммированию значений интересующего нас признака и делению полученной суммы на количество значений. Его можно выразить следующей формулой:
,
где x1, x2, …, xn – значение признака; n – количество значений.
При расчете средних величин отдельные значения осредняемого признака могут повторяться, встречаться по нескольку раз. В подобных случаях расчет средней производится по сгруппированным данным или вариационным рядам, которые могут быть дискретными и интервальными. В этом случае вместо конкретного i-го значения признака в формуле будет фигурировать произведение этого признака на его вес. Тогда среднюю вычисляем по следующей формуле:
,
где xi – значение конкретного признака; fi – вес этого признака (например, частота).
В отдельных случаях веса могут быть представлены не абсолютными величинами, а относительными (в процентах или долях единицы). Тогда с учетом несложного преобразования первой формулы получим:
На математических свойствах средней арифметической основан способ ее расчета в интервальных рядах, называемый способом моментов или способом отсчета от условного нуля. Его сущность заключается в следующем:
1. Одно из центральных значений признака – середину ряда – принимают за условное начало отсчета А.
2. Уменьшают все значения признака на выбранную величину А.
3. Делят уменьшенные значения на величину интервала h, получая преобразованные варианты х.
4. Находят среднюю из преобразованных вариант, которую называют условным моментом первого порядка:
,
где mI – условный момент первого порядка; xl – преобразованная варианта;
ni – частота данного значения признака.
5. Для определения средней арифметической момент первого порядка умножают на величину интервала и к полученному произведению прибавляют величину А, выбранную в качестве точки отсчета:
Лекция 6 Сводка и группировка данных
Понятие группировки
Группировкой называют разделение множества единиц изучаемой совокупности на группы по определенным существенным для них признакам. Группировка является одним из самых сложных в методологическом плане этапов статистического наблюдения.
Исходным требованием при проведении группировки является гомогенность, то есть, однородность исходных данных. Данные, подлежащие группировке, должны характеризовать один и тот же признак. В идеальном случае набор данных должен характеризоваться гомогенностью еще и по ряду других показателей: времени сбора, сборщику и т.д., то есть, по тем показателям, которые могут вносить добавочный разброс в данные, препятствуя их интерпретации. С другой стороны, грамотно проведенная группировка может помочь выявить влияние большинства важнейших факторов на характеристику разброса данных.
С точки зрения статистики группировка признаков получается наиболее показательной, если частоты встречаемости объектов с различными значениями признака подчиняются закону нормального распределения, то есть, частота встречаемости объектов со средними значениями признака значительно выше, чем частоты встречаемости объектов с крайними значениями признаков. Если нормальность распределения признака объектов в выборке не выдерживается, это свидетельствует о наличии каких-либо неучтенных искажающих факторов.
Перед началом группировки необходимо четко представлять себе ее цели и задачи, рассчитать количество интервалов при количественной группировке и признаков при качественной. При проведении многомерных группировок необходимо следить за тем, чтобы группировочные признаки были независимы друг от друга: это может отразиться на точности последующих выводов.
Задачи группировки
Отдельные единицы статистической совокупности объединяются в группы при помощи метода группировки. Это позволяет «сжать» информацию, полученную в ходе наблюдения, и на этой основе выявить закономерности, присущие изучаемому явлению.
Причины, обусловливающие необходимость проведения группировки и определяющие ее место в системе статистических методов, кроются в своеобразии объекта статистического исследования. Он представляет собой комплекс частных совокупностей, которые могут быть качественно и глубоко различны, обладать различными свойствами, степенью сложности, характером развития.
Невозможность статистической характеристики объекта исследования без выделения групп можно показать на примере совокупности учетных площадок. Каждая из них имеет индивидуальные особенности: структура ландшафта, место положения, состав населения птиц и т.д. Без преодоления этих индивидуальных черт исследовать закономерности динамики численности орнитонаселения, которые теряются в многочисленных характеристиках, отличающих одну площадку от другой, нельзя. Поэтому площадку следует объединить в группы по существенным признакам. Из-за этого, в показателях, исчисленных по достаточно большим группам, произойдет погашение случайного и выявление общего, существенного для развития исследуемого явления.
Таким образом, группировки являются важнейшим статистическим методом обобщения данных, основой для правильного исчисления статистических показателей.
С помощью метода группировок решаются следующие задачи:
1. Выделение типов явлений;
2. Изучение структуры явления и структурных сдвигов, происходящих в нем;
3. Выявление связи и зависимости между явлениями.
Виды группировок
Группировка проводится с целью установления статистических связей и закономерностей, построения описания объекта, выявления структуры изучаемой совокупности. Группировки бывают трех основных видов: типологические, структурные и аналитические.
Типологическая группировка служит для выделения отдельных типов явлений природы. Этот вид группировок в значительной степени определяется представлениями экспертов о том, какие типы могут встретиться в изучаемой совокупности. Последовательность действий при проведении структурной группировки следующая:
Группировка осуществляется в такой последовательности:
1. Определение группировочного признака. Этот этап является самым сложным и важным. Для определения группировочного признака необходимо четко представлять все взаимосвязи изучаемых явлений. Это необходимо прежде всего для того, чтобы определить, какой признак является факторным, а какой результативным. Группировочный признак часто называют основанием группировки. От правильного выбора признака зависят выводы, которые можно будет сделать после проведения исследования.
2. Определение размаха варьирования признака. Для этого необходимо вычислить максимальное и минимальное значение признака в изучаемой совокупности; их разность и будет размахом варьирования.
3. Определение количества интервалов, на которые следует разбить изучаемую совокупность. Количество интервалов, как правило, определяется объемом совокупности. Чем больше объем, тем больше количество интервалов. Для определения этого параметра часто применяется формула Стерджесса:
n=3,32lgN,
где n – количество интервалов, на которые следует разбить совокупность;
N – численность выборки.
Другой способ определения числа групп основан на применении правила трех сигм, когда количество интервалов зависит от их шага и стандартного отклонения признака в совокупности. При построении группировок по атрибутивному (качественному) признаку количество групп будет соответствовать количеству значений этого признака.
4. Определение шага интервала. Эта операция производится, когда известен размах варьирования и количество интервалов путем деления первого параметра на второй. В этом случае интервалы получаются равными, однако при желании с известной долей субъективизма можно разбить совокупность и на неравные интервалы.
5. Разноска значений результативного признака по интервалам совокупности. Чаще всего производится методом конвертов, когда каждое значение, попавшее в какой-либо интервал, обозначается точкой или отрезком, соединяющим две точки. В итоге получается квадрат с перекрещенными диагоналями, обозначающий цифру 10 или неполный квадрат, обозначающий другие цифры.
В итоге получаем ряд интервалов, каждому из которых соответствует определенное значение частоты признака. На этом группировку можно считать завершенной.
Данный метод позволяет избежать чрезмерного дробления совокупности, но он слишком субъективен: эксперт определяет, какие типы должны быть выделены, по каким признакам и какими должны быть границы интервалов.
Структурная группировка характеризует структуру совокупности по какому-либо признаку. Формально структурная группировка – это ряд распределения. Она позволяет изучать интенсивность вариации группировочного признака. На основе структурной группировки можно изучать динамику структуры совокупности.
Аналитическая группировка характеризует взаимосвязь между двумя и более признаками, из которых один рассматривается как результат, другой – как фактор. Для того, чтобы установить связь между признаками, данные группируются по признаку (фактору). Затем по каждой группе рассчитывается среднее значение результата. По обобщенным данным легко увидеть, есть ли связь между признаками или нет, прямая ли она или обратная, линейная или нелинейная.
Аналитическая группировка бывает однофакторной (когда пытаются установить зависимость между одним признаком фактором и одним признаком-результатом) и многофакторной, (когда признаков-факторов множество).
Лекция 7. Характеристики рядов распределения
Рядом распределения в статистике называется ряд цифровых показателей, представляющих распределение единиц совокупности по одному существенному признаку, разновидности которого расположены в определенной последовательности. Ряды строятся с целью изучения состава исследуемой совокупности, ее однородности, колеблемости значений признаков и границ их изменения. На основе рядов распределения рассчитываются относительные величины структуры, средние показатели, устанавливается типичность обобщающих показателей с позиций наблюдаемых единиц совокупности.
По своей конструкции ряд распределения состоит из двух элементов: вариантов (групп по выделенному признаку) и частот (численности групп).
Ряды распределения, являясь группировкой, могут быть образованы по качественному (атрибутивному) и количественному (дискретному или непрерывному) признакам. В первом случае они называются атрибутивными, во втором – вариационными. Вариационные ряды распределения по способу построения бывают дискретные и интервальные.
В дискретном вариационном ряду распределения группы составлены по признаку, изменяющемуся дискретно и принимающему только целые значения. Примером данного ряда является распределение семей по числу детей в одном из районов города.
В интервальном вариационном ряду распределения в группировочный признак, составляющий основание группировки, может принимать в определенном интервале любые значения. Данный ряд распределения целесообразно строить, прежде всего, при непрерывной вариации признака, а также, если дискретная вариация проявляется в широких пределах, т.е. число вариантов дискретного признака достаточно велико.
Для различных целей бывает уместным осуществлять преобразование ряда распределения, заключающееся в построении ряда накопленных частот (кумулятивного ряда). Этот ряд показывает число случаев ниже или выше определенного уровня. Отсюда и возникают два варианта в построении ряда накопленных частот: один показывает число случаев, менее определенного значения варьирующего признака, а другой – число случаев, превышающее определенное значение варьирующего признака.
Методика построения дискретных и интервальных вариационных рядов
Первым этапом практически любого статистического изучения вариации является построение вариационного ряда – упорядоченного распределения единиц совокупности по возрастающим или убывающим значениям признака и подсчет числа единиц с тем или иным значением признака.
Если признак принимает небольшое число значений, строится дискретный вариационный ряд. Он представляет собой таблицу, состоящую из двух строк или граф: конкретных значений признака xi и числа единиц совокупности с данным значением признака fi. При этом число групп в дискретном вариационном ряду определяется числом реально существующих значений варьирующего признака. Если признак принимает дискретные значения, но их число очень велико, то строится интервальный вариационный ряд.
Интервальный вариационный ряд представляет собой таблицу, состоящую из двух граф – интервала признака, вариация которого изучается, и числа единиц совокупности, попадающих в данный интервал.
Таким образом, построение дискретного вариационного ряда сводится к ранжированию элементов по значению и последующему составлению самого ряда. Построение интервального ряда несколько более сложно. Сначала, исходя из числа элементов совокупности, по формуле Стерджесса или значению дисперсии определяется число интервалов, на которые разбивается совокупность. Затем вычитанием минимального значения признака из максимального находится размах варьирования признака. После деления размаха варьирования на число интервалов определяется шаг интервала. Затем выполняется разноска элементов совокупности по интервалам.
После построения дискретного вариационного ряда в виде таблицы он, для наглядности, может быть представлен в виде полигона, гистограммы, огивы или кумуляты в зависимости от целей проводимого исследования.
Статистические характеристики распределения: мода, медиана, асимметрия, эксцесс
Модой распределения называется такая величина изучаемого признака, которая в данной совокупности встречается наиболее часто, то есть, один из вариантов признака повторяется чаще, чем все другие. Для упорядоченного дискретного ряда распределения мода, являющаяся характеристикой вариационного ряда, определяется по частотам вариантов и соответствует варианту с наибольшей частотой.
Модальный интервал (то есть, содержащий моду) в случае интервального распределения с равными интервалами определяется по наибольшей частоте; с неравными интервалами – по наибольшей плотности, а определение моды требует проведения расчетов на основе следующих формул:
,
где xMo – нижняя граница модального интервала; i – величина модального интервала; fMo – частота модального интервала; fMo-1 – частота интервала, предшествующего модальному; fMo+1 – частота интервала, следующего за модальным.
,
где xMo – начальная граница модального интервала, в котором достигает максимума величина f/i – отношение частоты интервала к его величине;
iMo, iMo-1, iMo+1 – величина соответствующего модального, до- и послемодального интервалов; fMo, fMo-1, fMo+1 – частота модального, до- и послемодального интервалов соответственно.
В качестве характеристики вариационного ряда также применяется медиана, то есть величина признака, которая находится в середине упорядоченного вариационного ряда.
Если в вариационном ряду 2m+1 случаев, то значение признака у случая m+1 будет медианным. Если в ряду четное число 2m случаев, то медиана равна средней арифметической из двух данных значений.
Формулы для исчисления медианы при нечетном числе вариантов:
Me=xm+1;
и при нечетном числе вариантов:
Me=(xm+xm+1)/2
В интервальном ряду распределения сразу можно указать только интервал, в котором будет находиться медиана. Для определения ее величины используется специальная формула:
,
где xMe – нижняя граница медианного интервала; i – величина медианного интервала; SMe-1 – накопленная частота интервала, предшествующего медианному; fMe – частота медианного интервала.
Для характеристики параметров распределения значений признака в совокупности часто используются показатели асимметрии и эксцесса. Асимметрия показывает, насколько больше объектов в совокупности имеет значение признака, превышающее среднее, чем тех, у которых значение признака меньше среднего. В случае нормального распределения асимметрия равна нулю, ведь распределение симметрично относительно среднего значения. Если показатель асимметрии больше нуля, то большинство объектов в совокупности имеют значение признака ниже среднего, если меньше нуля, то распределение смещено вправо. Для исследователя наличие асимметрии в распределении признаков у объектов совокупности может быть сигналом о неправильно проведенной группировке или неверно выбранном методе сбора данных. Также оно может помочь выявить влияние скрытых факторов на распределение признака у объектов совокупности.
Показатель асимметрии рассчитывается как центральный момент третьего порядка:
или с использованием показателя моды (асимметрия Пирсона):
В первом случае на показатель в большей степени будут оказывать влияние крайние значения признака, а во втором – средние.
Эксцесс также как и асимметрия является показателем формы распределения. Эксцессом называют разницу между центральными моментами четвертого порядка для изучаемого и нормального распределений. Для нормального распределения центральный момент четвертого порядка равен трем. Если распределение характеризуется положительным эксцессом, то это говорит о наличии слабо варьирующего «ядра», окруженного рассеянным «гало». Визуально график такого распределения будет казаться островершинным. Отрицательный эксцесс говорит об отсутствии стабильного «ядра», а график такого распределения будет плосковершинным.
Расчет эксцесса для несгруппированных данных проводится по следующей формуле:
Два рассмотренных выше показателя позволяют выделить несколько типов распределения признаков, определяющихся формой кривой распределения. Это островершинное, плосковершинное, симметричное и асимметричное.
Как частный случай нормального распределения следует рассматривать лог-нормальное. Оно очень часто применяется при анализе специфических статистических данных.
Показатели вариации для характеристики вариационных рядов
Простейшей мерой вариации при характеристике вариационных рядов служит размах варьирования, или амплитуда вариации. Это абсолютная разность между максимальным и минимальным значением признака:
R=Xmax-Xmin
Поскольку величина размаха характеризует лишь максимальное различие значений признака, она не может измерять закономерную силу его вариации по всей совокупности. Показателем силы вариации выступает средний модуль отклонения, или среднее линейное отклонение. Этот показатель рассчитывается по формуле для несгруппированных данных:
а=
для сгруппированных данных:
а=,
где xj’ – середина j-го интервала переменной х; – среднее значение переменной х; fj – частота j-го интервала; k – число групп.
Следующий показатель вариации – среднее квадратическое отклонение. Рассчитывается по формуле для несгруппированных данных:
=
для сгруппированных данных:
=
Квадрат среднего квадратического отклонения дает величину дисперсии 2.
Еще одним показателем вариации, характеризующим ее не по всей совокупности, а лишь в центральной части, служит среднее квартильное расстояние, то есть, средняя величина разности между квартилями, обозначаемое как q:
q=((Q3-Me)+(Me-Q1))/2=(Q3-Q1)/2
Для оценки интенсивности вариации и для сравнения ее в разных совокупностях и для разных признаков необходимы относительные показатели вариации. Они вычисляются как отношения абсолютных показателей силы вариации к средней арифметической величине признака.
Относительный размах вариации р (коэффициент осцилляции):
p=R:
Относительное отклонение по модулю, m:
m=a:
Коэффициент вариации как относительное среднее квадратическое отклонение, v:
v=:
Относительное квартильное расстояние, d:
d=q:
Эмпирическое и теоретическое распределения
Эмпирическим называют распределение признака в совокупности, полученное в результате его измерения у каждого из объектов данной совокупности в результате проведения эксперимента или опыта. Эмпирические распределения характеризуют признаки лишь у части элементов совокупности, поэтому может характеризовать всю совокупность только при соблюдении ряда жестких математических условий.
Теоретическое распределение – это распределение частот встречаемости каждого конкретного значения признака в совокупности, рассчитанное по некоторым математическим законам. Для различных нужд статистики применяются различные теоретические распределения. Однако наиболее часто встречающимся является нормальное распределение признака: частоты встречаемости объектов со средними значениями признака всегда выше, чем частоты встречаемости объектов с крайними значениями признака. Нормальное распределение характерно для большинства признаков большинства объектов статистического исследования, поэтому качество проведенного сбора материала часто проверяют по соответствию эмпирического распределения нормальному. Каждому объему выборки и каждому разбросу данных соответствует свое нормальное распределение. Для сравнения двух распределений существует ряд математических операций. Основными из них являются вычисления критериев нормальности: Пирсона, Романовского и Колмогорова.
Дисперсия как показатель вариации признака в совокупности
Изучая вариацию по всей совокупности в целом и опираясь на общую среднюю в своих расчетах, мы не можем определить влияние отдельных факторов, характеризующих колеблемость индивидуальных значений признака. Это можно сделать при помощи аналитической группировки, разделив изучаемую совокупность на однородные группы по признаку-фактору. При этом можно определить три показателя колеблемости признака в совокупности: дисперсию общую, межгрупповую и среднюю из внутригрупповых дисперсий.
Общая дисперсия 2 измеряет вариацию признака во всей совокупности под влиянием всех факторов, обусловливающих эту вариацию:
.
Межгрупповая дисперсия (x2) характеризует систематическую вариацию, то есть различия в величине изучаемого признака, возникающие под влиянием признака-фактора, положенного в основание группировки. Она рассчитывается по формуле:
,
где k – число групп; nj – число единиц в j-й группе; - частная средняя по j-й группе; - общая средняя по совокупности единиц.
Внутригрупповая дисперсия (j2) отражает случайную вариацию, то есть, часть вариации, происходящую под влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основание группировки. Она исчисляется следующим образом:
.
По совокупности в целом вариация значений признака под влиянием прочих факторов характеризуется средней из внутригрупповых дисперсий ():
.
Между общей дисперсией 2, средней из внутригрупповых дисперсий и межгрупповой 2 дисперсией существует соотношение, определяемое правилом сложения дисперсий. Согласно этому правилу общая дисперсия равна сумме средней из внутригрупповых и межгрупповой дисперсий:
2=+2.
Согласно этому правилу, общая дисперсия, возникающая под действием всех факторов, равна сумме дисперсий, появляющихся под влиянием всех прочих факторов, и дисперсии, возникающей за счет группировочного признака.
Построение нормальной кривой по эмпирическим данным
Для построения нормальной кривой по эмпирическим данным применяется методика расчета, основанная на использовании дифференциальной функции Лапласа. Нормальная кривая чаще всего рассчитывается для интервальных рядов. В этом случае теоретические частоты рассчитываются по формуле:
ni=nh(ui)/Sx,
где nit – теоретические частоты, n-объем выборки, h – шаг интервала, ui= – нормированное отклонение, xi – середины частичных интервалов, – выборочная средняя, Sx – стандарт, (ui) – дифференциальная функция Лапласа.
Фактически, в результате подсчета мы отвечаем на вопрос: какими должны быть частоты каждого из эмпирически полученных интервалов, чтобы распределение оказалось нормальным. Таким образом, после подсчета получаем ряд нормального распределения, состоящий из интервалов и соответствующих им теоретических частот. На применении этой методики также основан расчет критерия согласия 2 – Пирсона.
Лекция 8. Выборочное исследование
Основные понятия
Выборка – это часть генеральной совокупности, изучив которую мы можем экстраполировать (распространить) полученные закономерности на всю генеральную совокупность с определенной точностью.
Преимуществами выборочного наблюдения перед сплошным являются следующие:
1. Повышение точности данных;
2. Существенная экономия материальных, трудовых, финансовых ресурсов, а также времени;
3. Проведение выборочных исследований необходимо тогда, когда исследование связано с порчей объектов.
Эти преимущества проявляются тогда, когда соблюдаются основные принципы выборочного наблюдения:
1. Правильное определение границ генеральной совокупности;
2. Грамотная разработка программы наблюдения и инструкции;
3. Установление допустимого размера погрешности и определение объема выборки;
4. Определение вида выборочного наблюдения;
5. Установление сроков проведения наблюдения;
6. Оценка точности и достоверности данных выборки, определение порядка их распространения на генеральную совокупность.
Выборочным называется такое несплошное наблюдение, при котором признаки регистрируются у отдельных единиц изучаемой статистической совокупности, отобранных с использованием специальных методов, а полученные в процессе обследования результаты с определенным уровнем вероятности распространяются на всю исходную совокупность.
При этом генеральной совокупностью называется вся исходная статистическая совокупность, из которой на основе отбора единиц или групп единиц формируется выборочная совокупность. Поэтому генеральную совокупность также называют основой выборки.
Использование выборочной совокупности обусловлено, прежде всего тем, что в силу больших объемов генеральной совокупности не каждый ее элемент может быть обследован. Тем более, временные затраты, возникающие при обследовании больших совокупностей элементов не всегда оправданы, так как число элементов, позволяющих судить о закономерностях в совокупности может быть значительно меньше.
Перенос выявленных закономерностей выборочной совокупности на всю генеральную совокупность носит название экстраполяции. При работе выборочным методом следует помнить о том, что любая экстраполяция несет элемент статистической недостоверность, то есть, не для всех элементов генеральной совокупности выявленные закономерности или тенденции будут характерны. Поэтому описание генеральной совокупности при помощи выборок всегда сопровождается указанием доверительной вероятности.
Величинами, чаще всего применяемыми для характеристики совокупностей являются среднее значение признака, стандартное отклонение и дисперсия. При изучении больших по объему выборок значения этих параметров для выборки и для генеральной совокупности совпадают. Говорят, что эти оценки являются точечными и несмещенными. Если в выборке оказалось менее 60 объектов, то для вычисления генеральной оценки стандартного отклонения и дисперсии необходимо умножить соответственно выборочное стандартное отклонение или дисперсию на корректирующий множитель, который будет тем больше, чем меньше окажется число объектов в выборке.
Ошибка выборки
Ошибка выборки или ошибка репрезентативности – это разница между значением показателя, полученного по выборке, и генеральным параметром.
Если представить, что было проведено бесконечно большое количество выборок равного объема из одной и той же генеральной совокупности, то показатели отдельных выборок образовывают ряд возможных значений: выборочных средних величин, относительных величин, дисперсий и т.д. Каждая выборка имеет свою ошибку репрезентативности. Следовательно, можно построить ряды распределения выборок по величине ошибки репрезентативности для каждого показателя. В таких распределениях прослеживается концентрация ошибок вокруг среднего значения.
Средняя ошибка выборки есть среднее квадратическое отклонение выборочных параметров от генеральных параметров. Однако чаще всего генеральные параметры неизвестны, поэтому пользуются несколько упрощенным представлением и предполагают, что квадрат средней ошибки выборки прямо пропорционален квадрату средней ошибки (дисперсия выборочных параметров) (2) и обратно пропорционален объему выборки (n). Таким образом, получаем следующую формулу (для средней ошибки выборочной средней):
Это формула средней ошибки выборки при простом случайном бесповторном отборе. При повторном отборе формула будет выглядеть так:
,
где n – объем выборки; N – объем генеральной совокупности.
Для альтернативного признака средняя ошибка выборки равна:
,
где – выборочная доля.
Предельная ошибка выборки в любом из этих случаев находится из соотношения:
=t,
где t – коэффициент Стьюдента, определяемый по таблицам в зависимости от уровня вероятности.
Оценка характеристик генеральной совокупности
Генеральная совокупность всегда содержит очень большое количество элементов. Для ее описания служат выборочные совокупности (совокупность). Последняя состоит из гораздо меньшего числа элементов. Это дает следующее преимущество – в выборочной совокупности все элементы могут быть проанализированы (точно вычислены средняя арифметическая, структурные средние, характеристики рассеяния). Из-за специфики расчета точные значения этих параметров для генеральной совокупности получить можно, но это займет очень много времени. Обычно для генеральной совокупности вычисляют оценки параметров, то есть, экстраполируют (переносят) значения того или иного параметра, вычисленного из выборки, на всю генеральную совокупность с определенной долей вероятности. Получается, что оценка отражает параметр явления в определенном проценте случаев.
Оценка параметра генеральной совокупности бывает точечной и интервальной. Точечной называется оценка параметра, состоящая из одного числа. Интервальной называется оценка, ограниченная двумя числами (от – до). Важными свойствами оценки параметра генеральной совокупности являются репрезентативность и несмещенность. Несмещенность означает, что параметр генеральной совокупности всегда оказывается таким, каким его представляет оценка. Репрезентативность означает, что значение параметра не зависит от того, какие элементы генеральной совокупности попали в выборочную.
Для генеральных совокупностей чаще всего вычисляют среднюю и среднее квадратическое отклонение. При нормальном распределении признака в выборке и генеральной совокупности оценкой генеральной средней является выборочная средняя, а оценкой генерального среднего квадратического отклонения – выборочное среднее квадратическое отклонение.
Критериями статистической оценки являются несмещенность, состоятельность и эффективность. Несмещенной называют статистическую оценку неизвестного параметра, математическое ожидание которой равно оцениваемому параметру.
Эффективной считается оценка с наименьшей дисперсией.
Состоятельная оценка – это величина, которая по мере увеличения числа наблюдений стремится по вероятности к оцениваемому параметру.
Интервальная оценка генеральной средней выглядит следующим образом:
хвыб-хгенхвыб+,
где хвыб – выборочная средняя; хген – генеральная средняя; – предельная ошибка выборки.
Интервальная оценка генеральной доли выглядит так
-р+,
где – выборочная доля; р – генеральная доля.
Таким образом, доверительный интервал – это такой интервал значений выборочного признака, в который с определенной долей вероятности попадает искомый параметр генеральной совокупности. Вероятность, с которой признак попадает в заданный интервал, носит название доверительной вероятности. Значение доверительной вероятности показывает, в скольки случаях из ста значение генерального параметра попадет в заданный интервал. Чаще всего принимают доверительную вероятность равной 0,95, 0,954, 0,997 или 0,999.
Определение необходимого объема выборки
При определении необходимого объема выборки нужно учитывать несколько факторов. Их можно подразделить на объективные и субъективные. К объективным факторам, определяющим объем выборки, относятся необходимый уровень значимости закономерностей, выявляемых выборочным наблюдением, характером распределения признака в совокупности, а также методом отбора единиц генеральной совокупности в выборочную. К субъективным относится время, которое можно затратить на проведение выборочного наблюдения.
Влияние уровня значимости заключается в том, что чем с большей долей вероятности необходимо выявить ту или иную закономерность, тем больший объем выборки необходим.
Характер распределения признака в совокупности для применения выборочного метода может быть только нормальным или близким к нему. Однако в природе такое распределение иногда нарушается. При этом генеральную совокупность разбивают на две, внутри каждой из которых признак будет распределен нормально, и отбирают две выборки. При этом суммарное количество элементов в этих выборках будет больше, чем при работе с единой генеральной совокупностью.
Метод отбора единиц в выборочную совокупность обуславливает методику расчета всех ее параметров. Например, для собственно случайной выборки объем определяется по формуле:
,
где t характеризует уровень значимости; 2 – дисперсия признака,
– предельная ошибка выборки.
При бесповторном отборе в стратифицированную выборку количество единиц выборочной совокупности будет определяться по формуле:
,
где N – объем i-й группы единиц.
Отбор единиц из генеральной совокупности
В математической статистике применяются два механизма отбора единиц в выборочную совокупность. Это повторный и бесповторный отбор. Первый соответствует так называемой схеме возвратного шара, второй – безвозвратного (при рассмотрении процесса отбора данных на примере отбора шаров различного цвета из урны). В биологической статистике нет смысла применять повторную схему, поэтому имеется в виду, как правило, бесповторный отбор.
Если выборка проводится по схеме возвратного шара, то вероятность попадания любой единицы в совокупность одинакова на всем протяжении отбора, и равна 1/N, где N – число единиц в генеральной совокупности.
Если выборка проводится по схеме невозвратного шара, то вероятность попадания единицы в выборку изменяется от 1/N для первой отбираемой единицы до 1/(N-n+1) для последней.
В зависимости от состава и структуры генеральной совокупности выбирается вид выборки, или способ отбора. К наиболее распространенным на практике видам относятся:
1. Собственно-случайная (простая случайная) выборка;
2. Механическая (систематическая) выборка;
3. Типическая (стратифицированная, расслоенная) выборка;
4. Серийная (гнездовая) выборка.
Отбор единиц из генеральной совокупности может быть:
1. Комбинированный отбор. Предполагает объединение нескольких видов выборки (типическую и серийную, серийную и собственно-случайную). Ошибка такой выборки определяется ступенчатостью отбора.
2. Многоступенчатый отбор. Отбор, при котором из генеральной совокупности сначала извлекаются укрупненные группы, затем более мелкие. Так продолжается до тех пор, пока не будут отобраны те единицы, которые подвергаются обследованию.
Методы отбора единиц в выборочную совокупность таковы:
1. Метод случайной сортировки;
2. Метод прямой реализации;
3. Метод отбора-отказа.
Лекция 9. Изучение связей между явлениями
Корреляционная связь
Корреляция представляет собой статистическую зависимость между случайными величинами, не имеющими строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой.
В статистике различаются следующие варианты зависимостей:
1. Парная корреляция – связь между двумя признаками (результативным и факторным или двумя факторными);
2. Частная корреляция – зависимость между результативным и одним из факторных признаков при фиксированном значении других факторных признаков;
3. Множественная корреляция – зависимость результативного и двух или более факторных признаков, включенных в исследование.
Теснота корреляционной связи определяется коэффициентом корреляции. Коэффициенты корреляции, представляя собой количественную оценку тесноты связи между признаками, дают возможность оценить «полезность» факторных признаков при построении уравнения множественной регрессии. Величина коэффициента корреляции служит также оценкой соответствия уравнения регрессии выявленным причинно-следственным связям.
С понятием корреляции тесно связано понятие регрессии. Если корреляционный анализ позволяет охарактеризовать силу связи между признаками, то регрессионный дает представление о форме этой зависимости.
По форме зависимости различают:
1. Линейную регрессию, которая выражается уравнением прямой вида y(x)=a0+a1x;
2. Нелинейную регрессию, которая выражается уравнениями кривых второго порядка, например, гиперболы или параболы.
По направлению связи различают:
1. Прямую, или положительную, регрессию, возникающую при условии: с увеличением или уменьшением независимой величины (факторного признака) значения зависимой (результативного признака) также увеличиваются или уменьшаются.
2. Обратную, или отрицательную, регрессию, появляющуюся при условии: с увеличением или уменьшением независимой величины значения зависимой соответственно уменьшаются или увеличиваются.
Корреляционно-регрессионный анализ
Огромное число биологических явлений изучается при помощи корреляционно-регрессионного анализа. Основная его задача состоит в поиске зависимости между параметрами, оценке ее силы, формы и достоверности. Проведение корреляционно-регрессионного анализа представляет собой достаточно сложную математическую процедуру и подразделяется на несколько этапов.
1. Составление матрицы исходных данных. На этом этапе исследователь определяет характеристики параметров. Один из них в дальнейшем будет считаться независимым, или факторным, другой – зависимым, или результативным. При построении матрицы исходных данных в случае поиска связи между парой признаков каждому значению факторного признака ставится в соответствие одно значение результативного.
2. Графический анализ парных зависимостей между факторным и результативным признаками. На этом этапе решается вопрос о наличии связи между двумя параметрами. Если параметры не связаны, то это будет видно даже в двухмерной системе координат: точки будут расположены хаотично и не будет заметен центр, «ядро» распределения. В этом случае анализ прекращают. Если облако точек имеет форму, приводимую к какой-либо прямой или кривой (параболе, гиперболе и т.д.), то констатируется наличие связи, и анализ продолжается с целью выявления ее силы и значимости.
3. Построение уравнения регрессии различных аналитических форм. На данном этапе подбирается уравнение прямой или кривой, наиболее соответствующее данному распределению. Этот этап имеет аналитический характер и состоит в подборе коэффициентов в уравнениях стандартных кривых.
4. Оценка значимости полученных уравнений регрессии. Основывается на применении ряда стандартных статистических процедур.
5. Расчет коэффициента корреляции и оценка его значимости.
6. Интерпретация полученных данных.
Показатели тесноты связи
Измерение тесноты и направления связи является важной задачей изучения и количественного измерения взаимосвязи различных явлений. Оценка тесноты связи между признаками предполагает определение меры соответствия вариации результативного признака от одного или нескольких факторов.
Линейный коэффициент корреляции характеризует тесноту и направление связи между двумя коррелируемыми признаками в случае наличия между ними линейной зависимости. Коэффициент рассчитывается по формуле:
r=
Коэффициент корреляции может быть также выражен через дисперсии слагаемых:
rxy=
Линейный коэффициент корреляции изменяется в пределах от –1 до 1.
В случае наличия линейной и нелинейной зависимости между двумя признаками для измерения тесноты связи применяется корреляционное отношение. Существует эмпирическое и теоретическое корреляционное отношение.
Эмпирическое корреляционное отношение рассчитывается по данным группировки, когда 2 характеризует отклонения групповых средних результативного показателя от общей средней:
,
где – корреляционное отношение; 2 – общая дисперсия; – средняя из частных дисперсий; – межгрупповая дисперсия.
Теоретическое корреляционное отношение определяется по формуле:
=
Для измерения тесноты связи при множественной корреляционной зависимости, то есть при исследовании трех и более признаков одновременно, вычисляются множественный, или совокупный, и частные коэффициенты корреляции.
Множественный коэффициент корреляции рассчитывается при наличии линейной связи между результативным и несколькими факторными признаками, а также между каждой парой факторных признаков.
Он вычисляется по формуле:
,
где R – множественный коэффициент корреляции; 2 – дисперсия теоретических значений результативного признака, рассчитанная по уравнению множественной регрессии; 2ост – остаточная дисперсия;
2 – общая дисперсия результативного признака.
Частные коэффициенты корреляции характеризуют степень тесноты связи между двумя признаками x1 и x2 при фиксированном значении других (k-2) факторных признаков.
Коэффициент, в котором исключается влияние только одного факторного признака, называется коэффициентом частной корреляции первого порядка. В общем виде коэффициент корреляции первого порядка выражается так:
r1,2,3,4,…,k=
Подобным образом рассчитываются коэффициенты корреляции второго и высших порядков.
Коэффициент регрессии
Коэффициент парной линейной регрессии обычно обозначается b. Он имеет смысл показателя силы связи между вариацией факторного признака х и результативного признака у. Фактически, он измеряет среднее по совокупности отклонение у от его средней величины при отклонении признака х от своей величины на принятую единицу измерения.
Теснота корреляционной связи обычно измеряется при помощи коэффициента корреляции, однако он представляет собой преобразованный, стандартизированный коэффициент регрессии. В этом случае он выражается не в абсолютных единицах измерения признаков, а в долях среднего квадратического отклонения результативного признака.
Вычисление коэффициента регрессии проводят по следующим формулам. Решая систему нормальных уравнений метода наименьших квадратов относительно b, получаем:
Так как знаменатель этого выражения есть не что иное, как дисперсия признака, т.е. x2, то можно записать формулу коэффициента регрессии в виде:
Подставив в это выражение x2, получим:
В числителе ковариация переменных x и y.
Параметр стандартизированного коэффициента регрессии, или β-коэффициента, применяется при расчете уравнения множественной регрессии и показывает тесноту связи результативного признака с одним из факторных при условии, что действие прочих факторов полагается постоянным.
Оценка значимости выборочного коэффициента корреляции
Вероятностная оценка параметров корреляции проводится по общим правилам проверки статистических гипотез, разработанных математической статистикой, в частности путем сравнения оцениваемой величины со средней случайной ошибкой оценки. Для коэффициента корреляции средняя ошибка оценки вычисляется так:
1. ,
где r – расчетные значения коэффициента корреляции; n – 2 – число степеней свободы.
Критерий Стьюдента в этом случае вычисляется как t=r/mr.
2. Если коэффициент корреляции близок к единице (как часто бывает в статистических исследованиях), то распределение его оценок отличается от нормального, так как его предельное значение равно единице. В таких случаях для оценки надежности коэффициента используется следующая формула:
Средняя ошибка величины z определяется по формуле:
Критерий Стьюдента в этом случае вычисляется как отношение t=z/mz.
Зная среднюю ошибку оценки коэффициента корреляции, можно вычислить вероятность того, что нулевое значение коэффициента входит в интервал возможных с учетом ошибки значений. С этой целью находится отношение коэффициента к его средней ошибке, то есть, t-критерий Стьюдента. Сравнивая фактическое и табличное значение критерия Стьюдента при заданном числе степеней свободы, находят доверительную вероятность того, что коэффициент корреляции примет нулевое значение.
Лекция 10. Динамика параметров биологических систем
Ряды динамики
Процесс развития социально-экономических явлений в статистике принято называть динамикой. Для отображения динамики строят ряды динамики (хронологические, временные), которые представляют собой ряды изменяющихся во времени значений статистического показателя, расположенные в хронологическом порядке. Динамические ряды позволяют детально проанализировать особенности развития биологических явлений при помощи характеристик, которые отображают изменение параметров биологических систем во времени.
Составными элементами ряда динамики являются показатели уровней ряда и периоды времени (годы, кварталы, месяцы, сутки) или моменты (даты) времени. Уровни ряда обычно обозначаются через y, моменты или периоды времени, к которым относятся уровни, – через t.
Существуют различные виды рядов динамики. Их можно классифицировать по следующим признакам.
В зависимости от способа выражения уровней, ряды динамики подразделяются на ряды абсолютных, относительных и средних величин.
В зависимости от того, как выражают уровни ряда состояние явления на определенные моменты времени (начало месяца, квартала, года и т.п.) или его величину за определенные интервалы времени (сутки, месяц, год и т.п.), различают соответственно моментные и интервальные ряды динамики.
Уровни интервального ряда динамики абсолютных величин характеризуют собой суммарный итог какого-либо явления за определенный отрезок времени. Они зависят от продолжительности этого периода времени, и поэтому их можно суммировать как не содержащие повторного счета.
Отдельные же уровни моментного ряда динамики абсолютных величин содержат элементы повторного счета, что делает бессмысленным их суммирование.
В зависимости от расстояния между уровнями ряды динамики подразделяются на ряды динамики с равноотстоящими уровнями и неравноотстоящими уровнями во времени. Равноотстоящими называют ряды динамики, где учет показателя производился через одинаковые промежутки времени.
В зависимости от наличия основной тенденции изучаемого процесса ряды динамики подразделяются на стационарные и нестационарные.
Если математическое ожидание значения признака и дисперсия постоянны, не зависят от времени, то процесс считается стационарным и ряды динамики также называют стационарными. Процессы, протекающие на экосистемном уровне, во времени не являются стационарными, так как содержат основную тенденцию развития, но их можно преобразовать в стационарные путем исключения тенденций.
По числу показателей можно выделить изолированные и комплексные (многомерные) ряды динамики. Если ведется анализ во времени одного показателя, то ряд динамики изолированный. В многомерном ряду представлена динамика нескольких показателей, характеризующих одно явление.
Многие ряды могут быть несопоставимыми. Причинами несопоставимости уровней ряда динамики чаще всего являются погрешности при проведении изучения выборочных единиц. К примеру, несопоставимость может быть вызвана изменением порядка сбора данных, точности получаемой информации (например, округлением данных), сменой учетчика и многими другими факторами, которые начали действовать уже после начала сбора данных и внесли в них свои коррективы. Несопоставимость рядов динамики можно уменьшить в том случае, если исследователь точно знает момент, в который произошли изменения в действующих на совокупность объектов исследования внешних факторах. Если точно этот момент установить не удается, или изменяли свое действие многие внешние факторы, или, наконец, изменения фактора или факторов носят случайный характер, то сопоставить уровни различных рядов динамики не удастся, и их нужно будет анализировать отдельно, чтобы уменьшить погрешности результатов наблюдений.
Чаще всего ряды динамики приводят к сопоставимому виду, рассчитывая коэффициент соотношения уровней для периодов времени, ближайших к моменту изменения внешних условий. Затем на полученный коэффициент умножаются все уровни той или иной части ряда данных. Это вносит определенные погрешности в данные, однако эти погрешности значительно меньше, чем могли бы быть при совместном анализе двух сильно различающихся рядов динамики.
Экстраполяция и интерполяция в биологических исследованиях
Экстраполяция и интерполяция представляют собой важные статистические процедуры. В общем случае экстраполяция представляет перенос значений признака, закономерности, зависимости, полученных для выборки на генеральную совокупность. Вполне естественно, что эта процедура носит вероятностный характер, то есть, перенос выборочных значений признака на генеральную совокупность можно производить лишь с определенной долей вероятности. Это особенно касается случаев, когда рассматриваемый признак не подчиняется закону нормального распределения или отбор единиц из генеральной совокупности в выборочную производился не случайным образом.
Интерполяция – это статистическая процедура, методологически обратная экстраполяции. По сути, экстраполяция проводится для укрупнения масштаба понимания объекта исследования, в то время как интерполяция служит для более подробного понимания уже изученного. К примеру, если имеется ряд точек графика, характеризующего изменение явления во времени, то задачей экстраполяции является получение картины развития явления в будущем. Методологически это поиск новых точек, через которые проходит наш график. Задачей же интерполяции в этом случае будет являться отыскание точек, лежащих между уже имеющимися, для более подробной «прорисовки» картины изменения явления.
Выравнивание рядов динамики
Аналитическое выравнивание рядов динамики может производиться несколькими способами.
1. Метод усреднения по левой и правой половине. Разделяют ряд динамики на две части, находят для каждой из них среднее арифметическое значение и проводят через полученные точки линию тренда на графике.
2. Метод укрупнения интервалов. Метод основан на укрупнении периодов времени, к которым относятся уровни ряда.
3. Метод простой скользящей средней. Сглаживание ряда динамики с помощью скользящей средней заключается в том, что вычисляется средний уровень из определенного числа первых по порядку уровней ряда, затем – средний уровень из такого же числа уровней, начиная со второго, далее – начиная с третьего и т.д. Таким образом, каждое звено скользящей средней – это средний уровень за соответствующий период, который относится к середине выбранного периода. Для каждого ряда динамики (y1, y2, …, yn) алгоритм расчета скользящей средней следующий:
а) определить интервал сглаживания, то есть число входящих в него уровней m (m
Тебе могут подойти лекции
А давай сэкономим
твое время?
твое время?
Дарим 500 рублей на первый заказ,
а ты выбери эксперта и расслабься
Включи камеру на своем телефоне и наведи на Qr-код.
Кампус Хаб бот откроется на устройстве
Не ищи – спроси
у ChatGPT!
у ChatGPT!
Боты в Telegram ответят на учебные вопросы, решат задачу или найдут литературу
Попробовать в Telegram
Оставляя свои контактные данные и нажимая «Попробовать в Telegram», я соглашаюсь пройти процедуру
регистрации на Платформе, принимаю условия
Пользовательского соглашения
и
Политики конфиденциальности
в целях заключения соглашения.
Пишешь реферат?
Попробуй нейросеть, напиши уникальный реферат
с реальными источниками за 5 минут
с реальными источниками за 5 минут
Статистические методы в экологических исследованиях
Хочу потратить еще 2 дня на работу и мне нужен только скопированный текст,
пришлите в ТГ