Методы планирования эксперимента

👀 558 просмотров
📌 537 загрузок

Выбери формат для чтения

Конспект лекции по дисциплине «Методы планирования эксперимента», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Методы планирования эксперимента», Word формат

Лекция 3. МЕТОДЫ ПЛАНИРОВАНИЯ ЭКСПЕРИМЕНТА Современные методы планирования экспериментов и анализа данных основаны на статистическом подходе и широко применяются во всех областях исследований, прикладных, естественных и общественных науках. Планирование эксперимента особенно эффективно в применении к так называемым «плохо организованным системам», т. е. к таким, в которых невозможно четко выделить отдельные, в том числе доминирующие факторы. Выбор плана эксперимента является наиболее важным этапом в процессе экспериментирования. Результаты любого эксперимента и выводы, которые из них можно сделать, зависят в большой степени от того, каким образом собираются данные. Если мы хотим провести эксперимент наиболее эффективно, то необходим научный подход к его планированию. Различают активный и пассивный эксперимент. Активный эксперимент предполагает активное воздействие на исследуемый объект или процесс, целенаправленный выбор условий проведения эксперимента. Пассивный эксперимент – регистрация результатов наблюдений без целенаправленных возмущений. Очевидно, что планировать можно только активный эксперимент. Под планированием эксперимента понимается такая организация экспериментального исследования, которая позволяет собрать необходимые данные, применить для их анализа статистические методы и сделать правильные и объективные выводы. Основа теории эксперимента – математическая статистика, которая применима для анализа эксперимента в тех случаях, когда его результаты могут рассматриваться как случайные величины или случайные процессы. Это условие выполняется в большинстве исследований, так как результаты эксперимента связаны, как правило, с некоторой неопределенностью. Причины такой неопределенности – влияние неконтролируемых факторов, ошибки наблюдений. Если данные эксперимента содержат ошибки, то статистические методы являются единственным объективным подходом к их анализу. Таким образом, в любой экспериментальной задаче присутствуют два аспекта: планирование эксперимента и статистический анализ данных, причем эти два аспекта тесно взаимосвязаны, так как метод анализа непосредственно зависит от использованного плана. В основе планирования эксперимента лежат два основных принципа – репликация и рандомизация. Репликация – повторение эксперимента. Повторные опыты позволяют экспериментатору получить оценку ошибки эксперимента (случайной погрешности), а также более точную оценку выходного параметра. Рандомизация означает, что распределение экспериментального материала и порядок, в котором должны проводиться отдельные опыты или прогоны эксперимента, устанавливаются случайным образом. Для применения статистических методов требуется, чтобы наблюдения (или ошибки) были независимыми случайными переменными. Рандомизация, как правило, обеспечивает справедливость этого допущения. Методы планирования эксперимента впервые начали использовать в сельскохозяйственных и биологических науках. Это определило основную терминологию в теории планирования эксперимента (обработка, делянка, блок). Инициатором применения статистических методов в планировании экспериментов является Р. Фишер. В течение нескольких лет он был ответственным за статистическую обработку и анализ данных на Ротэмстедской сельскохозяйственной опытной станции в Лондоне. Фишер разработал и впервые применил дисперсионный анализ в качестве важнейшего метода статистического анализа в планировании экспериментов. Метод и планы дисперсионного анализа (неполноблочные, со смешиванием, с расщепленными делянками, латинские и греко-латинские квадраты) применяются в случаях построения и анализа моделей с качественными факторами. Рассмотрим один из таких планов – латинский квадрат – на примере оценки урожайности пяти различных сортов пшеницы. Понятно, что на урожайность также влияют состав применяемых удобрений и режим увлажнения. План, позволяющий решить эту задачу, состоит в том, чтобы проверить на урожайность каждый сорт пшеницы в точности один раз с каждым режимом увлажнения и с каждым составом удобрений. Отметим, что наблюдения расположены квадратом, а пять сортов пшеницы обозначены латинскими буквами A, B, C, D, E (табл. 2.1). Этим и объясняется название плана «латинский квадрат. Таблица 2.1. План эксперимента «латинский квадрат» Режим Состав удобрений увлажнения 1 2 3 4 5 U1 U2 U3 U4 U5 В общем случае латинский квадрат p·p – это квадрат, состоящий из p строк и p столбцов. Каждая из p2 получающихся ячеек содержит одну из p букв, соответствующих сортам пшеницы, причем каждая буква встречается в каждой строке и каждом столбце один и только один раз. Латинский квадрат, у которого буквы в первой строке и первом столбце расположены в алфавитном порядке, называется стандартным; такой план эксперимента использован в нашем примере. Стандартный латинский квадрат всегда можно получить, если расположить буквы в первой строке в алфавитном порядке, а в каждой из последующих строк – со сдвигом на одно положение влево по сравнению с предыдущей. При использовании латинского квадрата, как и при любом плане эксперимента, наблюдения должны производиться в случайном порядке. Соответствующая процедура рандомизации состоит в том, что для проведения конкретного эксперимента латинский квадрат выбирается случайным образом. Очевидно, существует довольно большое число латинских квадратов заданного размера, поэтому их невозможно пронумеровать и выбрать один из них случайным образом. Обычно используется специальная таблица латинских квадратов, причем порядок следования строк, столбцов и букв задается произвольно. В нашем примере исследуются три фактора: сорта пшеницы, состав удобрений, режим увлажнения, причем каждый из них на 5 уровнях. Откликом является урожайность, в качестве плана эксперимента взят латинский квадрат 5 х 5. Результаты наблюдений (урожайность пшеницы в ц / га) представлены в табл. 2.2. Запись «A:24» означает, что при посеве на опытном участке пшеницы сорта A, использовании удобрений состава S1 и применении режима увлажнения U1, получили урожай 24 ц / га. Статистическая модель для латинского квадрата имеет вид: yijk=µ+αi+τj+βk+εijk, i, j, k = 1, 2,…, p, где yijk – наблюдение в i-й строке и k-м столбце для j-го сорта; µ - математическое ожидание общего среднего; αi – эффект i-й строки; τj - эффект j-го сорта; βk – эффект k-го столбца; εijk – случайная ошибка. Для анализа данных используем дисперсионный анализ (табл. 2.3). В дисперсионном анализе осуществляется разбиение общей суммы квадратов N=p2 наблюдений на компоненты для сортов, строк, столбцов, и ошибки SSобщ = SS1 + SS2 + SS3+SSош с числом степеней свободы соответственно p2-1; p-1; p-1; p-1; (p-2)( p-1). Вычислим суммы квадратов отклонений результатов эксперимента от среднего значения для пятерок значений урожайности (по сортам– SS1, уровню увлажнения – SS2, составу удобрений – SS3) и проверим статистическую гипотезу об отсутствии эффектов исследуемых факторов на урожайность. Для проверки гипотезы используем статистику Fнабл i = SSi / ( p − 1) , i = 1, 2,3, SSош / (( p − 2)( p − 1)) которая при условии истинности нулевой гипотезы подчиняется F – распределению с p-1 и (p-2)(p-1) степенями свободы. Таблица 2.2 Результаты эксперимента Режим Состав удобрений Сумма увлажнения S1 S2 S3 S4 S5 по строкам U1 A : 24 B : 20 C : 19 D : 24 E : 24 111 U2 B : 17 C : 24 D : 30 E : 27 A : 36 134 U3 C : 18 D : 38 E : 26 A : 27 B : 21 130 U4 D : 26 E : 31 A : 26 B : 23 C : 22 128 U5 E : 22 A : 30 B : 20 C : 29 D : 31 132 Сумма по столбцам Сумма по сортам 107 143 121 130 134 635 A B C D E 143 101 112 149 130 635/5=127 Процедура вычислений в дисперсионном анализе следующая: SS1 = 1 p 2 2 y − ( y ) ∑ . . j p 1 , SS2 = 1 p 2 2 y − ( y ) ∑ i .. p 1 , 1 p 2 SS3 = ∑1 y..k − ( y )2 p , 2 SSобщ = ∑∑∑ yijk − ( y )2 i j , k SSош = SSобщ – SS1 – SS2 – SS3. Найдем суммы квадратов: SS1=(1432+1012+1122+1492+1302)/5 – 1272=330; SS2=(1112+1342+1302+1282+1322)/5 – 1272=68; SS3=(1072+1432+1212+1302+1342)/5 – 1272=150; SSобщ = (242+202+…+292+312)-1272=676; SSош= 128. Таблица 2.3 Дисперсионный анализ результатов наблюдений Источник изменчивости Сумма квадратов Fнабл i Сорт пшеницы SS1 = 330, 00 7,73 Режим увлажнения SS2 = 68,00 1,59 Состав удобрений SS3 = 150,00 3,51 Ошибка SSош = 128,00 Сумма SSобщ = 676,00 Задаем уровень значимости α = 1% и находим по табл. П.2 Fкр = 5,41. Сравнивая Fнабл i с Fкр, получаем, что различия сортов пшеницы оказываются значимыми на уровне одного процента (7,73 › 5,41), в то время как два других фактора (режим увлажнения и состав удобрений) оказались незначимыми. Таким образом, на урожайность влияет, прежде всего, сорт пшеницы. Заметное отличие урожайности сортов A и D от остальных (табл . 2.2) может быть основой для принятия решения – искать наилучший сорт, выбирая между A и D. Широкое распространение в научных исследованиях получили факторные планы. При их использовании объект исследования, как правило, рассматривается как «черный ящик», имеющий k входов (xi, i=1,…,k) и m выходов (yj, j=1,…,m) (рис. 2.1). Входы «черного ящика» - факторы. Их можно задать и измерить. Выходы «черного ящика» - отклики. Их тоже можно измерить или оценить. x1 xi xk Исследуемый объект y1 yj ym Рис. 2.1. Представление модели объекта в виде «черного ящика» Факторы могут быть количественными и качественными. Количественные факторы являются физическими величинами, поддающимися измерению (механические перемещения, уровни напряжений, токов и т. д.). Примерами качественных факторов являются технические средства, материалы, технологические приемы и т. д. Для количественной оценки их кодируют, например, числами натурального ряда. Области определения факторов и откликов могут быть дискретными и непрерывными, ограниченными и неограниченными. Область изменения факторов носит название факторного пространства. Изменения yj в зависимости от xi зададим в виде yj =ϕj(x1, x2 ,…, xk), j=1,…,m; (2.6) x1∈D1, x2∈D2, …, xk∈Dk, где Dk – область определения xk. Система уравнений (2.6) представляет собой математическую модель исследуемого объекта. Функцию ϕj называют функцией отклика. Ее геометрическим аналогом является некоторая поверхность, которая называется поверхностью отклика. Планировать эксперимент можно только при управляемых факторах, при этом факторы должны совместимыми и по возможности независимыми. Совместимость факторов характеризуется возможностью практической реализации любой их комбинации, независимость – отсутствием между ними сильной корреляционной связи, т. е. линейная связь между факторами считается недопустимой. При планировании эксперимента для каждого фактора выбирают уровни, на которых они варьируются в эксперименте. Значения количественных факторов с непрерывной областью определения масштабируются соответствующим образом. Уровень, на котором фактор принимает наибольшее значение, называется верхним и обозначается «+1». Уровень, на котором фактор принимает наименьшее значение, называется нижним и обозначается «-1». Основной уровень размещается посредине между верхним и нижним уровнем и обозначается 0. Широкое распространение в теории планирования эксперимента получили полиномиальные модели – уравнения регрессии. Ниже представлены уравнения регрессии y для двух факторов x1 и x2, соответствующие полиномам первой и второй степени (модели первого и второго порядка): y = b0 + b1 x1 + b2 x2 ; y = b0 + b1 x1 + b2 x2 + b12 x1 x2 + b11 x12 + b22 x22 . Для построения модели первого порядка используются планы, в которых факторы варьируются на двух уровнях, для моделей второго порядка план должен содержать, по меньшей мере, три уровня каждого фактора. При выборе модели основная задача состоит в подборе такого полинома, который бы с необходимой точностью удовлетворял требованиям математической модели и содержал возможно меньше коэффициентов регрессии, т. к. при прочих равных условиях чем меньше коэффициентов, тем меньше опытов требуется для их определения. Эксперимент, в котором реализуются все возможные сочетания факторов, называется полным факторным экспериментом (ПФЭ). Преимущество факторного эксперимента по сравнению с экспериментами, в которых факторы изменяются по одному, состоит в возможности сделать выводы, справедливые для целого диапазона условий эксперимента, оценивая эффекты фактора на нескольких уровнях других факторов. Пусть число факторов равно k, и каждый из них варьируется на двух уровнях. Тогда число опытов N в ПФЭ составит N=2k. В этом случае говорят, что имеет место ПФЭ типа 2k. Наиболее простыми математическими моделями для двух и трех факторов , используемыми в ПФЭ, соответственно являются: y = b0 + b1 x1 + b2 x2 + b12 x1 x2 ; (2.7) y = b0 + b1 x1 + b2 x2 + b3 x3 + b12 x1 x2 + b13 x1 x3 + b23 x2 x3 + b123 x1 x2 x3 , (2.8) где b0 – свободный член уравнения регрессии, равный среднему арифметическому параметра y; b1x1, b2x2, b3x3 – линейные члены уравнения регрессии; b12x1x2, b13x1x3, b23x2x3 – нелинейные взаимодействия двух факторов (эффекты взаимодействия первого порядка); b123x1x2x3 – нелинейное взаимодействие трех факторов (эффект взаимодействия второго порядка); bi - коэффициенты при независимых переменных xi в уравнении регрессии, показывающие силу влияния факторов на отклик. План ПФЭ обычно изображают в виде таблицы, строки которой соответствуют номерам опытов, а столбцы – значениям уровней факторов. Эти таблицы называют матрицами планирования эксперимента. Пример плана ПФЭ 22 приведен в табл. 2.4. Таблица 2.4 План ПФЭ 22 № п/п x1 x2 yi 1 - - y1 2 - + y2 3 + - y3 4 + + y4 Геометрическая интерпретация плана 22 представлена на рис. 2.2. Ограниченная квадратом площадь называется областью эксперимента. x2 2 4 1 x1 3 Рис. 2.2. Геометрическая интерпретация плана ПФЭ 22 В ПФЭ матрица планирования 22 является базовой. От нее можно перейти к матрицам высших размерностей. Построение матрицы планирования ПФЭ 23 иллюстрируется таблицей 2.5. Таблица 2.5 План ПФЭ 23 № п/п x1 x2 x3 yi 1 - - - y1 2 - + - y2 3 + - - y3 4 + + - y4 5 - - + y5 6 - + + y6 7 + - + y7 8 + + + y8 Планы, в которых отклики и факторы связаны линейно, т. е. y = b0 + b1 x1 + b2 x2 + ... + bk xk , (2.9) можно представить в матричном виде Y=XB, где Y – вектор результатов опытов:  y1  y Y= 2    yN   ;    X – матрица планирования:  x01  x X =  02  ...   x0 N x11 x12 ... x1N xk1   ... xk 2  , ... ...   ... xkN  ... где x0 - фиктивный фактор, который всегда находится на верхнем уровне, т. е. равен +1, и вводится в матрицу планирования для удобства последующих расчетов; B – вектор коэффициентов регрессии:  b0    b B =  1 .      bk  План ПФЭ типа 23 с учетом эффектов взаимодействия факторов представлен в табл. 2.6. Таблица 2.6 План ПФЭ типа 23 с учетом взаимодействий факторов № п/п x0 x1 x2 x3 x 1x 2 x 1x 3 x 2x 3 x 1x 2x 3 yi 1 + - - - + + + - y1 2 + - + - - + - + y2 3 + + - - - - + + y3 4 + + + - + - - - y4 5 + - - + + - - + y5 6 + - + + - - + - y6 7 + + - + - + - - y7 8 + + + + + + + + y8 Матрицы планирования ПФЭ типа 2k обладают следующими свойствами: а) Симметричность относительно центра эксперимента. Симметричность достигается выполнением следующего условия: N ∑ x ji = 0, i =1 где i – номер опыта (i=1,…,N ), j – номер фактора (j=1,…,k). Симметричные планы обеспечивают простоту коэффициентов регрессии. б) Ортогональность: N ∑ x ji xli = 0 при j ≠ l ; l = 1, 2,..., k . i =1 Свойство ортогональности позволяет упростить вычисления и получить независимые оценки коэффициентов регрессии с минимальной дисперсией. в) Ротатабельность - свойство, позволяющее одинаково точно предсказывать значения отклика на равных расстояниях от центра эксперимента вне зависимости от направления проведения опытов. Указанные свойства делают планы 2k оптимальными в широком смысле. Однако с увеличением числа факторов число опытов в ПФЭ увеличивается в геометрической прогрессии. В этом случае из множества точек факторных планов 2k может быть отобрана некоторая часть, представляющая дробный факторный план и содержащая подходящее число опытов. Дробный факторный эксперимент (ДФЭ), или дробная реплика – регулярная часть ПФЭ, при которой матрица планирования не теряет своих оптимальных свойств. ДФЭ является экономически более целесообразным, т. к. предусматривает проведение меньшего числа опытов по сравнению с ПФЭ. Опытов тем меньше, чем больше дробность реплики, т. е. чем меньшую часть ПФЭ включают в ДФЭ. Рассмотрим простейший пример, иллюстрирующий правило выбора дробной реплики из матрицы планирования ПФЭ. Пусть математическая модель объекта задана в виде (2.7). Соответствующая матрица планирования представлена в табл. 2.7. Таблица 2.7 Матрица планирования для двух факторов с учетом взаимодействия № п/п x0 x1 x2 x 1x 2 (x3) 1 + - - + 2 + - + - 3 + + - - 4 + + + + Если известно, что поведение исследуемого объекта с требуемой точностью может быть описано линейной моделью, то нелинейный член b12x1x2, характеризующий взаимодействие факторов, можно отбросить. В этом случае вектор-столбец x1x2 можно использовать для введения в план эксперимента нового фактора x3. Матрица планирования при этом сохраняет свои оптимальные свойства, является частью матрицы планирования ПФЭ типа 23, называется полурепликой и обозначается 23-1. Таким образом, в ДФЭ для трех факторов достаточно провести четыре опыта вместо восьми, как в ПФЭ. Дробные реплики, которые позволяют сократить число опытов в 2m раз (m=1,2,…) по сравнению с ПФЭ, называются регулярными. При большом количестве факторов используют реплики высокой дробности: 1/4, 1/8, 1/16 и т. д. Дробные реплики обозначаютсч 2k-p, где k –число факторов, p- число линейных эффектов, приравненных к эффектам взаимодействия. В общем случае для построения ДФП типа 2k-p выбирают k-p основных факторов. Для них строят ПФП. Остальные p факторов получают перемножением не менее двух и не более k-p столбцов. Способ перемножения определяется генерирующим соотношением (ГС), или генератором плана, показывающим, с каким из эффектов смешан данный эффект. ГС в табл. 2.7 x3=x1x2. Для плана 2k-p существует p генераторов. Дробность реплики при этом равна 1/2p. Чем выше дробность реплики, тем ниже достоверность получаемых в ДФЭ результатов по сравнению с ПФЭ. Сравним оценки коэффициентов уравнения регрессии, получаемые при ПФЭ и ДФЭ. Пусть bi – коэффициенты регрессии, полученные на основе экспериментальных данных, βi – истинные значения соответствующих коэффициентов регрессии. Коэффициенты bi являются оценками βi, что символически записывают так: bi→βi. Оценки могут быть несмешанными (независимыми) и смешанными (зависимыми). Несмешанные оценки означают, что значение любого коэффициента регрессии не зависит от значений других коэффициентов. Для получения правила смешивания используется определяющий контраст (ОК) – соотношение между элементами матрицы планирования, задающее элемент первого столбца x0. Для ДФЭ 23-1, приведенного выше, ОК 1=x1x2x3. Умножая ОК на x1, x2, x3 и учитывая, что x12 = x22 = x32 = 1, определим смешивание: x1=x2x3; x2=x1x3; x3=x1x2. Тогда: b1→β1+β23; b2→β2+β13; b3→β3+β12. Если генераторов несколько, то вводится понятие обобщающего определяющего контраста (ООК). Так для плана 25-2 с ГС x4=x1x2; x5=x1x2x3 ООК определяется так: 1=x1x2x4=x1x2x3x5=x3x4x5. Разрешающая способность плана равна числу символов в коде ОК (наименьшему числу символов в коде ООК). Вопрос о разрешающей способности плана – это вопрос о раздельной оценке коэффициентов регрессии. ДФП с наибольшей разрешающей способностью называются главными. Этим планам следует отдавать предпочтение при использовании. Рассмотрим последовательность действий при проведении ПФЭ и статистической обработки экспериментальных данных при построении линейной модели (2.9). Имеется k факторов. Количество точек факторного пространства N=2k. В каждой точке факторного пространства проводится m серий опытов для исключения систематической ошибки наблюдений (репликация). Для исключения (уменьшения) случайной ошибки рекомендуется при повторении опытов изменять порядок их проведения (рандомизация). В общем виде матрица планирования, результаты эксперимента и первичной обработки данных представлены в табл. 2.8. Таблица 2.8 Матрица планирования и первичная обработка данных № опыта x0 x1 x2 y11 y12 … y1m Строчное среднее y1 Строчная дисперсия S12 1 x10 x11 2 x 20 x21 x2k y21 y22 … y2m y2 S 22 … …………………………. ……………… ………… ………… N xN0 yN1 yN2 … yNm yN S N2 xN1 … xk y x12 … x1k x22 … xN2 … xNk Статистическая обработка экспериментальных данных включает следующие этапы: а) Проверка воспроизводимости опытов. Опыт воспроизводим, если дисперсия отклика в каждой точке факторного пространства однородна. Дисперсии считаются однородными, если отношение максимальной строчной дисперсии к сумме строчных дисперсий меньше критического. Это отношение является критерием Кохрена однородности дисперсий, который имеет вид: Gнабл = max s i2 i N ∑ i =1 , si2 где si2 = 1 m (yij −yi )2 . ∑ m − 1 j =1 Критическое значение Gкр=Gкр(α, N, m-1) определяем по табл. П.3. Если Gнаблtкр, то коэффициент регрессии bi значим. В противном случае его считают незначимым и исключают из уравнения регрессии. г) Проверка адекватности модели. Проверка адекватности состоит в оценке рассеивания результатов эксперимента вблизи уравнения регрессии, т. е. проверяется, насколько точно соответствуют значения y, рассчитанные по модели, значениям y, полученным в эксперименте. Рассеивание экспериментальных данных оценивают дисперсией воспроизводимости отклика. Рассеивание значений отклика ŷ j , полученных по уравнению регрессии, оценивают дисперсией адекватности: 2 sад = N m (y j − yˆ j )2 , ∑ N − l − 1 j =1 где l – число коэффициентов регрессии. Если обе дисперсии статистически равны, т. е. являются оценками одной генеральной дисперсии, то модель линейной регрессии адекватна. Сравнение дисперсий осуществляется с использованием F-критерия Фишера, равного отношению дисперсий: Fнабл = 2 sад sв2 . По табл. П.2 определяется критическое значение Fкр в зависимости от уровня значимости, числа степеней свободы дисперсии адекватности k1 ад=Nl-1 и числа степеней свободы дисперсии воспроизводимости k2 ад=N(m-1), т. е. Fкр=Fкр(α, k1, k2). Если Fнабл

Разместил пособие