Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Тема: Настройка нейронной сети на решение прикладных задач
5. Оценка способности сети решить задачу
Здесь рассматриваются только сети, все элементы которых непрерывно
зависят от своих аргументов. Предполагается, что все входные данные
предобработаны так, что все входные сигналы сети лежат в диапазоне
приемлемых входных сигналов [a,b]. Будем обозначать вектора входных
сигналов через xi, а требуемые ответы сети через fi. Компоненты векторов
будем обозначать нижним индексом, например, компоненты входного вектора
через xij. Будем полагать, что в каждом примере ответ является вектором чисел
из диапазона приемлемых сигналов [a,b]. В случае обучения сети задаче
классификации требуемый ответ зависит от вида используемого
интерпретатора ответа.
Нейронная сеть вычисляет некоторую вектор-функцию F от входных
сигналов. Эта функция зависит от параметров сети. Обучение сети состоит в
подборе такого набора параметров сети, чтобы величина
была
минимальной (в идеале равна нулю). Для того чтобы нейронная сеть могла
хорошо приблизить заданную таблично функцию f необходимо, чтобы
реализуемая сетью функция F при изменении входных сигналов с xi на xj могла
изменить значение с fi на fj. Очевидно, что наиболее трудным для сети должно
быть приближение функции в точках, в которых при малом изменении входных
сигналов происходит большое изменение значения функции. Таким образом,
наибольшую сложность будет представлять приближение функции f в точках, в
которых достигает максимума выражение
. Для аналитически заданных
функций величина
называется константой Липшица. Исходя из этих
соображения можно дать следующее определение сложности задачи.
Сложность аппроксимации таблично заданной функции f, которая в
точках xi принимает значения fi, задается выборочной оценкой константы
Липшица, вычисляемой по следующей формуле:
(2)
Оценка (2) является оценкой константы Липшица аппроксимируемой
функции снизу.
Для того, чтобы оценить способность сети заданной конфигурации
решить задачу, необходимо оценить константу Липшица сети и сравнить ее с
выборочной оценкой (2). Константа Липшица сети вычисляется по следующей
формуле:
(3)
В формулах (2) и (3) можно использовать произвольные нормы. Однако
для нейронных сетей наиболее удобной является евклидова норма. Далее везде
используется евклидова норма.
Теорема: непрерывно дифференцируемая на замкнутом и ограниченном
функция
удовлетворяет на нем условию Липшица, причем
6. Интерпретатор ответов сети
Основное назначение этого блока – интерпретировать выходной вектор
сети как ответ, понятный пользователю. При определенном построении
интерпретатора и правильно построенной по нему оценке интерпретатор ответа
может также оценивать уровень уверенности сети в выданном ответе.
Рассмотрим способы интерпретации, получившие наибольшее распространение
на практике.
В задачах классификации наиболее распространено правило
интерпретации “победитель забирает все”: число выходных нейронов равно
числу распознаваемых классов, номер нейрона с максимальным сигналом
интерпретируется как номер класса. Однако, если классов много, для
реализации метода требуется много выходных нейронов. Знаковая
интерпретация требует log 2 M нейронов (М – число классов). Допустим, что y,
у2,...,уm – совокупность выходных сигналов нейронов. Заменим в этой
последовательности положительные числа единицами, а отрицательные –
нулями. Полученная последовательность нулей и единиц рассматривается как
номер класса в двоичной записи. Порядковая интерпретация позволяет для М
выходных нейронов описать принадлежность к М! классам (а в знаковой 2M).
Если провести сортировку выходных сигналов нейронов y, у2,...,уm и
обозначить ni – номер i-го сигнала после сортировки (1 соответствует самому
маленькому сигналу, М – самому большому), то перестановку можно
рассматривать как слово, кодирующее номер класса.
Всего возможно М! перестановок. Для использования этого
интерпретатора необходимо, чтобы характерная ошибка выходного сигнала
была меньше 1/М. Даже при числе нейронов М=10 требование к точности
ε<0,1, а число возможных классифицируемых объектов =10! Интерпретацию 2на-2 – кодирование используют для улучшения качества распознавания (более
точного проведения разделяющей поверхности). В этом случае для
распознавания М классов необходимо иметь М(М-1)1/2 нейронов, каждый из
которых реагирует только на два класса. Окончательное присваивание элементу
i-го номера класса осуществляется с помощью булевой функции; выходы с
нейронов подают на вход элемента, реализующего эту функцию.
Рассмотрим проблему кодирования выхода на примере двумерной задачи
с тремя классами. С помощью 2-на-2-кодирования задача классификации
решается просто, тогда как в методе “победитель забирает все” необходимо
строить нелинейные разделяющие границы.
Нечеткая интерпретация для классификаторов также основывается на
правиле “победитель забирает все”. Выходные сигналы нейронов (после
масштабирования – приведения значений в отрезок [0,1]) могут
рассматриваться как функции принадлежности к соответствующим классам.
В этом случае возможны следующие способы интерпретации:
• выбирается класс, у которого значение выхода является максимальным;
достоверность распознавания определяется как разность максимального
сигнала и следующего за ним по величине;
• значения выходов нейронов (классов) интерпретируются как меры
уверенной принадлежности к тому или иному классу с указанием наилучшего
приближения к какому-то классу.
Перечень приведенных способов интерпретации ответов НС не является
полным. Для каждой предметной области при решении конкретных задач
необходимо их экспериментальное исследование.
7. Оценка качества работы нейронной сети
Поскольку обучение НС основывается на минимизации значения
некоторой функции, показывающей отклонение результатов, которые выдает
сеть на данном обучающем множестве, от идеальных требуемых, то
необходимо выбирать соответствующую оценку. Обычно в качестве такой
оценки берется средняя квадратичная ошибка Е (MSE – Mean Squared Error),
определяемая как усредненная на Р примерах сумма квадратов разностей
между желаемой величиной выхода di и реально полученными на сети
значениями уi для каждого примера i:
В некоторых случаях удобной является оценка, равная корню
квадратному из MSE, обозначаемая как RMSE (Square Root of the Mean Squared
Error).
Оценка MSE используется в тех случаях, когда выходные сигналы сети
должны с заданной и одинаковой для всех сигналов точностью ε совпадать с
известными векторами, где ε определяется как уровень надежности.
Для учета уровня надежности обучения обычно используют
модифицированную оценку МSЕ:
где: ε имеет различный диапазон изменения в зависимости от способов
интерпретации:
0< ε ≤ 1 – для знаковой интерпретации;
0 < ε ≤ 2 – для правила «победитель забирает все»;
0< ε ≤ 2/(N–1) – для порядковой интерпретации, где N – размерность
вектора входных сигналов.
Уровень
надежности
обучения
вводится
для обеспечения
устойчивой работы сети.
Критерий устойчивости НС формулируется следующим образом: работа
сети считается устойчивой, если при изменении выходных сигналов сети на
величину, меньшую ε, интерпретация ответов сети не меняется.
Этот критерий можно использовать для обеспечения ускоренного
обучения сети. Целесообразно при вычислении оценки использовать только
такие выходные сигналы (множество правильных ответов), интерпретация
которых не меняется при изменении их значений на величину, меньшую ε.
Оценку MSE можно обобщить, если использовать суммирование
квадратов разностей (di - yi)2 c соответствующими весами:
где Vi – вес i-го примера в обучающей выборке.
Использование оценки позволяет выделить наиболее важные примеры из
обучающей выборки, устанавливая для этого соответствующий вес. Кроме того,
эту оценку целесообразно использовать для уравновешивания различных групп
примеров в задачах классификации. Для этого необходимо назначать веса Vi
так, чтобы суммарный вес обучающих примеров в каждом классе не зависел от
класса (например, можно назначить для любого примера Vi = 1/m , где i –
номер класса, m – число примеров в классе). В случае нечеткой экспертной
оценки “учителя” отдельных вариантов примеров при формировании
обучающей выборки также целесообразно увеличить вес этих вариантов, чтобы
они могли влиять на процесс обучения сети.
Наряду с оценкой MSE используют и другие оценки, например, оценку
Кульбака-Лейблера, связанную с критерием максимума правдоподобия:
где М – число выходов сети.
Более простыми являются оценки качества работы НС, часто
используемые при аппаратной реализации НС (например, ZISC Accelerator
cards для IBM Compatible PC) и в нейроимитаторах:
Для решения задач анализа временного ряда целесообразна оценка по
средней относительной вариации:
где: S – временной ряд; et – разность (истинное значение dt минус xt) в
момент t; 〈xt〉 – оценка для среднего значения ряда; N – число данных в ряду.