Алгоритм определения информативного набора признаков и классификации образов деталей


Применение концепции дивергенции позволило эффективно решить две задачи. С одной стороны, удалось существенно облегчить подготовку исходных данных при классификации деталей, уменьшив размерность признакового пространства, с другой стороны, разделить осесимметричные детали на классы с последующей оценкой эффективности классификации. Для оценки возможности аппроксимации реального распределения соответствующих значений признаков Xi нормальным законом распределения и определения вида функций плотностей вероятности, используемых для вычисления значений дивергенции (2.21), был проведен численный эксперимент с использованием критерия согласия Пирсона x2.
Исходными данными для расчетов являлись значения признаков деталей всей рассматриваемой выборки. Например, для класса 1 (стержневые детали с односторонним утолщением) значения признаков априорного набора представлены в табл. 2.5. Очевидно, что значения признаков х1, x2, ..., х10 не изменяются внутри класса, а меняются при переходе от одного класса к другому.

В качестве примера результаты расчетов по одному из признаков xi (i = 26, табл. 2.5) приведены в виде гистограммы на рис. 2.12. Вероятность того, что вычисленная мера расхождения x2 случайна, р(x2) = 0,23, при этом реальное распределение аппроксимируется нормальным законом с вероятностью 0,95. В этом случае плотности распределения деталей определяются своими математическими ожиданиями mi и mj и ковариационными матрицами [Сi] и [Сj] размерностью n*n (n - размерность вектора признаков).
Общий алгоритм разработанной методики, обеспечивающей минимизацию признаков и классификацию осесимметричных деталей, приведен на рис. 2.13.

Решение указанных задач формализовано для решения на персональном компьютере. Исходными данными для расчетов являются значения логических переменных для конструктивных признаков (см. табл. 2.1), а также численные значения конструктивно-технологических признаков (см. табл. 2.4).

Значения остальных признаков х11, x12, ..., x18 априорного набора определяются в процессе вычислений.
После формирования априорного набора признаков для всех деталей выборки управление передается блокам 4, 5, с помощью которых проводится вычисление средних значений признаков, действия над ними и определение элементов ковариационных матриц классов фi и фj. Ход расчетов следующий.

Согласно, математическое ожидание определяется вектором
Ковариационная матрица какого-либо класса [С] является симметричной и положительно полуопределенной.

Элемент Сlk, не стоящий на диагонали матрицы, представляет собой ковариацию признаков xl и xk (центральный момент второго порядка). Определитель ковариационной матрицы /С/ назван обобщенной дисперсией n-мерного распределения.

Если признаки статистически независимы, то элемент Сlk = 0, а поверхности равных плотностей в пространстве описываются гиперсферами.

Образы деталей, выбранные из совокупности с нормальным распределением, проявляют тенденцию к образованию одного класса, центр которого определяется вектором средних значений, а форма - ковариационной матрицей [С].

При статистической зависимости признаков, описывающих детали, геометрическим местом точек с постоянной плотностью распределения служат гиперэллипсоиды, направление главных осей которых определяется собственными векторами ковариационной матрицы, а длины этих осей - ее собственными значениями.

Если зависимость между исследуемыми признаками функциональная, то линии равных плотностей будут прямыми. В этом случае классы деталей не пересекаются.

Элементы соответствующей ковариационной матрицы задают в виде:
где xl, xk и ml, mk - компоненты векторов образов и их математических ожиданий соответственно; Cll - диагональный элемент матрицы, являющийся дисперсией l-й компоненты вектора X.

Если аппроксимировать математическое ожидание выборочным средним значением, то вектор средних значений признаков и ковариационную матрицу получим в следующем виде:
где Ni - количество образов деталей в классе фi; Xij - j-й образ детали класса фi.

В этом случае плотности нормального распределения классов определяются как:
Вычисление определителей ковариационных матриц и обращение этих матриц является следующим этапом работы алгоритма. Эти функции выполняют блоки 6, 7.

Для вычисления средней различающей информации требуется определить значение логарифма правдоподобия. Подставив в формулу (2.19) соответствующее значение плотностей нормального распределения (2.32, 2.33), получим соотношение:
Тогда оценку средней различающей информации для классов фi и фj определяемую блоком 8 алгоритма, можно представить как
Значение дивергенции в этом случае определится соотношением
вычисление которого выполняется блоком 9.

Для оценки относительной важности каждого признака априорного набора используется свойство аддитивности дивергенции. Признаки, которым соответствуют большие значения дивергенции, являются более важными, так как несут больше различающей информации. Признаками, вклад которых в общую дивергенцию невелик, можно пренебречь.

Количественное сочетание информативных конструктивнотехнологических признаков определяется сравнением вычисленного значения дивергенции с пороговым значением, осуществляемым блоком 10. Величина порогового значения дивергенции задавалась равным 90. Это объясняется тем, что с ростом величины дивергенции, значения вероятности ошибки классификации уменьшаются (см. рис. 2.11) и не превышают 1 %.

После определения количества информативных признаков детали формируется массив численных значений этих признаков по всем деталям, участвующим в классификации. Эти функции выполняет блок 12 алгоритма.

Построение разделяющей поверхности между классами в информативном признаковом пространстве осуществляется блоком 13 в соответствии с уравнением (2.34), определяющимся суммой линейных и квадратичных членов.

По полученному информативному набору признаков определяется принадлежность деталей классам фi или фj с помощью блока 14 в соответствии с правилом классификации, описанным выше. Вычислением вероятности ошибки классификации (блок 15) и сравнением полученной величины с пороговым значением (блок 16) определяется качество классификации. Расчеты проводятся согласно уравнению (2.27).

При неудовлетворительном качестве классификации рассматривается очередная совокупность признаков.

Пороговое значение вероятности ошибки классификации принимали равным 1 %. После вывода на печать результатов алгоритм заканчивает работу.





Яндекс.Метрика