Глава 6. Группировка (3) - Общая теория статистики: учебник. Под ред. Елисеевой И.И. - СТАТИСТИКА - Учебно-методические материалы для студентов всех ВУЗов: - std72.ru

Главная » Учебно-методические материалы » СТАТИСТИКА » Общая теория статистики: учебник. Под ред. Елисеевой И.И.

Глава 6. Группировка (3)

23.01.2012, 11:42

Обобщая рассмотренную процедуру кластерного анализа, представим действия в виде определенной последовательности:

1) вычисление средних величин каждого из классификационных признаков х̅_j в целом по совокупности;

2) вычисление средних квадратических отклонений каждого из признаков по совокупности – s_xj или σ_xj,

3) вычисление матриц нормированных разностей по каждому из группировочных признаков – d_jp_,_q;

4) вычисление евклидовых расстояний между каждой парой сочетаний единиц совокупности – d_p_,_q;

5) выбор наименьшего из евклидовых расстояний – d_p_,_qmin;

6) объединение единиц совокупности с наименьшим евклидовым расстоянием между ними в один кластер;

7) вычисление средних значений всех признаков для единиц, объединенных в кластер;

8) вычисление новых нормированных расстояний между объединенным кластером и остальными единицами;

9) вычисление новых евклидовых расстояний между объединенным кластером и остальными единицами (или кластерами);

10) выбор наименьшего из евклидовых расстояний;

11) повторение операций (6-10) и т.д.

Объединение в кластеры прекращается, когда все евклидовы расстояния превысят заданную критическую величину d_крит. Обычно ППП предусматривает вывод на печать состава (перечня единиц совокупности) каждого кластера, евклидовых расстояний между ними, матриц нормированных разностей по каждому признаку.

Существует много достаточно сложных алгоритмов кластерного анализа и родственных ему методов распознавания образов, таксономии и др.

Рассмотренная выше методика вычисления евклидова расстояния предполагает, что все признаки считаются равноправными. На самом же деле при выделении типов социально-экономических явлений группировочные признаки не равноправны: как правило, одни признаки имеют большее, другие — меньшее значение. Следовательно, более совершенная методика кластерного анализа должна учитывать разную значимость, разный «вес» группировочных признаков. В этом случае должно использоваться взвешенное евклидово расстояние:

Определение весов - весьма сложная задача, выходящая за пределы компетенции статистики. О том, какие признаки важнее при классификации тех или иных объектов, могут судить не статистики, а специалисты в соответствующей отрасли. Поэтому одним из способов определения весов признаков при кластерном анализе являются экспертные оценки. Опросив достаточное число специалистов-экспертов (желательно не менее 6-10), статистик сможет определить по их оценкам места (роли) каждого группировочного признака. Затем находится среднее по оценкам всех экспертов место признака или его «вес» в численном выражении. Можно просить экспертов ранжировать признаки по порядку значимости и определять «среднее место», но оценка при этом будет очень грубая: признак, поставленный на первое место, будет вдвое важнее второго и в двадцать или тридцать раз важнее последнего. Чтобы различия весов были не столь резкими, можно просить экспертов распределить между группировочными признаками, в соответствии с их значениями, общую сумму оценок (100 или 1000%). Тогда каждому из признаков будет приписана некоторая доля этой общей суммы, можно двум-трем признакам приписать одинаковые веса. Но этот способ взвешивания требует от экспертов большей точности и напряжения, чем простое ранжирование признаков.

Субъективность экспертных оценок в какой-то мере можно компенсировать статистической обработкой. Например, по каждому признаку перед определением средней оценки его веса можно отбросить максимальную и минимальную оценки, если они резко отличаются от оценок остальных экспертов. Можно вообще исключить того эксперта, чьи оценки в среднем отличаются от средних оценок признаков более чем, например, на 2σ. Однако эти статистические коррективы небезупречны и допустимы при значительном числе экспертов для того, чтобы их средние оценки были надежны.

Существует и другая возможность оценки роли группировочных признаков, их значимости для классификации: на основе стандартизованных коэффициентов регрессии или коэффициентов раздельной детерминации (см. гл. 8).

Рассмотренный алгоритм иерархической классификации можно модифицировать, используя метод «ближайшего» или «дальнего соседа» (табл. 6.22). В этом случае в матрицу евклидовых расстояний вводятся расстояния, полученные не на основе средних величин по кластеру, в качестве представителя кластера берется входящий в него объект либо наименее удаленный от остальных объектов («ближайший сосед»), либо наиболее удаленный от остальных («дальний сосед»). Поскольку </„,„ = 0,981 (табл. 6.13) предприятия «Бугры» и «Щеглове» были объединены в кластер. При использовании метода «ближайшего соседа» в последующей после объединения этих двух предприятий матрице евклидовых расстояний кластер будет представлять то «Бугры», то «Щеглове» - в зависимости от того, какое из предприятий наименее удалено от остальных. Для простоты будем использовать не названия, а порядковые номера предприятий, соответствующие их последовательности в табл. 6.8.

Таблица 6.22

Матрица евклидовых расстояний на первом шаге (метод «ближайшего соседа»)

Минимальное евклидово расстояние между кластером и предприятием «Пригородное» d_8,2,3 = 1,130. (табл. 6.13). Это хозяйство имеет номер 3, присоединим его к кластеру (8.2). Матрица евклидовых расстояний на втором шаге будет следующей (табл. 6.23).

Таблица 6.23

Матрица евклидовых расстояний на втором шаге (метод «ближайшего соседа»)

Предприятия	1	4	5	6	7	8,2, 3
1	0
4	4,130	0
5	3.887	2,284	0
6	1,734	3,559	4,127	0
7	2,913	4,157	4,188	3,008	0
8, 2, 3	2,852	1,541	2,422	1,373	3.568	0

Минимальным является расстояние между предприятием («Вы-боргское») и кластером: min d_8,2,3,6 = 1,373. При кластере из четырех предприятий матрица евклидовых расстояний представлена в табл. 6.24.

Таблица 6.24

Матрица евклидовых расстояний на третьем шаге (метод «ближайшего соседа»)

Предприятия	1	4	5	7	8, 2, 3, 6
1	0
4	4,130	0
5	3,887	2,284	0
7	2,913	4,157	4,188	0
8, 2, 3, 6	1,734	1,541	2,422	3,008	0

Таблица 6.25

Матрица евклидовых расстояний на четвертом шаге (метод «ближайшего соседа»)

Предприятия	1	5	7	8, 2, 3, 6, 4
1	0
5	3,887	0
7	2,913	4,188	0
8, 2, 3, 6, 4	1,734	2,284	3,008	0

Сравнивая табл. 6.24 и 6.25, видим, что расстояния между кластером и объектом 1 и в обоих случаях определяются объектом 6, который является «ближайшим соседом» объекта 1. При определении расстояния между кластером и предприятием 7 представителем кластера выступает предприятие 6, которое является ближайшим к предприятию 7.

На следующем шаге к кластеру присоединяется предприятие 1 (6.26).

Таблица 6.26

Матрица евклидовых расстояний на пятом шаге (метод «ближайшего соседа»)

Предприятия	5	7	8, 2. 3. 6, 4, 1
5	0
7	4,188	0
8,2,3,6,4,1	2,284	2,913	0

Расстояние между кластером и предприятием 5 также, как и на предыдущем шаге, определяется расстоянием между предприятиями 5 и 4, которое является ближайшим к 5 из всех предприятий, входящих в кластер. Расстояние между предприятием 7 и кластером в табл. 6.26 стало определяться «ближайшим соседом» - предприятием 1. Если продолжить процедуру классификации, то посколь-.ку минимальным расстоянием в табл. 6.26 является расстояние Цяежду кластером и предприятием 5, то можно присоединить его к ^кластеру (табл. 6.27).

Таблица 6.27

Евклидово расстояние на шестом шаге

Предприятия

8, 2, 3, 6, 4, 1, 5

2,913

В этом случае мы получим два кластера: один состоит из предприятия 7 («Приневское»), а другой включает остальные семь предприятий. Если придерживаться некоторого критического значения евклидовою расстояния так, как в ранее рассмотренном примере, когда d = 2, то предприятие 5 не присоединяется к кластеру и в итоге совокупность подразделяется на три кластера, два из которых содержат по одному предприятию (5 и 7) и один - шесть предприятий.

Представим графически процесс классификации в виде дендрограммы (рис. 6.2).

Дендрограмма - дерево объединений кластеров с порядковыми номерами объектов по горизонтальной оси и шкалой расстояний по вертикальной оси.

Решение, полученное методом «ближайшего соседа», близко к прежнему результату при описании кластеров средними показателями (табл. 6.21), но не совпадает с ним - вместо четырех кластеров здесь выделились три.

Таблица 6.28

Матрица евклидовых расстояний на первом шаге (метод «дальнего соседа»)

Предприятия	1	3	4	5	6	7	8+2
1	0
3	3,012	0
4	4,130	.2,885	0
5	3,887	3,441	2,284	0
6	1,734	1,373	3,559	4,127	0
7	2,913	3,568	4,157	4,188	3,008	0
8+2	3,480	1,411	1,629	3,184	2,712	4,383	0

Рис. 6.2. Дендрограмма: метод «ближайшего соседа»

Если применить метод «дальнего соседа», то на первом шаге после объединения предприятий 2 и 8, получим следующую матрицу евклидовых расстояний (табл. 6.28). Табл. 6.28 отличается от табл. 6.21 последней строкой, в которой показаны максимальные расстояния кластера (8 + 2) от других объектов.

Затем выбирается наименьшее из d_p_,_q . В данном примере это расстояние между хозяйствами 3 и 6 (d_3,6 = 1,373),образующими новый кластер, в котором также выделяется «дальний сосед» (табл. 6.29).

Таблица 6.29

Матрица евклидовых расстояний на втором шаге (метод «дальнего соседа»)

Предприятия	1	3+6	4	5	7	8+2
1	0
3+6	3,012	0
4	4,130	2,885	0
5	3,887	4,127	2,284	0
7	2,913	3,568	4,157	4,188	0
8+2	3,480	2,712	1,629	3,184	4,383	0

В табл. 6.29 d_min = d_8+2,4 = 1,629. Таким образом, на третьем шаге к кластеру 8+2 присоединяется предприятие 4 (табл. 6.30).

Таблица 6.30

Матрица евклидовых расстояний на третьем шаге (метод «дальнего соседа»)

Предприятия	1	3+6	5	7	8+2+4
1	0
3+6	3,012	0
5	3,887	4,127	0
7	2,913	3,568	4,188	0
8+2+4	4,130	3,559	3,184	4,383	0

В табл. 6.30 все значения d_p_,_q > 2. Следовательно, в результате метода «дальнего соседа» получаем 5 кластеров, три из которых включают по одному предприятию.

Подведем итоги.

Все алгоритмы многомерной классификации основаны на целевой функции:

т. е. выделение однородных групп при минимизации внутригрупповой колеблемости.

Поиск однородных групп основан либо на измерении различия между объектами (так, как это было в рассмотренном примере), либо на измерении сходства между ними. Евклидово расстояние является одной из наиболее распространенных мер различия.

Любые функции расстояния (различия) между объектами d(X_i, X_j) обладают следующими свойствами:

Расстояния между парами векторов d(X_i, X_j) могут быть представлены в виде симметричной матрицы расстояний:

Диагональные элементы d_ii для всех i равны нулю. Расстояние между кластером i +j и всеми другими кластерами вычисляется в соответствии с выбранной стратегией классификации как

Метод «ближайшего соседа» сжимает пространство исходных переменных и рекомендуется для получения минимального дерева иерархической классификации. Метод «дальнего соседа» растягивает пространство. Метод «группового соседа» сохраняет метрику пространства.

Если классификация данных основана на мерах сходства s(X,, X,), то следует иметь в виду общие свойства этих мер:

Диагональные элементы такой матрицы равны 1.

В качестве мер сходства чаще всего используются коэффициенты корреляции (см. гл. 8).

Основными ППП для решения задачи многомерной классификации являются «Класс-мастер», SPSS, SAS. Многие алгоритмы многомерной классификации основаны на геометрическом представлении кластера как локального скопления точек в заданном признаковом пространстве.

Большинство методов классификации основано на однозначном отнесении объекта к тому или иному классу. Но, как уже отмечалось, границы классов могут быть размытыми, нечеткими. Класс объектов, в котором нет резкой границы между объектами, входящими в него, и теми, которые в него не входят, называется нечетким множеством.

Для классификации данных в нечетких множествах необходимо ввести матрицу принадлежности каждого объекта к нечеткому множеству с элементами

нечеткому множеству. Качество разбиения определяется как минимизацией внутриклассовой дисперсии, так и максимизацией удаленности центров классов.

Алгоритмы и программы многомерной классификации постоянно развиваются: разрабатываются ППП, учитывающие размытость границ между классами (распознавание в нечетких множествах), различную длину описаний классов и т. д. Большое значение в решении задач иерархических классификаций имеет компьютерная графика - так называемые классификационные деревья. Подробнее вопросы многомерной классификации освещаются в работах, указанных в списке рекомендуемой литературы.

Рекомендуемая литература к главе 6

1. Айвазян С. А., Бежаева 3. И., Староверов О. В. Классификация много- . мерных наблюдений. - М.: Статистика, 1974.

2. Афифи А., Эйзен С. Статистический анализ. Подход с использованием ЭВМ: Пер. с англ. - М.: Мир, 1982.

3. Елисеева И. И. Рукавишников В. О. Группировка, корреляция, распознавание образов. - М.: Статистика, 1977.

4. Енюков И. С. Методы - алгоритмы - программы многомерного статистического анализа. - М.: Финансы и статистика, 1986.

5. Кулаичев А. П. Методы и средства анализа данных в среде Windows. Stadia 6.0. - М.: НПО «Информатика и компьютеры», 1996.

6. Мандепь И. Д. Кластерный анализ. - М.: Финансы и статистика, 1988.

7. Миркин Б. Г. Группировки в социально-экономических исследованиях. -М.: Финансы и статистика, 1985.

БАНКОВСКОЕ ДЕЛО	БУХГАЛТЕРСКИЙ УЧЕТ
БЮДЖЕТ И БЮДЖЕТНАЯ СИСТЕМА РФ	ВЫСШАЯ МАТЕМАТИКА, ТВ и МС, МАТ. МЕТОДЫ
ГУМАНИТАРНЫЕ НАУКИ	ДОКУМЕНТОВЕДЕНИЕ И ДЕЛОПРОИЗВОДСТВО
ДРУГИЕ ЭКОНОМИЧЕСКИЕ ДИСЦИПЛИНЫ	ЕСТЕСТВЕННЫЕ ДИСЦИПЛИНЫ
ИНВЕСТИЦИИ	ИССЛЕДОВАНИЕ СИСТЕМ УПРАВЛЕНИЯ
МАРКЕТИНГ	МЕНЕДЖМЕНТ
МЕТ. РЕКОМЕНДАЦИИ, ПРИМЕРЫ РЕШЕНИЯ ЗАДАЧ	МИРОВАЯ ЭКОНОМИКА И МЭО
НАЛОГИ И НАЛОГООБЛОЖЕНИЕ	ПЛАНИРОВАНИЕ И ПРОГНОЗИРОВАНИЕ
РАЗРАБОТКА УПРАВЛЕНЧЕСКИХ РЕШЕНИЙ	РЫНОК ЦЕННЫХ БУМАГ
СТАТИСТИКА	ТЕХНИЧЕСКИЕ ДИСЦИПЛИНЫ
УПРАВЛЕНИЕ ПЕРСОНАЛОМ	УЧЕБНИКИ, ЛЕКЦИИ, ШПАРГАЛКИ (СКАЧАТЬ)
ФИНАНСОВЫЙ МЕНЕДЖМЕНТ	ФИНАНСЫ, ДЕНЕЖНОЕ ОБРАЩЕНИЕ И КРЕДИТ
ЦЕНЫ И ЦЕНООБРАЗОВАНИЕ	ЭКОНОМИКА
ЭКОНОМИКА, ОРГ-ЦИЯ И УПР-НИЕ ПРЕДПРИЯТИЕМ	ЭКОНОМИКА И СОЦИОЛОГИЯ ТРУДА
ЭКОНОМИЧЕСКАЯ ТЕОРИЯ (МИКРО-, МАКРО)	ЭКОНОМИЧЕСКИЙ АНАЛИЗ
ЭКОНОМЕТРИКА	ЮРИСПРУДЕНЦИЯ

Ваше имя *

Ваш e-mail *

Контактный телефон

Город *

Учебное заведение *

Предмет *

Тип работы *

Тема работы/вариант *

Кол-во страниц

Срок выполнения *

Прикрепить файл

Дополнительные условия

	500