Главная » Учебно-методические материалы » СТАТИСТИКА » Общая теория статистики: учебник. Под ред. Елисеевой И.И.

Глава 6. Группировка (3)
23.01.2012, 11:42

Обобщая рассмотренную процедуру кластерного анализа, представим действия в виде определенной последовательности:

1) вычисление средних величин каждого из классификационных признаков х̅j в целом по совокупности;

2) вычисление средних квадратических отклонений каждого из признаков по совокупности – sxj или σxj,

3) вычисление матриц нормированных разностей по каждому из группировочных признаков – djp,q;

4) вычисление евклидовых расстояний между каждой парой сочетаний единиц совокупности – dp,q;

5) выбор наименьшего из евклидовых расстояний – dp,qmin;

6) объединение единиц совокупности с наименьшим евклидовым расстоянием между ними в один кластер;

7) вычисление средних значений всех признаков для единиц, объединенных в кластер;

8) вычисление новых нормированных расстояний между объединенным кластером и остальными единицами;

9) вычисление новых евклидовых расстояний между объединенным кластером и остальными единицами (или кластерами);

10) выбор наименьшего из евклидовых расстояний;

11) повторение операций (6-10) и т.д.

Объединение в кластеры прекращается, когда все евклидовы расстояния превысят заданную критическую величину dкрит. Обычно ППП предусматривает вывод на печать состава (перечня единиц совокупности) каждого кластера, евклидовых расстояний между ними, матриц нормированных разностей по каждому признаку.

Существует много достаточно сложных алгоритмов кластерного анализа и родственных ему методов распознавания образов, таксономии и др.

Рассмотренная выше методика вычисления евклидова расстояния предполагает, что все признаки считаются равноправными. На самом же деле при выделении типов социально-экономических явлений группировочные признаки не равноправны: как правило, одни признаки имеют большее, другие — меньшее значение. Следовательно, более совершенная методика кластерного анализа должна учитывать разную значимость, разный «вес» группировочных признаков. В этом случае должно использоваться взвешенное евклидово расстояние:

Определение весов - весьма сложная задача, выходящая за пределы компетенции статистики. О том, какие признаки важнее при классификации тех или иных объектов, могут судить не статистики, а специалисты в соответствующей отрасли. Поэтому одним из способов определения весов признаков при кластерном анализе являются экспертные оценки. Опросив достаточное число специалистов-экспертов (желательно не менее 6-10), статистик сможет определить по их оценкам места (роли) каждого группировочного признака. Затем находится среднее по оценкам всех экспертов место признака или его «вес» в численном выражении. Можно просить экспертов ранжировать признаки по порядку значимости и определять «среднее место», но оценка при этом будет очень грубая: признак, поставленный на первое место, будет вдвое важнее второго и в двадцать или тридцать раз важнее последнего. Чтобы различия весов были не столь резкими, можно просить экспертов распределить между группировочными признаками, в соответствии с их значениями, общую сумму оценок (100 или 1000%). Тогда каждому из признаков будет приписана некоторая доля этой общей суммы, можно двум-трем признакам приписать одинаковые веса. Но этот способ взвешивания требует от экспертов большей точности и напряжения, чем простое ранжирование признаков.

Субъективность экспертных оценок в какой-то мере можно компенсировать статистической обработкой. Например, по каждому признаку перед определением средней оценки его веса можно отбросить максимальную и минимальную оценки, если они резко отличаются от оценок остальных экспертов. Можно вообще исключить того эксперта, чьи оценки в среднем отличаются от средних оценок признаков более чем, например, на 2σ. Однако эти статистические коррективы небезупречны и допустимы при значительном числе экспертов для того, чтобы их средние оценки были надежны.

Существует и другая возможность оценки роли группировочных признаков, их значимости для классификации: на основе стандартизованных коэффициентов регрессии или коэффициентов раздельной детерминации (см. гл. 8).

Рассмотренный алгоритм иерархической классификации можно модифицировать, используя метод «ближайшего» или «дальнего соседа» (табл. 6.22). В этом случае в матрицу евклидовых расстояний вводятся расстояния, полученные не на основе средних величин по кластеру, в качестве представителя кластера берется входящий в него объект либо наименее удаленный от остальных объектов («ближайший сосед»), либо наиболее удаленный от остальных («дальний сосед»). Поскольку </„,„ = 0,981 (табл. 6.13) предприятия «Бугры» и «Щеглове» были объединены в кластер. При использовании метода «ближайшего соседа» в последующей после объединения этих двух предприятий матрице евклидовых расстояний кластер будет представлять то «Бугры», то «Щеглове» - в зависимости от того, какое из предприятий наименее удалено от остальных. Для простоты будем использовать не названия, а порядковые номера предприятий, соответствующие их последовательности в табл. 6.8.

Таблица 6.22

Матрица евклидовых расстояний на первом шаге (метод «ближайшего соседа»)

Минимальное евклидово расстояние между кластером и предприятием «Пригородное» d8,2,3 = 1,130. (табл. 6.13). Это хозяйство имеет номер 3, присоединим его к кластеру (8.2). Матрица евклидовых расстояний на втором шаге будет следующей (табл. 6.23).

Таблица 6.23

Матрица евклидовых расстояний на втором шаге (метод «ближайшего соседа»)

Предприятия

1

4

5

6

7

8,2, 3

        1

0

 

 

 

 

 

4

4,130

0

 

 

 

 

 

 

 

 

5

3.887

2,284

0

 

 

 

 

 

 

6

1,734

3,559

4,127

0

 

 

 

 

7

2,913

4,157

4,188

3,008

0

 

 

8, 2, 3

2,852

1,541

2,422

1,373

3.568

0

Минимальным является расстояние между предприятием («Вы-боргское») и кластером: min d8,2,3,6 = 1,373. При кластере из четырех предприятий матрица евклидовых расстояний представлена в табл. 6.24.

Таблица 6.24

Матрица евклидовых расстояний на третьем шаге (метод «ближайшего соседа»)

Предприятия

1

4

5

7

8, 2, 3, 6

1

0

 

 

 

 

 

 

 

 

4

4,130

0

 

 

 

 

 

 

5

3,887

2,284

0

 

 

 

 

7

2,913

4,157

4,188

0

 

 

8, 2, 3, 6

1,734

1,541

2,422

3,008

0

Таблица 6.25

Матрица евклидовых расстояний на четвертом шаге (метод «ближайшего соседа»)

Предприятия

1

5

7

8, 2, 3, 6, 4

1

0

 

 

 

 

 

 

5

3,887

0

 

 

 

 

7

2,913

4,188

0

 

 

8, 2, 3, 6, 4

1,734

2,284

3,008

0

Сравнивая табл. 6.24 и 6.25, видим, что расстояния между кластером и объектом 1 и в обоих случаях определяются объектом 6, который является «ближайшим соседом» объекта 1. При определении расстояния между кластером и предприятием 7 представителем кластера выступает предприятие 6, которое является ближайшим к предприятию 7.

На следующем шаге к кластеру присоединяется предприятие 1 (6.26).

Таблица 6.26

Матрица евклидовых расстояний на пятом шаге (метод «ближайшего соседа»)

Предприятия

5

7

8, 2. 3. 6, 4, 1

5

0

 

 

 

 

7

4,188

0

 

 

8,2,3,6,4,1

2,284

2,913

0

Расстояние между кластером и предприятием 5 также, как и на предыдущем шаге, определяется расстоянием между предприятиями 5 и 4, которое является ближайшим к 5 из всех предприятий, входящих в кластер. Расстояние между предприятием 7 и кластером в табл. 6.26 стало определяться «ближайшим соседом» - предприятием 1. Если продолжить процедуру классификации, то посколь-.ку минимальным расстоянием в табл. 6.26 является расстояние Цяежду кластером и предприятием 5, то можно присоединить его к ^кластеру (табл. 6.27).

Таблица 6.27

Евклидово расстояние на шестом шаге

Предприятия

7

8, 2, 3, 6, 4, 1, 5

7

0

 

 

8, 2, 3, 6, 4, 1, 5

2,913

0

В этом случае мы получим два кластера: один состоит из предприятия 7 («Приневское»), а другой включает остальные семь предприятий. Если придерживаться некоторого критического значения евклидовою расстояния так, как в ранее рассмотренном примере, когда d = 2, то предприятие 5 не присоединяется к кластеру и в итоге совокупность подразделяется на три кластера, два из которых содержат по одному предприятию (5 и 7) и один - шесть предприятий.

Представим графически процесс классификации в виде дендрограммы (рис. 6.2).

Дендрограмма - дерево объединений кластеров с порядковыми номерами объектов по горизонтальной оси и шкалой расстояний по вертикальной оси.

Решение, полученное методом «ближайшего соседа», близко к прежнему результату при описании кластеров средними показателями (табл. 6.21), но не совпадает с ним - вместо четырех кластеров здесь выделились три.

Таблица 6.28

Матрица евклидовых расстояний на первом шаге (метод «дальнего соседа»)

Предприятия

1

3

4

5

6

7

8+2

1

0

 

 

 

 

 

 

 

 

 

 

 

 

3

3,012

0

 

 

 

 

 

 

 

 

 

 

4

4,130

.2,885

0

 

 

 

 

 

 

 

 

5

3,887

3,441

2,284

0

 

 

 

 

 

 

6

1,734

1,373

3,559

4,127

0

 

 

 

 

7

2,913

3,568

4,157

4,188

3,008

0

 

 

8+2

3,480

1,411

1,629

3,184

2,712

4,383

0

  

 Рис. 6.2. Дендрограмма: метод «ближайшего соседа»

Если применить метод «дальнего соседа», то на первом шаге после объединения предприятий 2 и 8, получим следующую матрицу евклидовых расстояний (табл. 6.28). Табл. 6.28 отличается от табл. 6.21 последней строкой, в которой показаны максимальные расстояния кластера (8 + 2) от других объектов.

Затем выбирается наименьшее из dp,q . В данном примере это расстояние между хозяйствами 3 и 6 (d3,6 = 1,373),образующими новый кластер, в котором также выделяется «дальний сосед» (табл. 6.29).

Таблица 6.29

Матрица евклидовых расстояний на втором шаге (метод «дальнего соседа»)

Предприятия

1

3+6

4

5

7

8+2

1

0

 

 

 

 

 

 

 

 

 

 

3+6

3,012

0

 

 

 

 

 

 

 

 

4

4,130

2,885

0

 

 

 

 

 

 

5

3,887

4,127

2,284

0

 

 

 

 

7

2,913

3,568

4,157

4,188

0

 

 

8+2

3,480

2,712

1,629

3,184

4,383

0

В табл. 6.29 dmin = d8+2,4 = 1,629. Таким образом, на третьем шаге к кластеру 8+2 присоединяется предприятие 4 (табл. 6.30).

Таблица 6.30

Матрица евклидовых расстояний на третьем шаге (метод «дальнего соседа»)

Предприятия

1

3+6

5

7

8+2+4

1

0

 

 

 

 

 

 

 

 

3+6

3,012

0

 

 

 

 

 

 

5

3,887

4,127

0

 

 

 

 

7

2,913

3,568

4,188

0

 

 

8+2+4

4,130

3,559

3,184

4,383

0

В табл. 6.30 все значения dp,q > 2. Следовательно, в результате метода «дальнего соседа» получаем 5 кластеров, три из которых включают по одному предприятию.

Подведем итоги.

Все алгоритмы многомерной классификации основаны на целевой функции:

 ,

т. е. выделение однородных групп при минимизации внутригрупповой колеблемости.

Поиск однородных групп основан либо на измерении различия между объектами (так, как это было в рассмотренном примере), либо на измерении сходства между ними. Евклидово расстояние является одной из наиболее распространенных мер различия.

Любые функции расстояния (различия) между объектами d(Xi, Xj) обладают следующими свойствами:

Расстояния между парами векторов d(Xi, Xj)  могут быть представлены в виде симметричной матрицы расстояний:

Диагональные элементы dii для всех i равны нулю. Расстояние между кластером i +j и всеми другими кластерами вычисляется в соответствии с выбранной стратегией классификации как

Метод «ближайшего соседа» сжимает пространство исходных переменных и рекомендуется для получения минимального дерева иерархической классификации. Метод «дальнего соседа» растягивает пространство. Метод «группового соседа» сохраняет метрику пространства.

Если классификация данных основана на мерах сходства s(X,, X,), то следует иметь в виду общие свойства этих мер:

Диагональные элементы такой матрицы равны 1.

В качестве мер сходства чаще всего используются коэффициенты корреляции (см. гл. 8).

Основными ППП для решения задачи многомерной классификации являются «Класс-мастер», SPSS, SAS. Многие алгоритмы многомерной классификации основаны на геометрическом представлении кластера как локального скопления точек в заданном признаковом пространстве.

Большинство методов классификации основано на однозначном отнесении объекта к тому или иному классу. Но, как уже отмечалось, границы классов могут быть размытыми, нечеткими. Класс объектов, в котором нет резкой границы между объектами, входящими в него, и теми, которые в него не входят, называется нечетким множеством.

Для классификации данных в нечетких множествах необходимо ввести матрицу принадлежности каждого объекта к нечеткому множеству с элементами

нечеткому множеству. Качество разбиения определяется как минимизацией внутриклассовой дисперсии, так и максимизацией удаленности центров классов.

Алгоритмы и программы многомерной классификации постоянно развиваются: разрабатываются ППП, учитывающие размытость границ между классами (распознавание в нечетких множествах), различную длину описаний классов и т. д. Большое значение в решении задач иерархических классификаций имеет компьютерная графика - так называемые классификационные деревья. Подробнее вопросы многомерной классификации освещаются в работах, указанных в списке рекомендуемой литературы.

Рекомендуемая литература к главе 6

1. Айвазян С. А., Бежаева 3. И., Староверов О. В. Классификация много- . мерных наблюдений. - М.: Статистика, 1974.

2. Афифи А., Эйзен С. Статистический анализ. Подход с использованием ЭВМ: Пер. с англ. - М.: Мир, 1982.

3. Елисеева И. И. Рукавишников В. О. Группировка, корреляция, распознавание образов. - М.: Статистика, 1977.

4. Енюков И. С. Методы - алгоритмы - программы многомерного статистического анализа. - М.: Финансы и статистика, 1986.

5. Кулаичев А. П. Методы и средства анализа данных в среде Windows. Stadia 6.0. - М.: НПО «Информатика и компьютеры», 1996.

6. Мандепь И. Д. Кластерный анализ. - М.: Финансы и статистика, 1988.

7. Миркин Б. Г. Группировки в социально-экономических исследованиях. -М.: Финансы и статистика, 1985.





БАНКОВСКОЕ ДЕЛО
БУХГАЛТЕРСКИЙ УЧЕТ
БЮДЖЕТ И БЮДЖЕТНАЯ СИСТЕМА РФ
ВЫСШАЯ МАТЕМАТИКА, ТВ и МС, МАТ. МЕТОДЫ
ГУМАНИТАРНЫЕ НАУКИ
ДОКУМЕНТОВЕДЕНИЕ И ДЕЛОПРОИЗВОДСТВО
ДРУГИЕ ЭКОНОМИЧЕСКИЕ ДИСЦИПЛИНЫ
ЕСТЕСТВЕННЫЕ ДИСЦИПЛИНЫ
ИНВЕСТИЦИИ
ИССЛЕДОВАНИЕ СИСТЕМ УПРАВЛЕНИЯ
МАРКЕТИНГ
МЕНЕДЖМЕНТ
МЕТ. РЕКОМЕНДАЦИИ, ПРИМЕРЫ РЕШЕНИЯ ЗАДАЧ
МИРОВАЯ ЭКОНОМИКА И МЭО
НАЛОГИ И НАЛОГООБЛОЖЕНИЕ
ПЛАНИРОВАНИЕ И ПРОГНОЗИРОВАНИЕ
РАЗРАБОТКА УПРАВЛЕНЧЕСКИХ РЕШЕНИЙ
РЫНОК ЦЕННЫХ БУМАГ
СТАТИСТИКА
ТЕХНИЧЕСКИЕ ДИСЦИПЛИНЫ
УПРАВЛЕНИЕ ПЕРСОНАЛОМ
УЧЕБНИКИ, ЛЕКЦИИ, ШПАРГАЛКИ (СКАЧАТЬ)
ФИНАНСОВЫЙ МЕНЕДЖМЕНТ
ФИНАНСЫ, ДЕНЕЖНОЕ ОБРАЩЕНИЕ И КРЕДИТ
ЦЕНЫ И ЦЕНООБРАЗОВАНИЕ
ЭКОНОМИКА
ЭКОНОМИКА, ОРГ-ЦИЯ И УПР-НИЕ ПРЕДПРИЯТИЕМ
ЭКОНОМИКА И СОЦИОЛОГИЯ ТРУДА
ЭКОНОМИЧЕСКАЯ ТЕОРИЯ (МИКРО-, МАКРО)
ЭКОНОМИЧЕСКИЙ АНАЛИЗ
ЭКОНОМЕТРИКА
ЮРИСПРУДЕНЦИЯ