Клъстерен анализ

икономически-речник

Клъстерният анализ е набор от многовариантни статистически техники, които имат за цел да групират набор от случаи или индивиди в клъстери или клъстери.

Следователно клъстерният анализ е вид статистическо групиране. Целта е данните във всеки клъстер да бъдат възможно най-сходни помежду си и възможно най-различни по отношение на другите групи. Може да се направи и с променливи.

Преобразуване на данни в клъстерен анализ

Един от проблемите, които срещаме, когато групираме данни, е, че данните понякога са в различни мерни единици. Поради тази причина трябва да се извърши пред-клъстерен анализ, който позволява клъстериране.

Най-разпространеният метод е стандартизация. Това се използва за трансформиране на данните, така че да имат сходни мерни единици. Трябва да се вземат предвид две правила, двоичните променливи не са стандартизирани и, ако са категорични, стават двоични (наличие/отсъствие).

Методи в клъстерния анализ

Има много методи за извършване на клъстерния анализ, но в Economipedia, следвайки принципа на простотата, който ни характеризира, ще видим най-подходящите по схематичен начин.

Йерархични методи

Първата класификация би била йерархични или нейерархични методи. Първите групират индивидите в йерархични фази (оттук и името им). По този начин само един обект сменя група в даден момент, а останалите остават на същото място.

Те от своя страна се класифицират в:

Агломеративни методи

Състои се от групиране на индивиди в по-малко групи всеки път. Започваме от брой групи, равен на броя на случаите и той се намалява.

Най-известните са:

  • Метод за най-близкия съсед: В този случай използвате алгоритъм за групиране на данните. Това, което търсите, е минималното разстояние между най-близките хора. Той е много чувствителен към данни, които могат да причинят така наречения "шум". Методът на най-далечния съсед е подобен.
  • Среден метод между групите: Това, което прави, е да се изчислява средната стойност на разстоянието между индивидите в групата и един от тях в частност. Много е полезно да намалите така наречения "шум".
  • Методът на Уорд: Това, което прави, е да добавя квадратите на отклоненията между всеки индивид и средната стойност на неговия клъстер, за да се избегне загубата на информация. Той е един от най-известните и има предимствата на метода, базиран на средната, но по-голяма сила на дискриминация.

Дисоциативни методи

В този случай това, което правите, е да разделите. Започва с един клъстер и се предлагат разделения въз основа на поредица от изисквания.

Най-често срещаните са:

  • Метод на средната стойност между групите, най-близкия съсед и най-отдалечения: Тези три метода са подобни на предишния случай, но използват дисоциативния метод. Тоест този път това, което правим, е отделно, а не групово.
  • Центроиден метод: Той се използва широко при проблеми с оптимизиране на местоположението на съоръжението. Използвайте този тип анализ, за ​​да намерите най-подходящите.

Нейерархични методи

В този случай те започват с предварително зададено решение. Това е отправната точка за клъстерен анализ. По този начин групите се установяват предварително и всеки случай ще бъде поставен в една от тях, в зависимост от неговите характеристики. От своя страна можем да ги разделим на други подгрупи.

  • Методи за пренасочване: Най-подходящи са центроидните методи, като k-средни. Тези на медиоидите, като PAM. Или тази на динамичните облаци.
  • Директни методи: Най-важният е блоковият клъстер, широко използван в извличането на данни.
  • Редукционни методи: Те се основават на факторен анализ.
  • Методи за търсене на плътност: От една страна, ще има типологични подходи, като модален анализ. От друга страна, имаме вероятностните, като тези на Волф.

Примери за клъстерен анализ

Нека видим накрая някои примери за приложения за клъстерен анализ.

  • Нека си представим, че имаме група държави, които искаме да групираме въз основа на определени макроикономически променливи, като инфлация или безработица. Можем да използваме този тип анализ, за ​​да направим хомогенни групи, например повече или по-малко развити страни.
  • Друг пример може да бъде поредица от потребители с определени социално-демографски характеристики. Идеята е да се създават групи със сходни индивиди, които от своя страна са много различни един от друг.
  • Но освен в икономиката, клъстерният анализ е полезен и в други науки. Например в биологията, за да класифицирате видовете, или в геологията, за да направите същото с минералите.

Тагове:  биография минава сравнения 

Интересни Статии

add