Многомерен статистически анализ Специална приложна икономика. Многомерен статистически анализ

Пример

Има данни за производството на продукти от група предприятия по месеци (млн рубли):

За да идентифицираме общата тенденция в растежа на производството, ще увеличим интервалите. За тази цел комбинираме първоначалните (месечни) данни за продукцията в тримесечни данни и получаваме показатели за продукцията за група предприятия по тримесечия:

В резултат на разширяването на интервалите се очертава общата тенденция на нарастване на продукцията от тази група предприятия:

64,5 < 76,9 < 78,8 < 85,9.

Идентифицирането на общата тенденция на динамичния ред може да се извърши и чрез изглаждане на динамичния ред с помощта на метод на пълзяща средна. Същността на тази техника е, че изчислените (теоретични) нива се определят от началните нива на серията (емпирични данни). В този случай, чрез осредняване на емпирични данни, отделните колебания се гасят и общата тенденция в развитието на явлението се изразява под формата на определена гладка линия (теоретични нива).

Основното условие за прилагане на този метод е да се изчислят подвижните (пълзящи) средни връзки от такъв брой нива на серията, който съответства на продължителността на динамиката на цикъла, наблюдавана в серията.

Недостатъкът на метода за изглаждане на серията от динамика е, че получените средни не дават теоретични закономерности (модели) на серията, които да се основават на математически изразена закономерност и това би позволило не само да се извърши анализ, но и да предвидим динамиката на поредицата за в бъдеще.

Много по-напреднала техника за изследване на общата тенденция във времевите редове е аналитично подравняване. При изучаване на общата тенденция по метода на аналитичното изравняване се приема, че промените в нивата на серия от динамика могат да бъдат осреднени с помощта на определени математически функции с различна степен на точност на приближение. начин теоретичен анализразкрива се характерът на развитието на явлението и на тази основа се избира един или друг математически израз като изменението на явлението: по права линия, по парабола от втори ред, експоненциална (логаритмична) крива и др. .

Очевидно нивата на динамичните редове се формират под съвкупното влияние на множество дългосрочни и краткосрочни фактори, вкл. различни видове аварии. Промяната в условията за развитие на дадено явление води до повече или по-малко интензивна промяна в самите фактори, до промяна в силата и ефективността на тяхното въздействие и в крайна сметка до изменение на нивото на явлението под влиянието на проучване във времето.



Многомерен статистически анализ- раздел на математическата статистика, посветен на математическите методи, насочени към идентифициране на естеството и структурата на връзките между компонентите на изучавания многомерен атрибут и предназначени за получаване на научни и практически заключения. Първоначалният масив от многомерни данни за такъв анализ обикновено са резултатите от измерване на компонентите на многомерен атрибут за всеки от обектите на изследваната съвкупност, т.е. последователност от многовариантни наблюдения. Многоизмерна функция най-често интерпретирана като многовариантна случайна променлива и последователност от многовариантни наблюдения като извадка от генералната съвкупност. В този случай изборът на метода за обработка на първоначалните статистически данни се извършва въз основа на определени допускания относно естеството разпределителен законизучавана многоизмерна характеристика.

1. Анализ на многомерни разпределения и техните основни характеристики обхваща ситуации, при които обработените наблюдения са от вероятностен характер, т.е. интерпретиран като извадка от съответната генерална съвкупност. Основните задачи на този подраздел включват: статистическа оценка на изследваните многомерни разпределения и техните основни параметри; изследване на свойствата на използваните статистически оценки; изследване на вероятностните разпределения за редица статистики, които се използват за изграждане на статистически критерии за тестване на различни хипотези за вероятностния характер на анализираните многовариантни данни.
2. Анализ на характера и структурата на връзките между компонентите на изследвания многомерен признаксъчетава концепциите и резултатите, присъщи на такива методи и модели като регресионен анализ, дисперсионен анализ, ковариационен анализ, факторен анализ, латентен структурен анализ, логаритмично линеен анализ, търсене на взаимодействия . Методите, принадлежащи към тази група, включват както алгоритми, базирани на предположението за вероятностния характер на данните, така и методи, които не се вписват в рамката на нито един вероятностен модел (последните често се наричат ​​методи за анализ на данни).

3. Анализът на геометричната структура на изследвания набор от многомерни наблюдения съчетава концепциите и резултатите, присъщи на такива модели и методи като дискриминантен анализ, клъстерен анализ, многомерно скалиране. Възлова за тези модели е концепцията за разстояние или мярка за близост между анализираните елементи като точки от някакво пространство. В този случай могат да бъдат анализирани както обекти (като точки, посочени в пространството на обектите), така и характеристики (като точки, посочени в пространството на обектите).

Приложната стойност на многовариантния статистически анализ се състои главно в обслужването на следните три проблема:

Проблеми на статистическото изследване на зависимостите между разглежданите показатели;

Проблеми на класификацията на елементи (обекти или характеристики);

Проблеми с намаляването на размера на разглежданото пространство на характеристиките и избора на най-информативни характеристики.

Очертани са основните понятия и методи на статистическия анализ. многоизмерен резултати технически експерименти. <...>Теоретична информация за Имоти многоизмеренГаус разпределения. <...>Резултатът от експеримента, разгледан в ръководството, е случаен векторразпределени по нормалния закон.<...>Многоизмерен нормалноплътност Често резултатът от експеримент е съвкупностчисла, характеризиращи даден обект на изследване.<...>4 f x  Запишете като ξ  ~ ( ND,)μ  има p-измереннормално разпространение. означава, че векторξ , ξ) взема различни значения, така че е разумно да се говори за случаен вектор 12 компонент вектор,ξ  компонент,ξ  т.е. EDE E   ξ= E E ξ ξ  = μ = ξ − μ ξ − μ ()()  ξp където E е знакът математическо очакване. <...>Нека η е p pp   чрез решения μ= ν +B ;.   bD BD Bη ξ = ′ , (1.3) Матрица D от (1.2) е симетричен, положително определен; следователно, неговото представяне е D CC′=Λ, където C е ортогонален матрица, съставен от собственвектори матрици;D Λ – диагонал матрицас собствен числаλ>i 0 матрици D по главния диагонал.<...> става плътностнеговия компонент,1,η=i ip, определен от общ правила(вижте приложението) е равно на 5 (1,4) ; линеен трансформация,η  където B е квадратна матрица с размери  е случаен вектор от вариации,.<...>Оценяване на параметрите на нормалното разпределение ND . <...>Основната задача на първичната μ=i n  матрица ковариация . <...>A ln ∂ = (1,5) регламенти диференциацияфункционали по отношение на векторни или матрични аргументи (вижте<...>Тогава σ = ξ −ξ ξ − ξ = ξ ξ −ξ ξ∑∑ ij nn ki i kj j kk Тук kiξ е i-тото компонент векторсреден iμ i-ти Компоненти вектор . <...> Оценкимаксимум достоверносткоефициентите j / ρ=σ σ σ имат формата ij ,. ij ii jj ri j σ σσ  ≠ ii jj Доказателство.<...>Оценяване на зависимостта между компонентите нормално векторПодробен анализ на връзката<...>

MU_to_performing_course_work_"Multivariate_statistical_analysis".pdf

UDC 519.2 LBC 22.172 K27 Рецензент V.Yu. Чуев Карташов Г.Д., Тимонин В.И., Будовская Л.М. K27 Многовариантен статистически анализ: Насоки за изпълнение на курсовата работа. - М .: Издателство на MSTU im. Н.Е. Бауман, 2007. - 48 с.: ил. Очертани са основните понятия и методи за статистически анализ на многомерни резултати от технически експерименти. Дадена е теоретична информация за свойствата на многомерните разпределения на Гаус. За старши студенти от Факултета по фундаментални науки. I л. 2. Библиография. 5 имена UDC 519.2 LBC 22.172 © MSTU im. Н.Е. Бауман, 2007 г

Страница 2

СЪДЪРЖАНИЕ Въведение.................................................. .................... .............................. ................... ..... 3 1. Многомерно нормално разпределение .................... .......................... 4 2. Статистически изводи за вектора на средните стойности .............. ...................... 17 3. Дискриминантен анализ .. ..................... ............................................ 23 4. Метод на главния компонент .. ............................ ...................... ............ 27 5. Канонични корелации .................................. .................................. 30 6. Многовариантен регресионен анализ .......... .................................. .. 35 7. Факторен анализ ....... ....................................... ........... ....................... 40 Приложение ......................... ...... ............................................ ..................................................... 44 Използвана литература ..... ........................ ........................ ........................ 46 47

Въвеждането на компютър в управлението на националната икономика включва прехода от традиционните методи за анализ на дейността на предприятията към по-модерни модели на икономическо управление, които позволяват да се разкрият неговите дълбоки процеси.

Широкото използване на методите на математическата статистика в икономическите изследвания дава възможност за задълбочаване на икономическия анализ, подобряване на качеството на информацията при планиране и прогнозиране на производствените показатели и анализ на неговата ефективност.

Сложността и разнообразието от връзки между икономическите показатели определят многомерността на характеристиките и следователно изискват използването на най-сложния математически апарат - методите на многомерния статистически анализ.

Концепцията за "многовариантен статистически анализ" предполага комбинация от редица методи, предназначени да изследват комбинация от взаимосвързани характеристики. Говорим за разчленяване (разделяне) на разглежданото множество, което е представено от многомерни признаци на относително малък брой от тях.

В същото време преходът от голям брой характеристики към по-малък има за цел да намали тяхната размерност и да увеличи информативния капацитет. Тази цел се постига чрез идентифициране на информация, която се повтаря, генерирана от взаимосвързани признаци, установяване на възможност за агрегиране (комбиниране, сумиране) по някои признаци. Последното включва трансформирането на действителния модел в модел с по-малко факторни характеристики.

Методът на многомерния статистически анализ позволява да се идентифицират обективно съществуващи, но не ясно изразени модели, които се проявяват в определени социално-икономически явления. Човек трябва да се сблъска с това, когато решава редица практически проблеми в областта на икономиката. По-специално, това се случва, ако е необходимо да се натрупат (фиксират) едновременно стойностите на няколко количествени характеристики (характеристики) за обекта на наблюдение, който се изследва, когато всяка характеристика е склонна към неконтролирано изменение (в контекста на обекти ), въпреки хомогенността на обектите на наблюдение.

Например, когато разглеждаме хомогенни (от гледна точка на природни и икономически условия и вид специализация) предприятия по отношение на редица показатели за ефективност на производството, ние сме убедени, че при преминаване от един обект към друг почти всяка от избраните характеристики ( идентичен) има неравна числена стойност, тоест намира, така да се каже, неконтролирано (случайно) разсейване. Такава "случайна" вариация на черти има тенденция да следва някои (редовни) тенденции, както по отношение на добре дефинираните измерения на чертите, около които се появява вариацията, така и по отношение на степента и взаимозависимостта на самата вариация.

Горното води до дефинирането на многомерна случайна променлива като набор от количествени характеристики, стойността на всяка от които е обект на неконтролирано разсейване по време на повторения на този процес, статистическо наблюдение, опит, експеримент и др.

По-рано беше казано, че многовариантният анализ съчетава редица методи; нека ги наречем: факторен анализ, анализ на главните компоненти, клъстерен анализ, разпознаване на образи, дискриминантен анализ и т.н. Първите три от тези методи са разгледани в следващите параграфи.

Подобно на други математически и статистически методи, многовариантният анализ може да бъде ефективен в своето приложение, при условие че първоначалната информация е с високо качество и данните от наблюденията са масивни и се обработват с помощта на компютър.

Основни понятия на метода на факторния анализ, същността на задачите, които решава

Когато се анализират (и също толкова изучават) социално-икономическите явления, често се срещат случаи, когато сред разнообразието (богата параметричност) на обекти на наблюдение е необходимо да се изключи част от параметрите или да се заменят с по-малък брой определени функции без да се нарушава целостта (пълнотата) на информацията. Решаването на такъв проблем има смисъл в рамките на определен модел и се определя от неговата структура. Пример за такъв модел, който е най-подходящ за много реални ситуации, е моделът факторен анализ, чиито методи ви позволяват да концентрирате характеристики (информация за тях) чрез „кондензиране“ на голям брой в по-малка, по-обемна информация. В този случай полученият "кондензат" от информация трябва да бъде представен от най-значимите и определящи количествени характеристики.

Концепцията за "факторен анализ" не трябва да се бърка с широката концепция за анализ на причинно-следствените връзки, когато се изучава влиянието на различни фактори (техните комбинации, комбинации) върху продуктивния атрибут.

Същността на метода на факторния анализ е да се изключи описанието на множество характеристики на изследваното и да се замени с по-малък брой информационно по-обемни променливи, които се наричат ​​фактори и отразяват най-важните свойства на явленията. Такива променливи са някои функции на оригиналните функции.

Анализът, по думите на Я. Окун, 9 дава възможност да се получат първите приблизителни характеристики на закономерностите, лежащи в основата на явлението, да се формулират първите, общи изводи за насоките, в които трябва да се проведат по-нататъшните изследвания. Освен това той посочва основното допускане на факторния анализ, което е, че явлението, въпреки неговата хетерогенност и променливост, може да бъде описано с малък брой функционални единици, параметри или фактори. Тези термини се наричат ​​по различен начин: влияние, причини, параметри, функционални единици, способности, основни или независими показатели. Използването на един или друг термин е предмет на

Окун Я. Факторен анализ: Пер. с. етаж. М.: Статистика, 1974.- С.16.

контекст за фактора и познаване на същността на изследваното явление.

Етапите на факторния анализ са последователни сравнения на различни набори от фактори и опции към групи с тяхното включване, изключване и оценка на значимостта на разликите между групите.

В. М. Жуковска и И. Б. Мучник 10, говорейки за същността на задачите на факторния анализ, твърдят, че последният не изисква априорно подразделение на променливите на зависими и независими, тъй като всички променливи в него се считат за равни.

Задачата на факторния анализ се свежда до определена концепция, броя и характера на най-значимите и относително независими функционални характеристики на явлението, неговите измерители или основни параметри - фактори. Според авторите е важно отличителна чертаФакторният анализ е, че ви позволява едновременно да изследвате голям брой взаимосвързани променливи без предположението за "постоянство на всички други условия", което е толкова необходимо при използване на редица други методи за анализ. Това е голямото предимство на факторния анализ като ценен инструмент за изследване на явлението, поради сложното многообразие и преплитане на връзки.

Анализът разчита главно на наблюдения на естествената вариация на променливите.

1. Когато използвате факторен анализ, наборът от променливи, които се изследват по отношение на връзките между тях, не се избира произволно: този метод ви позволява да идентифицирате основните фактори, които имат значително влияние в тази област.

2. Анализът не изисква предварителни хипотези, напротив, самият той може да служи като метод за издигане на хипотези, както и да действа като критерий за хипотези, основани на данни, получени с други методи.

3. Анализът не изисква априорни предположения за това кои променливи са независими и зависими, не преувеличава причинно-следствените връзки и разрешава въпроса за степента им в процеса на по-нататъшно изследване.

Списъкът от конкретни задачи, които трябва да бъдат решени с помощта на методите на факторния анализ, ще бъде както следва (според V.M. Zhukovsky). Нека назовем основните от тях в областта на социално-икономическите изследвания:

Жуковская В.М., Мучник И.Б. Факторният анализ в социално-икономическите изследвания. - Статистика, 1976. С.4.

1. Определяне на основните аспекти на разликите между обектите на наблюдение (минимизиране на описанието).

2. Формулиране на хипотези за характера на различията между обектите.

3. Идентифициране на структурата на връзките между признаците.

4. Проверка на хипотези за връзката и взаимозаменяемостта на признаците.

5. Сравнение на структури на набори от характеристики.

6. Разчленяване на обекти на наблюдение за типични признаци.

Изложеното по-горе показва големите възможности на факторния анализ в

изследване на социални явления, където по правило е невъзможно да се контролира (експериментално) влиянието на отделни фактори.

Доста ефективно е да се използват резултатите от факторния анализ в модели на множествена регресия.

Имайки предварително формиран корелационно-регресионен модел на изследваното явление под формата на корелирани признаци, с помощта на факторен анализ, такъв набор от признаци може да се превърне в значително по-малък брой от тях чрез агрегиране. В същото време трябва да се отбележи, че подобна трансформация по никакъв начин не влошава качеството и пълнотата на информацията за изследваното явление. Генерираните агрегирани характеристики са некорелирани и представляват линейна комбинация от първичните характеристики. От формална математическа страна формулировката на проблема в този случай може да има безкраен набор от решения. Но трябва да помним, че когато изучаваме социално-икономическите явления, получените обобщени признаци трябва да имат икономически обоснована интерпретация. С други думи, във всеки случай на използване на математическия апарат, на първо място, те произтичат от знанието икономическа същностявления, които се изучават.

По този начин гореизложеното ни позволява да обобщим, че факторният анализ е специфичен изследователски метод, който се извършва на базата на арсенал от методи на математическата статистика.

Факторният анализ за първи път намери своето практическо приложение в областта на психологията. Възможност за събиране на голям брой психологически тестовекъм малък брой фактори, позволяващи да се обясни способността на човешкия интелект.

При изследване на социално-икономически явления, където има трудности при изолирането на влиянието на отделните променливи, факторният анализ може успешно да се използва. Използването на нейните методи позволява чрез определени изчисления да се „филтрират” несъществени признаци и да се продължат изследванията в посока на тяхното задълбочаване.

Ефективността на този метод е очевидна при изследване на такива въпроси (проблеми): в икономиката - специализация и концентрация на производството, интензивността на домакинството, бюджета на семействата на работниците, изграждането на различни обобщаващи показатели. и т.н

Социалните и икономически обекти, като правило, се характеризират с доста голям брой параметри, които образуват многомерни вектори, а проблемите на изучаването на връзките между компонентите на тези вектори са от особено значение в икономическите и социалните изследвания и тези взаимоотношения трябва да бъдат идентифицирани въз основа на ограничен брой многоизмерни наблюдения.

Многовариантният статистически анализ е част от математическата статистика, която изучава методите за събиране и обработка на многовариантни статистически данни, тяхната систематизация и обработка, за да се идентифицира естеството и структурата на връзките между компонентите на изучавания многовариантен атрибут и да се направят практически изводи.

Имайте предвид, че методите за събиране на данни може да варират. Така че, ако изследванията световна икономика, тогава е естествено да се вземат държави като обекти, върху които се наблюдават стойностите на вектора X, но ако националните икономическа система, тогава е естествено да се наблюдават стойностите на вектора X в една и съща (от интерес за изследователя) страна в различни моменти от време.

Статистически методи като множествена корелация и регресионен анализ традиционно се изучават в курсовете по теория на вероятностите и математическа статистика, дисциплината "Иконометрия" е посветена на разглеждането на приложните аспекти на регресионния анализ.

Това ръководство е посветено на други методи за изучаване на многомерни генерални съвкупности въз основа на статистически данни.

Методите за намаляване на измерението на многомерното пространство позволяват без значителна загуба на информация да се премине от оригиналната система от голям брой наблюдавани взаимосвързани фактори към система от значително по-малък брой скрити (ненаблюдаеми) фактори, които определят вариацията на първоначалните характеристики. Първата глава описва методите за компонентен и факторен анализ, които могат да се използват за идентифициране на обективно съществуващи, но не пряко наблюдавани модели, като се използват главни компоненти или фактори.

Методите за многомерна класификация са предназначени да разделят колекции от обекти (характеризирани с голям брой характеристики) на класове, всеки от които трябва да включва обекти, които са хомогенни или подобни в определен смисъл. Такава класификация, базирана на статистически данни за стойностите на характеристиките на обектите, може да се извърши с помощта на методите на клъстерен и дискриминантен анализ, разгледани във втората глава (Многовариантен статистически анализ с помощта на „STATISTICA“).

Развитието на компютърните технологии и софтуер допринася за широкото въвеждане в практиката на методите за многомерен статистически анализ. Пакетите за приложения с удобен потребителски интерфейс, като SPSS, Statistica, SAS и др., премахват трудностите при прилагането на тези методи, които се изразяват в сложността на математическия апарат, базиран на линейна алгебра, теория на вероятностите и математическа статистика, и тромавостта на изчисления.

Въпреки това, използването на програми без разбиране на математическата същност на използваните алгоритми допринася за развитието на илюзията на изследователя за простотата на използването на многовариантни статистически методи, което може да доведе до неправилни или неразумни резултати. Значими практически резултати могат да бъдат получени само на базата на професионални познания в предметната област, подкрепени от познаването на математическите методи и пакетите от приложения, в които тези методи са реализирани.

Следователно за всеки от методите, разглеждани в тази книга, е дадена основна теоретична информация, включително алгоритми; обсъжда се имплементацията на тези методи и алгоритми в пакети с приложения. Разглежданите методи са илюстрирани с примери за тях практическо приложениепо икономика с помощта на пакета SPSS.

Ръководството е написано въз основа на опита от четенето на курса "Многомерни статистически методи" на студенти Държавен университетуправление. За по-подробно изучаване на методите на приложния многомерен статистически анализ се препоръчват книги.

Предполага се, че читателят е добре запознат с курсовете по линейна алгебра (например в тома на учебника и приложението към учебника), теория на вероятностите и математическа статистика (например в тома на учебника).

Въведение

Глава 1 Множествен регресионен анализ

Глава 2. Клъстерен анализ

Глава 3. Факторен анализ

Глава 4. Дискриминантен анализ

Библиография

Въведение

Първоначалната информация в социално-икономическите изследвания най-често се представя като набор от обекти, всеки от които се характеризира с редица признаци (показатели). Тъй като броят на такива обекти и характеристики може да достигне десетки и стотици, а визуалният анализ на тези данни е неефективен, проблемите за намаляване, концентриране на първоначалните данни, разкриване на структурата и връзката между тях въз основа на изграждането на обобщени характеристики на възниква набор от характеристики и набор от обекти. Такива проблеми могат да бъдат решени чрез методи на многомерен статистически анализ.

Многовариантният статистически анализ е раздел от статистиката, посветен на математическите методи, насочени към идентифициране на естеството и структурата на връзките между компонентите на изследването и предназначени за получаване на научни и практически заключения.

Основното внимание в многовариантния статистически анализ се обръща на математическите методи за конструиране на оптимални планове за събиране, систематизиране и обработка на данни, насочени към идентифициране на естеството и структурата на връзките между компонентите на изучавания многомерен признак и предназначени за получаване на научни и практически изводи.

Първоначалният масив от многомерни данни за провеждане на многомерен анализ обикновено са резултатите от измерване на компонентите на многомерен атрибут за всеки от обектите на изследваната съвкупност, т.е. последователност от многовариантни наблюдения. Многовариантният атрибут най-често се интерпретира като , а последователността от наблюдения като извадка от генералната съвкупност. В този случай изборът на метода за обработка на първоначалните статистически данни се извършва въз основа на определени предположения относно естеството на закона за разпределение на изследвания многомерен признак.

1. Многовариантният статистически анализ на многомерните разпределения и техните основни характеристики обхваща ситуации, при които обработените наблюдения са от вероятностен характер, т.е. интерпретиран като извадка от съответната генерална съвкупност. Основните задачи на този подраздел включват: статистическа оценка на изследваните многомерни разпределения и техните основни параметри; изследване на свойствата на използваните статистически оценки; изследване на вероятностните разпределения за редица статистики, които се използват за изграждане на статистически критерии за тестване на различни хипотези за вероятностния характер на анализираните многовариантни данни.

2. Многовариантният статистически анализ на естеството и структурата на взаимовръзките на компонентите на изучавания многомерен признак съчетава концепциите и резултатите, присъщи на такива методи и модели като анализ, дисперсионен анализ, ковариационен анализ, факторен анализ и др. Методите, принадлежащи към тази група, включват както алгоритми, базирани на предположението за вероятностния характер на данните, така и методи, които не се вписват в рамките на нито един вероятностен модел (последните често се наричат ​​методи).

3. Многомерният статистически анализ на геометричната структура на изследваното множество от многовариантни наблюдения съчетава концепциите и резултатите, присъщи на такива модели и методи като дискриминантен анализ, клъстерен анализ, многомерно скалиране. Възлова за тези модели е концепцията за разстояние или мярка за близост между анализираните елементи като точки от някакво пространство. В този случай могат да бъдат анализирани както обекти (като точки, посочени в пространството на обектите), така и характеристики (като точки, посочени в пространството на обектите).

Приложната стойност на многовариантния статистически анализ се състои главно в решаването на следните три проблема:

задачата за статистическо изследване на зависимостите между разглежданите показатели;

задачата за класифициране на елементи (обекти или характеристики);

· задачата за намаляване на размерността на разглежданото пространство на характеристиките и избор на най-информативните характеристики.

Множественият регресионен анализ е предназначен да изгради модел, който позволява стойностите на независимите променливи да получат оценки на стойностите на зависимата променлива.

Логистична регресия за решаване на проблема с класификацията. Това е вид множествена регресия, чиято цел е да анализира връзката между няколко независими променливи и зависима променлива.

Факторният анализ се занимава с определянето на относително малък брой скрити (латентни) фактори, чиято променливост обяснява променливостта на всички наблюдавани показатели. Факторният анализ е насочен към намаляване на измерението на разглеждания проблем.

Клъстерният и дискриминантният анализ са предназначени да разделят колекции от обекти на класове, всеки от които трябва да включва обекти, които са хомогенни или близки в определен смисъл. При клъстерния анализ не се знае предварително колко групи от обекти ще се получат и какъв ще бъде размерът им. Дискриминантният анализ разделя обектите на вече съществуващи класове.

Глава 1 Множествен регресионен анализ

Задача: Изследване на жилищния пазар в Орел (Съветски и Северни региони).

Таблицата показва данни за цената на апартаментите в Орел и за различни фактори, които я определят:

· цялата зона;

Площта на кухнята

· жилищно пространство;

тип къща

броя на стаите. (Фиг. 1)

Ориз. 1 Изходни данни

В колона "Регион" се използват обозначенията:

3 - съветски (елит, принадлежи към централните региони);

4 - Север.

В колона "Тип къща":

1 - тухла;

0 - панел.

Задължително:

1. Анализирайте връзката на всички фактори с индикатора "Цена" и помежду си. Изберете най-подходящите фактори за изграждане на регресионен модел;

2. Конструирайте фиктивна променлива, която отразява принадлежността на апартамента към централните и периферните райони на града;

3. Изградете линеен регресионен модел за всички фактори, включително фиктивна променлива в него. Обяснете икономическия смисъл на параметрите на уравнението. Оценява качеството на модела, статистическата значимост на уравнението и неговите параметри;

4. Разпределете факторите (с изключение на фиктивната променлива) според степента на влияние върху индикатора “Цена”;

5. Изградете линеен регресионен модел за най-влиятелните фактори, оставяйки фиктивна променлива в уравнението. Оценява качеството и статистическата значимост на уравнението и неговите параметри;

6. Обосновете целесъобразността или нецелесъобразността на включването на фиктивна променлива в уравнението на параграфи 3 и 5;

7. Оценка на интервални оценки на параметрите на уравнението с вероятност 95%;

8. Определете колко ще струва апартамент с обща площ от 74,5 м² в елитен (периферен) район.

Производителност:

1. След анализ на връзката на всички фактори с индикатора „Цена“ и помежду си, факторите, най-подходящи за изграждане на регресионен модел, бяха избрани с помощта на метода за включване „Напред“:

А) общата площ;

В) броя на стаите.

Включени/изключени променливи (a)

Зависима променлива: Цена

2. Променлива X4 "Регион" е фиктивна променлива, тъй като има 2 стойности: 3- принадлежащи към централния регион "Съветски", 4- към периферния регион "Северни".

3. Нека изградим линеен регресионен модел за всички фактори (включително фиктивната променлива X4).

Получен модел:

Оценка на качеството на модела.

Стандартна грешка = 126.477

Коефициент на Дърбин-Уотсън = 2,136

Проверка на значимостта на регресионното уравнение

Стойност на теста на F-Fisher = 41,687

4. Нека изградим линеен регресионен модел с всички фактори (с изключение на фиктивната променлива X4)

Според степента на влияние върху показателя „Цена” те са разпределени:

Най-значимият фактор е общата площ (F= 40.806)

Вторият най-важен фактор е броят на стаите (F= 29.313)

5. Включени/изключени променливи

Зависима променлива: Цена

6. Нека изградим линеен регресионен модел за най-влиятелните фактори с фиктивна променлива, в нашия случай това е един от влиятелните фактори.

Получен модел:

Y \u003d 348,349 + 35,788 X1 -217,075 X4 +305,687 X7

Оценка на качеството на модела.

Коефициент на детерминация R2 = 0,807

Показва съотношението на изменение на резултантния признак под влияние на изследваните фактори. Следователно около 89% от вариацията на зависимата променлива се взема предвид и се дължи на влиянието на включените фактори в модела.

Коефициент на множествена корелация R = 0,898

Показва близостта на връзката между зависимата променлива Y с всички обяснителни фактори, включени в модела.

Стандартна грешка = 126.477

Коефициент на Дърбин-Уотсън = 2,136

Проверка на значимостта на регресионното уравнение

Стойност на теста на F-Fisher = 41,687

Регресионното уравнение трябва да се признае за адекватно, моделът се счита за значим.

Най-значимият фактор е броят на стаите (F=41,687)

Вторият най-важен фактор е общата площ (F= 40.806)

Третият най-важен фактор е регионът (F= 32.288)

7. Фиктивната променлива X4 е значим фактор, така че е препоръчително да я включите в уравнението.

Интервалните оценки на параметрите на уравнението показват резултатите от прогнозирането чрез регресионния модел.

С вероятност от 95% обемът на продажбите през прогнозния месец ще бъде от 540,765 до 1080,147 милиона рубли.

8. Определяне на цената на апартамент в елитен район

За 1 стая U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 1

За 2 стаи U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 2

За 3 стаи U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 3

в периферните

За 1 стая U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 1

За 2 стаи U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 2

За 3 стаи U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 3

Глава 2. Клъстерен анализ

Задача: Изследване на структурата на паричните разходи и спестявания на населението.

Таблицата показва структурата на паричните разходи и спестяванията на населението по региони на Централния федерален окръг Руска федерацияпрез 2003 г. по следните показатели:

PTIOU - покупка на стоки и плащане на услуги;

· ОПиВ - задължителни плащания и вноски;

PN - покупка на недвижим имот;

· PFA – увеличение на финансовите активи;

· DR - увеличение (намаляване) на парите в ръцете на населението.

Ориз. 8 Изходни данни

Задължително:

1) определя оптималния брой клъстери за разделяне на региони на хомогенни групи според всички характеристики на групиране едновременно;

2) извършва класификация на областите по йерархичен метод с алгоритъм на междугрупови отношения и показва резултатите под формата на дендрограма;

3) анализирайте основните приоритети на паричните разходи и спестяванията в получените клъстери;

Производителност:

1) Определяне на оптималния брой клъстери за разделяне на региони на хомогенни групи според всички характеристики на групиране едновременно;

За да определите оптималния брой клъстери, трябва да използвате йерархичния клъстерен анализ и да се обърнете към таблицата „Стъпки на агломерация“ към колоната „Коефициенти“.

Тези коефициенти означават разстоянието между два клъстера, определено на базата на избраната мярка за разстояние (Евклидово разстояние). На етапа, когато разстоянието между два клъстера се увеличи рязко, процесът на сливане в нови клъстери трябва да бъде спрян.

В резултат на това оптималният брой клъстери се счита за равен на разликата между броя на наблюденията (17) и броя на стъпките (14), след което коефициентът рязко нараства. Така оптималният брой клъстери е 3. (Фиг. 9)

клъстер за статистически математически анализ

Ориз. 9 Таблица „Етапи на синтероване“

2) Извършете класификацията на областите по йерархичен метод с алгоритъм на междугрупови отношения и покажете резултатите под формата на дендрограма;

Сега, използвайки оптималния брой клъстери, ние класифицираме области, използвайки йерархичен метод. И в изхода се обръщаме към таблицата "Принадлежност към клъстери". (фиг.10)

Ориз. 10 Таблица „Принадлежност към клъстери“

На фиг. 10 ясно показва, че клъстер 3 включва 2 региона (Калуга, Москва) и Москва, клъстер 2 включва два региона (Брянск, Воронеж, Иваново, Липецк, Орлов, Рязан, Смоленск, Тамбов, Твер), клъстер 1 - Белгород, Владимир, Кострома , Курск, Тула, Ярославъл.

Ориз. 11 Дендрограма

3) анализирайте основните приоритети на паричните разходи и спестяванията в получените клъстери;

За да анализираме получените клъстери, трябва да проведем „Сравнение на средните стойности“. Изходният прозорец показва следната таблица (фиг. 12)

Ориз. 12 Средни стойности на променливите

В таблицата „Средни стойности” можем да проследим на кои структури е даден най-висок приоритет при разпределението на паричните разходи и спестяванията на населението.

На първо място, трябва да се отбележи, че най-висок приоритет във всички области се дава на закупуването на стоки и плащането на услуги. Параметърът приема по-голяма стойност в 3-тия клъстер.

2-ро място заема ръстът на финансовите активи. Най-висока стойноств 1 клъстер.

Най-малък е коефициентът в 1-ви и 2-ри клъстер за „придобиване на недвижимо имущество“, а в 3-ти клъстер се отчита осезаемо намаление на парите в ръцете на населението.

Като цяло покупката на стоки и услуги и незначителната покупка на недвижими имоти са от особено значение за населението.

4) сравнете получената класификация с резултатите от прилагането на алгоритъма за вътрешногрупови взаимоотношения.

При анализа на междугруповите отношения ситуацията практически не се е променила, с изключение на района на Тамбов, който попада в 1 от 2 клъстера (фиг. 13).

Ориз. 13 Анализ на вътрешногруповите взаимоотношения

Няма промени в таблицата "Средни стойности".

Глава 3. Факторен анализ

Задача: Анализ на дейността на предприятията лека промишленост.

Налични са данни от проучването за 20 предприятия от леката промишленост (фиг. 14) според следните характеристики:

X1 - равнището на капиталовата производителност;

Х2 – трудоемкостта на единица продукция;

X3 - делът на материалите за доставка в общите разходи;

X4 – коефициент на смяна на оборудването;

Х5 - бонуси и възнаграждения на служител;

X6 - делът на загубите от брак;

X7 – средногодишна себестойност на дълготрайните производствени активи;

X8 - средният годишен фонд работна заплата;

X9 - нивото на продаваемост на продуктите;

· X10 – индекс на трайните активи (отношение на дълготрайни активи и други нетекущи активи към собствени средства);

X11 - обръщаемост на оборотния капитал;

Х12 - непроизводствени разходи.

Фиг.14 Изходни данни

Задължително:

1. провеждане на факторен анализ на следните променливи: 1,3,5-7, 9, 11,12, идентифициране и интерпретиране на факторни характеристики;

2. посочва най-проспериращите и перспективни предприятия.

Производителност:

1. Извършете факторен анализ на следните променливи: 1,3,5-7, 9, 11,12, идентифицирайте и интерпретирайте факторните характеристики.

Факторният анализ е набор от методи, които въз основа на реални връзки на обекти (характеристики) позволяват да се идентифицират латентни (имплицитни) обобщаващи характеристики на организационната структура.

В диалоговия прозорец за факторен анализ изберете нашите променливи, посочете необходимите параметри.

Ориз. 15 Общо обяснено отклонение

Според таблицата на "Обща обяснена вариация" се вижда, че са идентифицирани 3 фактора, които обясняват 74,8% от вариациите на променливите - изграденият модел е доста добър.

Сега интерпретираме знаците на фактора според "Матрицата на ротираните компоненти": (фиг.16).

Ориз. 16 Матрица от завъртяни компоненти

Фактор 1 е най-тясно свързан с нивото на продажбите на продукта и има обратна връзка с непроизводствените разходи.

Фактор 2 е най-тясно свързан с дела на материалите за доставка в общите разходи и дела на загубите от брак и има обратна връзка с бонусите и възнагражденията на служител.

Фактор 3 е най-тясно свързан с равнището на капиталовата производителност и обръщаемостта на оборотния капитал и има обратна връзка със средногодишната цена на дълготрайните активи.

2. Посочете най-проспериращите и перспективни предприятия.

За да идентифицираме най-проспериращите предприятия, ще сортираме данните по 3 факторни критерия в низходящ ред. (фиг.17)

Най-проспериращите предприятия трябва да бъдат разгледани: 13,4,5, тъй като като цяло, според 3 фактора, техните показатели заемат най-високите и най-стабилни позиции.

Глава 4. Дискриминантен анализ

Оценка на кредитоспособността на юридически лица в търговска банка

Банката избра шест показателя като значими показатели, характеризиращи финансовото състояние на организациите кредитополучатели (Таблица 4.1.1):

QR (X1) - коефициент на бърза ликвидност;

CR (X2) - коефициент на текуща ликвидност;

EQ/TA (X3) - коефициент на финансова независимост;

TD/EQ (X4) - общите задължения към собствения капитал;

ROS (X5) - рентабилност на продажбите;

FAT (X6) - оборот на дълготрайни активи.

Таблица 4.1.1. Изходни данни


Задължително:

Въз основа на дискриминантен анализ с помощта на пакета SPSS, определете към коя от четирите категории принадлежат трима кредитополучатели ( юридически лица) желаещи да получат кредит от търговска банка:

§ 1 група - с отлично финансово представяне;

§ 2 група - с добро финансово състояние;

§ 3 група - с лошо финансово състояние;

§ Група 4 - с много лошо финансово състояние.

Въз основа на резултатите от изчислението конструирайте дискриминантни функции; оценете тяхната значимост чрез коефициента на Wilks (λ). Изградете карта на възприятието и диаграми на относителните позиции на наблюденията в пространството на три функции. Извършете интерпретация на резултатите от анализа.

Напредък:

За да определим към коя от четирите категории принадлежат трима кредитополучатели, които искат да получат кредит от търговска банка, ние изграждаме дискриминантен анализ, който ни позволява да определим към коя от предварително идентифицираните популации (обучителни проби) трябва да бъдат причислени новите клиенти .

Като зависима променлива ще изберем група, към която може да принадлежи кредитополучателят в зависимост от финансовите му резултати. От данните за задачите на всяка група се присвоява съответна оценка от 1, 2, 3 и 4.

Ненормализирани канонични коефициенти на дискриминантни функции, показани на фиг. 4.1.1 се използват за конструиране на уравнението на дискриминантните функции D1(X), D2(X) и D3(X):

3.) D3(X) =


1

(Постоянен)

Ориз. 4.1.1. Коефициенти на каноничната дискриминантна функция

Ориз. 4.1.2. Ламбда Уилкс

Въпреки това, тъй като значимостта на коефициента на Wilks (фиг. 4.1.2) на втората и третата функция е повече от 0,001, не е препоръчително да се използват за дискриминация.

Данните от таблицата "Резултати от класификацията" (фиг. 4.1.3) показват, че за 100% от наблюденията класификацията е извършена правилно, висока точност е постигната и в четирите групи (100%).

Ориз. 4.1.3. Резултати от класирането

Информация за действителните и прогнозираните групи за всеки кредитополучател е дадена в таблицата „Статистика на точките“ (фиг. 4.1.4).

В резултат на дискриминантния анализ беше установено с голяма вероятност, че новите кредитополучатели на банката принадлежат към подмножеството M1 за обучение - първият, вторият и третият кредитополучател (серийни номера 41, 42, 43) са причислени към подмножеството M1 с съответните вероятности от 100%.

Номер на наблюдение

Действителна група

Най-вероятна група

Прогнозна група

негрупиран

негрупиран

негрупиран

Ориз. 4.1.4. Статистика на точките

Координатите на центроидите по групи са дадени в таблицата "Функции в групови центроиди" (фиг. 4.1.5). Те се използват за начертаване на центроиди върху перцептивна карта (Фигура 4.1.6).

1

Ориз. 4.1.5. Функции в групови центроиди

Ориз. 4.1.6. Карта на възприемане за две дискриминантни функции D1(X) и D2(X) (* - групов център)

Полето на "Териториална карта" е разделено чрез дискриминантни функции на четири области: от лявата страна има основно наблюдения на четвъртата група кредитополучатели с много лошо финансово състояние, от дясната страна - първата група с отлично финансово състояние, в средната и долната част - съответно трета и втора група кредитополучатели с лошо и добро финансово състояние.

Ориз. 4.1.7. Точкова диаграма за всички групи

На фиг. 4.1.7 показва комбинирания график за разпределението на всички групи кредитополучатели заедно с техните центроиди; може да се използва за извършване на сравнителен визуален анализ на характера на относителната позиция на групи банкови кредитополучатели по отношение на финансовите показатели. От дясната страна на графиката са кредитополучателите с високо представяне, отляво - с ниско, а в средата - със средно финансово представяне. Тъй като според резултатите от изчислението втората дискриминантна функция D2(X) се оказа незначителна, разликите в центроидните координати по тази ос са незначителни.

Оценка на кредитоспособността на физически лица в търговска банка

Кредитният отдел на търговска банка проведе извадково проучване на 30 свои клиенти (физически лица). Въз основа на предварителен анализ на данните, кредитополучателите бяха оценени по шест показателя (Таблица 4.2.1):

X1 - кредитополучателят е взел заем търговските банкипреди това;

X2 е средният месечен доход на семейството на кредитополучателя, хиляди рубли;

X3 - срок (период) на погасяване на кредита, години;

X4 - размерът на издадения заем, хиляди рубли;

X5 - състав на семейството на кредитополучателя, лица;

X6 - възраст на кредитополучателя, години.

В същото време бяха идентифицирани три групи кредитополучатели според вероятността за изплащане на заема:

§ Група 1 - с ниска вероятност за погасяване на кредита;

§ Група 2 - със средна вероятност за погасяване на кредита;

§ Група 3 - с висока вероятност за изплащане на кредита.

Задължително:

Въз основа на дискриминантен анализ с помощта на пакета SPSS е необходимо да се класифицират трима банкови клиенти (според вероятността за изплащане на кредита), т.е. преценете дали всеки от тях принадлежи към една от трите групи. Въз основа на резултатите от изчислението изградете значими дискриминантни функции, оценете тяхната значимост чрез коефициента на Wilks (λ). В пространството на две дискриминантни функции за всяка група постройте диаграми на взаимното подреждане на наблюденията и комбинирана диаграма. Оценете местоположението на всеки кредитополучател в тези диаграми. Извършете интерпретация на резултатите от анализа.

Таблица 4.2.1. Изходни данни

Напредък:

За да изградим дискриминантен анализ, ние избираме вероятността за навременно изплащане на заема от клиента като зависима променлива. Като се има предвид, че може да бъде нисък, среден и висок, на всяка категория ще бъде дадена съответна оценка от 1, 2 и 3.

Ненормализирани канонични коефициенти на дискриминантни функции, показани на фиг. 4.2.1 се използват за конструиране на уравнението на дискриминантните функции D1(X), D2(X):

2.) D2(X) =

Ориз. 4.2.1. Коефициенти на каноничната дискриминантна функция

Ориз. 4.2.2. Ламбда Уилкс

Според коефициента на Wilks (фиг. 4.2.2) за втората функция значимостта е повече от 0,001, поради което не е препоръчително да се използва за дискриминация.

Данните от таблицата „Резултати от класификацията“ (фиг. 4.2.3) показват, че за 93,3% от наблюденията класификацията е извършена правилно, висока точност е постигната в първата и втората група (100% и 91,7%), по-малко точни резултати са получени в третата група (88,9%).

Ориз. 4.2.3. Резултати от класирането

Информация за действителните и прогнозираните групи за всеки клиент е дадена в таблицата "Статистика на точките" (фиг. 4.2.4).

В резултат на дискриминантния анализ беше установено с голяма вероятност, че новите клиенти на банката принадлежат към обучаващата подгрупа M3 – първият, вторият и третият клиент (поредни номера 31, 32, 33) са присвоени към подгрупата M3 с съответните вероятности от 99%, 99% и 100%.

Номер на наблюдение

Действителна група

Най-вероятна група

Прогнозна група

негрупиран

негрупиран

негрупиран

Ориз. 4.2.4. Статистика на точките

Вероятност за изплащане на заема

Ориз. 4.2.5. Функции в групови центроиди

Координатите на центроидите по групи са дадени в таблицата "Функции в групови центроиди" (фиг. 4.2.5). Те се използват за начертаване на центроиди върху перцептивна карта (Фигура 4.2.6).

Полето "Териториална карта" е разделено чрез дискриминантни функции на три области: от лявата страна има основно наблюдения на първата група клиенти с много ниска вероятност за погасяване на кредита, от дясната страна - третата група с висока вероятност , в средата - втората група клиенти със средна вероятност за изплащане на кредита, респ.

На фиг. 4.2.7 (a - c) отразява местоположението на клиентите на всяка от трите групи в равнината на две дискриминантни функции D1(X) и D2(X). Въз основа на тези графики е възможно да се извърши подробен анализ на вероятността за изплащане на заем във всяка група, да се прецени естеството на разпределението на клиентите и да се оцени степента на тяхната отдалеченост от съответния център.

Ориз. 4.2.6. Карта на възприемане за три дискриминантни функции D1(X) и D2(X) (* - групов център)

Също така на фиг. 4.2.7 (d) в същата координатна система е показана комбинираната графика на разпределението на всички групи клиенти заедно с техните центроиди; може да се използва за извършване на сравнителен визуален анализ на характера на относителната позиция на групи банкови клиенти с различни вероятности за изплащане на кредита. От лявата страна на графиката са кредитополучателите с висока вероятност за изплащане на заема, отдясно - с ниска вероятност, а в средната част - със средна вероятност. Тъй като според резултатите от изчислението втората дискриминантна функция D2(X) се оказа незначителна, разликите в центроидните координати по тази ос са незначителни.

Ориз. 4.2.7. Разположение на наблюденията в равнината на две дискриминантни функции за групи с ниска (a), средна (b), висока (c) вероятност за изплащане на заема и за всички групи (d)

Библиография

1. „Многовариантен статистически анализ в икономически проблеми. Компютърно моделиране в SPSS”, 2009

2. Орлов А.И. "Приложна статистика" М .: Издателство "Изпит", 2004 г

3. Фишър Р.А. "Статистически методи за изследователи", 1954 г

4. Калинина В.Н., Соловьов В.И. „Въведение в многомерния статистически анализ” Учебник СУМ, 2003;

5. Achim Buyul, Peter Zöfel, SPSS: The Art of Information Processing, DiaSoft Publishing, 2005;

6. http://ru.wikipedia.org/wiki