Analiză statistică multivariată Economie aplicată specială. Analiza statistică multivariată

Exemplu

Există date despre producția de produse de către un grup de întreprinderi pe luni (milioane de ruble):

Pentru a identifica tendința generală de creștere a producției, vom mări intervalele. În acest scop, combinăm datele inițiale (lunare) privind producția de producție în date trimestriale și obținem indicatori de producție pentru un grup de întreprinderi pe trimestre:

Ca urmare a extinderii intervalelor, tendința generală de creștere a producției de către acest grup de întreprinderi este distinctă:

64,5 < 76,9 < 78,8 < 85,9.

Identificarea tendinței generale a seriei cronologice se poate face și prin netezirea seriilor temporale folosind metoda mediei mobile. Esența acestei tehnici este că nivelurile calculate (teoretice) sunt determinate de la nivelurile inițiale ale seriei (date empirice). În acest caz, prin mediarea datelor empirice, fluctuațiile individuale sunt stinse, iar tendința generală de dezvoltare a fenomenului este exprimată sub forma unei anumite linii netede (niveluri teoretice).

Condiția principală pentru aplicarea acestei metode este calcularea legăturilor medii mobile (în mișcare) de la un astfel de număr de niveluri ale seriei care să corespundă duratei dinamicii ciclului observată în serie.

Dezavantajul metodei de netezire a seriei de dinamică este că mediile obținute nu dau regularități (modele) teoretice ale seriei, care s-ar baza pe o regularitate exprimată matematic și aceasta ar permite nu numai efectuarea unei analize, ci și pentru a prezice dinamica seriei pentru viitor.

O tehnică mult mai avansată pentru studierea tendinței generale în serii de timp este aliniere analitică. Când se studiază tendința generală prin metoda alinierii analitice, se presupune că modificările nivelurilor unei serii de dinamică pot fi mediate cu ajutorul anumitor funcții matematice cu diferite grade de precizie de aproximare. cale analiza teoretică se dezvăluie natura dezvoltării fenomenului și pe această bază se selectează una sau alta expresie matematică, cum ar fi modificarea fenomenului: de-a lungul unei linii drepte, de-a lungul unei parabole de ordinul doi, o curbă exponențială (logaritmică) etc. .

Evident, nivelurile seriilor temporale se formează sub influența combinată a multor factori pe termen lung și pe termen scurt, inclusiv. diverse tipuri de accidente. O modificare a condițiilor de desfășurare a unui fenomen duce la o schimbare mai mult sau mai puțin intensă a factorilor înșiși, la o modificare a puterii și eficacității impactului lor și, în cele din urmă, la o variație a nivelului fenomenului sub control. studiază în timp.



Analiza statistică multivariată- o secțiune de statistică matematică, dedicată metodelor matematice care vizează identificarea naturii și structurii relațiilor dintre componentele atributului multidimensional studiat și destinată obținerii de concluzii științifice și practice. Matricea inițială de date multidimensionale pentru o astfel de analiză este de obicei rezultatul măsurării componentelor unui atribut multidimensional pentru fiecare dintre obiectele populației studiate, i.e. o succesiune de observații multivariate. Caracteristica multidimensională cel mai adesea interpretată ca o variabilă aleatoare multivariată și o secvență de observații multivariate ca un eșantion din populația generală. În acest caz, alegerea metodei de prelucrare a datelor statistice inițiale se face pe baza unor ipoteze privind natura legea distributiei caracteristică multidimensională studiată.

1. Analiza distribuțiilor multivariate și a principalelor caracteristici ale acestora acoperă situațiile în care observațiile prelucrate sunt de natură probabilistică, adică interpretat ca un eșantion din populația generală corespunzătoare. Sarcinile principale ale acestei subsecțiuni includ: estimarea statistică a distribuțiilor multivariate studiate și a parametrilor principali ai acestora; studiul proprietăților estimărilor statistice utilizate; studiul distribuțiilor de probabilitate pentru un număr de statistici, care sunt utilizate pentru a construi criterii statistice pentru testarea diferitelor ipoteze despre natura probabilistică a datelor multivariate analizate.
2. Analiza naturii și structurii relațiilor dintre componentele caracteristicii multidimensionale studiate combină conceptele și rezultatele inerente unor astfel de metode și modele ca analiză de regresie, analiză de dispersie, analiză de covarianță, analiză factorială, analiză latent-structurală, analiză log-liniară, căutare de interacțiuni . Metodele care aparțin acestui grup includ atât algoritmi bazați pe ipoteza naturii probabilistice a datelor, cât și metode care nu se încadrează în cadrul niciunui model probabilistic (acestea din urmă sunt adesea denumite metode de analiză a datelor).

3. Analiza structurii geometrice a setului studiat de observații multidimensionale combină conceptele și rezultatele inerente unor astfel de modele și metode precum analiza discriminantă, analiza clusterului, scalarea multidimensională. Nodul pentru aceste modele este conceptul de distanță, sau o măsură a proximității dintre elementele analizate ca puncte ale unui spațiu. În acest caz, atât obiectele (ca puncte specificate în spațiul de caracteristici) cât și caracteristicile (ca puncte specificate în spațiul obiect) pot fi analizate.

Valoarea aplicată a analizei statistice multivariate constă în principal în deservirea următoarelor trei probleme:

Probleme de cercetare statistică a dependențelor dintre indicatorii considerați;

Probleme de clasificare a elementelor (obiecte sau caracteristici);

Probleme de reducere a dimensiunii spațiului de caracteristici luate în considerare și de selectare a celor mai informative caracteristici.

Sunt prezentate conceptele și metodele de bază ale analizei statistice. multidimensionale rezultate tehnic experimente. <...>Informații teoretice despre proprietăți multidimensionale gaussian distribuţiile. <...>Rezultatul experimentului considerat în manual este Aleatoriu vector distribuite conform legii normale.<...>Multidimensional normal densitatea Adesea rezultatul unui experiment este totalitate numere care caracterizează un obiect studiat.<...>4 f x  Scrieți ca ξ  ~ ( ND,)μ  are p-dimensională normal distributie. înseamnă că vectorξ , ξ) ia diverse sensuri, deci este rezonabil să vorbim despre Aleatoriu vector 12 componentă vector,ξ  component,ξ  adică EDE E   ξ= E E ξ ξ  = μ = ξ − μ ξ − μ ()()  ξp unde E este semnul așteptări matematice. <...>Fie η p pp   prin soluții μ= ν +B ;.   bD BD Bη ξ = ′ , (1.3) Matrice D din (1.2) este simetric, definit pozitiv; prin urmare, reprezentarea sa este D CC′=Λ unde C este ortogonală matrice, compus din proprii vectori matrici;D Λ – diagonală matrice Cu proprii numereλ>i 0 matrici D de-a lungul diagonalei principale.<...> comun densitate componenta sa,1,η=i ip, determinată din general reguli(vezi anexa) este egal cu 5 (1.4) ; liniar transformare,η  unde B este o matrice pătrată de dimensiuni  este un vector aleator, de variații,.<...>Estimarea parametrilor distribuţiei normale ND . <...>Sarcina principală a matricei primare μ=i n  covarianta . <...>A ln ∂ = (1,5) reguli diferenţiere funcționale cu privire la argumentele vectoriale sau matrice (vezi<...>Atunci σ = ξ −ξ ξ − ξ = ξ ξ −ξ ξ∑∑ ij nn ki i kj j kk Aici kiξ este i-a componentă vector medie iμ i-a Componente vector . <...> Evaluări maxim credibilitate coeficienții j / ρ=σ σ σ au forma ij ,. ij ii jj ri j σ σσ  ≠ ii jj Dovada.<...>Estimarea dependenței dintre componente normal vector Analiză detaliată a link-urilor<...>

MU_to_performing_course_work_"Multivariate_statistical_analysis".pdf

UDC 519,2 LBC 22,172 K27 Revizor V.Yu. Chuev Kartashov G.D., Timonin V.I., Budovskaya L.M. K27 Analiză statistică multivariată: Orientări pentru implementarea lucrărilor de curs. - M .: Editura MSTU im. N.E. Bauman, 2007. - 48 p.: ill. Sunt prezentate conceptele și metodele de bază ale analizei statistice a rezultatelor multidimensionale ale experimentelor tehnice. Sunt date informații teoretice despre proprietățile distribuțiilor gaussiene multidimensionale. Pentru studenții seniori ai Facultății de Științe Fundamentale. Il. 2. Bibliografie. 5 nume UDC 519.2 LBC 22.172 © MSTU im. N.E. Bauman, 2007

Pagina 2

CUPRINS Introducere.............................................................. ............................. ................................. ................... ..... 3 1. Distribuție normală multivariată .................... .......................... 4 2. Inferențe statistice despre vectorul de medii .............. ...................... 17 3. Analiză discriminantă .. ..................... ............................ .............. 23 4. Metoda componentei principale .. ............................ ................................ ............ 27 5. Corelații canonice .................. ............... .............................. 30 6. Analiza regresiei multivariate .......... ................................... .. 35 7. Analiza factorială ....... ....................................... ........... ....................... 40 Anexă .......................... ...................................................... ..... .................................... 44 Referințe ....... ....................... ................................. ...................... ....................... 46 47

Introducerea unui PC în managementul economiei naționale presupune trecerea de la metodele tradiționale de analiză a activităților întreprinderilor la modele mai avansate de management economic, care permit dezvăluirea proceselor sale profunde.

Utilizarea pe scară largă a metodelor de statistică matematică în cercetarea economică face posibilă aprofundarea analizei economice, îmbunătățirea calității informațiilor în planificarea și prognozarea indicatorilor de producție și analiza eficacității acesteia.

Complexitatea și varietatea relațiilor dintre indicatorii economici determină multidimensionalitatea caracteristicilor și, prin urmare, necesită utilizarea celui mai complex aparat matematic - metode de analiză statistică multivariată.

Conceptul de „analiza statistică multivariată” implică combinarea unui număr de metode concepute pentru a explora o combinație de caracteristici interconectate. Vorbim despre dezmembrarea (partiționarea) mulțimii luate în considerare, care este reprezentată de trăsături multidimensionale într-un număr relativ mic de ele.

În același timp, trecerea de la un număr mare de caracteristici la unul mai mic are ca scop reducerea dimensiunii acestora și creșterea capacității informative. Acest scop se realizează prin identificarea informațiilor care se repetă, generate de trăsături interconectate, stabilirea posibilității de agregare (combinare, însumare) în funcție de unele trăsături. Acesta din urmă implică transformarea modelului actual într-un model cu mai puține caracteristici factoriale.

Metoda analizei statistice multidimensionale face posibilă identificarea modelelor existente în mod obiectiv, dar neexprimate în mod explicit, care se manifestă în anumite fenomene socio-economice. Trebuie să facem față acestui lucru atunci când rezolvăm o serie de probleme practice din domeniul economiei. În special, cele de mai sus au loc dacă este necesară acumularea (fixarea) simultană a valorilor mai multor caracteristici (trăsături) cantitative pentru obiectul de observație studiat, atunci când fiecare caracteristică este predispusă la variații necontrolate (în contextul obiectelor). ), în ciuda omogenității obiectelor de observație.

De exemplu, atunci când examinăm întreprinderi omogene (în ceea ce privește condițiile naturale și economice și tipul de specializare) în ceea ce privește o serie de indicatori ai eficienței producției, suntem convinși că atunci când trecem de la un obiect la altul, aproape fiecare dintre caracteristicile selectate ( identic) are o valoare numerică inegală, adică găsește, ca să spunem așa, împrăștiere necontrolată (aleatorie). O astfel de variație „aleatorie” a trăsăturilor tinde să urmeze unele tendințe (regulate), atât în ​​ceea ce privește dimensiunile bine definite ale trăsăturilor în jurul cărora se produce variația, cât și în ceea ce privește gradul și interdependența variației în sine.

Cele de mai sus conduc la definirea unei variabile aleatoare multidimensionale ca un set de caracteristici cantitative, valoarea fiecăreia fiind supusă împrăștierii necontrolate în timpul repetărilor acestui proces, observație statistică, experiență, experiment etc.

S-a spus anterior că analiza multivariată combină o serie de metode; să le numim: analiza factorială, analiza componentelor principale, analiza clusterului, recunoașterea modelelor, analiza discriminantă etc. Primele trei dintre aceste metode sunt luate în considerare în paragrafele următoare.

Ca și alte metode matematice și statistice, analiza multivariată poate fi eficientă în aplicarea sa, cu condiția ca informațiile inițiale să fie de înaltă calitate, iar datele observaționale să fie masive și să fie procesate cu ajutorul unui computer.

Concepte de bază ale metodei analizei factoriale, esența sarcinilor pe care le rezolvă

Atunci când se analizează (și în egală măsură studiate) fenomene socio-economice, se întâlnesc adesea cazuri când, printre varietatea (parametricitatea bogată) a obiectelor de observație, este necesară excluderea unei proporții de parametri, sau înlocuirea acestora cu un număr mai mic de anumite funcții. fără a afecta integritatea (completitudinea) informațiilor. Rezolvarea unei astfel de probleme are sens în cadrul unui anumit model și este determinată de structura acestuia. Un exemplu de astfel de model, cel mai potrivit pentru multe situații reale, este modelul analiza factorilor, ale căror metode vă permit să concentrați caracteristici (informații despre ele) prin „condensarea” unui număr mare într-o informație mai mică, mai încăpătoare. În acest caz, „condensul” de informații obținut ar trebui să fie reprezentat de cele mai semnificative și definitorii caracteristici cantitative.

Conceptul de „analiza factorială” nu trebuie confundat cu conceptul larg al analizei relațiilor cauză-efect, atunci când se studiază influența diverșilor factori (combinațiile, combinațiile acestora) asupra unui atribut productiv.

Esența metodei de analiză factorială este de a exclude descrierea caracteristicilor multiple ale studiului și de a o înlocui cu un număr mai mic de variabile informațional mai încăpătoare, care se numesc factori și reflectă cele mai semnificative proprietăți ale fenomenelor. Astfel de variabile sunt unele funcții ale caracteristicilor originale.

Analiza, în cuvintele lui Ya. Okun, 9 face posibilă existența primelor caracteristici aproximative ale regularităților care stau la baza fenomenului, pentru a formula primele concluzii generale despre direcțiile în care ar trebui efectuate cercetări ulterioare. În plus, el subliniază principala ipoteză a analizei factoriale, care este că fenomenul, în ciuda eterogenității și variabilității sale, poate fi descris de un număr mic de unități funcționale, parametri sau factori. Acești termeni sunt numiți diferit: influență, cauze, parametri, unități funcționale, abilități, indicatori principali sau independenți. Utilizarea unui termen sau altul este supusă

Okun Ya. Analiza factorială: Per. Cu. podea. M.: Statistică, 1974.- P.16.

context despre factorul și cunoașterea esenței fenomenului studiat.

Etapele analizei factoriale sunt comparații secvențiale ale diferitelor seturi de factori și opțiuni la grupuri cu includerea, excluderea și evaluarea semnificației diferențelor dintre grupuri.

V.M. Zhukovska și I.B. Muchnik 10, vorbind despre esența sarcinilor analizei factoriale, susțin că aceasta din urmă nu necesită subdiviziunea a priori a variabilelor în altele dependente și independente, deoarece toate variabilele din ea sunt considerate egale.

Sarcina analizei factorilor se reduce la un anumit concept, numărul și natura celor mai semnificative și relativ independente caracteristici funcționale ale fenomenului, contoarele sale sau parametrii de bază - factori. Potrivit autorilor, este important trăsătură distinctivă analiza factorială este că vă permite să explorați simultan un număr mare de variabile interdependente fără a presupune „constanța tuturor celorlalte condiții”, atât de necesară atunci când utilizați o serie de alte metode de analiză. Acesta este marele avantaj al analizei factoriale ca instrument valoros pentru studierea fenomenului, datorită diversității complexe și împletire a relațiilor.

Analiza se bazează în principal pe observații ale variației naturale a variabilelor.

1. Atunci când se utilizează analiza factorială, setul de variabile care sunt studiate în ceea ce privește relațiile dintre ele nu este ales în mod arbitrar: această metodă vă permite să identificați principalii factori care au un impact semnificativ în acest domeniu.

2. Analiza nu necesită ipoteze preliminare, dimpotrivă, ea însăși poate servi ca metodă de formulare a ipotezelor, precum și ca criteriu pentru ipoteze bazate pe date obținute prin alte metode.

3. Analiza nu necesită presupuneri a priori cu privire la care variabile sunt independente și dependente, nu exagerează relațiile cauzale și rezolvă problema întinderii acestora în procesul de cercetare ulterioară.

Lista sarcinilor specifice care trebuie rezolvate folosind metodele de analiză factorială va fi următoarea (conform lui V.M. Zhukovsky). Să le numim pe cele principale din domeniul cercetării socio-economice:

Jukovskaya V.M., Muchnik I.B. Analiza factorială în cercetarea socio-economică. - Statistică, 1976. P.4.

1. Determinarea principalelor aspecte ale diferenţelor dintre obiectele de observaţie (minimizarea descrierii).

2. Formularea de ipoteze despre natura diferențelor dintre obiecte.

3. Identificarea structurii relațiilor dintre trăsături.

4. Testarea ipotezelor despre relația și interschimbabilitatea caracteristicilor.

5. Compararea structurilor seturi de caracteristici.

6. Dezmembrarea obiectelor de observație pentru trăsături tipice.

Cele de mai sus indică marile posibilități de analiză factorială în

studiul fenomenelor sociale, unde, de regulă, este imposibil de controlat (experimental) influența factorilor individuali.

Este destul de eficient să folosiți rezultatele analizei factoriale în modele de regresie multiple.

Având un model de corelație-regresie preformat al fenomenului studiat sub formă de caracteristici corelate, cu ajutorul analizei factoriale, un astfel de set de caracteristici poate fi transformat într-un număr semnificativ mai mic al acestora prin agregare. În același timp, trebuie menționat că o astfel de transformare nu afectează în niciun fel calitatea și completitudinea informațiilor despre fenomenul studiat. Caracteristicile agregate generate sunt necorelate și reprezintă o combinație liniară a caracteristicilor primare. Din partea matematică formală, enunțul problemei în acest caz poate avea un set infinit de soluții. Dar trebuie să ne amintim că la studierea fenomenelor socio-economice, semnele agregate obţinute trebuie să aibă o interpretare justificată economic. Cu alte cuvinte, în orice caz de utilizare a aparatului matematic, în primul rând, ele ies din cunoaștere esenta economica fenomene studiate.

Astfel, cele de mai sus ne permit să rezumam că analiza factorială este o metodă de cercetare specifică, care se desfășoară pe baza unui arsenal de metode de statistică matematică.

Analiza factorială și-a găsit mai întâi aplicarea practică în domeniul psihologiei. Capacitatea de a reuni un număr mare teste psihologice la un număr restrâns de factori au permis să explice capacitatea inteligenţei umane.

În studiul fenomenelor socio-economice, unde există dificultăți în izolarea influenței variabilelor individuale, analiza factorială poate fi utilizată cu succes. Utilizarea metodelor sale permite, prin intermediul anumitor calcule, „filtrarea” caracteristicilor neesențiale și continuarea cercetărilor în direcția aprofundării acesteia.

Eficacitatea acestei metode este evidentă în studiul unor astfel de probleme (probleme): în economie - specializarea și concentrarea producției, intensitatea menajului, bugetul familiilor de muncitori, construirea diverșilor indicatori generalizatori. etc

Obiectele sociale și economice, de regulă, sunt caracterizate de un număr destul de mare de parametri care formează vectori multidimensionali, iar problemele studierii relațiilor dintre componentele acestor vectori sunt de o importanță deosebită în studiile economice și sociale, iar aceste relații trebuie fi identificate pe baza unui număr limitat de observații multidimensionale.

Analiza statistică multivariată este o secțiune de statistică matematică care studiază metodele de colectare și prelucrare a datelor statistice multivariate, sistematizarea și prelucrarea acestora în scopul identificării naturii și structurii relațiilor dintre componentele atributului multivariat studiat, precum și pentru a trage concluzii practice.

Rețineți că metodele de colectare a datelor pot varia. Deci, dacă cercetare economie mondială, atunci este firesc să luăm țări ca obiecte pe care se observă valorile vectorului X, dar dacă naționalul sistem economic, atunci este firesc să observați valorile vectorului X în aceeași țară (de interes pentru cercetător) în momente diferite în timp.

Metodele statistice precum corelația multiplă și analiza regresiei sunt în mod tradițional studiate în cadrul cursurilor de teoria probabilităților și statistică matematică, disciplina „Econometrie” este dedicată luării în considerare a aspectelor aplicate ale analizei de regresie.

Acest manual este dedicat altor metode de studiere a populațiilor generale multivariate pe baza datelor statistice.

Metodele de reducere a dimensiunii unui spațiu multidimensional permit, fără pierderi semnificative de informații, trecerea de la sistemul original al unui număr mare de factori interrelaționați observați la un sistem al unui număr semnificativ mai mic de factori ascunși (neobservabili) care determină variația caracteristicile inițiale. Primul capitol descrie metodele de analiză componente și factori, care pot fi utilizate pentru a identifica modele existente în mod obiectiv, dar nu direct observabile, folosind componente sau factori principali.

Metodele de clasificare multidimensională sunt concepute pentru a împărți colecțiile de obiecte (caracterizate printr-un număr mare de caracteristici) în clase, fiecare dintre acestea ar trebui să includă obiecte care sunt omogene sau similare într-un anumit sens. O astfel de clasificare bazată pe date statistice cu privire la valorile caracteristicilor obiectelor poate fi realizată folosind metodele de analiză cluster și discriminantă, discutate în al doilea capitol (Analiza statistică multivariată folosind „STATISTICA”).

Dezvoltarea tehnologiei informatice și a software-ului contribuie la introducerea pe scară largă în practică a metodelor de analiză statistică multivariată. Pachetele de aplicații cu o interfață de utilizator convenabilă, cum ar fi SPSS, Statistica, SAS etc., îndepărtează dificultățile în aplicarea acestor metode, care sunt complexitatea aparatului matematic bazat pe algebra liniară, teoria probabilității și statistica matematică, precum și greutatea calculele.

Cu toate acestea, utilizarea programelor fără înțelegerea esenței matematice a algoritmilor utilizați contribuie la dezvoltarea iluziei cercetătorului privind simplitatea utilizării metodelor statistice multivariate, ceea ce poate duce la rezultate incorecte sau nerezonabile. Rezultate practice semnificative pot fi obținute doar pe baza cunoștințelor profesionale din domeniul de studiu, susținute de cunoașterea metodelor matematice și a pachetelor de aplicații în care sunt implementate aceste metode.

Prin urmare, pentru fiecare dintre metodele luate în considerare în această carte, se oferă informații teoretice de bază, inclusiv algoritmi; se discută implementarea acestor metode și algoritmi în pachete de aplicații. Metodele luate în considerare sunt ilustrate prin exemple ale acestora aplicație practicăîn economie folosind pachetul SPSS.

Manualul este scris pe baza experienței citirii cursului „Metode statistice multivariate” către studenți. Universitate de stat management. Pentru un studiu mai detaliat al metodelor de analiză statistică multivariată aplicată se recomandă cărți.

Se presupune că cititorul este bine familiarizat cu cursurile de algebră liniară (de exemplu, în volumul manualului și anexa la manual), teoria probabilităților și statistica matematică (de exemplu, în volumul manualului).

Introducere

Capitolul 1 Analiza regresiei multiple

Capitolul 2. Analiza clusterelor

Capitolul 3. Analiza factorială

Capitolul 4. Analiza discriminantă

Bibliografie

Introducere

Informațiile inițiale din studiile socio-economice sunt cel mai adesea prezentate ca un set de obiecte, fiecare dintre acestea fiind caracterizat de o serie de caracteristici (indicatori). Deoarece numărul de astfel de obiecte și caracteristici poate ajunge la zeci și sute, iar analiza vizuală a acestor date este ineficientă, problemele de reducere, concentrare a datelor inițiale, dezvăluirea structurii și relației dintre ele pe baza construcției caracteristicilor generalizate ale iau naştere un set de caracteristici şi un set de obiecte. Astfel de probleme pot fi rezolvate prin metode de analiză statistică multivariată.

Analiza statistică multivariată este o secțiune de statistică dedicată metodelor matematice care vizează identificarea naturii și structurii relațiilor dintre componentele cercetării și destinată obținerii de concluzii științifice și practice.

Atenția principală în analiza statistică multivariată este acordată metodelor matematice de construire a planurilor optime de colectare, sistematizare și prelucrare a datelor, care vizează identificarea naturii și structurii relațiilor dintre componentele atributului multivariat studiat și menite să obțină concluzii științifice și practice.

Matricea inițială de date multidimensionale pentru efectuarea analizei multivariate este de obicei rezultatul măsurării componentelor unui atribut multidimensional pentru fiecare dintre obiectele populației studiate, de exemplu. o succesiune de observații multivariate. Un atribut multivariat este cel mai adesea interpretat ca și o secvență de observații ca un eșantion din populația generală. În acest caz, alegerea metodei de prelucrare a datelor statistice inițiale se face pe baza unor ipoteze privind natura legii de distribuție a atributului multidimensional studiat.

1. Analiza statistică multivariată a distribuțiilor multivariate și a principalelor caracteristici ale acestora acoperă situațiile în care observațiile prelucrate sunt de natură probabilistă, i.e. interpretat ca un eșantion din populația generală corespunzătoare. Sarcinile principale ale acestei subsecțiuni includ: estimarea statistică a distribuțiilor multivariate studiate și a parametrilor principali ai acestora; studiul proprietăților estimărilor statistice utilizate; studiul distribuțiilor de probabilitate pentru un număr de statistici, care sunt utilizate pentru a construi criterii statistice pentru testarea diferitelor ipoteze despre natura probabilistică a datelor multivariate analizate.

2. Analiza statistică multivariată a naturii și structurii interrelațiilor dintre componentele atributului multivariat studiat combină conceptele și rezultatele inerente unor metode și modele precum analiza, analiza varianței, analiza covarianței, analiza factorială etc. Metodele care aparțin acestui grup includ atât algoritmi bazați pe ipoteza naturii probabilistice a datelor, cât și metode care nu se încadrează în cadrul niciunui model probabilistic (acestea din urmă sunt adesea denumite metode).

3. Analiza statistică multidimensională a structurii geometrice a setului studiat de observații multivariate combină conceptele și rezultatele inerente unor astfel de modele și metode precum analiza discriminantă, analiza clusterului, scalarea multidimensională. Nodul pentru aceste modele este conceptul de distanță, sau o măsură a proximității dintre elementele analizate ca puncte ale unui spațiu. În acest caz, atât obiectele (ca puncte specificate în spațiul de caracteristici) cât și caracteristicile (ca puncte specificate în spațiul obiect) pot fi analizate.

Valoarea aplicată a analizei statistice multivariate constă în principal în rezolvarea următoarelor trei probleme:

sarcina studiului statistic al dependențelor dintre indicatorii luați în considerare;

sarcina de a clasifica elementele (obiecte sau caracteristici);

· sarcina de a reduce dimensiunea spațiului de caracteristici luate în considerare și de a selecta cele mai informative caracteristici.

Analiza de regresie multiplă este concepută pentru a construi un model care permite valorilor variabilelor independente să obțină estimări ale valorilor variabilei dependente.

Regresia logistică pentru rezolvarea problemei de clasificare. Acesta este un tip de regresie multiplă, al cărei scop este de a analiza relația dintre mai multe variabile independente și o variabilă dependentă.

Analiza factorială se ocupă cu determinarea unui număr relativ mic de factori ascunși (latenți), a căror variabilitate explică variabilitatea tuturor indicatorilor observați. Analiza factorială are ca scop reducerea dimensiunii problemei luate în considerare.

Analiza grupată și discriminantă sunt concepute pentru a împărți colecțiile de obiecte în clase, fiecare dintre acestea ar trebui să includă obiecte care sunt omogene sau apropiate într-un anumit sens. În analiza clusterului, nu se știe dinainte câte grupuri de obiecte vor apărea și ce dimensiune vor avea. Analiza discriminantă împarte obiectele în clase preexistente.

Capitolul 1 Analiza regresiei multiple

Misiunea: Cercetarea pieței imobiliare din Orel (regiunile sovietice și nordice).

Tabelul prezintă date despre prețul apartamentelor în Orel și despre diverși factori care îl determină:

· suprafata totala;

Zona bucătăriei

· spațiu de locuit;

tip de casa

numarul de camere. (Fig.1)

Orez. 1 Date inițiale

În coloana „Regiune” sunt utilizate denumirile:

3 - sovietic (elita, aparține regiunilor centrale);

4 - Nord.

În coloana „Tipul de casă”:

1 - caramida;

0 - panou.

Necesar:

1. Analizați relația tuturor factorilor cu indicatorul „Preț” și între ei. Selectați factorii cei mai potriviți pentru construirea unui model de regresie;

2. Construiți o variabilă dummy care să reflecte apartenența apartamentului la zonele centrale și periferice ale orașului;

3. Construiți un model de regresie liniară pentru toți factorii, inclusiv o variabilă inactivă în acesta. Explicați semnificația economică a parametrilor ecuației. Evaluați calitatea modelului, semnificația statistică a ecuației și a parametrilor acesteia;

4. Distribuiți factorii (cu excepția variabilei dummy) în funcție de gradul de influență asupra indicatorului „Preț”;

5. Construiți un model de regresie liniară pentru cei mai influenți factori, lăsând o variabilă inactivă în ecuație. Evaluează calitatea și semnificația statistică a ecuației și a parametrilor acesteia;

6. Justificați oportunitatea sau inadecvarea includerii unei variabile fictive în ecuația de la paragrafele 3 și 5;

7. Estimări de interval de estimare ale parametrilor ecuației cu o probabilitate de 95%;

8. Stabiliți cât va costa un apartament cu o suprafață totală de 74,5 m² într-o zonă de elită (periferică).

Performanţă:

1. După analizarea relației tuturor factorilor cu indicatorul „Preț” și între ei, factorii cei mai potriviți pentru construirea unui model de regresie au fost selectați folosind metoda de includere „Înainte”:

A) suprafața totală;

C) numărul de camere.

Variabile incluse/excluse (a)

a Variabilă dependentă: Preț

2. Variabila X4 „Regiune” este o variabilă inactivă, deoarece are 2 valori: 3-aparținând regiunii centrale „sovietice”, 4- regiunii periferice „Severny”.

3. Să construim un model de regresie liniară pentru toți factorii (inclusiv variabila inactivă X4).

Model primit:

Evaluarea calitatii modelului.

Eroare standard = 126,477

Raportul Durbin-Watson = 2,136

Verificarea semnificației ecuației de regresie

Valoarea testului F-Fisher = 41,687

4. Să construim un model de regresie liniară cu toți factorii (cu excepția variabilei fictive X4)

În funcție de gradul de influență asupra indicatorului „Preț”, acestea au fost distribuite:

Cel mai semnificativ factor este suprafața totală (F= 40,806)

Al doilea cel mai important factor este numărul de camere (F= 29.313)

5. Variabile incluse/excluse

a Variabilă dependentă: Preț

6. Să construim un model de regresie liniară pentru cei mai influenți factori cu o variabilă dummy, în cazul nostru este unul dintre factorii influenți.

Model primit:

Y \u003d 348,349 + 35,788 X1 -217,075 X4 +305,687 X7

Evaluarea calitatii modelului.

Coeficientul de determinare R2 = 0,807

Arată proporția de variație a trăsăturii rezultate sub influența factorilor studiați. În consecință, se ia în considerare aproximativ 89% din variația variabilei dependente și datorită influenței factorilor incluși în model.

Coeficientul de corelație multiplă R = 0,898

Arată apropierea relației dintre variabila dependentă Y cu toți factorii explicativi incluși în model.

Eroare standard = 126,477

Raportul Durbin-Watson = 2,136

Verificarea semnificației ecuației de regresie

Valoarea testului F-Fisher = 41,687

Ecuația de regresie trebuie recunoscută ca fiind adecvată, modelul fiind considerat semnificativ.

Cel mai semnificativ factor este numărul de camere (F=41.687)

Al doilea cel mai important factor este suprafața totală (F= 40,806)

Al treilea factor ca importanță este regiunea (F= 32.288)

7. Variabila inactivă X4 este un factor semnificativ, de aceea este indicat să o includeți în ecuație.

Estimările pe intervale ale parametrilor ecuației arată rezultatele prognozării prin modelul de regresie.

Cu o probabilitate de 95%, volumul vânzărilor în luna prognozată va fi de la 540,765 la 1080,147 milioane de ruble.

8. Determinarea costului unui apartament într-o zonă de elită

Pentru 1 cameră U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 1

Pentru 2 camere U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 2

Pentru 3 camere U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 3

în periferic

Pentru 1 cameră U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 1

Pentru 2 camere U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 2

Pentru 3 camere U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 3

Capitolul 2. Analiza clusterelor

Sarcina: Studiul structurii cheltuielilor și economiilor monetare ale populației.

Tabelul prezintă structura cheltuielilor și economiilor în numerar ale populației pe regiuni din Districtul Federal Central Federația Rusăîn 2003 Pentru următorii indicatori:

PTIOU - achiziționarea de bunuri și plata serviciilor;

· OPiV - plăți și contribuții obligatorii;

PN - achiziționarea de bunuri imobiliare;

· PFA – creșterea activelor financiare;

· DR - creșterea (scăderea) banilor în mâinile populației.

Orez. 8 Date inițiale

Necesar:

1) determinați numărul optim de clustere pentru împărțirea regiunilor în grupuri omogene în funcție de toate caracteristicile de grupare simultan;

2) efectuați clasificarea zonelor printr-o metodă ierarhică cu un algoritm de relații intergrup și afișați rezultatele sub forma unei dendrograme;

3) analizarea principalelor priorități de cheltuieli și economii de numerar în clusterele rezultate;

Performanţă:

1) Determinați numărul optim de clustere pentru împărțirea regiunilor în grupuri omogene în funcție de toate caracteristicile de grupare simultan;

Pentru a determina numărul optim de clustere, trebuie să utilizați Analiza cluster ierarhică și să consultați tabelul „Pași de aglomerare” la coloana „Coeficienți”.

Acești coeficienți implică distanța dintre două clustere, determinată pe baza măsurării distanței selectate (distanța euclidiană). În etapa în care măsura distanței dintre două clustere crește brusc, procesul de fuziune în noi clustere trebuie oprit.

Ca urmare, numărul optim de clustere este considerat a fi egal cu diferența dintre numărul de observații (17) și numărul pasului (14), după care coeficientul crește brusc. Astfel, numărul optim de clustere este 3. (Fig. 9)

cluster de analiză statistică matematică

Orez. 9 Tabel „Pași de sinterizare”

2) Efectuați clasificarea zonelor printr-o metodă ierarhică cu un algoritm de relații intergrup și afișați rezultatele sub forma unei dendrograme;

Acum, folosind numărul optim de clustere, clasificăm zonele folosind o metodă ierarhică. Și în rezultat ne întoarcem la tabelul „Aparținând clusterelor”. (Fig.10)

Orez. 10 Tabel „Aparținând clusterelor”

Pe Fig. 10 arată clar că clusterul 3 include 2 regiuni (Kaluga, Moscova) și Moscova, clusterul 2 include două regiuni (Bryansk, Voronezh, Ivanovo, Lipetsk, Oryol, Ryazan, Smolensk, Tambov, Tver), cluster 1 - Belgorod, Vladimir, Kostroma , Kursk, Tula, Yaroslavl.

Orez. 11 Dendrograma

3) analizarea principalelor priorități de cheltuieli și economii de numerar în clusterele rezultate;

Pentru a analiza clusterele rezultate, trebuie să efectuăm o „Comparație a mediilor”. Fereastra de ieșire afișează următorul tabel (Fig. 12)

Orez. 12 Valorile medii ale variabilelor

În tabelul „Valori medii” putem urmări care structuri au cea mai mare prioritate în repartizarea cheltuielilor de numerar și a economiilor populației.

În primul rând, trebuie menționat că cea mai mare prioritate în toate domeniile este acordată achiziționării de bunuri și plății pentru servicii. Parametrul ia o valoare mai mare în al treilea cluster.

Locul 2 este ocupat de creșterea activelor financiare. Cea mai mare valoareîn 1 cluster.

Cel mai mic coeficient din clusterele 1 și 2 este pentru „achiziția de bunuri imobiliare”, iar în clusterul 3 s-a evidențiat o scădere notabilă a banilor în mâinile populației.

În general, achiziția de bunuri și servicii și achiziția nesemnificativă de bunuri imobiliare au o importanță deosebită pentru populație.

4) comparați clasificarea rezultată cu rezultatele aplicării algoritmului de relație intragrup.

În analiza relațiilor intergrupale, situația practic nu s-a schimbat, cu excepția regiunii Tambov, care s-a împărțit în 1 din 2 clustere (Fig. 13).

Orez. 13 Analiza relaţiilor intra-grup

Nu au existat modificări în tabelul „Medii”.

Capitolul 3. Analiza factorială

Sarcina: Analiza activitatilor intreprinderilor industria ușoară.

Datele sondajului sunt disponibile pentru 20 de întreprinderi din industria uşoară (Fig. 14), conform următoarelor caracteristici:

X1 - nivelul productivității capitalului;

X2 – intensitatea muncii a unei unități de producție;

X3 - ponderea materialelor de achiziție în costurile totale;

X4 – factor de schimbare a echipamentului;

X5 - bonusuri și remunerație per angajat;

X6 - proporția pierderilor din căsătorie;

X7 – costul mediu anual al mijloacelor fixe de producție;

X8 - fondul de salariu mediu anual;

X9 - nivelul de comercializare a produselor;

· X10 – indicele activelor permanente (raportul dintre mijloacele fixe și alte active imobilizate și fondurile proprii);

X11 - cifra de afaceri a capitalului de lucru;

X12 - costuri de non-producție.

Fig.14 Date inițiale

Necesar:

1. efectuează o analiză factorială a următoarelor variabile: 1,3,5-7, 9, 11,12, identifică și interpretează caracteristicile factorilor;

2. indicați cele mai prospere și promițătoare întreprinderi.

Performanţă:

1. Efectuați o analiză factorială a următoarelor variabile: 1,3,5-7, 9, 11,12, identificați și interpretați caracteristicile factorilor.

Analiza factorială este un set de metode care, pe baza relațiilor din viața reală a obiectelor (trăsăturilor), fac posibilă identificarea caracteristicilor generalizatoare latente (implicite) ale structurii organizaționale.

În caseta de dialog de analiză factorială, selectați variabilele noastre, specificați parametrii necesari.

Orez. 15 Varianta totală explicată

Conform tabelului „Varianța totală explicată” se poate observa că au fost identificați 3 factori care explică 74,8% din variațiile variabilelor – modelul construit este destul de bun.

Acum interpretăm semnele factorilor conform „Matricea componentelor rotite”: (Fig.16).

Orez. 16 Matricea componentelor rotite

Factorul 1 este cel mai strâns legat de nivelul vânzărilor de produse și are o relație inversă cu costurile de non-producție.

Factorul 2 este cel mai strâns legat de ponderea materialelor de achiziție în costurile totale și ponderea pierderilor din căsătorie și are o relație inversă cu bonusurile și remunerația per angajat.

Factorul 3 este cel mai strâns legat de nivelul de productivitate a capitalului și de cifra de afaceri a capitalului de lucru și are o relație inversă cu costul mediu anual al mijloacelor fixe.

2. Indicați cele mai prospere și promițătoare întreprinderi.

Pentru a identifica cele mai prospere întreprinderi, vom sorta datele după 3 criterii factoriale în ordine descrescătoare. (Fig.17)

Ar trebui luate în considerare cele mai prospere întreprinderi: 13,4,5, deoarece în general, în funcție de 3 factori, indicatorii lor ocupă pozițiile cele mai înalte și stabile.

Capitolul 4. Analiza discriminantă

Evaluarea bonității persoanelor juridice într-o bancă comercială

Banca a selectat șase indicatori ca indicatori semnificativi care caracterizează situația financiară a organizațiilor de împrumut (Tabelul 4.1.1):

QR (X1) - raport rapid de lichiditate;

CR (X2) - raportul de lichiditate curent;

EQ/TA (X3) - raportul de independență financiară;

TD/EQ (X4) - totalul datoriilor față de capitalul propriu;

ROS (X5) - rentabilitatea vânzărilor;

FAT (X6) - cifra de afaceri a mijloacelor fixe.

Tabelul 4.1.1. Datele inițiale


Necesar:

Pe baza analizei discriminante folosind pachetul SPSS, determinați căreia dintre cele patru categorii îi aparțin trei debitori ( entitati legale) care doresc să obțină un împrumut de la o bancă comercială:

§ Grupa 1 - cu performante financiare excelente;

§ Grupa 2 - cu performante financiare bune;

§ Grupa 3 - cu performante financiare slabe;

§ Grupa 4 - cu performante financiare foarte slabe.

Pe baza rezultatelor calculului, construiți funcții discriminante; evaluați semnificația lor prin coeficientul Wilks (λ). Construiți o hartă de percepție și diagrame ale pozițiilor relative ale observațiilor în spațiul a trei funcții. Efectuați interpretarea rezultatelor analizei.

Progres:

Pentru a determina căreia dintre cele patru categorii îi aparțin trei debitori care doresc să obțină un împrumut de la o bancă comercială, construim o analiză discriminantă care ne permite să stabilim cărora dintre populațiile identificate anterior (eșantioane de instruire) ar trebui să li se atribuie clienți noi. .

Ca variabilă dependentă, vom alege un grup din care poate face parte împrumutatul, în funcție de performanța financiară a acestuia. Din datele sarcinii, fiecărui grup i se atribuie un scor corespunzător de 1, 2, 3 și 4.

Coeficienții canonici nenormalizați ai funcțiilor discriminante prezentate în Fig. 4.1.1 sunt folosite pentru a construi ecuația funcțiilor discriminante D1(X), D2(X) și D3(X):

3.) D3(X) =


1

(Constant)

Orez. 4.1.1. Coeficienții funcției discriminante canonice

Orez. 4.1.2. Lambda Wilks

Cu toate acestea, deoarece semnificația prin coeficientul Wilks (Fig. 4.1.2) a doua și a treia funcții este mai mare de 0,001, nu este recomandabil să le folosiți pentru discriminare.

Datele din tabelul „Rezultatele clasificării” (Fig. 4.1.3) indică faptul că pentru 100% din observații clasificarea a fost efectuată corect, s-a obținut o precizie ridicată în toate cele patru grupuri (100%).

Orez. 4.1.3. Rezultatele clasificării

Informațiile despre grupurile reale și cele prognozate pentru fiecare împrumutat sunt date în tabelul „Statistici punctuale” (Fig. 4.1.4).

În urma analizei discriminante, s-a determinat cu mare probabilitate ca noii debitori ai băncii să aparțină subsetului de instruire M1 - primul, al doilea și al treilea debitor (numerele de serie 41, 42, 43) sunt alocați subsetului M1 cu probabilitățile corespunzătoare de 100%.

Numărul de observație

Grupul real

Cel mai probabil grup

Grupul prezis

negrupate

negrupate

negrupate

Orez. 4.1.4. Statistici de puncte

Coordonatele centroizilor pe grupuri sunt date în tabelul „Funcții în centroizii de grup” (Fig. 4.1.5). Ele sunt utilizate pentru a reprezenta un grafic centroizi pe o hartă perceptivă (Figura 4.1.6).

1

Orez. 4.1.5. Funcții în centroizii de grup

Orez. 4.1.6. Harta de percepție pentru două funcții discriminante D1(X) și D2(X) (* - centroid de grup)

Câmpul „Hărții teritoriale” este împărțit prin funcții discriminante în patru zone: în partea stângă se observă în principal observațiile celui de-al patrulea grup de debitori cu performanțe financiare foarte slabe, în partea dreaptă - primul grup cu performanțe financiare excelente, în părțile mijlocii și inferioare - al treilea și al doilea grup de debitori cu performanțe financiare proaste și, respectiv, bune.

Orez. 4.1.7. Scatterplot pentru toate grupurile

Pe fig. 4.1.7 arată programul combinat pentru distribuirea tuturor grupurilor de debitori împreună cu centroizii acestora; poate fi folosit pentru a efectua o analiză vizuală comparativă a naturii poziției relative a grupurilor de debitori bănci în ceea ce privește indicatorii financiari. În partea dreaptă a graficului sunt împrumutați cu performanță ridicată, în stânga - cu performanță scăzută, iar în mijloc - cu performanță financiară medie. Deoarece, conform rezultatelor calculului, a doua funcție discriminantă D2(X) s-a dovedit a fi nesemnificativă, diferențele dintre coordonatele centrului de centru de-a lungul acestei axe sunt nesemnificative.

Evaluarea bonității persoanelor fizice dintr-o bancă comercială

Departamentul de credit al unei bănci comerciale a efectuat un sondaj pe 30 dintre clienții săi (persoane fizice). Pe baza unei analize preliminare a datelor, debitorii au fost evaluați în funcție de șase indicatori (Tabelul 4.2.1):

X1 - împrumutatul a luat un împrumut banci comerciale anterior;

X2 este venitul mediu lunar al familiei debitorului, mii de ruble;

X3 - termenul (perioada) de rambursare a creditului, ani;

X4 - suma împrumutului acordat, mii de ruble;

X5 - componența familiei împrumutatului, persoane;

X6 - vârsta debitorului, ani.

În același timp, au fost identificate trei grupuri de debitori în funcție de probabilitatea de rambursare a creditului:

§ Grupa 1 - cu o probabilitate redusă de rambursare a creditului;

§ Grupa 2 - cu o probabilitate medie de rambursare a creditului;

§ Grupa 3 - cu o mare probabilitate de rambursare a creditului.

Necesar:

Pe baza analizei discriminante folosind pachetul SPSS, este necesar să se clasifice trei clienți bănci (în funcție de probabilitatea de rambursare a creditului), i.e. evaluați dacă fiecare dintre ei aparține unuia dintre cele trei grupuri. Pe baza rezultatelor calculului, construiți funcții discriminante semnificative, evaluați semnificația lor prin coeficientul Wilks (λ). În spațiul a două funcții discriminante pentru fiecare grup, construiți diagrame ale aranjamentului reciproc al observațiilor și o diagramă combinată. Evaluați locația fiecărui împrumutat pe aceste diagrame. Efectuați interpretarea rezultatelor analizei.

Tabelul 4.2.1. Datele inițiale

Progres:

Pentru a construi o analiză discriminantă, alegem ca variabilă dependentă probabilitatea rambursării la timp a unui împrumut de către un client. Având în vedere că poate fi scăzut, mediu și mare, fiecărei categorii i se va atribui un punctaj corespunzător de 1,2 și 3.

Coeficienții canonici nenormalizați ai funcțiilor discriminante prezentate în Fig. 4.2.1 sunt folosite pentru a construi ecuația funcțiilor discriminante D1(X), D2(X):

2.) D2(X) =

Orez. 4.2.1. Coeficienții funcției discriminante canonice

Orez. 4.2.2. Lambda Wilks

Conform coeficientului Wilks (Fig. 4.2.2) pentru a doua funcție, semnificația este mai mare de 0,001, prin urmare, nu este recomandabil să-l folosești pentru discriminare.

Datele din tabelul „Rezultatele de clasificare” (Fig. 4.2.3) indică faptul că pentru 93,3% din observații clasificarea a fost efectuată corect, s-a obținut o precizie ridicată în prima și a doua grupă (100% și 91,7%), mai puțin precisă. rezultatele au fost obţinute în al treilea grup (88,9%).

Orez. 4.2.3. Rezultatele clasificării

Informațiile despre grupurile reale și previzionate pentru fiecare client sunt date în tabelul „Statistici de puncte” (Fig. 4.2.4).

În urma analizei discriminante, s-a determinat cu mare probabilitate ca noii clienți ai băncii să aparțină subsetului de instruire M3 - primul, al doilea și al treilea clienți (numerele de serie 31, 32, 33) sunt alocați subsetului M3 cu probabilitățile corespunzătoare de 99%, 99% și 100%.

Numărul de observație

Grupul real

Cel mai probabil grup

Grupul prezis

negrupate

negrupate

negrupate

Orez. 4.2.4. Statistici de puncte

Probabilitatea rambursării creditului

Orez. 4.2.5. Funcții în centroizii de grup

Coordonatele centroizilor pe grupuri sunt date în tabelul „Funcții în centroizii de grup” (Fig. 4.2.5). Ele sunt folosite pentru a reprezenta un grafic centroizi pe o hartă perceptivă (Figura 4.2.6).

Câmpul „Harta teritorială” este împărțit prin funcții discriminante în trei zone: în partea stângă sunt în principal observații ale primului grup de clienți cu o probabilitate foarte mică de rambursare a creditului, în partea dreaptă - al treilea grup cu probabilitate mare. , la mijloc - al doilea grup de clienți cu o probabilitate medie de rambursare a împrumutului, respectiv.

Pe fig. 4.2.7 (a - c) reflectă locația clienților fiecăruia dintre cele trei grupuri pe planul a două funcții discriminante D1(X) și D2(X). Pe baza acestor grafice, este posibil să se efectueze o analiză detaliată a probabilității de rambursare a unui împrumut în cadrul fiecărui grup, să se judece natura distribuției clienților și să se evalueze gradul de îndepărtare a acestora față de centroidul corespunzător.

Orez. 4.2.6. Harta de percepție pentru trei funcții discriminante D1(X) și D2(X) (* - centroid de grup)

De asemenea, în fig. 4.2.7 (d) în același sistem de coordonate, graficul combinat al distribuției tuturor grupurilor de clienți este prezentat împreună cu centroizii acestora; poate fi utilizat pentru a efectua o analiză vizuală comparativă a naturii poziției relative a grupurilor de clienți bănci cu probabilități diferite de rambursare a creditului. În partea stângă a graficului sunt împrumutați cu o probabilitate mare de a rambursa împrumutul, în dreapta - cu o probabilitate scăzută, iar în partea din mijloc - cu o probabilitate medie. Deoarece, conform rezultatelor calculului, a doua funcție discriminantă D2(X) s-a dovedit a fi nesemnificativă, diferențele dintre coordonatele centrului de centru de-a lungul acestei axe sunt nesemnificative.

Orez. 4.2.7. Localizarea observațiilor pe planul a două funcții discriminante pentru grupurile cu probabilitate scăzută (a), medie (b), mare (c) de rambursare a creditului și pentru toate grupurile (d)

Bibliografie

1. „Analiza statistică multivariată în problemele economice. Modelare computerizată în SPSS”, 2009

2. Orlov A.I. „Statistică aplicată” M .: Editura „Examen”, 2004

3. Fisher R.A. „Metode statistice pentru cercetători”, 1954

4. Kalinina V.N., Soloviev V.I. Manualul SUM „Introducere în analiza statistică multivariată”, 2003;

5. Achim Buyul, Peter Zöfel, SPSS: The Art of Information Processing, DiaSoft Publishing, 2005;

6. http://ru.wikipedia.org/wiki