Tipuri de dependențe studiate în analiza statistică multivariată. Analiza statistică multivariată

Sunt prezentate conceptele și metodele de bază ale analizei statistice. multidimensionale rezultate tehnic experimente. <...>Informații teoretice despre proprietăți multidimensionale gaussian distribuţiile. <...>Rezultatul experimentului considerat în manual este Aleatoriu vector distribuite conform legii normale.<...>Multidimensional normal densitatea Adesea rezultatul unui experiment este totalitate numere care caracterizează un obiect studiat.<...>4 f x  Scrieți ca ξ  ~ ( ND,)μ  are p-dimensională normal distributie. înseamnă că vectorξ , ξ) ia diverse sensuri, deci este rezonabil să vorbim despre Aleatoriu vector 12 componentă vector,ξ  component,ξ  adică EDE E   ξ= E E ξ ξ  = μ = ξ − μ ξ − μ ()()  ξp unde E este semnul așteptării.<...>Fie η p pp   prin soluții μ= ν +B ;.   bD BD Bη ξ = ′ , (1.3) Matrice D din (1.2) este simetric, definit pozitiv; prin urmare, reprezentarea sa este D CC′=Λ unde C este ortogonală matrice, compus din proprii vectori matrici;D Λ – diagonală matrice Cu proprii numereλ>i 0 matrici D de-a lungul diagonalei principale.<...> comun densitate componenta sa,1,η=i ip, determinată din general reguli(vezi anexa) este egal cu 5 (1.4) ; liniar transformare,η  unde B este o matrice pătrată de dimensiuni  este un vector aleator, de variații,.<...>Estimarea parametrilor distribuţiei normale ND . <...>Sarcina principală a matricei primare μ=i n  covarianta . <...>A ln ∂ = (1,5) reguli diferenţiere funcționale cu privire la argumentele vectoriale sau matrice (vezi<...>Atunci σ = ξ −ξ ξ − ξ = ξ ξ −ξ ξ∑∑ ij nn ki i kj j kk Aici kiξ este i-a componentă vector medie iμ i-a Componente vector . <...> Evaluări maxim credibilitate coeficienții j / ρ=σ σ σ au forma ij ,. ij ii jj ri j σ σσ  ≠ ii jj Dovada.<...>Estimarea dependenței dintre componente normal vector Analiză detaliată a link-urilor<...>

MU_to_performing_course_work_"Multivariate_statistical_analysis".pdf

UDC 519,2 LBC 22,172 K27 Revizor V.Yu. Chuev Kartashov G.D., Timonin V.I., Budovskaya L.M. K27 Analiză statistică multivariată: Orientări pentru implementarea lucrărilor de curs. - M .: Editura MSTU im. N.E. Bauman, 2007. - 48 p.: ill. Sunt prezentate conceptele și metodele de bază ale analizei statistice a rezultatelor multidimensionale ale experimentelor tehnice. Sunt date informații teoretice despre proprietățile distribuțiilor gaussiene multidimensionale. Pentru studenții seniori ai Facultății de Științe Fundamentale. Il. 2. Bibliografie. 5 nume UDC 519.2 LBC 22.172 © MSTU im. N.E. Bauman, 2007

Pagina 2

CUPRINS Introducere.............................................................. ............................. ................................. ................... ..... 3 1. Distribuție normală multivariată .................... .......................... 4 2. Inferențe statistice despre vectorul de medii .............. ...................... 17 3. Analiză discriminantă .. ..................... ............................ .............. 23 4. Metoda componentei principale .. ............................ ................................ ............ 27 5. Corelații canonice .................. ............... .............................. 30 6. Analiza regresiei multivariate .......... ................................... .. 35 7. Analiza factorială ....... ....................................... ........... ....................... 40 Anexă .......................... ...................................................... ..... .................................... 44 Referințe ....... ....................... ................................. ...................... ....................... 46 47

Din prefața autorului
Capitolul 1 Introducere
1.1. Distribuția normală multivariată ca model
1.2. revizuire generală metode multidimensionale
Literatură
capitolul 2
2.1. Introducere
2.2. Concepte legate de distribuțiile multivariate
2.3. Distribuție normală multivariată
2.4. Distribuția unei combinații liniare de mărimi distribuite normal; independența cantităților; distributii private
2.5. Distribuții condiționate și coeficient de corelație multiplă
2.6. funcția caracteristică; momente
Literatură
Sarcini
Capitolul 3 Estimarea vectorului mediu și a matricei de covarianță
3.1. Introducere
3.2. Estimări de probabilitate maximă pentru vectorul mediu și matricea de covarianță
3.3. Distribuția vectorială medie a eșantionului; concluzie despre medie atunci când matricea de covarianță este cunoscută
Literatură
Sarcini
Capitolul 4. Distribuțiile și utilizarea coeficienților de corelație ale eșantionului
4.1. Introducere
4.2. Coeficientul de corelație al probei 2D
4.3. Coeficienți de corelație parțială
4.4. Coeficient de corelație multiplă
Literatură
Sarcini
capitolul 5
5.1. Introducere
5.2. Statistica generalizată T2 și distribuția acesteia
5.3. Aplicații ale statisticii T2
5.4. Distribuția statisticilor T2 în prezența ipotezelor concurente; functie de putere
5.5. Câteva proprietăți optime ale criteriului T2
5.6. Problemă multidimensională Behrens-Fischer
Literatură
Sarcini
Capitolul 6
6.1. Problema de clasificare
6.2. Principii de clasificare corectă
6.3. Metode de clasificare a observațiilor în cazul a două populații cu o distribuție de probabilitate cunoscută
6.4. Clasificarea observațiilor în cazul a două populații cu distribuții normale multivariate cunoscute
6.5. Clasificarea observațiilor în cazul a două populații normale multivariate ai căror parametri sunt estimați dintr-un eșantion
6.6. Clasificarea observaţiilor în cazul mai multor populaţii
6.7. Clasificarea observațiilor în cazul mai multor populații normale multivariate
6.8. Un exemplu de clasificare în cazul mai multor populații normale multivariate
Literatură
Sarcini
Capitolul 7
7.1. Introducere
7.2. Distribuție Wishart
7.3. Unele proprietăți ale distribuției Wishart
7.4. teorema lui Cochran
7.5. Varianta generalizata
7.6. Distribuția setului de coeficienți de corelație în cazul unei matrice de covarianță diagonală a populației
Literatură
Sarcini
Capitolul 8 Analiza variatiei
8.1. Introducere
8.2. Estimări ale parametrilor pentru regresia liniară multivariată
8.3. Teste ale raportului de probabilitate pentru testarea ipotezelor liniare despre coeficienții de regresie
8.4. Momente ale raportului de probabilitate în cazul în care ipoteza nulă este adevărată
8.5. Unele distribuții ale U
8.6. Expansiunea asimptotică a distribuției raportului de probabilitate
8.7. Testarea ipotezelor matricelor de coeficienți de regresie și regiunilor de încredere
8.8. Testarea ipotezei despre egalitatea mediilor distribuțiilor normale cu o matrice de covarianță comună
8.9. Analiza generalizată a varianței
8.10. Alte criterii pentru testarea ipotezei liniare
8.11. Forma canonică
Literatură
Sarcini
Capitolul 9
9.1. Introducere
9.2. Raportul de probabilitate ca criteriu pentru testarea ipotezei de independență a seturilor de variabile aleatoare
9.3. Momentele raportului de probabilitate cu condiția ca ipoteza nulă să fie adevărată
9.4. Unele distribuții ale raportului de probabilitate
9.5. Expansiunea asimptotică a distribuției lui h (raportul de probabilitate)
9.6. Exemplu
9.7. Cazul a două seturi de variabile aleatoare
Literatură
Sarcini
Capitolul 10
10.1 Introducere
10.2 Criterii de testare a ipotezelor despre egalitatea mai multor matrice de covarianță
10.3. Criterii de testare a ipotezei echivalenței mai multor populații normale
10.4. Momente ale raportului de probabilitate
10.5. Expansiuni asimptotice ale funcțiilor de distribuție a mărimilor V1 și V
10.6. Cazul a două populații
10.7. Testarea ipotezei că matricea de covarianță este proporțională cu matricea dată. Criteriul de sfericitate
10.8. Testarea ipotezei că matricea de covarianță este egală cu matricea dată
10.9. Testarea ipotezei că vectorul mediu și matricea de covarianță sunt, respectiv, egale vector datși matricea dată
Literatură
Sarcini
Capitolul 11
11.1. Introducere
11.2. Determinarea Componentelor Principale ale Populației
11.3. Estimări de maximă probabilitate pentru componentele principale și variațiile acestora
11.4. Calcularea estimărilor de probabilitate maximă pentru componentele principale
11.5. Exemplu
Literatură
Sarcini
Capitolul 12
12.1. Introducere
12.2. Corelații canonice și valori canonice ale populației
12.3. Estimarea corelațiilor canonice și a mărimilor canonice
12.4. Metoda de calcul
12.5. Exemplu
Literatură
Sarcini
Capitolul 13
13.1. Introducere
13.2. Cazul a două matrice Wishart
13.3. Cazul unuia matrice nedegenerată Wishart
13.4. Corelații canonice
Literatură
Sarcini
Capitolul 14
14.1. Introducere
14.2 Testarea ipotezelor despre rang și evaluarea constrângerilor liniare asupra coeficienților de regresie. Corelații canonice și mărimi canonice
14.3. Distribuție Wishart non-centrală
14.4. Distribuția unor rădăcini și vectori caracteristici în funcție de parametri
14.5. Distribuția asimptotică a unor rădăcini și vectori caracteristici
14.6. Componentele principale
14.7. Analiza factorilor
14.8. Ecuații stocastice
14.9. Analiza serii temporale
Literatură
Aplicație. Teoria matricelor
1. Definirea matricelor. Acțiuni Matrice
2. Rădăcini și vectori caracteristici
3. Împărțirea vectorilor și matricelor în blocuri
4. Câteva rezultate
5. Metoda de reducere Doolittle și metoda de condensare a axelor pentru sisteme de rezolvare ecuatii lineare
Literatură
Index de subiect

Econometrie

Analiza statistică multivariată


În analiza statistică multivariată, un eșantion este format din elemente ale unui spațiu multivariat. De aici și numele acestei secțiuni de metode econometrice. Dintre numeroasele probleme ale analizei statistice multivariate, să luăm în considerare două - recuperarea dependenței și clasificarea.

Estimarea funcției predictive liniare

Să începem cu problema estimării punctuale și de încredere a unei funcții predictive liniare a unei variabile.

Datele inițiale sunt un set de n perechi de numere (t k , x k), k = 1,2,…,n, unde t k este o variabilă independentă (de exemplu, timpul) și x k este o variabilă dependentă (de exemplu, indicele inflației, cursul de schimb al dolarului american, producția lunară sau mărimea veniturilor zilnice ale punctului de vânzare). Se presupune că variabilele sunt legate

x k = a (t k - t cf)+ b + e k , k = 1,2,…,n,

unde a și b sunt parametri necunoscuți de statistică și supuși estimărilor, iar e k sunt erori care distorsionează dependența. Media aritmetică a punctelor de timp

t cf \u003d (t 1 + t 2 + ... + t n) / n

introduse în model pentru a facilita calculele ulterioare.

De obicei, parametrii a și b ai dependenței liniare sunt estimați folosind metoda celor mai mici pătrate. Relația reconstruită este apoi utilizată pentru predicția punctului și a intervalului.

După cum știți, metoda celor mai mici pătrate a fost dezvoltată de marele matematician german K. Gauss în 1794. Conform acestei metode, pentru a calcula cea mai bună funcție care aproximează liniar dependența lui x de t, ar trebui să se ia în considerare o funcție a două variabile


Estimările celor mai mici pătrate sunt acele valori ale lui a* și b* pentru care funcția f(a,b) atinge un minim peste toate valorile argumentelor.

Pentru a afla aceste estimări, este necesar să se calculeze derivatele parțiale ale funcției f(a,b) față de argumentele a și b, să le echivalăm cu 0, apoi să găsim estimările din ecuațiile rezultate: Avem:

Să transformăm părțile corecte ale relațiilor obținute. Să luăm factorii comuni 2 și (-1) din semnul sumei. Atunci să ne uităm la termeni. Să deschidem parantezele din prima expresie, obținem că fiecare termen este împărțit în trei. În a doua expresie, fiecare termen este și suma a trei. Deci fiecare dintre sume este împărțită în trei sume. Avem:


Echivalăm derivatele parțiale cu 0. Atunci factorul (-2) poate fi redus în ecuațiile rezultate. Pentru că

(1)

ecuațiile iau forma

Prin urmare, estimările metodei celor mai mici pătrate au forma

(2)

Datorită relației (1), estimarea a* poate fi scrisă într-o formă mai simetrică:

Nu este dificil să transformi această estimare în formă

Prin urmare, funcția reconstruită, care poate fi folosită pentru a prezice și a interpola, are forma

x*(t) = a*(t - t cf) + b*.

Să acordăm atenție faptului că utilizarea lui t cf în ultima formulă nu limitează în niciun caz generalitatea acesteia. Comparați cu modelul de vizualizare

x k = c t k + d + e k , k = 1,2,…,n.

Este clar că

Estimările parametrilor sunt similare:

Nu este nevoie să ne referim la niciun model probabilistic pentru a obține estimări ale parametrilor și o formulă predictivă. Totuși, pentru a studia erorile în estimările parametrilor și a funcției restaurate, i.e. construi intervale de încredere pentru a*, b* și x*(t), este necesar un model similar.

Model probabilistic neparametric. Să fie determinate valorile variabilei independente t, iar erorile e k , k = 1,2,…,n, să fie variabile aleatoare independente distribuite identic cu zero așteptări matematiceși dispersie

statistici necunoscute.

În viitor, vom folosi în mod repetat Teorema Limită Centrală (CLT) a teoriei probabilităților pentru mărimile e k , k = 1,2,…,n (cu ponderi), prin urmare, pentru a-și îndeplini condițiile, este necesar să presupunem, de exemplu, că erorile e k , k = 1,2 ,…,n, sunt finite sau au un moment absolut al treilea finit. Cu toate acestea, nu este nevoie să ne concentrăm asupra acestor „condiții de regularitate” intramatematice.

Distribuții asimptotice ale estimărilor parametrilor. Din formula (2) rezultă că

(5)

Conform CLT, estimarea b* are o distribuție normală asimptotic cu așteptarea b și varianță

care este evaluat mai jos.

Din formulele (2) și (5) rezultă că

Ultimul termen din a doua relație dispare atunci când este însumat peste i, așa că din formulele (2-4) rezultă că

(6)

Formula (6) arată că estimarea

este normal asimptotic cu medie și varianță

Rețineți că normalitatea multidimensională există atunci când fiecare termen din formula (6) este mic în comparație cu întreaga sumă, i.e.


Din formulele (5) și (6) și ipotezele inițiale despre erori, rezultă și imparțialitatea estimărilor parametrilor.

Nepărtinirea și normalitatea asimptotică a estimărilor celor mai mici pătrate facilitează specificarea limitelor de încredere asimptotice pentru acestea (asemănătoare cu limitele din capitolul anterior) și testarea ipotezelor statistice, de exemplu, despre egalitatea la anumite valori, în primul rând 0. Lăsăm cititorul posibilitatea de a scrie formule pentru calcularea limitelor de încredere și de a formula reguli de testare a ipotezelor menționate.

Distribuția asimptotică a funcției de prognostic. Din formulele (5) și (6) rezultă că

acestea. estimarea funcției de prognostic luată în considerare este imparțială. De aceea

În același timp, deoarece erorile sunt independente în agregat și

, apoi

În acest fel,

Introducere

Capitolul 1 Analiza regresiei multiple

Capitolul 2. Analiza clusterelor

Capitolul 3. Analiza factorială

Capitolul 4. Analiza discriminantă

Bibliografie

Introducere

Informațiile inițiale din studiile socio-economice sunt cel mai adesea prezentate ca un set de obiecte, fiecare dintre acestea fiind caracterizat de o serie de caracteristici (indicatori). Deoarece numărul de astfel de obiecte și caracteristici poate ajunge la zeci și sute, iar analiza vizuală a acestor date este ineficientă, problemele de reducere, concentrare a datelor inițiale, dezvăluirea structurii și relației dintre ele pe baza construcției caracteristicilor generalizate ale iau naştere un set de caracteristici şi un set de obiecte. Astfel de probleme pot fi rezolvate prin metode de analiză statistică multivariată.

Analiza statistică multivariată este o secțiune de statistică dedicată metodelor matematice care vizează identificarea naturii și structurii relațiilor dintre componentele cercetării și destinată obținerii de concluzii științifice și practice.

Atenția principală în analiza statistică multivariată este acordată metodelor matematice de construire a planurilor optime de colectare, sistematizare și prelucrare a datelor, care vizează identificarea naturii și structurii relațiilor dintre componentele atributului multivariat studiat și menite să obțină concluzii științifice și practice.

Matricea inițială de date multidimensionale pentru efectuarea analizei multivariate este de obicei rezultatul măsurării componentelor unui atribut multidimensional pentru fiecare dintre obiectele populației studiate, de exemplu. o succesiune de observații multivariate. Un atribut multivariat este cel mai adesea interpretat ca și o secvență de observații ca un eșantion din populația generală. În acest caz, alegerea metodei de prelucrare a datelor statistice inițiale se face pe baza unor ipoteze privind natura legii de distribuție a atributului multidimensional studiat.

1. Analiza statistică multivariată a distribuțiilor multivariate și a principalelor caracteristici ale acestora acoperă situațiile în care observațiile prelucrate sunt de natură probabilistă, i.e. interpretat ca un eșantion din populația generală corespunzătoare. Sarcinile principale ale acestei subsecțiuni includ: estimarea statistică a distribuțiilor multivariate studiate și a parametrilor principali ai acestora; studiul proprietăților estimărilor statistice utilizate; studiul distribuțiilor de probabilitate pentru un număr de statistici, care sunt utilizate pentru a construi criterii statistice pentru testarea diferitelor ipoteze despre natura probabilistică a datelor multivariate analizate.

2. Analiza statistică multivariată a naturii și structurii interrelațiilor dintre componentele atributului multivariat studiat combină conceptele și rezultatele inerente unor metode și modele precum analiza, analiza varianței, analiza covarianței, analiza factorială etc. Metodele care aparțin acestui grup includ atât algoritmi bazați pe ipoteza naturii probabilistice a datelor, cât și metode care nu se încadrează în cadrul niciunui model probabilistic (acestea din urmă sunt adesea denumite metode).

3. Analiza statistică multidimensională a structurii geometrice a setului studiat de observații multivariate combină conceptele și rezultatele inerente unor astfel de modele și metode precum analiza discriminantă, analiza clusterului, scalarea multidimensională. Nodul pentru aceste modele este conceptul de distanță, sau o măsură a proximității dintre elementele analizate ca puncte ale unui spațiu. În acest caz, atât obiectele (ca puncte specificate în spațiul de caracteristici) cât și caracteristicile (ca puncte specificate în spațiul obiect) pot fi analizate.

Valoarea aplicată a analizei statistice multivariate constă în principal în rezolvarea următoarelor trei probleme:

sarcina studiului statistic al dependențelor dintre indicatorii luați în considerare;

sarcina de a clasifica elementele (obiecte sau caracteristici);

· sarcina de a reduce dimensiunea spațiului de caracteristici luate în considerare și de a selecta cele mai informative caracteristici.

Analiza de regresie multiplă este concepută pentru a construi un model care permite valorilor variabilelor independente să obțină estimări ale valorilor variabilei dependente.

Regresia logistică pentru rezolvarea problemei de clasificare. Acesta este un tip de regresie multiplă, al cărei scop este de a analiza relația dintre mai multe variabile independente și o variabilă dependentă.

Analiza factorială se ocupă cu determinarea unui număr relativ mic de factori ascunși (latenți), a căror variabilitate explică variabilitatea tuturor indicatorilor observați. Analiza factorială are ca scop reducerea dimensiunii problemei luate în considerare.

Analiza grupată și discriminantă sunt concepute pentru a împărți colecțiile de obiecte în clase, fiecare dintre acestea ar trebui să includă obiecte care sunt omogene sau apropiate într-un anumit sens. În analiza clusterului, nu se știe dinainte câte grupuri de obiecte vor apărea și ce dimensiune vor avea. Analiza discriminantă împarte obiectele în clase preexistente.

Capitolul 1 Analiza regresiei multiple

Misiunea: Cercetarea pieței imobiliare din Orel (regiunile sovietice și nordice).

Tabelul prezintă date despre prețul apartamentelor în Orel și despre diverși factori care îl determină:

· suprafata totala;

Zona bucătăriei

· spațiu de locuit;

tip de casa

numarul de camere. (Fig.1)

Orez. 1 Date inițiale

În coloana „Regiune” sunt utilizate denumirile:

3 - sovietic (elita, aparține regiunilor centrale);

4 - Nord.

În coloana „Tipul de casă”:

1 - caramida;

0 - panou.

Necesar:

1. Analizați relația tuturor factorilor cu indicatorul „Preț” și între ei. Selectați factorii cei mai potriviți pentru construirea unui model de regresie;

2. Construiți o variabilă dummy care să reflecte apartenența apartamentului la zonele centrale și periferice ale orașului;

3. Construiți un model de regresie liniară pentru toți factorii, inclusiv o variabilă inactivă în acesta. Explicați semnificația economică a parametrilor ecuației. Evaluați calitatea modelului, semnificația statistică a ecuației și a parametrilor acesteia;

4. Distribuiți factorii (cu excepția variabilei dummy) în funcție de gradul de influență asupra indicatorului „Preț”;

5. Construiți un model de regresie liniară pentru cei mai influenți factori, lăsând o variabilă inactivă în ecuație. Evaluează calitatea și semnificația statistică a ecuației și a parametrilor acesteia;

6. Justificați oportunitatea sau inadecvarea includerii unei variabile fictive în ecuația de la paragrafele 3 și 5;

7. Estimări de interval de estimare ale parametrilor ecuației cu o probabilitate de 95%;

8. Stabiliți cât va costa un apartament cu o suprafață totală de 74,5 m² într-o zonă de elită (periferică).

Performanţă:

1. După analizarea relației tuturor factorilor cu indicatorul „Preț” și între ei, factorii cei mai potriviți pentru construirea unui model de regresie au fost selectați folosind metoda de includere „Înainte”:

A) suprafața totală;

C) numărul de camere.

Variabile incluse/excluse (a)

a Variabilă dependentă: Preț

2. Variabila X4 „Regiune” este o variabilă inactivă, deoarece are 2 valori: 3-aparținând regiunii centrale „sovietice”, 4- regiunii periferice „Severny”.

3. Să construim un model de regresie liniară pentru toți factorii (inclusiv variabila inactivă X4).

Model primit:

Evaluarea calitatii modelului.

Eroare standard = 126,477

Raportul Durbin-Watson = 2,136

Verificarea semnificației ecuației de regresie

Valoarea testului F-Fisher = 41,687

4. Să construim un model de regresie liniară cu toți factorii (cu excepția variabilei fictive X4)

În funcție de gradul de influență asupra indicatorului „Preț”, acestea au fost distribuite:

Cel mai semnificativ factor este suprafața totală (F= 40,806)

Al doilea cel mai important factor este numărul de camere (F= 29.313)

5. Variabile incluse/excluse

a Variabilă dependentă: Preț

6. Să construim un model de regresie liniară pentru cei mai influenți factori cu o variabilă dummy, în cazul nostru este unul dintre factorii influenți.

Model primit:

Y \u003d 348,349 + 35,788 X1 -217,075 X4 +305,687 X7

Evaluarea calitatii modelului.

Coeficientul de determinare R2 = 0,807

Arată proporția de variație a trăsăturii rezultate sub influența factorilor studiați. În consecință, se ia în considerare aproximativ 89% din variația variabilei dependente și datorită influenței factorilor incluși în model.

Coeficientul de corelație multiplă R = 0,898

Arată apropierea relației dintre variabila dependentă Y cu toți factorii explicativi incluși în model.

Eroare standard = 126,477

Raportul Durbin-Watson = 2,136

Verificarea semnificației ecuației de regresie

Valoarea testului F-Fisher = 41,687

Ecuația de regresie trebuie recunoscută ca fiind adecvată, modelul fiind considerat semnificativ.

Cel mai semnificativ factor este numărul de camere (F=41.687)

Al doilea cel mai important factor este suprafața totală (F= 40,806)

Al treilea factor ca importanță este regiunea (F= 32.288)

7. Variabila inactivă X4 este un factor semnificativ, de aceea este indicat să o includeți în ecuație.

Estimările pe intervale ale parametrilor ecuației arată rezultatele prognozării prin modelul de regresie.

Cu o probabilitate de 95%, volumul vânzărilor în luna prognozată va fi de la 540,765 la 1080,147 milioane de ruble.

8. Determinarea costului unui apartament într-o zonă de elită

Pentru 1 cameră U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 1

Pentru 2 camere U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 2

Pentru 3 camere U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 3

în periferic

Pentru 1 cameră U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 1

Pentru 2 camere U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 2

Pentru 3 camere U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 3

Capitolul 2. Analiza clusterelor

Sarcina: Studiul structurii cheltuielilor și economiilor monetare ale populației.

Tabelul prezintă structura cheltuielilor și economiilor în numerar ale populației pe regiuni din Districtul Federal Central Federația Rusăîn 2003 Pentru următorii indicatori:

PTIOU - achiziționarea de bunuri și plata serviciilor;

· OPiV - plăți și contribuții obligatorii;

PN - achiziționarea de bunuri imobiliare;

· PFA – creșterea activelor financiare;

· DR - creșterea (scăderea) banilor în mâinile populației.

Orez. 8 Date inițiale

Necesar:

1) determinați numărul optim de clustere pentru împărțirea regiunilor în grupuri omogene în funcție de toate caracteristicile de grupare simultan;

2) efectuați clasificarea zonelor printr-o metodă ierarhică cu un algoritm de relații intergrup și afișați rezultatele sub forma unei dendrograme;

3) analizarea principalelor priorități de cheltuieli și economii de numerar în clusterele rezultate;

Performanţă:

1) Determinați numărul optim de clustere pentru împărțirea regiunilor în grupuri omogene în funcție de toate caracteristicile de grupare simultan;

Pentru a determina numărul optim de clustere, trebuie să utilizați Analiza cluster ierarhică și să consultați tabelul „Pași de aglomerare” la coloana „Coeficienți”.

Acești coeficienți implică distanța dintre două clustere, determinată pe baza măsurării distanței selectate (distanța euclidiană). În etapa în care măsura distanței dintre două clustere crește brusc, procesul de fuziune în noi clustere trebuie oprit.

Ca urmare, numărul optim de clustere este considerat a fi egal cu diferența dintre numărul de observații (17) și numărul pasului (14), după care coeficientul crește brusc. Astfel, numărul optim de clustere este 3. (Fig. 9)

cluster de analiză statistică matematică

Orez. 9 Tabel „Pași de sinterizare”

2) Efectuați clasificarea zonelor printr-o metodă ierarhică cu un algoritm de relații intergrup și afișați rezultatele sub forma unei dendrograme;

Acum, folosind numărul optim de clustere, clasificăm zonele folosind o metodă ierarhică. Și în rezultat ne întoarcem la tabelul „Aparținând clusterelor”. (Fig.10)

Orez. 10 Tabel „Aparținând clusterelor”

Pe Fig. 10 arată clar că clusterul 3 include 2 regiuni (Kaluga, Moscova) și Moscova, clusterul 2 include două regiuni (Bryansk, Voronezh, Ivanovo, Lipetsk, Oryol, Ryazan, Smolensk, Tambov, Tver), cluster 1 - Belgorod, Vladimir, Kostroma , Kursk, Tula, Yaroslavl.

Orez. 11 Dendrograma

3) analizarea principalelor priorități de cheltuieli și economii de numerar în clusterele rezultate;

Pentru a analiza clusterele rezultate, trebuie să efectuăm o „Comparație a mediilor”. Fereastra de ieșire afișează următorul tabel (Fig. 12)

Orez. 12 Valorile medii ale variabilelor

În tabelul „Valori medii” putem urmări care structuri au cea mai mare prioritate în repartizarea cheltuielilor de numerar și a economiilor populației.

În primul rând, trebuie menționat că cea mai mare prioritate în toate domeniile este acordată achiziționării de bunuri și plății pentru servicii. Parametrul ia o valoare mai mare în al treilea cluster.

Locul 2 este ocupat de creșterea activelor financiare. Cea mai mare valoareîn 1 cluster.

Cel mai mic coeficient din clusterele 1 și 2 este pentru „achiziția de bunuri imobiliare”, iar în clusterul 3 s-a evidențiat o scădere notabilă a banilor în mâinile populației.

În general, achiziția de bunuri și servicii și achiziția nesemnificativă de bunuri imobiliare au o importanță deosebită pentru populație.

4) comparați clasificarea rezultată cu rezultatele aplicării algoritmului de relație intragrup.

În analiza relațiilor intergrupale, situația practic nu s-a schimbat, cu excepția regiunii Tambov, care s-a împărțit în 1 din 2 clustere (Fig. 13).

Orez. 13 Analiza relaţiilor intra-grup

Nu au existat modificări în tabelul „Medii”.

Capitolul 3. Analiza factorială

Sarcina: Analiza activitatilor intreprinderilor industria ușoară.

Datele sondajului sunt disponibile pentru 20 de întreprinderi din industria uşoară (Fig. 14), conform următoarelor caracteristici:

X1 - nivelul productivității capitalului;

X2 – intensitatea muncii a unei unități de producție;

X3 - ponderea materialelor de achiziție în costurile totale;

X4 – factor de schimbare a echipamentului;

X5 - bonusuri și remunerație per angajat;

X6 - proporția pierderilor din căsătorie;

X7 – costul mediu anual al mijloacelor fixe de producție;

X8 - fondul de salariu mediu anual;

X9 - nivelul de comercializare a produselor;

· X10 – indicele activelor permanente (raportul dintre mijloacele fixe și alte active imobilizate și fondurile proprii);

X11 - cifra de afaceri a capitalului de lucru;

X12 - costuri de non-producție.

Fig.14 Date inițiale

Necesar:

1. efectuează o analiză factorială a următoarelor variabile: 1,3,5-7, 9, 11,12, identifică și interpretează caracteristicile factorilor;

2. indicați cele mai prospere și promițătoare întreprinderi.

Performanţă:

1. Efectuați o analiză factorială a următoarelor variabile: 1,3,5-7, 9, 11,12, identificați și interpretați caracteristicile factorilor.

Analiza factorială este un set de metode care, pe baza relațiilor din viața reală a obiectelor (trăsăturilor), fac posibilă identificarea caracteristicilor generalizatoare latente (implicite) ale structurii organizaționale.

În caseta de dialog de analiză factorială, selectați variabilele noastre, specificați parametrii necesari.

Orez. 15 Varianta totală explicată

Conform tabelului „Varianța totală explicată” se poate observa că au fost identificați 3 factori care explică 74,8% din variațiile variabilelor – modelul construit este destul de bun.

Acum interpretăm semnele factorilor conform „Matricea componentelor rotite”: (Fig.16).

Orez. 16 Matricea componentelor rotite

Factorul 1 este cel mai strâns legat de nivelul vânzărilor de produse și are o relație inversă cu costurile de non-producție.

Factorul 2 este cel mai strâns legat de ponderea materialelor de achiziție în costurile totale și ponderea pierderilor din căsătorie și are o relație inversă cu bonusurile și remunerația per angajat.

Factorul 3 este cel mai strâns legat de nivelul de productivitate a capitalului și de cifra de afaceri a capitalului de lucru și are o relație inversă cu costul mediu anual al mijloacelor fixe.

2. Indicați cele mai prospere și promițătoare întreprinderi.

Pentru a identifica cele mai prospere întreprinderi, vom sorta datele după 3 criterii factoriale în ordine descrescătoare. (Fig.17)

Ar trebui luate în considerare cele mai prospere întreprinderi: 13,4,5, deoarece în general, în funcție de 3 factori, indicatorii lor ocupă pozițiile cele mai înalte și stabile.

Capitolul 4. Analiza discriminantă

Evaluarea bonității persoanelor juridice într-o bancă comercială

Banca a selectat șase indicatori ca indicatori semnificativi care caracterizează situația financiară a organizațiilor de împrumut (Tabelul 4.1.1):

QR (X1) - raport rapid de lichiditate;

CR (X2) - raportul de lichiditate curent;

EQ/TA (X3) - raportul de independență financiară;

TD/EQ (X4) - totalul datoriilor față de capitalul propriu;

ROS (X5) - rentabilitatea vânzărilor;

FAT (X6) - cifra de afaceri a mijloacelor fixe.

Tabelul 4.1.1. Datele inițiale


Necesar:

Pe baza analizei discriminante folosind pachetul SPSS, determinați căreia dintre cele patru categorii îi aparțin trei debitori ( entitati legale) care doresc să obțină un împrumut de la o bancă comercială:

§ Grupa 1 - cu performante financiare excelente;

§ Grupa 2 - cu performante financiare bune;

§ Grupa 3 - cu performante financiare slabe;

§ Grupa 4 - cu performante financiare foarte slabe.

Pe baza rezultatelor calculului, construiți funcții discriminante; evaluați semnificația lor prin coeficientul Wilks (λ). Construiți o hartă de percepție și diagrame ale pozițiilor relative ale observațiilor în spațiul a trei funcții. Efectuați interpretarea rezultatelor analizei.

Progres:

Pentru a determina căreia dintre cele patru categorii îi aparțin trei debitori care doresc să obțină un împrumut de la o bancă comercială, construim o analiză discriminantă care ne permite să stabilim cărora dintre populațiile identificate anterior (eșantioane de instruire) ar trebui să li se atribuie clienți noi. .

Ca variabilă dependentă, vom alege un grup din care poate face parte împrumutatul, în funcție de performanța financiară a acestuia. Din datele sarcinii, fiecărui grup i se atribuie un scor corespunzător de 1, 2, 3 și 4.

Coeficienții canonici nenormalizați ai funcțiilor discriminante prezentate în Fig. 4.1.1 sunt folosite pentru a construi ecuația funcțiilor discriminante D1(X), D2(X) și D3(X):

3.) D3(X) =


1

(Constant)

Orez. 4.1.1. Coeficienții funcției discriminante canonice

Orez. 4.1.2. Lambda Wilks

Cu toate acestea, deoarece semnificația prin coeficientul Wilks (Fig. 4.1.2) a doua și a treia funcții este mai mare de 0,001, nu este recomandabil să le folosiți pentru discriminare.

Datele din tabelul „Rezultatele clasificării” (Fig. 4.1.3) indică faptul că pentru 100% din observații clasificarea a fost efectuată corect, s-a obținut o precizie ridicată în toate cele patru grupuri (100%).

Orez. 4.1.3. Rezultatele clasificării

Informațiile despre grupurile reale și cele prognozate pentru fiecare împrumutat sunt date în tabelul „Statistici punctuale” (Fig. 4.1.4).

În urma analizei discriminante, s-a determinat cu mare probabilitate ca noii debitori ai băncii să aparțină subsetului de instruire M1 - primul, al doilea și al treilea debitor (numerele de serie 41, 42, 43) sunt alocați subsetului M1 cu probabilitățile corespunzătoare de 100%.

Numărul de observație

Grupul real

Cel mai probabil grup

Grupul prezis

negrupate

negrupate

negrupate

Orez. 4.1.4. Statistici de puncte

Coordonatele centroizilor pe grupuri sunt date în tabelul „Funcții în centroizii de grup” (Fig. 4.1.5). Ele sunt utilizate pentru a reprezenta un grafic centroizi pe o hartă perceptivă (Figura 4.1.6).

1

Orez. 4.1.5. Funcții în centroizii de grup

Orez. 4.1.6. Harta de percepție pentru două funcții discriminante D1(X) și D2(X) (* - centroid de grup)

Câmpul „Hărții teritoriale” este împărțit prin funcții discriminante în patru zone: în partea stângă se observă în principal observațiile celui de-al patrulea grup de debitori cu performanțe financiare foarte slabe, în partea dreaptă - primul grup cu performanțe financiare excelente, în părțile mijlocii și inferioare - al treilea și al doilea grup de debitori cu performanțe financiare proaste și, respectiv, bune.

Orez. 4.1.7. Scatterplot pentru toate grupurile

Pe fig. 4.1.7 arată programul combinat pentru distribuirea tuturor grupurilor de debitori împreună cu centroizii acestora; poate fi folosit pentru a efectua o analiză vizuală comparativă a naturii poziției relative a grupurilor de debitori bănci în ceea ce privește indicatorii financiari. În partea dreaptă a graficului sunt împrumutați cu performanță ridicată, în stânga - cu performanță scăzută, iar în mijloc - cu performanță financiară medie. Deoarece, conform rezultatelor calculului, a doua funcție discriminantă D2(X) s-a dovedit a fi nesemnificativă, diferențele dintre coordonatele centrului de centru de-a lungul acestei axe sunt nesemnificative.

Evaluarea bonității persoanelor fizice dintr-o bancă comercială

Departamentul de credit al unei bănci comerciale a efectuat un sondaj pe 30 dintre clienții săi (persoane fizice). Pe baza unei analize preliminare a datelor, debitorii au fost evaluați în funcție de șase indicatori (Tabelul 4.2.1):

X1 - împrumutatul a luat un împrumut banci comerciale anterior;

X2 este venitul mediu lunar al familiei debitorului, mii de ruble;

X3 - termenul (perioada) de rambursare a creditului, ani;

X4 - suma împrumutului acordat, mii de ruble;

X5 - componența familiei împrumutatului, persoane;

X6 - vârsta debitorului, ani.

În același timp, au fost identificate trei grupuri de debitori în funcție de probabilitatea de rambursare a creditului:

§ Grupa 1 - cu o probabilitate redusă de rambursare a creditului;

§ Grupa 2 - cu o probabilitate medie de rambursare a creditului;

§ Grupa 3 - cu o mare probabilitate de rambursare a creditului.

Necesar:

Pe baza analizei discriminante folosind pachetul SPSS, este necesar să se clasifice trei clienți bănci (în funcție de probabilitatea de rambursare a creditului), i.e. evaluați dacă fiecare dintre ei aparține unuia dintre cele trei grupuri. Pe baza rezultatelor calculului, construiți funcții discriminante semnificative, evaluați semnificația lor prin coeficientul Wilks (λ). În spațiul a două funcții discriminante pentru fiecare grup, construiți diagrame ale aranjamentului reciproc al observațiilor și o diagramă combinată. Evaluați locația fiecărui împrumutat pe aceste diagrame. Efectuați interpretarea rezultatelor analizei.

Tabelul 4.2.1. Datele inițiale

Progres:

Pentru a construi o analiză discriminantă, alegem ca variabilă dependentă probabilitatea rambursării la timp a unui împrumut de către un client. Având în vedere că poate fi scăzut, mediu și mare, fiecărei categorii i se va atribui un punctaj corespunzător de 1,2 și 3.

Coeficienții canonici nenormalizați ai funcțiilor discriminante prezentate în Fig. 4.2.1 sunt folosite pentru a construi ecuația funcțiilor discriminante D1(X), D2(X):

2.) D2(X) =

Orez. 4.2.1. Coeficienții funcției discriminante canonice

Orez. 4.2.2. Lambda Wilks

Conform coeficientului Wilks (Fig. 4.2.2) pentru a doua funcție, semnificația este mai mare de 0,001, prin urmare, nu este recomandabil să-l folosești pentru discriminare.

Datele din tabelul „Rezultatele de clasificare” (Fig. 4.2.3) indică faptul că pentru 93,3% din observații clasificarea a fost efectuată corect, s-a obținut o precizie ridicată în prima și a doua grupă (100% și 91,7%), mai puțin precisă. rezultatele au fost obţinute în al treilea grup (88,9%).

Orez. 4.2.3. Rezultatele clasificării

Informațiile despre grupurile reale și previzionate pentru fiecare client sunt date în tabelul „Statistici de puncte” (Fig. 4.2.4).

În urma analizei discriminante, s-a determinat cu mare probabilitate ca noii clienți ai băncii să aparțină subsetului de instruire M3 - primul, al doilea și al treilea clienți (numerele de serie 31, 32, 33) sunt alocați subsetului M3 cu probabilitățile corespunzătoare de 99%, 99% și 100%.

Numărul de observație

Grupul real

Cel mai probabil grup

Grupul prezis

negrupate

negrupate

negrupate

Orez. 4.2.4. Statistici de puncte

Probabilitatea rambursării creditului

Orez. 4.2.5. Funcții în centroizii de grup

Coordonatele centroizilor pe grupuri sunt date în tabelul „Funcții în centroizii de grup” (Fig. 4.2.5). Ele sunt folosite pentru a reprezenta un grafic centroizi pe o hartă perceptivă (Figura 4.2.6).

Câmpul „Harta teritorială” este împărțit prin funcții discriminante în trei zone: în partea stângă sunt în principal observații ale primului grup de clienți cu o probabilitate foarte mică de rambursare a creditului, în partea dreaptă - al treilea grup cu probabilitate mare. , la mijloc - al doilea grup de clienți cu o probabilitate medie de rambursare a împrumutului, respectiv.

Pe fig. 4.2.7 (a - c) reflectă locația clienților fiecăruia dintre cele trei grupuri pe planul a două funcții discriminante D1(X) și D2(X). Pe baza acestor grafice, este posibil să se efectueze o analiză detaliată a probabilității de rambursare a unui împrumut în cadrul fiecărui grup, să se judece natura distribuției clienților și să se evalueze gradul de îndepărtare a acestora față de centroidul corespunzător.

Orez. 4.2.6. Harta de percepție pentru trei funcții discriminante D1(X) și D2(X) (* - centroid de grup)

De asemenea, în fig. 4.2.7 (d) în același sistem de coordonate, graficul combinat al distribuției tuturor grupurilor de clienți este prezentat împreună cu centroizii acestora; poate fi folosit pentru a efectua o analiză vizuală comparativă a naturii poziției relative a grupurilor de clienți bănci cu probabilități diferite de rambursare a creditului. În partea stângă a graficului sunt împrumutați cu o probabilitate mare de a rambursa împrumutul, în dreapta - cu o probabilitate scăzută, iar în partea din mijloc - cu o probabilitate medie. Deoarece, conform rezultatelor calculului, a doua funcție discriminantă D2(X) s-a dovedit a fi nesemnificativă, diferențele dintre coordonatele centrului de centru de-a lungul acestei axe sunt nesemnificative.

Orez. 4.2.7. Localizarea observațiilor pe planul a două funcții discriminante pentru grupurile cu probabilitate scăzută (a), medie (b), mare (c) de rambursare a creditului și pentru toate grupurile (d)

Bibliografie

1. „Analiza statistică multivariată în problemele economice. Modelare computerizată în SPSS”, 2009

2. Orlov A.I. „Statistică aplicată” M .: Editura „Examen”, 2004

3. Fisher R.A. „Metode statistice pentru cercetători”, 1954

4. Kalinina V.N., Soloviev V.I. Manualul SUM „Introducere în analiza statistică multivariată”, 2003;

5. Achim Buyul, Peter Zöfel, SPSS: The Art of Information Processing, DiaSoft Publishing, 2005;

6. http://ru.wikipedia.org/wiki


tabel de mostre. conjugație max, estimări plauzibile:

G2= -2 ^ p sch Sht t ■ p w)

are o distribuţie χ 2 asimptotică. Aceasta se bazează pe stat. testarea ipotezei relaţiei.

Experienta in prelucrarea datelor folosind A.l. și-a arătat eficacitatea ca metodă de analiză țintită a tabelului multidimensional. conjugarea, care conține (în cazul unei alegeri rezonabile de variabile) o cantitate uriașă, în comparație cu tabelele bidimensionale, de informații de interes pentru sociolog. Metoda vă permite să descrieți succint acest tabel. (sub forma unei ipoteze despre conexiuni) și în același timp să analizeze în detaliu conc. relaţie. Al. se aplică de obicei în mai multe etape, sub forma unui dialog sociolog-calculator. Astfel, A.l. are o flexibilitate considerabilă, oferă o oportunitate de a formula diverse tipuri de ipoteze despre relații, de a include experiența unui sociolog în procedura de analiză formală a datelor.

Lit.: Uptop G. Analiza tabelului. conjugație. M., 1982; Tipologie şi clasificare în sociol. cercetare. M., 1982; Episcopul Y.M.M. et ai. Analiză multivariată discretă. N.Y., 1975; Agresti A. O introducere în analiza categorică a datelor. N.Y., 1966.

A.A. Mirzoev

ANALIZA STATISTICĂ MULTIVARIATĂ- sec. statistici matematice, dedicat matematicii. metode care vizează identificarea naturii și structurii relațiilor dintre componentele studiului semn de multidimensionalși destinate să primească științifice. și implicații practice. Matricea inițială de date multidimensionale pentru efectuarea A.m.s. servesc de obicei ca rezultate ale măsurării componentelor unui atribut multidimensional pentru fiecare dintre obiectele populației studiate, i.e. o succesiune de observații multivariate (vezi observaţie în statistică). O caracteristică multidimensională este cel mai adesea interpretată ca o caracteristică multidimensională LED-


rang aleatoriu,și succesiunea de observații multivariate – ca eșantion din populația generală. În acest caz, alegerea metodei de procesare a statisticii originale. datele sunt produse pe baza unor ipoteze privind natura legea distributiei caracteristică multidimensională studiată (vezi. Distribuția probabilității).

1. A.m.s. distribuțiile multivariate și principalele lor. caracteristicile acoperă situațiile în care observațiile prelucrate sunt de natură probabilistică, adică sunt interpretate ca o mostră din acc. populatia generala. La principal Obiectivele acestei subsecțiuni includ: estimare statistică a investigat distribuțiile multivariate și principalele lor. parametrii; proprietățile de cercetare ale statisticilor utilizate. evaluări; studiul distribuțiilor de probabilitate pentru o serie de statistici, cu ajutorul cărora sunt construite statistici. criterii de testare dif. ipotezele despre natura probabilistică a datelor multivariate analizate (vezi Testarea ipotezelor statistice).

2. A.m.s. natura și structura interrelațiilor dintre componentele caracteristicii multidimensionale studiate combină conceptele și rezultatele inerente unor metode și modele precum analiza regresiei, analiza dispersiei, analiza covarianței, analiza factorilor, analiză latent-structurală, analiză loggery, căutare de interacțiuni. Metodele aparținând acestui grup includ ambii algoritmi, principal. pe baza ipotezei naturii probabilistice a datelor, precum și a metodelor care nu se încadrează în cadrul lui k.-l. model probabilistic (acestea din urmă sunt adesea denumite metode analiza datelor).

3. A.m.s. structura geometrică a setului studiat de observații multidimensionale combină conceptele și rezultatele inerente unor astfel de modele și metode precum analiza discriminanta, analiza clusterului (vezi. Metode de clasificare, Scala). Nodal pentru aceste modele yavl. conceptul de distanță sau de măsură a proximității dintre elementele analizate ca puncte ale unui fel de

ANALIZA CAUZALA


rătăcirile. În acest caz, pot fi analizate atât obiectele (ca puncte specificate în spațiul de caracteristici) cât și caracteristicile (ca puncte specificate în spațiul „obiect”).

Valoarea aplicată A.m.s. constă în principal în serviciu în continuare. trei probleme: stat. studiul dependențelor dintre indicatorii luați în considerare; clasificarea elementelor (obiectelor) sau a caracteristicilor; reducerea dimensiunii spațiului de caracteristici luate în considerare și selectarea celor mai informative caracteristici.

Lit.: Stat. metode de analiză sociologică. informație. M., 1979; Tipologie şi clasificare în sociol. cercetare. M., 1982; Interpretarea și analiza datelor în sociol, cercetare. M., 1987; Ayvazyan S.A., Mkhitaryan V.S. Statistica aplicată și fundamentele econometriei: Proc. M., 1998; Soshnikova L.A. etc. Stat multidimensional. analiză în economie. M., 1999; Dubrov A.M., Mkhitaryan V.S., Troshin L.I. Stat multidimensional. metode pentru economiști și manageri. M., 2000; Rostovtsev B.C., Kovaleva T.D. Analiza sociologică. date folosind stat. Pachetul SPSS. Novosibirsk, 2001; Tyurin Yu.N., Makarov A.A. Analiza datelor pe computer. Y., 2003; Krysh-tanovsky A. O. Analiza sociologică. date folosind pachetul SPSS. M., 2006.

YUN. Tolstova

ANALIZA CAUZALA- metode de modelare a relaţiilor cauzale dintre caracteristici folosind sisteme statistice. ecuații, cel mai adesea regresie (vezi. analiza de regresie). Există și alte nume pentru acest domeniu destul de extins și în continuă schimbare de metode: analiza drumului, așa cum a numit-o prima dată fondatorul său S. Wright; metode de ecuații econometrice structurale, așa cum este obișnuit în econometrie, etc. Osn. concepte de A.p. yavl.: diagramă de cale (structurală, cauzală), coeficient cauzal (de cale), componente directe, indirecte și imaginare ale conexiunii dintre semne. Folosit în A.p. conceptul de „relație cauzală* nu afectează fi-


los. probleme asociate conceptului de „cauzalitate”. Coeficientul cauzal determinat. destul de operațional. Mat. Aparatul face posibilă verificarea prezenței relațiilor cauzale directe și indirecte între semne, precum și identificarea acelor componente ale coeficienților de corelație (vezi Fig. Corelație), to-rye asociate cu conexiuni directe, indirecte și imaginare.

Diagrama traseului reflectă grafic relații cauzale, direcționate, presupuse ipotetic, între caracteristici. Un sistem de caracteristici cu legături unidirecționale se numește recursiv. Sistemele cauzale non-recursive iau în considerare, de asemenea, feedback-uri, de exemplu, două caracteristici ale unui sistem pot fi atât o cauză, cât și un efect în relație unul cu celălalt. Toate semnele sunt împărțite în semne-consecințe (dependente, endogene) și semne-cauze (independente, exogene). Cu toate acestea, într-un sistem de ecuații, caracteristicile endogene ale uneia dintre ecuații pot fi caracteristici exogene ale altor ecuații. În cazul a patru caracteristici, diagrama recursivă a tuturor posibile link-uriîntre caracteristici arată astfel:

x 2
/ N
*1 La
G
la S

Construirea unei diagrame de conexiuni yavl. o premisă necesară a matematicii. formularea sistemului stat. ecuații care reflectă influențele prezentate în diagramă. Principal Vom ilustra principiile construirii unui sistem de ecuații de regresie folosind aceleași patru caracteristici ca exemplu. Mergând în direcția săgeților, pornind de la Hee găsiți primul endogen

ANALIZĂ CAUZALĂ


un semn și notează acele semne care îl afectează atât direct (direct) cât și indirect (indirect) și prin alte semne. Prima ecuație de regresie standardizată corespunde primei trăsături endogene Xjși exprimă dependență Χι din acele semne care îl afectează, adică. din Χγ. Astfel, prima ecuație are forma: Χι = bi\X\.

Apoi dezvăluim al doilea semn endogen, to-ry are comunicații direcționate către el. Acesta este un semn al lui Aj, corespunde variabilelor exogene X\și Χι, prin urmare, a doua ecuație de regresie într-o formă standardizată se formulează astfel: Aj = bcx\+ bpXg etc. Luând în considerare erorile de măsurare U sistemul de modele de regresie standardizate pentru diagrama cauzală specifică este: X\ \u003d Ui, DAR? =

- b->\X\+ Ui, xt,= 631ΑΊ + byiXi+ Uy, Χα -

- baXi+ binXi+ J43A3 + SCH. Pentru a evalua coeficienții b, s, trebuie rezolvat. Decizia există cu condiția ca datele să satisfacă o anumită natură. stat. cerințe. b$ se numesc factori cauzali si sunt adesea notati ca RU. Acea., R# arată că proporția schimbării în variația trăsăturii endogene, care apare atunci când trăsătura exogenă se modifică j pe unitate de abatere standard a acestei caracteristici, cu condiția excluderii influenței celorlalte caracteristici ale ecuației (vezi. analiza de regresie). Cu alte cuvinte, P,y are un efect de caracteristică directă j asupra trăsăturii d. Efectul indirect al trăsăturii j on;) se calculează pe baza luării în considerare a tuturor căilor de influență j pe i cu excepția directă.

În diagramă, influența directă a primei trăsături asupra celei de-a patra este reprezentată schematic printr-o săgeată dreaptă care vine direct din Χι la xt, reprezentat simbolic ca 1->4; este egal cu coeficientul de influență cauzală P, X 2,..., HR. Dependența strict regresivă poate fi definită după cum urmează. manieră.

Lasă-l pe U X\, Xr,..., X p - Aleatoriu
cantități cu o îmbinare dată curse
probabilități.
Dacă pentru fiecare
set lung de valori X λ \u003d x \, X 2= hg,...,
X p \u003d x p matematică condiționată. aștepta
Danemarca Υ(χ\, X2,..., Xp) - E(Y/(X])= xj,
Χι = X2, ..., X p \u003d Xp)), apoi functia Υ(Χ],
x2,
..., Xp) numită regresie de magnitudine
ns Y după mărime X\, Xr,..., x r, si ea
grafic - dreapta de regresie Y de X\, Xr,
..., X p,
sau ecuația de regresie. Zavi
dependența lui Y de ΛΊ, hg....... X p se manifestă în

modificarea valorilor medii ale Vpri de la
schimbându-se X\, Xr........ Chr. Deși la fiecare

set fix de valori X]- xj, xg = xg,» , Xp ~ Xp cantitatea Τ rămâne o variabilă aleatoare cu definiție. împrăștiere. Pentru a afla cât de exact regresia estimează modificarea lui Y cu o modificare a ΑΊ, hg,..., x r, valoarea medie a varianței Y este utilizată pentru diferite seturi de valori X\, Xr,..., Xp(de fapt, vorbim despre măsura dispersiei variabilei dependente în jurul dreptei de regresie).

În practică, linia de regresie este căutată cel mai adesea sub forma unei funcții liniare Y = bx + biXi + bxxr+ - + bpXp(regresie liniara), cel mai bun mod aproximând curba dorită. Acest lucru se face folosind metoda celor mai mici pătrate, când suma abaterilor pătrate ale lui Y observat efectiv de la estimările lor Y este minimizată (adică estimări folosind o linie dreaptă care pretinde că reprezintă dependența de regresie dorită): w

U (U -U) => min (Ν - dimensiunea eșantionului), s

Această abordare se bazează pe faptul binecunoscut că suma care apare în expresia de mai sus ia un mini-nim. valoare pentru cazul în care Y= Υ(χ\, xr, --, x R). Aplicație