Typer avhengigheter studert i multivariat statistisk analyse. Multivariat statistisk analyse

De grunnleggende konseptene og metodene for statistisk analyse er skissert. flerdimensjonale resultater teknisk eksperimenter. <...>Teoretisk informasjon om eiendommer flerdimensjonale Gaussisk distribusjoner. <...>Resultatet av eksperimentet vurdert i manualen er tilfeldig vektor fordelt etter normalloven.<...>Flerdimensjonal vanlig tetthet Ofte er resultatet av et eksperiment helhet tall som karakteriserer et objekt som studeres.<...>4 f x  Skriv som ξ  ~ ( ND,)μ  har p-dimensjonal vanlig fordeling. betyr at vektorξ , ξ) tar ulike betydninger, så det er rimelig å snakke om tilfeldig vektor 12 komponent vektor,ξ  komponent,ξ  dvs. EDE E   ξ= E E ξ ξ  = μ = ξ − μ ξ − μ ()()  ξp hvor E er forventningstegnet.<...>La η være p pp   ved løsninger μ= ν +B ;.   bD BD Bη ξ = ′ , (1.3) Matrise D fra (1.2) er symmetrisk, positiv-definitiv; derfor er representasjonen D CC′=Λ der C er ortogonal matrise, består av egen vektorer matriser;D Λ – diagonal matrise Med egen tallλ>i 0 matriser D langs hoveddiagonalen.<...> ledd tetthet dens komponent,1,η=i ip, bestemt fra det generelle regler(se vedlegg) er lik 5 (1.4) ; lineær transformasjon,η  hvor B er en kvadratisk matrise av dimensjoner  er en tilfeldig vektor, av variasjoner,.<...>Estimere parametrene for normalfordelingen ND . <...>Hovedoppgaven til den primære μ=i n  matrisen kovarians . <...>A ln ∂ = (1,5) forskrifter differensiering funksjoner med hensyn til vektor- eller matriseargumenter (se<...>Da er σ = ξ −ξ ξ − ξ = ξ ξ −ξ ξ∑∑ ij nn ki i kj j kk Her er kiξ den i-te komponent vektor gjennomsnittlig iμ i-th Komponenter vektor . <...> Vurderinger maksimum troverdighet koeffisientene j / ρ=σ σ σ har formen ij ,. ij ii jj ri j σ σσ  ≠ ii jj Bevis.<...>Estimere avhengighet mellom komponenter vanlig vektor Detaljert lenkeanalyse<...>

MU_to_performing_course_work_"Multivariate_statistical_analyse".pdf

UDC 519.2 LBC 22.172 K27 anmelder V.Yu. Chuev Kartashov G.D., Timonin V.I., Budovskaya L.M. K27 Multivariat statistisk analyse: Retningslinjer for gjennomføring av kursarbeidet. - M .: Forlag av MSTU im. N.E. Bauman, 2007. - 48 s.: ill. De grunnleggende konseptene og metodene for statistisk analyse av flerdimensjonale resultater av tekniske eksperimenter er skissert. Teoretisk informasjon om egenskapene til flerdimensjonale Gauss-fordelinger er gitt. For seniorstudenter ved Fakultet for grunnleggende realfag. Il. 2. Litteraturliste. 5 navn UDC 519.2 LBC 22.172 © MSTU im. N.E. Bauman, 2007

Side 2

INNHOLDSFORTEGNELSE Introduksjon................................................... ................................................................... ................... ..... 3 1. Multivariat normalfordeling ................... .......................... 4 2. Statistiske slutninger om vektoren av middel .............. ...................... 17 3. Diskriminerende analyse .. ..................... ............................................................ 23 4. Hovedkomponentmetode .. ............................................................ ............ 27 5. Kanoniske korrelasjoner ................... ............... ................................. 30 6. Multivariat regresjonsanalyse .......... ................................... .. 35 7. Faktoranalyse ....... ........................................................................ ......................... 40 Vedlegg .......................... ............................................................ ..................................... 44 Referanser ....... ........................................................................ ...................... ................................ 46 47

Fra forfatterens forord
kapittel 1 Introduksjon
1.1. Multivariat normalfordeling som modell
1.2. generell gjennomgang flerdimensjonale metoder
Litteratur
Kapittel 2
2.1. Introduksjon
2.2. Begreper knyttet til multivariate fordelinger
2.3. Multivariat normalfordeling
2.4. Fordeling av en lineær kombinasjon av normalfordelte mengder; uavhengighet av mengder; private distribusjoner
2.5. Betingede distribusjoner og multiple korrelasjonskoeffisient
2.6. karakteristisk funksjon; øyeblikk
Litteratur
Oppgaver
Kapittel 3 Estimering av gjennomsnittsvektor og kovariansmatrise
3.1. Introduksjon
3.2. Maksimal sannsynlighetsestimater for gjennomsnittlig vektor og kovariansmatrise
3.3. Prøvemiddelvektorfordeling; konklusjon om gjennomsnittet når kovariansmatrisen er kjent
Litteratur
Oppgaver
Kapittel 4. Fordelinger og bruk av
4.1. Introduksjon
4.2. 2D prøvekorrelasjonskoeffisient
4.3. Partielle korrelasjonskoeffisienter
4.4. Multippel korrelasjonskoeffisient
Litteratur
Oppgaver
Kapittel 5
5.1. Introduksjon
5.2. Generalisert T2-statistikk og dens fordeling
5.3. Anvendelser av T2-statistikk
5.4. Fordeling av T2-statistikk i nærvær av konkurrerende hypoteser; strømfunksjon
5.5. Noen optimale egenskaper til kriteriet T2
5.6. Flerdimensjonalt Behrens-Fischer-problem
Litteratur
Oppgaver
Kapittel 6
6.1. Klassifiseringsproblem
6.2. Prinsipper for korrekt klassifisering
6.3. Metoder for klassifisering av observasjoner i tilfelle av to populasjoner med en kjent sannsynlighetsfordeling
6.4. Klassifisering av observasjoner ved to populasjoner med kjente multivariate normalfordelinger
6.5. Klassifisering av observasjoner i tilfelle av to multivariate normalpopulasjoner hvis parametere er estimert fra et utvalg
6.6. Klassifisering av observasjoner for flere populasjoner
6.7. Klassifisering av observasjoner ved flere multivariate normalpopulasjoner
6.8. Et eksempel på klassifisering ved flere multivariate normalpopulasjoner
Litteratur
Oppgaver
Kapittel 7
7.1. Introduksjon
7.2. Wishart distribusjon
7.3. Noen egenskaper ved Wishart-distribusjonen
7.4. Cochrans teorem
7.5. Generalisert varians
7.6. Fordeling av settet med korrelasjonskoeffisienter i tilfelle av en diagonal populasjonskovariansmatrise
Litteratur
Oppgaver
Kapittel 8 Analyse av varianter
8.1. Introduksjon
8.2. Parameterestimater for multivariat lineær regresjon
8.3. Likelihood ratio tester for å teste lineære hypoteser om regresjonskoeffisienter
8.4. Momenter av sannsynlighetsforholdet i tilfellet når nullhypotesen er sann
8.5. Noen distribusjoner av U
8.6. Asymptotisk utvidelse av s
8.7. Hypotesetesting av regresjonskoeffisientmatriser og konfidensregioner
8.8. Testing av hypotesen om likheten mellom gjennomsnittene for normalfordelinger med en felles kovariansmatrise
8.9. Generalisert variansanalyse
8.10. Andre kriterier for testing av den lineære hypotesen
8.11. Kanonisk form
Litteratur
Oppgaver
Kapittel 9
9.1. Introduksjon
9.2. Likelihood Ratio som et kriterium for å teste hypotesen om uavhengighet av sett med tilfeldige variabler
9.3. Likelihood ratio momenter forutsatt at nullhypotesen er sann
9.4. Noen s
9.5. Asymptotisk utvidelse av fordelingen av h (sannsynlighetsforhold)
9.6. Eksempel
9.7. Tilfelle av to sett med tilfeldige variabler
Litteratur
Oppgaver
Kapittel 10
10.1 Introduksjon
10.2 Kriterier for å teste hypoteser om likheten til flere kovariansmatriser
10.3. Kriterier for å teste hypotesen om ekvivalens av flere normalpopulasjoner
10.4. Momenter for sannsynlighetsforhold
10.5. Asymptotiske utvidelser av fordelingsfunksjonene til mengdene V1 og V
10.6. Tilfelle av to populasjoner
10.7. Tester hypotesen om at kovariansmatrisen er proporsjonal med den gitte matrisen. Sfærisitetskriterium
10.8. Tester hypotesen om at kovariansmatrisen er lik den gitte matrisen
10.9. Tester hypotesen om at gjennomsnittlig vektor og kovariansmatrise er henholdsvis like gitt vektor og gitt matrise
Litteratur
Oppgaver
Kapittel 11
11.1. Introduksjon
11.2. Bestemme de viktigste komponentene i befolkningen
11.3. Maksimal sannsynlighetsestimater for hovedkomponenter og deres varians
11.4. Beregning av maksimal sannsynlighetsestimater for hovedkomponenter
11.5. Eksempel
Litteratur
Oppgaver
Kapittel 12
12.1. Introduksjon
12.2. Kanoniske korrelasjoner og kanoniske populasjonsverdier
12.3. Estimering av kanoniske korrelasjoner og kanoniske størrelser
12.4. Beregningsmetode
12.5. Eksempel
Litteratur
Oppgaver
Kapittel 13
13.1. Introduksjon
13.2. Etui med to Wishart-matriser
13.3. Saken om en ikke degenerert matrise Wishart
13.4. Kanoniske korrelasjoner
Litteratur
Oppgaver
Kapittel 14
14.1. Introduksjon
14.2 Teste hypoteser om rangering og evaluering av lineære begrensninger på regresjonskoeffisienter. Kanoniske korrelasjoner og kanoniske størrelser
14.3. Ikke-sentral Wishart-distribusjon
14.4. Fordeling av noen karakteristiske røtter og vektorer avhengig av parametere
14.5. Asymptotisk fordeling av noen karakteristiske røtter og vektorer
14.6. Hovedkomponenter
14.7. Faktor analyse
14.8. Stokastiske ligninger
14.9. Tidsserieanalyse
Litteratur
Applikasjon. Matriseteori
1. Definisjon av matriser. Matrisehandlinger
2. Karakteristiske røtter og vektorer
3. Splitte vektorer og matriser i blokker
4. Noen resultater
5. Doolittle-reduksjonsmetode og aksekondenseringsmetode for å løse systemer lineære ligninger
Litteratur
Emneindeks

Økonometri

Multivariat statistisk analyse


I multivariat statistisk analyse består et utvalg av elementer i et multivariat rom. Derav navnet på denne delen av økonometriske metoder. Av de mange problemene med multivariat statistisk analyse, la oss vurdere to - avhengighetsgjenoppretting og klassifisering.

Lineær prediktiv funksjonsestimering

La oss starte med problemet med punkt- og konfidensestimering av en lineær prediktiv funksjon av én variabel.

De første dataene er et sett med n tallpar (t k , x k), k = 1,2,...,n, der t k er en uavhengig variabel (for eksempel tid), og x k er en avhengig variabel (for eksempel, inflasjonsindeks, amerikanske dollarkurs, månedlig produksjon eller størrelsen på den daglige inntekten til utsalgsstedet). Variabler antas å være relatert

x k = a (t k - t cf)+ b + ek , k = 1,2,…,n,

hvor a og b er parametere ukjente for statistikk og gjenstand for estimering, og e k er feil som forvrenger avhengigheten. Aritmetisk gjennomsnitt av tidspunkter

t cf \u003d (t 1 + t 2 + ... + t n) / n

introdusert i modellen for å lette videre beregninger.

Vanligvis estimeres parametrene a og b for den lineære avhengigheten ved å bruke minste kvadraters metode. Det rekonstruerte forholdet brukes deretter til punkt- og intervallprediksjon.

Som du vet ble minste kvadraters metode utviklet av den store tyske matematikeren K. Gauss i 1794. I følge denne metoden, for å beregne den beste funksjonen som lineært tilnærmer avhengigheten av x av t, bør man vurdere en funksjon av to variabler


De minste kvadraters estimatene er verdiene til a* og b* for hvilke funksjonen f(a,b) når et minimum over alle verdiene av argumentene.

For å finne disse estimatene, er det nødvendig å beregne de partielle deriverte av funksjonen f(a,b) med hensyn til argumentene a og b, likestille dem til 0, og deretter finne estimatene fra de resulterende ligningene: Vi har:

La oss transformere de riktige delene av de oppnådde relasjonene. La oss ta de felles faktorene 2 og (-1) ut av summens tegn. La oss så se på vilkårene. La oss åpne parentesene i det første uttrykket, vi får at hvert ledd er delt i tre. I det andre uttrykket er hvert ledd også summen av tre. Så hver av summene er delt inn i tre summer. Vi har:


Vi likestiller de partielle deriverte til 0. Da kan faktoren (-2) reduseres i de resulterende ligningene. Fordi det

(1)

ligningene har formen

Derfor har estimatene for minste kvadraters metode formen

(2)

På grunn av relasjon (1), kan estimatet a* skrives i en mer symmetrisk form:

Det er ikke vanskelig å transformere dette anslaget til skjemaet

Derfor har den rekonstruerte funksjonen, som kan brukes til å forutsi og interpolere, formen

x*(t) = a*(t - t cf) + b*.

La oss ta hensyn til det faktum at bruken av t cf i den siste formelen på ingen måte begrenser dens generalitet. Sammenlign med visningsmodell

x k = c t k + d + e k, k = 1,2,...,n.

Det er klart det

Parameterestimatene er på samme måte relatert:

Det er ikke nødvendig å referere til noen sannsynlighetsmodell for å få parameterestimater og en prediktiv formel. Men for å studere feilene i parameterestimater og den gjenopprettede funksjonen, dvs. bygge konfidensintervaller for a*, b* og x*(t), trengs en lignende modell.

Ikke-parametrisk sannsynlighetsmodell. La verdiene til den uavhengige variabelen t bestemmes, og feilene e k, k = 1,2,...,n, være uavhengige identisk fordelte tilfeldige variabler med null matematisk forventning og spredning

ukjent statistikk.

I fremtiden vil vi gjentatte ganger bruke den sentrale grensesetningen (CLT) for sannsynlighetsteori for verdiene e k , k = 1,2,...,n (med vekter), derfor er det nødvendig for å oppfylle betingelsene anta for eksempel at feilene e k , k = 1,2 ,...,n, er endelige eller har et endelig tredje absolutt moment. Det er imidlertid ikke nødvendig å fokusere på disse intramatematiske «regularitetsforholdene».

Asymptotiske fordelinger av parameterestimater. Av formel (2) følger det at

(5)

Ifølge CLT har estimatet b* en asymptotisk normalfordeling med forventning b og varians

som er vurdert nedenfor.

Av formlene (2) og (5) følger det at

Det siste leddet i den andre relasjonen forsvinner når det summeres over i, så det følger av formlene (2-4) at

(6)

Formel (6) viser at estimatet

er asymptotisk normal med gjennomsnitt og varians

Merk at flerdimensjonal normalitet eksisterer når hvert ledd i formel (6) er lite sammenlignet med hele summen, dvs.


Fra formlene (5) og (6) og de første antakelsene om feilene følger også objektiviteten til parameterestimatene.

Den upartiske og asymptotiske normaliteten til minste kvadraters estimater gjør det enkelt å spesifisere asymptotiske konfidensgrenser for dem (tilsvarende grensene i forrige kapittel) og teste statistiske hypoteser, for eksempel om likhet med visse verdier, primært 0. Vi lar leser mulighet til å skrive ut formler for beregning av konfidensgrenser og formulere regler for testing av nevnte hypoteser.

Asymptotisk fordeling av den prognostiske funksjonen. Av formlene (5) og (6) følger det at

de. estimatet av den prognostiske funksjonen som vurderes er objektiv. Derfor

Samtidig, siden feilene er uavhengige i samlet og

, deretter

På denne måten,

Introduksjon

Kapittel 1 Multippel regresjonsanalyse

Kapittel 2. Klyngeanalyse

Kapittel 3. Faktoranalyse

Kapittel 4. Diskriminerende analyse

Bibliografi

Introduksjon

Innledende informasjon i sosioøkonomiske studier presenteres oftest som et sett med objekter, som hver er preget av en rekke funksjoner (indikatorer). Siden antallet slike objekter og funksjoner kan nå titalls og hundrevis, og den visuelle analysen av disse dataene er ineffektiv, er problemene med å redusere, konsentrere de første dataene, identifisere strukturen og forholdet mellom dem basert på konstruksjonen av generaliserte egenskaper til et sett med funksjoner og et sett med objekter oppstår. Slike problemer kan løses med metoder for multivariat statistisk analyse.

Multivariat statistisk analyse er en del av statistikken viet til matematiske metoder som tar sikte på å identifisere arten og strukturen til sammenhenger mellom komponentene i forskningen og ment å oppnå vitenskapelige og praktiske konklusjoner.

Hovedoppmerksomheten i multivariat statistisk analyse er gitt til matematiske metoder for å konstruere optimale planer for innsamling, systematisering og prosessering av data, rettet mot å identifisere arten og strukturen til relasjoner mellom komponentene i den studerte multivariate attributten og ment å oppnå vitenskapelige og praktiske konklusjoner.

Den innledende matrisen av flerdimensjonale data for å utføre multivariat analyse er vanligvis resultatene av å måle komponentene til en flerdimensjonal attributt for hvert av objektene i den studerte befolkningen, dvs. en sekvens av multivariate observasjoner. Et multivariat attributt tolkes oftest som , og en sekvens av observasjoner som et utvalg fra den generelle befolkningen. I dette tilfellet er valget av metoden for å behandle de første statistiske dataene gjort på grunnlag av visse antakelser om arten av distribusjonsloven til den studerte flerdimensjonale attributten.

1. Multivariat statistisk analyse av multivariate fordelinger og deres hovedkarakteristika dekker situasjoner der de bearbeidede observasjonene er av sannsynlighetsgrad, d.v.s. tolket som et utvalg fra den tilsvarende generelle befolkningen. Hovedoppgavene til denne underseksjonen inkluderer: statistisk estimering av de studerte multivariate fordelingene og deres hovedparametre; studie av egenskapene til de statistiske estimatene som brukes; studie av sannsynlighetsfordelinger for en rekke statistikker, som brukes til å bygge statistiske kriterier for å teste ulike hypoteser om sannsynligheten til de analyserte multivariate dataene.

2. Multivariat statistisk analyse av arten og strukturen til sammenhengene mellom komponentene i den studerte multivariate attributten kombinerer konseptene og resultatene som ligger i slike metoder og modeller som analyse, variansanalyse, analyse av kovarians, faktoranalyse, etc. Metoder som tilhører denne gruppen inkluderer både algoritmer basert på antakelsen om dataenes sannsynlige natur, og metoder som ikke passer inn i rammeverket til noen sannsynlighetsmodell (sistnevnte omtales ofte som metoder).

3. Multidimensjonal statistisk analyse av den geometriske strukturen til det studerte settet av multivariate observasjoner kombinerer konseptene og resultatene som ligger i slike modeller og metoder som diskriminantanalyse, klyngeanalyse, flerdimensjonal skalering. Nodal for disse modellene er begrepet avstand, eller et mål på nærhet mellom de analyserte elementene som punkter i et rom. I dette tilfellet kan både objekter (som punkter spesifisert i funksjonsrommet) og funksjoner (som punkter spesifisert i objektrommet) analyseres.

Den anvendte verdien av multivariat statistisk analyse består hovedsakelig i å løse følgende tre problemer:

oppgaven med statistisk studie av avhengighetene mellom indikatorene som vurderes;

oppgaven med å klassifisere elementer (objekter eller funksjoner);

· oppgaven med å redusere dimensjonen til funksjonsområdet under vurdering og velge de mest informative funksjonene.

Multippel regresjonsanalyse er designet for å bygge en modell som lar verdiene til uavhengige variabler oppnå estimater av verdiene til den avhengige variabelen.

Logistisk regresjon for å løse klassifiseringsproblemet. Dette er en type multippel regresjon, hvis formål er å analysere forholdet mellom flere uavhengige variabler og en avhengig variabel.

Faktoranalyse omhandler bestemmelse av et relativt lite antall latente (latente) faktorer, hvis variabilitet forklarer variasjonen til alle observerte indikatorer. Faktoranalyse tar sikte på å redusere dimensjonen av problemet som vurderes.

Klynge- og diskriminantanalyse er designet for å dele samlinger av objekter inn i klasser, som hver skal inkludere objekter som er homogene eller nære i en viss forstand. I klyngeanalyse er det ikke kjent på forhånd hvor mange grupper av objekter som vil vise seg og hvilken størrelse de vil ha. Diskriminerende analyse deler objekter inn i allerede eksisterende klasser.

Kapittel 1 Multippel regresjonsanalyse

Oppdrag: Forskning av boligmarkedet i Orel (sovjetiske og nordlige regioner).

Tabellen viser data om prisen på leiligheter i Orel og om ulike faktorer som bestemmer den:

· Totalt areal;

Området på kjøkkenet

· stue;

type hus

antall rom. (Figur 1)

Ris. 1 Startdata

I kolonnen "Region" brukes betegnelsene:

3 - sovjetisk (elite, tilhører de sentrale regionene);

4 - Nord.

I kolonnen "Type hus":

1 - murstein;

0 - panel.

Påkrevd:

1. Analyser forholdet mellom alle faktorer med "Pris"-indikatoren og seg imellom. Velg de faktorene som er best egnet for å bygge en regresjonsmodell;

2. Konstruer en dummyvariabel som reflekterer leilighetens tilhørighet til de sentrale og perifere områdene av byen;

3. Bygg en lineær regresjonsmodell for alle faktorer, inkludert en dummy-variabel i den. Forklar den økonomiske betydningen av parametrene i ligningen. Vurdere kvaliteten på modellen, den statistiske signifikansen til ligningen og dens parametere;

4. Fordel faktorene (bortsett fra dummyvariabelen) i henhold til graden av påvirkning på "Pris"-indikatoren;

5. Bygg en lineær regresjonsmodell for de mest innflytelsesrike faktorene, og la en dummy-variabel være igjen i ligningen. Evaluere kvaliteten og statistisk signifikans av ligningen og dens parametere;

6. Begrunn at det er hensiktsmessig eller uhensiktsmessig å inkludere en dummy-variabel i ligningen i paragraf 3 og 5;

7. Estimer intervallestimater av parametrene til ligningen med en sannsynlighet på 95 %;

8. Bestem hvor mye en leilighet med et totalt areal på 74,5 m² i et eliteområde (perifert) vil koste.

Opptreden:

1. Etter å ha analysert forholdet mellom alle faktorer med "Pris"-indikatoren og seg imellom, ble faktorene som var best egnet for å bygge en regresjonsmodell valgt ved bruk av "Forward"-inkluderingsmetoden:

A) det totale arealet;

C) antall rom.

Inkluderte/ekskluderte variabler(a)

en Avhengig variabel: Pris

2. Variabel X4 "Region" er en dummy-variabel, siden den har 2 verdier: 3-tilhørende den sentrale regionen "Sovjet", 4- til den perifere regionen "Severny".

3. La oss bygge en lineær regresjonsmodell for alle faktorer (inkludert dummyvariabelen X4).

Mottatt modell:

Evaluering av kvaliteten på modellen.

Standard feil = 126.477

Durbin-Watson-forhold = 2,136

Sjekke betydningen av regresjonsligningen

F-Fisher testverdi = 41.687

4. La oss bygge en lineær regresjonsmodell med alle faktorer (bortsett fra dummyvariabelen X4)

I henhold til graden av innflytelse på "Pris"-indikatoren ble de distribuert:

Den viktigste faktoren er det totale arealet (F= 40,806)

Den nest viktigste faktoren er antall rom (F= 29.313)

5. Inkluderte/ekskluderte variabler

en Avhengig variabel: Pris

6. La oss bygge en lineær regresjonsmodell for de mest innflytelsesrike faktorene med en dummyvariabel, i vårt tilfelle er det en av de innflytelsesrike faktorene.

Mottatt modell:

Y \u003d 348.349 + 35.788 X1 -217.075 X4 +305.687 X7

Evaluering av kvaliteten på modellen.

Bestemmelseskoeffisient R2 = 0,807

Viser andelen variasjon av den resulterende egenskapen under påvirkning av de studerte faktorene. Følgelig er ca 89 % av variasjonen til den avhengige variabelen tatt i betraktning og på grunn av påvirkning av de inkluderte faktorene i modellen.

Multippel korrelasjonskoeffisient R = 0,898

Viser nærhet til sammenhengen mellom den avhengige variabelen Y med alle forklaringsfaktorer inkludert i modellen.

Standard feil = 126.477

Durbin-Watson-forhold = 2,136

Sjekke betydningen av regresjonsligningen

F-Fisher testverdi = 41.687

Regresjonsligningen bør anerkjennes som tilstrekkelig, modellen anses som signifikant.

Den viktigste faktoren er antall rom (F=41 687)

Den nest viktigste faktoren er det totale arealet (F= 40,806)

Den tredje viktigste faktoren er regionen (F= 32.288)

7. Dummyvariabelen X4 er en signifikant faktor, så det er lurt å inkludere den i ligningen.

Intervallestimatene for ligningsparametrene viser resultatene av prognoser ved regresjonsmodellen.

Med en sannsynlighet på 95% vil salgsvolumet i prognosemåneden være fra 540,765 til 1080,147 millioner rubler.

8. Fastsettelse av kostnaden for en leilighet i et eliteområde

For 1 rom U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 1

For 2 rom U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 2

For 3 rom U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 3

i det perifere

For 1 rom U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 1

For 2 rom U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 2

For 3 rom U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 3

Kapittel 2. Klyngeanalyse

Oppgave: Studie av strukturen til pengeutgifter og sparing i befolkningen.

Tabellen viser strukturen av kontantutgifter og sparing av befolkningen etter regioner i det sentrale føderale distriktet Den russiske føderasjonen i 2003 For følgende indikatorer:

PTIOU - kjøp av varer og betaling for tjenester;

· OPiV - obligatoriske betalinger og bidrag;

PN - kjøp av eiendom;

· PFA – økning i finansielle eiendeler;

· DR - økning (reduksjon) av penger i hendene på befolkningen.

Ris. 8 Startdata

Påkrevd:

1) bestemme det optimale antallet klynger for å dele regioner i homogene grupper i henhold til alle grupperingsegenskaper samtidig;

2) utføre klassifiseringen av områder ved en hierarkisk metode med en algoritme for intergrupperelasjoner og vise resultatene i form av et dendrogram;

3) analysere hovedprioriteringene for kontantutgifter og sparing i de resulterende klyngene;

Opptreden:

1) Bestem det optimale antallet klynger for å dele regioner i homogene grupper i henhold til alle grupperingsegenskaper samtidig;

For å bestemme det optimale antallet klynger, må du bruke den hierarkiske klyngeanalysen og referere til tabellen "Trinn for agglomerering" til kolonnen "Koeffisienter".

Disse koeffisientene innebærer avstanden mellom to klynger, bestemt på grunnlag av det valgte avstandsmålet (euklidisk avstand). På det stadiet hvor avstandsmålet mellom to klynger øker brått, må prosessen med sammenslåing til nye klynger stoppes.

Som et resultat anses det optimale antallet klynger som lik forskjellen mellom antall observasjoner (17) og trinntallet (14), hvoretter koeffisienten øker brått. Dermed er det optimale antallet klynger 3. (Fig. 9)

statistisk matematisk analyseklynge

Ris. 9 Tabell "Sintringstrinn"

2) Utfør klassifiseringen av områder ved en hierarkisk metode med en algoritme for intergrupperelasjoner og vis resultatene i form av et dendrogram;

Nå, ved å bruke det optimale antallet klynger, klassifiserer vi områder ved hjelp av en hierarkisk metode. Og i utgangen går vi til tabellen "Tilhørighet til klynger". (fig.10)

Ris. 10 Tabell "Tilhøre klynger"

På fig. 10 viser tydelig at 2 regioner (Kaluga, Moskva) og Moskva falt i klynge 3, to regioner (Bryansk, Voronezh, Ivanovo, Lipetsk, Oryol, Ryazan, Smolensk, Tambov, Tver) falt i klynge 2, Belgorod, Vladimir, Kostroma, Kursk, Tula, Yaroslavl.

Ris. 11 Dendrogram

3) analysere hovedprioriteringene for kontantutgifter og sparing i de resulterende klyngene;

For å analysere de resulterende klyngene, må vi gjennomføre en "Sammenligning av gjennomsnitt". Utdatavinduet viser følgende tabell (fig. 12)

Ris. 12 Gjennomsnittsverdier av variabler

I tabellen "Gjennomsnittsverdier" kan vi spore hvilke strukturer som prioriteres høyest i fordelingen av kontantutgifter og sparing av befolkningen.

Først av alt bør det bemerkes at høyeste prioritet på alle områder er gitt til kjøp av varer og betaling for tjenester. Parameteren tar en større verdi i den tredje klyngen.

2. plass er okkupert av veksten av finansielle eiendeler. Høyeste verdi i 1 klynge.

Den minste koeffisienten i 1. og 2. klynge er for "erverv av fast eiendom", og i 3. klynge ble det avslørt en merkbar nedgang i penger i hendene på befolkningen.

Generelt er kjøp av varer og tjenester og ubetydelig kjøp av fast eiendom av særlig betydning for befolkningen.

4) sammenlign den resulterende klassifiseringen med resultatene av bruk av intragrupperelasjonsalgoritmen.

I analysen av intergruppeforhold endret situasjonen seg praktisk talt ikke, med unntak av Tambov-regionen, som falt inn i 1 av 2 klynger (Fig. 13).

Ris. 13 Analyse av konserninterne relasjoner

Det var ingen endringer i "Gjennomsnitt"-tabellen.

Kapittel 3. Faktoranalyse

Oppgave: Analyse av virksomheten til virksomheter lett industri.

Undersøkelsesdata er tilgjengelig for 20 lettindustribedrifter (fig. 14) i henhold til følgende karakteristika:

X1 - nivået på kapitalproduktivitet;

X2 - arbeidsintensiteten til en produksjonsenhet;

X3 - andelen innkjøpsmaterialer i totale kostnader;

X4 – utstyrsskiftfaktor;

X5 - bonuser og godtgjørelse per ansatt;

X6 - andelen tap fra ekteskap;

X7 – gjennomsnittlig årlig kostnad for faste produksjonsmidler;

X8 - gjennomsnittlig årlig lønnsfond;

X9 - nivået av salgbarhet av produkter;

· X10 – permanent aktivaindeks (forholdet mellom anleggsmidler og andre anleggsmidler og egne midler);

X11 - omsetning av arbeidskapital;

X12 - ikke-produksjonskostnader.

Fig.14 Startdata

Påkrevd:

1. gjennomføre en faktoranalyse av følgende variabler: 1,3,5-7, 9, 11,12, identifisere og tolke faktorkarakteristikker;

2. angi de mest velstående og lovende foretakene.

Opptreden:

1. Gjennomfør en faktoranalyse av følgende variabler: 1,3,5-7, 9, 11,12, identifiser og tolk faktorkarakteristikker.

Faktoranalyse er et sett med metoder som, på grunnlag av virkelige forhold mellom objekter (trekk), gjør det mulig å identifisere latente (implisitte) generaliserende egenskaper ved organisasjonsstrukturen.

I faktoranalysedialogboksen velger du variablene våre, spesifiser de nødvendige parameterne.

Ris. 15 Total forklart varians

I følge tabellen over "Total forklart varians" kan det ses at det er identifisert 3 faktorer som forklarer 74,8 % av variasjonene til variablene - den konstruerte modellen er ganske god.

Nå tolker vi faktortegnene i henhold til "Matrix of Rotated Components": (Fig.16).

Ris. 16 Matrise av roterte komponenter

Faktor 1 er nærmest knyttet til nivået på produktsalg og har et omvendt forhold til ikke-produksjonskostnader.

Faktor 2 er nærmest knyttet til andel anskaffelsesmateriell av totale kostnader og andel av tap fra ekteskap og har et omvendt forhold til bonus og godtgjørelse per ansatt.

Faktor 3 er nærmest knyttet til nivået på kapitalproduktivitet og omsetning av arbeidskapital og har et omvendt forhold til gjennomsnittlig årlig kostnad for anleggsmidler.

2. Angi de mest velstående og lovende foretakene.

For å identifisere de mest velstående foretakene vil vi sortere dataene etter 3 faktorkriterier i synkende rekkefølge. (fig.17)

De mest velstående foretakene bør vurderes: 13,4,5, siden generelt, ifølge 3 faktorer, har indikatorene deres de høyeste og mest stabile posisjonene.

Kapittel 4. Diskriminerende analyse

Vurdering av kredittverdigheten til juridiske personer i en forretningsbank

Banken valgte seks indikatorer som signifikante indikatorer som karakteriserer den økonomiske tilstanden til låntakerorganisasjoner (tabell 4.1.1):

QR (X1) - raskt likviditetsforhold;

CR (X2) - nåværende likviditetsforhold;

EQ/TA (X3) - økonomisk uavhengighetsforhold;

TD/EQ (X4) - total forpliktelse til egenkapital;

ROS (X5) - lønnsomhet av salg;

FAT (X6) - omsetning av anleggsmidler.

Tabell 4.1.1. Innledende data


Påkrevd:

Basert på diskriminantanalyse ved bruk av SPSS-pakken, bestemme hvilken av de fire kategoriene tre låntakere tilhører ( juridiske enheter) som ønsker å få lån fra en forretningsbank:

§ Gruppe 1 - med utmerket økonomisk ytelse;

§ Gruppe 2 - med gode økonomiske resultater;

§ Gruppe 3 - med dårlig økonomisk ytelse;

§ Gruppe 4 - med svært dårlige økonomiske resultater.

Basert på resultatene av beregningen, konstruer diskriminantfunksjoner; evaluer deres betydning ved Wilks-koeffisienten (λ). Bygg et persepsjonskart og diagrammer over de relative posisjonene til observasjoner i løpet av tre funksjoner. Utfør tolkning av resultatene av analysen.

Framgang:

For å avgjøre hvilken av de fire kategoriene tre låntakere som ønsker å motta lån fra en forretningsbank tilhører, konstruerer vi en diskriminerende analyse som lar oss bestemme hvilken av de tidligere identifiserte populasjonene (opplæringsprøvene) nye kunder skal tilordnes til .

Som en avhengig variabel vil vi velge en gruppe som låntakeren kan tilhøre, avhengig av dens økonomiske ytelse. Fra oppgavedataene tildeles hver gruppe en tilsvarende poengsum på 1, 2, 3 og 4.

Unormaliserte kanoniske koeffisienter for diskriminantfunksjoner vist i fig. 4.1.1 brukes til å konstruere ligningen for diskriminantfunksjonene D1(X), D2(X) og D3(X):

3.) D3(X) =


1

(Konstant)

Ris. 4.1.1. Koeffisienter for den kanoniske diskriminantfunksjonen

Ris. 4.1.2. Lambda Wilks

Men siden signifikansen av Wilks-koeffisienten (fig. 4.1.2) av den andre og tredje funksjonen er mer enn 0,001, er det ikke tilrådelig å bruke dem for diskriminering.

Dataene i tabellen "Resultater av klassifisering" (Fig. 4.1.3) indikerer at for 100 % av observasjonene ble klassifiseringen utført riktig, høy nøyaktighet ble oppnådd i alle fire gruppene (100 %).

Ris. 4.1.3. Klassifiseringsresultater

Informasjon om faktiske og predikerte grupper for hver låntaker er gitt i tabellen "Punktstatistikk" (fig. 4.1.4).

Som et resultat av diskriminantanalyse ble det med stor sannsynlighet fastslått at bankens nye låntakere tilhører opplæringsundergruppen M1 - den første, andre og tredje låntakeren (serienummer 41, 42, 43) er tilordnet M1-undergruppen med tilsvarende sannsynligheter på 100%.

Observasjonsnummer

Faktisk gruppe

Mest sannsynlig gruppe

Forutsagt gruppe

ugruppert

ugruppert

ugruppert

Ris. 4.1.4. Poengstatistikk

Koordinatene til sentroider etter grupper er gitt i tabellen "Funksjoner i gruppesentroider" (Fig. 4.1.5). De brukes til å plotte centroider på et perseptuelt kart (Figur 4.1.6).

1

Ris. 4.1.5. Funksjoner i gruppe sentroider

Ris. 4.1.6. Persepsjonskart for to diskriminantfunksjoner D1(X) og D2(X) (* - gruppetyngdepunkt)

Feltet til "Territorialkartet" er delt inn av diskriminerende funksjoner i fire områder: på venstre side er det hovedsakelig observasjoner av den fjerde gruppen av låntakere med svært dårlig økonomisk ytelse, på høyre side - den første gruppen med utmerket økonomisk ytelse, i den midtre og nedre delen - den tredje og andre gruppen av låntakere med henholdsvis dårlig og god økonomisk ytelse.

Ris. 4.1.7. Scatterplot for alle grupper

På fig. 4.1.7 viser den kombinerte tidsplanen for fordeling av alle grupper av låntakere sammen med deres sentroider; den kan brukes til å utføre en sammenlignende visuell analyse av arten av den relative posisjonen til grupper av banklåntakere når det gjelder finansielle indikatorer. På høyre side av grafen er låntakere med høy ytelse, til venstre - med lav, og i midten - med gjennomsnittlig økonomisk ytelse. Siden den andre diskriminantfunksjonen D2(X) ifølge beregningsresultatene viste seg å være ubetydelig, er forskjellene i tyngdepunktkoordinatene langs denne aksen ubetydelige.

Vurdering av kredittverdigheten til enkeltpersoner i en forretningsbank

Kredittavdelingen til en forretningsbank gjennomførte en utvalgsundersøkelse av 30 av sine kunder (individer). Basert på en foreløpig analyse av dataene, ble låntakere evaluert etter seks indikatorer (tabell 4.2.1):

X1 - låntaker tok opp lån kommersielle banker tidligere;

X2 er den gjennomsnittlige månedlige inntekten til låntakerens familie, tusen rubler;

X3 - løpetid (periode) for tilbakebetaling av lånet, år;

X4 - beløpet på lånet utstedt, tusen rubler;

X5 - sammensetningen av låntakerens familie, personer;

X6 - låntakers alder, år.

Samtidig ble tre grupper av låntakere identifisert i henhold til sannsynligheten for tilbakebetaling av lån:

§ Gruppe 1 - med lav sannsynlighet for tilbakebetaling av lån;

§ Gruppe 2 - med en gjennomsnittlig sannsynlighet for tilbakebetaling av lån;

§ Gruppe 3 - med stor sannsynlighet for tilbakebetaling av lån.

Påkrevd:

Basert på diskriminant analyse ved bruk av SPSS-pakken, er det nødvendig å klassifisere tre bankkunder (i henhold til sannsynligheten for tilbakebetaling av lån), dvs. vurdere om hver av dem tilhører en av de tre gruppene. Basert på resultatene av beregningen, bygg signifikante diskriminantfunksjoner, evaluer deres betydning ved Wilks-koeffisienten (λ). I løpet av to diskriminerende funksjoner for hver gruppe, konstruer diagrammer over det gjensidige arrangementet av observasjoner og et kombinert diagram. Vurder plasseringen av hver låntaker på disse diagrammene. Utfør tolkning av resultatene av analysen.

Tabell 4.2.1. Innledende data

Framgang:

For å bygge en diskriminerende analyse velger vi sannsynligheten for rettidig tilbakebetaling av et lån av en klient som en avhengig variabel. Gitt at den kan være lav, middels og høy, vil hver kategori bli tildelt en tilsvarende poengsum på 1,2 og 3.

Unormaliserte kanoniske koeffisienter for diskriminantfunksjoner vist i fig. 4.2.1 brukes til å konstruere ligningen for diskriminantfunksjonene D1(X), D2(X):

2.) D2(X) =

Ris. 4.2.1. Koeffisienter for den kanoniske diskriminantfunksjonen

Ris. 4.2.2. Lambda Wilks

I følge Wilks-koeffisienten (fig. 4.2.2) for den andre funksjonen er signifikansen mer enn 0,001, derfor er det ikke tilrådelig å bruke den for diskriminering.

Dataene i tabellen "Klassifiseringsresultater" (fig. 4.2.3) indikerer at for 93,3 % av observasjonene ble klassifiseringen utført riktig, høy nøyaktighet ble oppnådd i den første og andre gruppen (100 % og 91,7 %), mindre nøyaktig resultater ble oppnådd i den tredje gruppen (88,9%).

Ris. 4.2.3. Klassifiseringsresultater

Informasjon om faktiske og predikerte grupper for hver klient er gitt i tabellen "Punktstatistikk" (Fig. 4.2.4).

Som et resultat av diskriminantanalysen ble det med stor sannsynlighet fastslått at bankens nye kunder tilhører opplæringsdelsettet M3 - den første, andre og tredje klienten (serienummer 31, 32, 33) er tilordnet M3-undergruppen med de tilsvarende sannsynlighetene på 99 %, 99 % og 100 %.

Observasjonsnummer

Faktisk gruppe

Mest sannsynlig gruppe

Forutsagt gruppe

ugruppert

ugruppert

ugruppert

Ris. 4.2.4. Poengstatistikk

Sannsynlighet for tilbakebetaling av lån

Ris. 4.2.5. Funksjoner i gruppe sentroider

Koordinatene til sentroider etter grupper er gitt i tabellen "Funksjoner i gruppesentroider" (fig. 4.2.5). De brukes til å plotte centroider på et perseptuelt kart (Figur 4.2.6).

Feltet "Territorial Map" er delt inn av diskriminerende funksjoner i tre områder: på venstre side er det hovedsakelig observasjoner av den første gruppen av kunder med svært lav sannsynlighet for å betale tilbake lånet, på høyre side - den tredje gruppen med høy sannsynlighet , i midten - den andre gruppen av kunder med en gjennomsnittlig sannsynlighet for å betale tilbake lånet, henholdsvis. .

På fig. 4.2.7 (a - c) gjenspeiler plasseringen av klientene til hver av de tre gruppene på planet av to diskriminantfunksjoner D1(X) og D2(X). Ved å bruke disse grafene kan man utføre en detaljert analyse av sannsynligheten for tilbakebetaling av et lån innen hver gruppe, bedømme arten av fordelingen av kunder og vurdere graden av deres avstand fra det tilsvarende tyngdepunktet.

Ris. 4.2.6. Persepsjonskart for tre diskriminantfunksjoner D1(X) og D2(X) (* - gruppetyngdepunkt)

Også i fig. 4.2.7 (d) i samme koordinatsystem vises den kombinerte grafen for fordelingen av alle kundegrupper sammen med deres tyngdepunkt; den kan brukes til å utføre en sammenlignende visuell analyse av arten av den relative posisjonen til grupper av bankkunder med forskjellige sannsynligheter for tilbakebetaling av lån. På venstre side av grafen er låntakere med stor sannsynlighet for å betale tilbake lånet, til høyre - med lav sannsynlighet, og i midtre del - med gjennomsnittlig sannsynlighet. Siden den andre diskriminantfunksjonen D2(X) ifølge beregningsresultatene viste seg å være ubetydelig, er forskjellene i tyngdepunktkoordinatene langs denne aksen ubetydelige.

Ris. 4.2.7. Plassering av observasjoner på planet av to diskriminerende funksjoner for grupper med lav (a), middels (b), høy (c) sannsynlighet for tilbakebetaling av lån og for alle grupper (d)

Bibliografi

1. «Multivariat statistisk analyse i økonomiske problemer. Datamodellering i SPSS", 2009

2. Orlov A.I. "Anvendt statistikk" M .: Forlag "Eksamen", 2004

3. Fisher R.A. "Statistiske metoder for forskere", 1954

4. Kalinina V.N., Soloviev V.I. "Introduksjon til multivariat statistisk analyse" Lærebok SUM, 2003;

5. Achim Buyul, Peter Zöfel, SPSS: The Art of Information Processing, DiaSoft Publishing, 2005;

6. http://ru.wikipedia.org/wiki


prøvetabell. konjugasjonsmaks, plausible estimater:

G2= -2 ^ p sch Sht t ■ p w)

har en asymptotisk χ 2 -fordeling. Dette er basert på stat. testing av forholdshypotesen.

Erfaring med databehandling ved bruk av A.l. viste sin effektivitet som en metode for målrettet analyse av flerdimensjonale tabeller. konjugasjon, som inneholder (i tilfelle av et meningsfylt rimelig valg av variabler) en enorm, sammenlignet med todimensjonale tabeller, mengden informasjon av interesse for sosiologen. Metoden lar deg beskrive denne tabellen kort. (i form av en hypotese om sammenhenger) og samtidig analysere i detalj kons. forhold. Al. brukes vanligvis i mange stadier, i form av en sosiolog-datamaskin-dialog. Dermed ble A.l. har betydelig fleksibilitet, gir mulighet til å formulere ulike typer antakelser om relasjoner, for å inkludere sosiologs erfaring i prosedyren for formell dataanalyse.

Litt.: Topp G. Analyse av tabellen. konjugasjon. M., 1982; Typologi og klassifisering i sosiol. undersøkelser. M., 1982; Biskop Y.M.M. et ai. Diskret multivariat analyse. N.Y., 1975; Agresti A. En introduksjon til kategorisk dataanalyse. N.Y., 1966.

A.A. Mirzoev

MULTIVARIAT STATISTISK ANALYSE- sek. matematisk statistikk, dedikert til matematikk. metoder rettet mot å identifisere arten og strukturen til sammenhenger mellom komponentene i det studerte tegn på flerdimensjonal og ment å motta vitenskapelig. og praktiske implikasjoner. Den innledende matrisen med flerdimensjonale data for å gjennomføre A.m.s. tjener vanligvis som resultatene av å måle komponentene til en flerdimensjonal attributt for hvert av objektene i den studerte befolkningen, dvs. en sekvens av multivariate observasjoner (se observasjon i statistikk). Et flerdimensjonalt trekk tolkes oftest som et flerdimensjonalt ledet-


ranger tilfeldig, og sekvensen av multivariate observasjoner - som et utvalg fra den generelle befolkningen. I dette tilfellet, valget av metoden for å behandle den opprinnelige statistikken. data er produsert på grunnlag av visse forutsetninger om arten distribusjonsloven studerte flerdimensjonale trekk (se. Sannsynlighetsfordeling).

01.00 multivariate fordelinger og deres viktigste. kjennetegn dekker situasjoner når de bearbeidede observasjonene er av sannsynlighetsmessig karakter, dvs. tolkes som et utvalg fra iht. den generelle befolkningen. Til det viktigste Målene for denne underseksjonen inkluderer; statistisk estimering undersøkte multivariate fordelinger og deres viktigste. parametere; forskning på egenskapene til den brukte statistikken. rangeringer; studie av sannsynlighetsfordelinger for en rekke statistikker, ved hjelp av hvilken statistikk konstrueres. testkriterier diff. hypoteser om sannsynligheten til de analyserte multivariate dataene (se Testing av statistiske hypoteser).

2. A.m.s. naturen og strukturen til sammenhengene mellom komponentene i det flerdimensjonale trekk som studeres kombinerer konseptene og resultatene som ligger i slike metoder og modeller som regresjonsanalyse, spredningsanalyse, kovariansanalyse, faktor analyse, latent-strukturanalyse, logganalyse, søk etter interaksjoner. Metoder som tilhører denne gruppen inkluderer begge algoritmer, hoved. basert på antakelsen om dataenes sannsynlighet, samt metoder som ikke passer inn i rammeverket til k.-l. sannsynlighetsmodell (sistnevnte blir ofte referert til som metoder dataanalyse).

3. A.m.s. Den geometriske strukturen til det studerte settet med flerdimensjonale observasjoner kombinerer konseptene og resultatene som ligger i slike modeller og metoder som diskriminerende analyse, klyngeanalyse (se. Klassifiseringsmetoder, Skala). Nodal for disse modellene yavl. begrepet en avstand eller et mål for nærhet mellom de analyserte elementene som punkter av en slags

ÅRSAKSANALYSE


vandringer. I dette tilfellet kan både objekter (som punkter spesifisert i funksjonsområdet) og funksjoner (som punkter spesifisert i "objekt"-rommet) analyseres.

Anvendt verdi A.m.s. består i hovedsak i tjeneste neste gang. tre problemer: stat. studie av avhengigheter mellom indikatorene som vurderes; klassifisering av elementer (objekter) eller funksjoner; redusere dimensjonen til funksjonsområdet under vurdering og velge de mest informative funksjonene.

Lit.: Stat. metoder for sosiologisk analyse. informasjon. M., 1979; Typologi og klassifisering i sosiol. undersøkelser. M., 1982; Tolking og analyse av data i sosiol, forskning. M., 1987; Ayvazyan S.A., Mkhitaryan V.S. Anvendt statistikk og grunnleggende økonometri: Proc. M., 1998; Soshnikova L.A. etc. Flerdimensjonal stat. analyse i økonomi. M., 1999; Dubrov A.M., Mkhitaryan V.S., Troshin L.I. Flerdimensjonal stat. metoder for økonomer og ledere. M., 2000; Rostovtsev B.C., Kovaleva T.D. Sosiologisk analyse. data ved hjelp av stat. SPSS-pakke. Novosibirsk, 2001; Tyurin Yu.N., Makarov A.A. Dataanalyse på en datamaskin. Y., 2003; Krysh-tanovsky A. O. Sosiologisk analyse. data ved hjelp av SPSS-pakken. M., 2006.

YUN. Tolstova

ÅRSAKSANALYSE- metoder for modellering av årsakssammenhenger mellom funksjoner ved bruk av statsystemer. ligninger, oftest regresjon (se. regresjonsanalyse). Det er andre navn på dette ganske omfattende og stadig skiftende metodefeltet: stianalyse, som grunnleggeren S. Wright først kalte det; metoder for strukturelle økonometriske ligninger, slik det er vanlig innen økonometri, etc. Osn. konsepter av A.p. yavl.: bane (strukturell, kausal) diagram, kausal (bane) koeffisient, direkte, indirekte og imaginære komponenter av forbindelsen mellom tegn. Brukt i A.p. begrepet "årsakssammenheng * påvirker ikke komplekse fi-


los. problemer knyttet til begrepet "årsakssammenheng". Årsakskoeffisient bestemt. ganske operativt. Matte. Apparatet gjør det mulig å kontrollere tilstedeværelsen av direkte og indirekte årsaksforhold mellom tegnene, samt å identifisere komponentene i korrelasjonskoeffisientene (se fig. Sammenheng), to-rye assosiert med direkte, indirekte og imaginære sammenhenger.

Banediagrammet gjenspeiler grafisk hypotetisk antatte årsaksforhold, rettet sammenhenger mellom funksjoner. Et funksjonssystem med enveiskoblinger kalles rekursivt. Ikke-rekursive årsakssystemer tar også hensyn til tilbakemeldinger, for eksempel kan to trekk ved et system være både en årsak og en virkning i forhold til hverandre. Alle tegn er delt inn i tegn-konsekvenser (avhengig, endogene) og tegn-årsaker (uavhengige, eksogene). I et ligningssystem kan imidlertid endogene trekk ved en av ligningene være eksogene trekk ved andre ligninger. I tilfelle av fire funksjoner, det rekursive diagrammet av alle mulige forbindelser mellom funksjoner ser slik ut:

x 2
/ N
*1 Til
G
til S

Bygge et diagram over forbindelser yavl. et nødvendig premiss for matematikk. formulering av systemstatistikken. ligninger som gjenspeiler påvirkningene presentert i diagrammet. Hoved Vi vil illustrere prinsippene for å konstruere et system med regresjonsligninger ved å bruke de samme fire funksjonene som et eksempel. Går i retning av pilene, starter fra Hee finne den første endogene

ANALYSE ÅRSAK


ny tegn og vi legger merke til disse tegnene, to-rye det påvirkes både direkte (direkte), og indirekte (indirekte) og gjennom andre tegn. Den første standardiserte regresjonsligningen tilsvarer den første endogene egenskapen Xj og uttrykker avhengighet Χι fra de tegnene som påvirker ham, dvs. fra Χγ. Dermed har den første ligningen formen: Χι = bi\X\.

Så avslører vi det andre endogene tegnet, to-ry har kommunikasjon rettet mot det. Dette er et tegn på Aj, det tilsvarer eksogene variabler X\ og Χι, derfor er den andre regresjonsligningen i en standardisert form formulert som følger: Aj = bcx\+ bpXg etc. Tar hensyn til målefeil U systemet med standardiserte regresjonsmodeller for vårt spesielle årsaksdiagram er: X\ \u003d Ui, MEN? =

- b->\X\+ Ui, xt,= 631ΑΊ + byiXi+ Uy, Χα -

- baXi+ binXi+ J43A3 + SCH. For å evaluere koeffisientene b, s, det må løses. Vedtaket foreligger under forutsetning av at dataene tilfredsstiller en viss karakter. stat. krav. b$ kalles årsaksfaktorer og betegnes ofte som RU. At., R# viser den andelen av endringen i variasjonen av den endogene egenskapen, som oppstår når den eksogene egenskapen endres j per enhet standardavvik for denne funksjonen, forutsatt at påvirkning av andre funksjoner i ligningen er utelukket (se. regresjonsanalyse). P,y har med andre ord en direkte funksjonseffekt j på egenskapen d. Indirekte effekt av egenskapen j på;) beregnes ut fra å ta hensyn til alle påvirkningsveier jJeg bortsett fra direkte.

I diagrammet er den direkte påvirkningen av den første funksjonen på den fjerde funksjonen skjematisk representert av en rett pil direkte fra Χι til xt, symbolsk avbildet som 1->4; den er lik koeffisienten for årsakspåvirkning P, X 2,..., H R. Strengt regressiv avhengighet kan defineres som følger. vei.

La U X\, Xr,..., X p - tilfeldig
mengder med et gitt ledd løp
sannsynligheter.
Hvis for hver
langt sett med verdier X λ \u003d x \, X 2= hg,...,
X p \u003d x p betinget matematikk. vente
Danmark Υ(χ\, X2,..., Xp) - E(Y/(X]= xj,
Χι = X2, ..., X p \u003d Xp)), deretter funksjonen Υ(Χ],
x2,
..., Xp) kalt størrelsesregresjon
ns Y etter størrelse X\, Xr,..., x r, og henne
graf - regresjonslinje Y by X\, Xr,
..., X p,
eller regresjonsligning. Zavi
avhengighet av Y av ΛΊ, hg....... X p viser seg i

endring i gjennomsnittsverdiene til Vpri fra
endres X\, Xr........ Chr. Selv om på hver

faste sett med verdier X]- xj, xg = xg,» , Xp ~ Xp mengden Τ forblir en tilfeldig variabel med en definisjon. spredning. For å finne ut hvor nøyaktig regresjonen estimerer endringen i Y med en endring i ΑΊ, hg,..., x r, gjennomsnittsverdien av variansen Y brukes for forskjellige sett med verdier X\, Xr,..., Xp(faktisk snakker vi om spredningsmålet til den avhengige variabelen rundt regresjonslinjen).

I praksis søkes regresjonslinjen oftest i form av en lineær funksjon Y = bx + biXi + bxxr+ - + bpXp(lineær regresjon), den beste måten tilnærmet ønsket kurve. Dette gjøres ved å bruke minste kvadraters metode, når summen av kvadrerte avvik av faktisk observert Y fra deres Y-estimater er minimert (som betyr estimater ved bruk av en rett linje som hevder å representere ønsket regresjonsavhengighet): w

U (U -U) => min (Ν - prøvestørrelse), s

Denne tilnærmingen er basert på det velkjente faktum at summen som vises i uttrykket ovenfor tar en mini-nim. verdi for tilfellet når Y= Υ(χ\, xr, --, x R). applikasjon