Monimuuttujatilastoanalyysissä tutkitut riippuvuustyypit. Monimuuttujatilastollinen analyysi

Tilastollisen analyysin peruskäsitteet ja menetelmät hahmotellaan. moniulotteinen tuloksia tekninen kokeiluja. <...>Teoreettista tietoa aiheesta ominaisuuksia moniulotteinen Gaussin jakelut. <...>Käsikirjassa käsitellyn kokeen tulos on satunnainen vektori jaetaan normaalin lain mukaan.<...>Moniulotteinen normaali tiheys Usein kokeen tulos on kokonaisuus numeroita, jotka kuvaavat jotakin tutkittavaa kohdetta.<...>4 f x  Kirjoita muodossa ξ  ~ ( ND,)μ  on p-ulotteinen normaali jakelu. tarkoittaa että vektoriξ , ξ) kestää erilaisia ​​merkityksiä, joten siitä on järkevää puhua satunnainen vektori 12 komponentti vektori,ξ  komponentti, ξ  eli EDE E   ξ= E E ξ ξ  = μ = ξ − μ ξ − μ ()()  ξp missä E on odotusmerkki.<...>Olkoon η p pp   ratkaisuilla μ= ν +B ;.   bD BD Bη ξ = ′ , (1.3) Matriisi D (1.2):sta on symmetrinen, positiivinen, joten sen esitys on D CC′=Λ missä C on ortogonaalinen matriisi, koostuu oma vektorit matriiseja;D Λ – diagonaali matriisi Kanssa oma numeroitaλ>i 0 matriiseja D päädiagonaalia pitkin.<...> Yhteinen tiheys sen komponentti,1,η=i ip, määritetty yleisestä säännöt(katso liite) on yhtä suuri kuin 5 (1.4) ; lineaarinen muunnos,η  jossa B on mittojen neliömatriisi  on variaatioiden satunnaisvektori.<...>Normaalijakauman parametrien estimointi ND . <...>Primaarisen μ=i n  -matriisin päätehtävä kovarianssi . <...>A ln ∂ = (1,5) säännöt erilaistuminen funktionaalisia funktioita vektori- tai matriisiargumenttien suhteen (katso<...>Silloin σ = ξ −ξ ξ − ξ = ξ ξ −ξ ξ∑∑ ij nn ki i kj j kk Tässä kiξ on i:s komponentti vektori keskiarvo iμ i-th Komponentit vektori . <...> Arviot enimmäismäärä uskottavuus kertoimet j / ρ=σ σ σ ovat muotoa ij ,. ij ii jj ri j σ σσ  ≠ ii jj Todistus.<...>Komponenttien välisen riippuvuuden arviointi normaali vektori Yksityiskohtainen linkkianalyysi<...>

MU_to_performing_course_work_"Multivariate_statistical_analysis".pdf

UDC 519.2 LBC 22.172 K27 Reviewer V.Yu. Chuev Kartashov G.D., Timonin V.I., Budovskaya L.M. K27 Moniulotteinen Tilastollinen analyysi: Ohjeet kurssityön toteuttamiseen. - M .: Kustantaja MSTU im. N.E. Bauman, 2007. - 48 s.: ill. Teknisten kokeiden moniulotteisten tulosten tilastollisen analyysin peruskäsitteet ja menetelmät hahmotellaan. Siinä annetaan teoreettista tietoa moniulotteisten Gaussin jakaumien ominaisuuksista. Perustieteiden tiedekunnan vanhemmille opiskelijoille. Il. 2. Bibliografia. 5 nimeä UDC 519.2 LBC 22.172 © MSTU im. N.E. Bauman, 2007

Sivu 2

SISÄLLYSLUETTELO Johdanto................................................................ .............................................................. ................... ..... 3 1. Monimuuttuja normaalijakauma .................... ........................... 4 2. Tilastollisia päätelmiä keskiarvovektorista ............... ...................... 17 3. Diskriminanttianalyysi .. ..................... .................................................. 23 4. Pääkomponenttimenetelmä .. ................................................................ ............ 27 5. Kanoniset korrelaatiot ................................................. .................................. 30 6. Monimuuttujaregressioanalyysi .......... ................................. .. 35 7. Tekijäanalyysi ....... ...................................................... .............................. 40 Liite .......................... ...................................................... ..................................................... 44 Lähteet ....... .................................................. ...................................................... 46 47

Kirjoittajan esipuheesta
Luku 1 Johdanto
1.1. Monimuuttuja normaalijakauma mallina
1.2. yleinen arvostelu moniulotteisia menetelmiä
Kirjallisuus
kappale 2
2.1. Johdanto
2.2. Monimuuttujajakaumiin liittyvät käsitteet
2.3. Monimuuttuja normaalijakauma
2.4. Normaalisti jakautuneiden määrien lineaarisen yhdistelmän jakautuminen; määrien riippumattomuus; yksityiset jakelut
2.5. Ehdolliset jakaumat ja moninkertainen korrelaatiokerroin
2.6. ominaistoiminto; hetkiä
Kirjallisuus
Tehtävät
Luku 3 Keskiarvovektorin ja kovarianssimatriisin estimoiminen
3.1. Johdanto
3.2. Keskimääräisen vektorin ja kovarianssimatriisin enimmäistodennäköisyysarviot
3.3. Näytteen keskimääräinen vektorijakauma; johtopäätös keskiarvosta, kun kovarianssimatriisi tunnetaan
Kirjallisuus
Tehtävät
Luku 4. Otoskorrelaatiokertoimien jakaumat ja käyttö
4.1. Johdanto
4.2. 2D-näytteen korrelaatiokerroin
4.3. Osittaiset korrelaatiokertoimet
4.4 Moninkertainen korrelaatiokerroin
Kirjallisuus
Tehtävät
Luku 5
5.1. Johdanto
5.2. Yleistetty T2-tilasto ja sen jakautuminen
5.3. T2-tilastojen sovellukset
5.4. T2-tilastojen jakautuminen kilpailevien hypoteesien esiintyessä; tehotoiminto
5.5. Jotkut kriteerin T2 optimaaliset ominaisuudet
5.6. Moniulotteinen Behrens-Fischer-ongelma
Kirjallisuus
Tehtävät
Kappale 6
6.1. Luokittelu ongelma
6.2. Oikean luokituksen periaatteet
6.3. Menetelmät havaintojen luokitteluun kahden populaation tapauksessa, joilla on tunnettu todennäköisyysjakauma
6.4 Havaintojen luokittelu kahdelle populaatiolle, joiden monimuuttuja normaalijakaumat tunnetaan
6.5. Havaintojen luokittelu kahden monimuuttujan normaalipopulaatioiden tapauksessa, joiden parametrit arvioidaan otoksesta
6.6. Havaintojen luokittelu useiden populaatioiden tapauksessa
6.7. Havaintojen luokittelu useiden monimuuttujien normaalipopulaatioiden tapauksessa
6.8 Esimerkki luokittelusta useiden monimuuttujien normaalipopulaatioiden tapauksessa
Kirjallisuus
Tehtävät
Luku 7
7.1. Johdanto
7.2. Wishartin jakelu
7.3. Jotkut Wishart-jakelun ominaisuudet
7.4 Cochranin lause
7.5 Yleistetty varianssi
7.6 Korrelaatiokertoimien joukon jakauma diagonaalisen populaation kovarianssimatriisin tapauksessa
Kirjallisuus
Tehtävät
Luku 8 Varianssianalyysi
8.1. Johdanto
8.2. Parametriarviot monimuuttujalle lineaarista regressiota varten
8.3 Todennäköisyyssuhdetestit lineaaristen hypoteesien testaamiseen regressiokertoimista
8.4 Todennäköisyyssuhteen hetket tapauksessa, kun nollahypoteesi on totta
8.5 Jotkut U:n jakaumat
8.6. Todennäköisyyssuhdejakauman asymptoottinen laajeneminen
8.7 Regressiokerroinmatriisien ja luottamusalueiden hypoteesitestaus
8.8 Hypoteesin testaus normaalijakaumien keskiarvojen yhtäläisyydestä yhteisellä kovarianssimatriisilla
8.9. Yleistetty varianssianalyysi
8.10. Muut kriteerit lineaarisen hypoteesin testaamiseksi
8.11. Kanoninen muoto
Kirjallisuus
Tehtävät
Luku 9
9.1. Johdanto
9.2. Todennäköisyyssuhde satunnaismuuttujajoukkojen riippumattomuuden hypoteesin testaamisen kriteerinä
9.3. Todennäköisyyssuhteen momentit edellyttäen, että nollahypoteesi pitää paikkansa
9.4 Jotkut todennäköisyyssuhdejakaumat
9.5 h:n jakauman asymptoottinen laajeneminen (todennäköisyyssuhde)
9.6. Esimerkki
9.7 Tapaus kahdesta satunnaismuuttujajoukosta
Kirjallisuus
Tehtävät
Luku 10
10.1 Johdanto
10.2 Kriteerit useiden kovarianssimatriisien yhtäläisyyttä koskevien hypoteesien testaamiseen
10.3. Kriteerit useiden normaalipopulaatioiden vastaavuushypoteesin testaamiseksi
10.4 Todennäköisyyssuhteen hetket
10.5. Suureiden V1 ja V jakaumafunktioiden asymptoottiset laajennukset
10.6. Kahden populaation tapaus
10.7. Testataan hypoteesia, että kovarianssimatriisi on verrannollinen annettuun matriisiin. Palloisuuskriteeri
10.8. Testataan hypoteesia, että kovarianssimatriisi on yhtä suuri kuin annettu matriisi
10.9. Testataan hypoteesia, että keskimääräinen vektori ja kovarianssimatriisi ovat vastaavasti samat annettu vektori ja annettu matriisi
Kirjallisuus
Tehtävät
Luku 11
11.1. Johdanto
11.2. Väestön pääkomponenttien määrittäminen
11.3. Pääkomponenttien ja niiden varianssien enimmäistodennäköisyysarviot
11.4. Pääkomponenttien enimmäistodennäköisyysarvioiden laskeminen
11.5. Esimerkki
Kirjallisuus
Tehtävät
Luku 12
12.1. Johdanto
12.2. Kanoniset korrelaatiot ja kanoniset populaatioarvot
12.3. Kanonisten korrelaatioiden ja kanonisten suureiden estimointi
12.4. Laskentamenetelmä
12.5. Esimerkki
Kirjallisuus
Tehtävät
Luku 13
13.1. Johdanto
13.2. Kahden Wishart-matriisin tapaus
13.3. Yhden tapaus rappeutumaton matriisi Wishart
13.4. Kanoniset korrelaatiot
Kirjallisuus
Tehtävät
Luku 14
14.1. Johdanto
14.2 Hypoteesien testaus arvosta ja regressiokertoimien lineaaristen rajoitusten arviointi. Kanoniset korrelaatiot ja kanoniset suureet
14.3. Ei-keskitetty Wishart-jakelu
14.4. Joidenkin tunnusomaisten juurien ja vektorien jakautuminen parametrien mukaan
14.5. Joidenkin ominaisten juurien ja vektoreiden asymptoottinen jakautuminen
14.6. Pääkomponentit
14.7. Tekijäanalyysi
14.8. Stokastiset yhtälöt
14.9. Aikasarjaanalyysi
Kirjallisuus
Sovellus. Matriisi teoria
1. Matriisien määritelmä. Matrix-toiminnot
2. Tunnusomaiset juuret ja vektorit
3. Vektorien ja matriisien jakaminen lohkoiksi
4. Jotkut tulokset
5. Doolittle-pelkistysmenetelmä ja akselikondensaatiomenetelmä järjestelmien ratkaisuun lineaariset yhtälöt
Kirjallisuus
Aihehakemisto

Ekonometria

Monimuuttujatilastollinen analyysi


Monimuuttujatilastoanalyysissä näyte koostuu monimuuttuja-avaruuden elementeistä. Tästä johtuu tämän ekonometristen menetelmien osion nimi. Tarkastellaan monimuuttujatilastoanalyysin monista ongelmista kahta - riippuvuuden palautumista ja luokittelua.

Lineaarinen ennustava funktion estimointi

Aloitetaan yhden muuttujan lineaarisen ennustusfunktion piste- ja luotettavuusestimoinnin ongelmasta.

Alkutieto on joukko n numeroparia (t k , x k), k = 1,2,…,n, jossa t k on itsenäinen muuttuja (esimerkiksi aika) ja x k on riippuvainen muuttuja (esim. inflaatioindeksi, Yhdysvaltain dollarin kurssi, kuukausituotanto tai myymälän päivittäisen tuoton suuruus). Muuttujien oletetaan liittyvän toisiinsa

x k = a (t k - t cf)+ b + e k , k = 1,2,…,n,

missä a ja b ovat tilastoille tuntemattomia ja arvioitavia parametreja ja e k ovat riippuvuutta vääristäviä virheitä. Aikapisteiden aritmeettinen keskiarvo

t cf \u003d (t 1 + t 2 + ... + t n) / n

sisällytetty malliin lisälaskelmien helpottamiseksi.

Yleensä lineaarisen riippuvuuden parametrit a ja b estimoidaan pienimmän neliösumman menetelmällä. Rekonstruoitua suhdetta käytetään sitten pisteen ja intervallin ennustamiseen.

Kuten tiedätte, pienimmän neliösumman menetelmän kehitti suuri saksalainen matemaatikko K. Gauss vuonna 1794. Tämän menetelmän mukaan parhaan funktion laskemiseksi, joka lineaarisesti approksimoi x:n riippuvuutta t:stä, on otettava huomioon kahden muuttujan funktio.


Pienimmän neliösumman estimaatit ovat ne a*:n ja b*:n arvot, joille funktio f(a,b) saavuttaa minimin yli kaikkien argumenttien arvojen.

Näiden estimaattien löytämiseksi on tarpeen laskea funktion f(a,b) osittaisderivaatat argumenttien a ja b suhteen, rinnastaa ne 0:ksi, sitten löytää estimaatit tuloksena olevista yhtälöistä: Meillä on:

Muunnetaan saatujen suhteiden oikeat osat. Otetaan yhteiset tekijät 2 ja (-1) pois summan etumerkistä. Katsotaan sitten ehtoja. Avataan hakasulkeet ensimmäisessä lausekkeessa, niin saadaan, että jokainen termi on jaettu kolmeen. Toisessa lausekkeessa jokainen termi on myös kolmen summa. Joten jokainen summa on jaettu kolmeen summaan. Meillä on:


Osittaisderivaatat rinnastetaan 0:aan. Tällöin tekijä (-2) voidaan vähentää tuloksena olevissa yhtälöissä. Koska

(1)

yhtälöt saavat muodon

Siksi pienimmän neliösumman menetelmän arvioilla on muoto

(2)

Suhteen (1) ansiosta estimaatti a* voidaan kirjoittaa symmetrisempään muotoon:

Tätä arviota ei ole vaikea muuttaa muotoon

Siksi rekonstruoidulla funktiolla, jota voidaan käyttää ennustamiseen ja interpoloimiseen, on muoto

x*(t) = a*(t - t cf) + b*.

Kiinnittäkäämme huomiota siihen, että t cf:n käyttö viimeisessä kaavassa ei millään tavalla rajoita sen yleisyyttä. Vertaa näkymämalliin

x k = c t k + d + e k, k = 1,2,…,n.

Se on selvää

Parametriarviot liittyvät samalla tavalla:

Parametriestimaattien ja ennustuskaavan saamiseksi ei tarvitse viitata mihinkään todennäköisyysmalliin. Parametriestimaattien ja palautetun funktion virheiden tutkimiseksi, ts. rakentaa luottamusvälit a*, b* ja x*(t) varten tarvitaan samanlainen malli.

Ei-parametrinen todennäköisyysmalli. Olkoon riippumattoman muuttujan t arvot määritetty ja virheet e k , k = 1,2,…,n riippumattomia identtisesti jakautuneita satunnaismuuttujia nollalla matemaattinen odotus ja dispersio

tuntemattomia tilastoja.

Tulevaisuudessa käytämme toistuvasti todennäköisyysteorian keskirajalausetta (CLT) suureille e k , k = 1,2,…,n (painoilla), joten sen ehtojen täyttämiseksi on oletettava, esimerkiksi, että virheet e k , k = 1,2 ,…,n, ovat äärellisiä tai niillä on äärellinen kolmas absoluuttinen momentti. Näihin sisämatemaattisiin "säännönmukaisuusehtoihin" ei kuitenkaan tarvitse keskittyä.

Parametriarvioiden asymptoottiset jakaumat. Kaavasta (2) seuraa, että

(5)

CLT:n mukaan estimaatin b* jakauma on asymptoottisesti normaalijakauma odotuksella b ja varianssilla

jota arvioidaan alla.

Kaavoista (2) ja (5) seuraa, että

Toisen suhteen viimeinen termi häviää, kun se summataan i:n päälle, joten kaavoista (2-4) seuraa, että

(6)

Kaava (6) osoittaa, että estimaatti

on asymptoottisesti normaali keskiarvon ja varianssin kanssa

Huomaa, että moniulotteinen normaalisuus on olemassa, kun jokainen termi kaavassa (6) on pieni verrattuna koko summaan, ts.


Kaavoista (5) ja (6) sekä virheitä koskevista alkuoletuksista seuraa myös parametriestimaattien puolueettomuus.

Pienimmän neliösumman arvioiden puolueettomuuden ja asymptoottisen normaaliuden ansiosta niille on helppo määrittää asymptoottisia luottamusrajoja (samantapaisia ​​kuin edellisessä luvussa) ja testata tilastollisia hypoteeseja esimerkiksi tiettyjen arvojen, ensisijaisesti 0:n, yhtäläisyydestä. mahdollisuus kirjoittaa luotettavuusrajojen laskentakaavoja ja muotoilla sääntöjä mainittujen hypoteesien testaamiseksi.

Ennusteen funktion asymptoottinen jakautuminen. Kaavoista (5) ja (6) seuraa, että

nuo. tarkasteltavana olevan ennustefunktion arvio on puolueeton. Siksi

Samaan aikaan, koska virheet ovat riippumattomia aggregaatissa ja

, Tuo

Täten,

Johdanto

Luku 1 Multiple Regression Analysis

Luku 2. Klusterianalyysi

Luku 3. Tekijäanalyysi

Luku 4. Diskriminanttianalyysi

Bibliografia

Johdanto

Sosioekonomisessa tutkimuksessa lähtötieto esitetään useimmiten esineiden kokonaisuutena, joista jokaiselle on tunnusomaista joukko piirteitä (indikaattoreita). Koska tällaisten kohteiden ja ominaisuuksien määrä voi nousta kymmeniin ja satoihin ja näiden tietojen visuaalinen analyysi on tehotonta, ongelmat lähtötietojen vähentämisessä, keskittämisessä, rakenteen ja niiden välisen suhteen paljastamisessa perustuvat yleisten ominaisuuksien rakentamiseen. syntyy joukko ominaisuuksia ja esineitä. Tällaiset ongelmat voidaan ratkaista monimuuttujatilastollisen analyysin menetelmillä.

Monimuuttujatilastollinen analyysi on matemaattisille menetelmille omistettu tilasto-osio, jonka tarkoituksena on tunnistaa tutkimuksen komponenttien välisten suhteiden luonne ja rakenne ja jonka tarkoituksena on tehdä tieteellisiä ja käytännön johtopäätöksiä.

Päähuomio monimuuttujatilastoanalyysissä kiinnitetään matemaattisiin menetelmiin optimaalisten tiedonkeruu-, systematisointi- ja -käsittelysuunnitelmien laatimiseksi. Tavoitteena on tunnistaa tutkitun monimuuttujaattribuutin komponenttien välisten suhteiden luonne ja rakenne ja joiden tarkoituksena on saada tieteellisiä ja käytännön johtopäätöksiä.

Alkuperäinen moniulotteisen datan joukko monimuuttuja-analyysin suorittamista varten on yleensä tuloksia moniulotteisen attribuutin komponenttien mittaamisesta jokaiselle tutkitun populaation objektille, ts. monimuuttujahavaintojen sarja. Monimuuttuja-attribuutti tulkitaan useimmiten arvoksi ja havaintojen sarja otokseksi yleisestä populaatiosta. Tässä tapauksessa lähtötilastotietojen käsittelytavan valinta tehdään tiettyjen olettamusten perusteella tutkitun moniulotteisen attribuutin jakautumislain luonteesta.

1. Monimuuttujajakaumien ja niiden pääominaisuuksien monimuuttujatilastollinen analyysi kattaa tilanteet, joissa käsitellyt havainnot ovat luonteeltaan todennäköisyyspohjaisia, ts. tulkitaan otokseksi vastaavasta yleisjoukosta. Tämän alaosan päätehtäviä ovat: tutkittujen monimuuttujajakaumien ja niiden pääparametrien tilastollinen estimointi; käytettyjen tilastollisten arvioiden ominaisuuksien tutkiminen; Todennäköisyysjakaumien tutkimus useille tilastoille, joita käytetään tilastollisten kriteerien rakentamiseen erilaisten hypoteesien testaamiseksi analysoidun monimuuttujatiedon todennäköisyydestä.

2. Monimuuttuja-tilastollinen analyysi tutkitun monimuuttujaattribuutin komponenttien keskinäisten suhteiden luonteesta ja rakenteesta yhdistää käsitteet ja tulokset, jotka sisältyvät sellaisiin menetelmiin ja malleihin kuin analyysi, varianssianalyysi, kovarianssianalyysi, tekijäanalyysi jne. Tähän ryhmään kuuluvia menetelmiä ovat sekä datan todennäköisyyden oletukseen perustuvat algoritmit että menetelmät, jotka eivät sovi minkään todennäköisyysmallin kehykseen (jälkimmäisiä kutsutaan usein menetelmiksi).

3. Tutkitun monimuuttujahavaintojen geometrisen rakenteen moniulotteinen tilastollinen analyysi yhdistää sellaisille malleille ja menetelmille ominaiset käsitteet ja tulokset kuin diskriminanttianalyysi, klusterianalyysi, moniulotteinen skaalaus. Näissä malleissa solmu on etäisyyden käsite tai mitta läheisyydestä analysoitavien elementtien välillä jonkin tilan pisteinä. Tässä tapauksessa voidaan analysoida sekä objekteja (ominaisuusavaruudessa määritettyinä pisteinä) että ominaisuuksia (objektiavaruudessa määritettyinä pisteinä).

Monimuuttujatilastollisen analyysin käytetty arvo koostuu pääasiassa kolmen seuraavan ongelman ratkaisemisesta:

tehtävänä on tilastollisesti tutkia tarkasteltavien indikaattoreiden välisiä riippuvuuksia;

elementtien (objektien tai piirteiden) luokittelutehtävä;

· tehtävänä pienentää tarkasteltavan ominaisuustilan mittaa ja valita informatiivisimmat ominaisuudet.

Moninkertainen regressioanalyysi on suunniteltu rakentamaan malli, jonka avulla riippumattomien muuttujien arvot voivat saada arvioita riippuvan muuttujan arvoista.

Logistinen regressio luokitteluongelman ratkaisemiseksi. Tämä on eräänlainen moninkertainen regressio, jonka tarkoituksena on analysoida useiden riippumattomien muuttujien ja riippuvaisen muuttujan välistä suhdetta.

Tekijäanalyysissä määritetään suhteellisen pieni määrä piileviä (latentteja) tekijöitä, joiden vaihtelevuus selittää kaikkien havaittujen indikaattoreiden vaihtelun. Tekijäanalyysillä pyritään pienentämään tarkasteltavan ongelman ulottuvuutta.

Klusteri- ja erotteluanalyysi on suunniteltu jakamaan objektikokoelmat luokkiin, joista jokaisen tulisi sisältää objekteja, jotka ovat homogeenisia tai läheisiä tietyssä mielessä. Klusterianalyysissä ei tiedetä etukäteen, kuinka monta esineryhmää muodostuu ja minkä kokoisia ne ovat. Diskriminanttianalyysi jakaa objektit olemassa oleviin luokkiin.

Luku 1 Multiple Regression Analysis

Tehtävä: Asuntomarkkinoiden tutkimus Orelissa (Neuvosto- ja Pohjoisalueet).

Taulukko näyttää tiedot asuntojen hinnoista Orelissa ja useista siihen vaikuttavista tekijöistä:

· kokonaisalue;

Keittiön pinta-ala

· Elintila;

talon tyyppi

huoneiden määrä. (Kuva 1)

Riisi. 1 Alkutiedot

Sarakkeessa "Alue" käytetään nimityksiä:

3 - Neuvostoliitto (eliitti, kuuluu keskusalueille);

4 - Pohjoinen.

Sarakkeessa "Talon tyyppi":

1 - tiili;

0 - paneeli.

Edellytetään:

1. Analysoi kaikkien tekijöiden suhdetta "Hinta"-indikaattoriin ja keskenään. Valitse regressiomallin rakentamiseen sopivimmat tekijät;

2. Muodosta valemuuttuja, joka heijastaa asunnon kuulumista kaupungin keskus- ja reuna-alueille;

3. Rakenna lineaarinen regressiomalli kaikille tekijöille, mukaan lukien siinä oleva valemuuttuja. Selitä yhtälön parametrien taloudellinen merkitys. Arvioi mallin laatu, yhtälön ja sen parametrien tilastollinen merkitsevyys;

4. Jaa tekijät (lukuun ottamatta valemuuttujaa) "Price"-indikaattorin vaikutusasteen mukaan;

5. Rakenna lineaarinen regressiomalli vaikuttavimmille tekijöille jättäen yhtälöön valemuuttujan. Arvioi yhtälön ja sen parametrien laatu ja tilastollinen merkitsevyys;

6. Perustele, kuinka tarkoituksenmukaista tai epätarkoituksenmukaisuutta on sisällyttää valemuuttuja 3 ja 5 kohdan yhtälöön;

7. Arvioi yhtälön parametrien intervalliestimaatit 95 %:n todennäköisyydellä;

8. Selvitä, kuinka paljon asunto, jonka kokonaispinta-ala on 74,5 m² eliittialueella (syrjäisellä) alueella, maksaa.

Esitys:

1. Analysoituaan kaikkien tekijöiden suhdetta "Hinta"-indikaattoriin ja keskenään, valittiin "Eteenpäin" -inkluusiomenetelmällä regressiomallin rakentamiseen sopivimmat tekijät:

A) kokonaispinta-ala;

C) huoneiden lukumäärä.

Sisällytetyt/poissuljetut muuttujat(a)

a Riippuva muuttuja: Hinta

2. Muuttuja X4 "Alue" on valemuuttuja, koska sillä on 2 arvoa: 3-kuuluu keskusalueelle "Neuvostoliitto", 4- perifeeriselle alueelle "Severny".

3. Rakennetaan lineaarinen regressiomalli kaikille tekijöille (mukaan lukien valemuuttuja X4).

Vastaanotettu malli:

Mallin laadun arviointi.

Vakiovirhe = 126,477

Durbin-Watson-suhde = 2,136

Regressioyhtälön merkityksen tarkistaminen

F-Fisher-testin arvo = 41,687

4. Rakennetaan lineaarinen regressiomalli, jossa on kaikki tekijät (paitsi valemuuttuja X4)

"Hinta"-indikaattorin vaikutuksen asteen mukaan ne jaettiin:

Merkittävin tekijä on kokonaispinta-ala (F= 40,806)

Toiseksi tärkein tekijä on huonemäärä (F= 29.313)

5. Sisällytetyt/poissuljetut muuttujat

a Riippuva muuttuja: Hinta

6. Rakennetaan lineaarinen regressiomalli vaikuttavimmille tekijöille dummy-muuttujan avulla, meidän tapauksessamme se on yksi vaikuttavista tekijöistä.

Vastaanotettu malli:

Y \u003d 348,349 + 35,788 X1 -217,075 X4 +305,687 X7

Mallin laadun arviointi.

Määrityskerroin R2 = 0,807

Näyttää tuloksena olevan ominaisuuden vaihtelun osuuden tutkittujen tekijöiden vaikutuksesta. Näin ollen noin 89 % riippuvan muuttujan vaihtelusta otetaan huomioon ja johtuen malliin sisältyvien tekijöiden vaikutuksesta.

Moninkertainen korrelaatiokerroin R = 0,898

Näyttää riippuvan muuttujan Y välisen suhteen läheisyyden kaikkien malliin sisältyvien selittävien tekijöiden kanssa.

Vakiovirhe = 126,477

Durbin-Watson-suhde = 2,136

Regressioyhtälön merkityksen tarkistaminen

F-Fisher-testin arvo = 41,687

Regressioyhtälö on tunnustettava riittäväksi, mallia pidetään merkittävänä.

Merkittävin tekijä on huonemäärä (F=41 687)

Toiseksi tärkein tekijä on kokonaispinta-ala (F= 40,806)

Kolmanneksi tärkein tekijä on alue (F= 32,288)

7. Dummy-muuttuja X4 on merkittävä tekijä, joten se on suositeltavaa sisällyttää yhtälöön.

Yhtälöparametrien intervalliestimaatit näyttävät regressiomallin ennustamisen tulokset.

95 prosentin todennäköisyydellä myynnin määrä ennustekuussa on 540,765 - 1080,147 miljoonaa ruplaa.

8. Asunnon hinnan määrittäminen eliittialueella

1 huoneelle U \u003d 348,349 + 35,788 * 74, 5 - 217,075 * 3 + 305,687 * 1

2 huoneelle U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 2

3 huoneelle U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 3

reuna-alueella

1 huoneelle U \u003d 348,349 + 35,788 * 74, 5 - 217,075 * 4 + 305,687 * 1

2 huoneelle U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 2

3 huoneelle U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 3

Luku 2. Klusterianalyysi

Tehtävä: Tutkimus väestön rahamenojen ja säästöjen rakenteesta.

Taulukossa näkyy väestön kassamenojen ja säästöjen rakenne Keski-Federal Districtin alueittain Venäjän federaatio vuonna 2003 Seuraaville indikaattoreille:

PTIOU - tavaroiden osto ja palvelujen maksaminen;

· OPiV - pakolliset maksut ja maksut;

PN - kiinteistön osto;

· PFA – rahoitusvarojen kasvu;

· DR - rahan lisääntyminen (väheneminen) väestön käsissä.

Riisi. 8 Alkutiedot

Edellytetään:

1) määrittää optimaalinen klusterien lukumäärä alueiden jakamiseksi homogeenisiin ryhmiin kaikkien ryhmittelyominaisuuksien mukaan samanaikaisesti;

2) suorittaa alueiden luokittelu hierarkkisella menetelmällä ryhmien välisten suhteiden algoritmilla ja näyttää tulokset dendrogrammin muodossa;

3) analysoida käteisen käytön ja säästämisen pääprioriteettia tuloksena olevissa klustereissa;

Esitys:

1) Määritä optimaalinen klusterien lukumäärä alueiden jakamiseksi homogeenisiin ryhmiin kaikkien ryhmittelyominaisuuksien mukaan samanaikaisesti;

Optimaalisen klusterimäärän määrittämiseksi sinun on käytettävä hierarkkista klusterianalyysiä ja katsottava taulukosta "Agglomeraatiovaiheet" sarakkeessa "Kertoimet".

Nämä kertoimet tarkoittavat kahden klusterin välistä etäisyyttä, joka määritetään valitun etäisyysmitan (euklidisen etäisyyden) perusteella. Siinä vaiheessa, kun kahden klusterin välinen etäisyys kasvaa äkillisesti, uusien klustereiden sulautumisprosessi on pysäytettävä.

Tämän seurauksena optimaalisen klustereiden lukumäärän katsotaan olevan yhtä suuri kuin havaintojen lukumäärän (17) ja askelluvun (14) välinen erotus, jonka jälkeen kerroin kasvaa äkillisesti. Optimaalinen klusterien lukumäärä on siis 3. (Kuva 9)

tilastollisen matemaattisen analyysin klusteri

Riisi. 9 Taulukko "Sintrausvaiheet"

2) Suorittaa alueiden luokittelu hierarkkisella menetelmällä ryhmien välisten suhteiden algoritmilla ja esittää tulokset dendrogrammin muodossa;

Nyt käyttämällä optimaalista klusterimäärää luokittelemme alueet hierarkkisella menetelmällä. Ja lähdössä siirrymme taulukkoon "Kuuluu klustereihin". (Kuva 10)

Riisi. 10 Taulukko "Klustereihin kuuluminen"

Kuvassa 10 osoittaa selvästi, että klusteri 3 sisältää 2 aluetta (Kaluga, Moskova) ja Moskova, klusteri 2 sisältää kaksi aluetta (Bryansk, Voronezh, Ivanovo, Lipetsk, Oryol, Ryazan, Smolensk, Tambov, Tver), klusteri 1 - Belgorod, Vladimir, Kostroma , Kursk, Tula, Jaroslavl.

Riisi. 11 Dendrogrammi

3) analysoida käteisen käytön ja säästämisen pääprioriteettia tuloksena olevissa klustereissa;

Analysoidaksemme tuloksena olevia klustereita meidän on suoritettava "keskiarvojen vertailu". Tulostusikkunassa näkyy seuraava taulukko (Kuva 12)

Riisi. 12 Muuttujien keskiarvot

Taulukosta "Keskiarvot" voidaan jäljittää, mitkä rakenteet ovat etusijalla väestön kassamenojen ja säästöjen jakautumisessa.

Ensinnäkin on huomattava, että tavaroiden ostaminen ja palveluiden maksaminen on kaikilla aloilla etusijalla. Parametri saa suuremman arvon 3. klusterissa.

Toisella sijalla on rahoitusvarojen kasvu. Korkein arvo 1 klusterissa.

Pienin kerroin 1. ja 2. klusterissa on "kiinteistön hankinnalle", ja 3. klusterissa paljastui huomattava rahan väheneminen väestön käsissä.

Yleisesti ottaen tavaroiden ja palveluiden ostaminen sekä vähäinen kiinteistöhankinta ovat erityisen tärkeitä väestölle.

4) vertaa saatua luokittelua ryhmän sisäisen suhdealgoritmin soveltamisen tuloksiin.

Ryhmien välisten suhteiden analyysissä tilanne ei käytännössä muuttunut, lukuun ottamatta Tambovin aluetta, joka jakautui 1/2 klusteriin. (Kuva 13)

Riisi. 13 Ryhmän sisäisten suhteiden analyysi

"Keskiarvot"-taulukossa ei tapahtunut muutoksia.

Luku 3. Tekijäanalyysi

Tehtävä: Yritysten toiminnan analyysi kevyt teollisuus.

Kyselytiedot ovat saatavilla 20 kevyen teollisuuden yrityksestä (kuva 14) seuraavien tunnusmerkkien mukaan:

X1 - pääoman tuottavuuden taso;

X2 – tuotantoyksikön työvoimaintensiteetti;

X3 - hankintamateriaalien osuus kokonaiskustannuksista;

X4 – laitteiden siirtokerroin;

X5 - bonukset ja palkkiot työntekijää kohti;

· X6 - avioliitosta aiheutuneiden menetysten osuus;

X7 – kiinteän tuotantoomaisuuden keskimääräiset vuosikustannukset;

X8 - keskimääräinen vuosipalkkarahasto;

X9 - tuotteiden markkinoitavuuden taso;

· X10 – pysyvä omaisuusindeksi (käyttöomaisuuden ja muun pitkäaikaisen omaisuuden suhde omiin varoihin);

X11 - käyttöpääoman kiertokulku;

X12 - ei-tuotantokustannukset.

Kuva 14 Alkutiedot

Edellytetään:

1. Suorittaa tekijäanalyysin seuraavista muuttujista: 1,3,5-7, 9, 11,12, tunnistaa ja tulkita tekijän ominaisuuksia;

2. osoittaa vauraimmat ja lupaavimmat yritykset.

Esitys:

1. Suorita tekijäanalyysi seuraavista muuttujista: 1,3,5-7, 9, 11,12, tunnista ja tulkitse tekijän ominaisuudet.

Faktorianalyysi on joukko menetelmiä, jotka objektien (ominaisuuksien) tosielämän suhteiden perusteella mahdollistavat organisaatiorakenteen piilevien (implisiittisten) yleistyvien ominaisuuksien tunnistamisen.

Valitse tekijäanalyysin valintaikkunassa muuttujamme, määritä tarvittavat parametrit.

Riisi. 15 Selitetty kokonaisvarianssi

"Kokonaisselitysvarianssin" taulukon mukaan on tunnistettu 3 tekijää, jotka selittävät 74,8 % muuttujien variaatioista - rakennettu malli on varsin hyvä.

Nyt tulkitsemme tekijämerkit "Kierrettyjen komponenttien matriisin" mukaisesti: (Kuva16).

Riisi. 16 Kierrettyjen komponenttien matriisi

Tekijä 1 liittyy läheisimmin tuotemyynnin tasoon ja sillä on käänteinen suhde ei-tuotantokustannuksiin.

Tekijä 2 liittyy läheisimmin hankintamateriaalien osuuteen kokonaiskustannuksista ja avioliitosta aiheutuneiden menetysten osuuteen ja on käänteisessä suhteessa työntekijäkohtaisiin palkkioihin ja palkkioihin.

Tekijä 3 liittyy läheisimmin pääoman tuottavuuden tasoon ja käyttöpääoman kiertoon ja sillä on käänteinen suhde käyttöomaisuuden keskimääräisiin vuosikustannuksiin.

2. Ilmoita vauraimmat ja lupaavimmat yritykset.

Menestyneimpien yritysten tunnistamiseksi lajittelemme tiedot 3 tekijäkriteerin mukaan laskevaan järjestykseen. (Kuva 17)

Vauraimpia yrityksiä tulisi harkita: 13,4,5, koska yleensä 3 tekijän mukaan niiden indikaattorit ovat korkeimmilla ja vakaimmilla paikoilla.

Luku 4. Diskriminanttianalyysi

Juridisten henkilöiden luottokelpoisuuden arviointi liikepankissa

Pankki valitsi kuusi tunnuslukua merkittäviksi lainanottajien taloudellista tilaa kuvaaviksi indikaattoreiksi (taulukko 4.1.1):

QR (X1) - nopea likviditeettisuhde;

CR (X2) - nykyinen likviditeettisuhde;

EQ/TA (X3) - taloudellisen riippumattomuuden suhde;

TD/EQ (X4) - velat omaan pääomaan yhteensä;

ROS (X5) - myynnin kannattavuus;

FAT (X6) - käyttöomaisuuden kiertokulku.

Taulukko 4.1.1. Alkutiedot


Edellytetään:

Määritä SPSS-pakettia käyttävän erotteluanalyysin perusteella, mihin neljästä luokasta kolme lainanottajaa kuuluu ( oikeushenkilöitä) jotka haluavat saada lainaa liikepankista:

§ Ryhmä 1 - erinomaiset taloudelliset tulokset;

§ Ryhmä 2 - hyvä taloudellinen tulos;

§ Ryhmä 3 - huono taloudellinen tulos;

§ Ryhmä 4 - erittäin huono taloudellinen tulos.

Muodosta laskennan tulosten perusteella diskriminanttifunktiot; arvioi niiden merkitys Wilksin kertoimella (λ). Rakenna havaintokartta ja kaavioita havaintojen suhteellisista paikoista kolmen funktion avaruudessa. Suorita analyysin tulosten tulkinta.

Edistyminen:

Selvittääksemme, mihin neljästä luokasta kolme lainanottajaa, jotka haluavat saada lainaa liikepankista, kuuluvat, rakennamme erotteluanalyysin, jonka avulla voimme määrittää, mihin aiemmin tunnistetuista populaatioista (koulutusnäytteet) uusia asiakkaita tulisi määrittää. .

Riippuvaksi muuttujaksi valitsemme ryhmän, johon lainanottaja saattaa kuulua taloudellisen tuloksensa mukaan. Tehtävätiedoista kullekin ryhmälle annetaan vastaava pistemäärä 1, 2, 3 ja 4.

Diskriminanttifunktioiden normalisoimattomat kanoniset kertoimet, jotka on esitetty kuvissa 1 ja 2. 4.1.1 käytetään erottelufunktioiden D1(X), D2(X) ja D3(X) yhtälön muodostamiseen:

3.) D3(X) =


1

(Vakio)

Riisi. 4.1.1. Kanonisen diskriminanttifunktion kertoimet

Riisi. 4.1.2. Lambda Wilks

Kuitenkin, koska toisen ja kolmannen funktion merkitys Wilks-kertoimella (kuva 4.1.2) on suurempi kuin 0,001, ei ole suositeltavaa käyttää niitä erotteluun.

Taulukon "Luokittelutulokset" (Kuva 4.1.3) tiedot osoittavat, että 100 % havainnoista luokittelu on suoritettu oikein, korkea tarkkuus saavutettiin kaikissa neljässä ryhmässä (100 %).

Riisi. 4.1.3. Luokittelutulokset

Tiedot kunkin lainanottajan todellisista ja ennustetuista ryhmistä löytyvät taulukosta "Pistetilastot" (kuva 4.1.4).

Diskriminanttianalyysin tuloksena todettiin suurella todennäköisyydellä, että pankin uudet lainanottajat kuuluvat koulutusalajoukkoon M1 - ensimmäinen, toinen ja kolmas lainanottaja (sarjanumerot 41, 42, 43) on liitetty M1-alajoukkoon. vastaavat todennäköisyydet 100 %.

Havaintonumero

Varsinainen ryhmä

Todennäköisin ryhmä

Ennustettu ryhmä

ryhmittämätön

ryhmittämätön

ryhmittämätön

Riisi. 4.1.4. Pistetilastot

Sentroidien koordinaatit ryhmittäin on annettu taulukossa "Funktiot ryhmäsentroideissa" (kuva 4.1.5). Niitä käytetään painopisteiden piirtämiseen havaintokartalle (kuva 4.1.6).

1

Riisi. 4.1.5. Toiminnot ryhmäkeskuksissa

Riisi. 4.1.6. Havaintokartta kahdelle erottelufunktiolle D1(X) ja D2(X) (* - ryhmäkeskiö)

"Aluekartan" kenttä on jaettu syrjivien toimintojen perusteella neljään alueeseen: vasemmalla puolella on pääasiassa havaintoja neljännestä lainanottajien ryhmästä, joiden taloudellinen suorituskyky on erittäin huono, oikealla puolella - ensimmäisestä ryhmästä, jolla on erinomainen taloudellinen suorituskyky, keski- ja alaosissa - kolmas ja toinen lainanottajien ryhmä, joilla on huono ja hyvä taloudellinen suorituskyky.

Riisi. 4.1.7. Sirontakaavio kaikille ryhmille

Kuvassa 4.1.7 näyttää yhdistetyn aikataulun kaikkien lainanottajaryhmien jakautumiselle painopisteineen; sen avulla voidaan tehdä vertaileva visuaalinen analyysi pankkien lainanottajaryhmien suhteellisesta asemasta taloudellisten indikaattoreiden kannalta. Kaavion oikealla puolella ovat lainanottajat, joilla on korkea suorituskyky, vasemmalla - matalalla ja keskellä - keskimääräisellä taloudellisella suorituskyvyllä. Koska laskentatulosten mukaan toinen erotusfunktio D2(X) osoittautui merkityksettömäksi, erot sentroidikoordinaateissa tällä akselilla ovat merkityksettömiä.

Yksityishenkilöiden luottokelpoisuuden arviointi liikepankissa

Liikepankin luottoosasto teki otantatutkimuksen 30 asiakkaalleen (yksityishenkilölle). Aineiston alustavan analyysin perusteella lainanottajat arvioitiin kuuden indikaattorin mukaan (taulukko 4.2.1):

X1 - lainanottaja otti lainan liikepankit aiemmin;

X2 on lainanottajan perheen keskimääräiset kuukausitulot, tuhat ruplaa;

X3 - lainan takaisinmaksuaika, vuotta;

X4 - myönnetyn lainan määrä, tuhat ruplaa;

X5 - lainanottajan perheen kokoonpano, henkilöt;

X6 - lainanottajan ikä, vuotta.

Samalla tunnistettiin kolme lainanottajien ryhmää lainan takaisinmaksun todennäköisyyden mukaan:

§ Ryhmä 1 - pienellä todennäköisyydellä lainan takaisinmaksu;

§ Ryhmä 2 - keskimääräisellä lainan takaisinmaksun todennäköisyydellä;

§ Ryhmä 3 - suurella todennäköisyydellä lainan takaisinmaksu.

Edellytetään:

SPSS-pakettia käyttävän erotteluanalyysin perusteella on tarpeen luokitella kolme pankkiasiakasta (lainan takaisinmaksun todennäköisyyden mukaan), ts. arvioida, kuuluuko jokainen heistä johonkin kolmesta ryhmästä. Rakenna laskennan tulosten perusteella merkittäviä erottelufunktioita, arvioi niiden merkitys Wilks-kertoimella (λ). Muodosta kunkin ryhmän kahden erotusfunktion tilaan kaaviot havaintojen keskinäisestä järjestelystä ja yhdistetty kaavio. Arvioi kunkin lainanottajan sijainti näissä kaavioissa. Suorita analyysin tulosten tulkinta.

Taulukko 4.2.1. Alkutiedot

Edistyminen:

Diskriminanttianalyysin rakentamiseksi valitsemme riippuvaiseksi muuttujaksi todennäköisyyden, että asiakas maksaa lainan ajoissa takaisin. Koska se voi olla matala, keskitaso ja korkea, kullekin luokalle annetaan vastaava pistemäärä 1, 2 ja 3.

Diskriminanttifunktioiden normalisoimattomat kanoniset kertoimet, jotka on esitetty kuvissa 1 ja 2. 4.2.1 käytetään erottelufunktioiden D1(X), D2(X) yhtälön muodostamiseen:

2.) D2(X) =

Riisi. 4.2.1. Kanonisen diskriminanttifunktion kertoimet

Riisi. 4.2.2. Lambda Wilks

Toisen funktion Wilks-kertoimen (kuva 4.2.2) mukaan merkitsevyys on suurempi kuin 0,001, joten sitä ei kannata käyttää syrjintään.

Taulukon ”Luokittelutulokset” (kuva 4.2.3) tiedot osoittavat, että 93,3 %:ssa havainnoista luokittelu on suoritettu oikein, ensimmäisessä ja toisessa ryhmässä saavutettiin korkea tarkkuus (100 % ja 91,7 %), vähemmän tarkkoja. tulokset saatiin kolmannessa ryhmässä (88,9 %).

Riisi. 4.2.3. Luokittelutulokset

Tiedot kunkin asiakkaan todellisista ja ennustetuista ryhmistä löytyvät taulukosta "Pistetilastot" (kuva 4.2.4).

Diskriminanttianalyysin tuloksena todettiin suurella todennäköisyydellä, että pankin uudet asiakkaat kuuluvat koulutusalajoukkoon M3 - ensimmäinen, toinen ja kolmas asiakas (sarjanumerot 31, 32, 33) on liitetty M3-alajoukkoon. vastaavat todennäköisyydet 99%, 99% ja 100%.

Havaintonumero

Varsinainen ryhmä

Todennäköisin ryhmä

Ennustettu ryhmä

ryhmittämätön

ryhmittämätön

ryhmittämätön

Riisi. 4.2.4. Pistetilastot

Lainan takaisinmaksun todennäköisyys

Riisi. 4.2.5. Toiminnot ryhmäkeskuksissa

Sentroidien koordinaatit ryhmittäin on annettu taulukossa "Funktiot ryhmäsentroideissa" (kuva 4.2.5). Niitä käytetään painopisteiden piirtämiseen havaintokartalla (kuva 4.2.6).

"Aluekartta" -kenttä on jaettu erottelufunktioiden mukaan kolmeen alueeseen: vasemmalla puolella on pääasiassa havaintoja ensimmäisestä asiakasryhmästä, jonka todennäköisyys maksaa laina takaisin, oikealla puolella - kolmannesta ryhmästä suurella todennäköisyydellä. , keskellä - vastaavasti toinen asiakasryhmä, jolla on keskimääräinen todennäköisyys maksaa laina takaisin.

Kuvassa 4.2.7 (a - c) heijastaa kunkin kolmen ryhmän asiakkaiden sijaintia kahden erottelufunktion D1(X) ja D2(X) tasolla. Näiden kaavioiden perusteella on mahdollista tehdä yksityiskohtainen analyysi lainan takaisinmaksun todennäköisyydestä kunkin ryhmän sisällä, arvioida asiakkaiden jakautumisen luonnetta ja arvioida heidän etäisyyksensä vastaavasta keskustasta.

Riisi. 4.2.6. Havaintokartta kolmelle erottelufunktiolle D1(X) ja D2(X) (* - ryhmäkesko)

Myös kuvassa 4.2.7 (d) samassa koordinaattijärjestelmässä kaikkien asiakasryhmien jakauman yhdistetty kaavio esitetään niiden sentroidineen; sen avulla voidaan tehdä vertaileva visuaalinen analyysi erilaisten lainan takaisinmaksutodennäköisyyksien omaavien pankkiasiakasryhmien suhteellisesta asemasta. Kaavion vasemmalla puolella ovat lainanottajat, joilla on suuri todennäköisyys maksaa laina takaisin, oikealla - pienellä todennäköisyydellä ja keskiosassa - keskimääräisellä todennäköisyydellä. Koska laskentatulosten mukaan toinen erotusfunktio D2(X) osoittautui merkityksettömäksi, erot sentroidikoordinaateissa tällä akselilla ovat merkityksettömiä.

Riisi. 4.2.7. Havaintojen sijainti kahden erottelevan funktion tasolla ryhmille, joilla on pieni (a), keskitaso (b), korkea (c) lainan takaisinmaksun todennäköisyys ja kaikille ryhmille (d)

Bibliografia

1. ”Monimuuttujatilastollinen analyysi taloudellisissa ongelmissa. Tietokonemallinnus SPSS:ssä”, 2009

2. Orlov A.I. "Soveltuvat tilastot" M .: Kustantaja "Exam", 2004

3. Fisher R.A. "Tilastollisia menetelmiä tutkijoille", 1954

4. Kalinina V.N., Soloviev V.I. "Johdatus monimuuttujaiseen tilastolliseen analyysiin" Oppikirja SUM, 2003;

5. Achim Buyul, Peter Zöfel, SPSS: The Art of Information Processing, DiaSoft Publishing, 2005;

6. http://ru.wikipedia.org/wiki


näytetaulukko. konjugaatio max, uskottavat arviot:

G2= -2 ^ p sch Sht t ■ p w)

on asymptoottinen χ 2 -jakauma. Tämä perustuu tilastoihin. testata suhdehypoteesia.

Kokemusta tietojenkäsittelystä A.l. osoitti tehokkuutensa moniulotteisen taulukon kohdennetun analyysin menetelmänä. konjugaatio, joka sisältää (merkittävästi järkevän muuttujavalinnan tapauksessa) kaksiulotteisiin taulukoihin verrattuna valtavan määrän sosiologia kiinnostavaa tietoa. Menetelmän avulla voit kuvata tämän taulukon ytimekkäästi. (hypoteesin muodossa yhteyksistä) ja samalla analysoida yksityiskohtaisesti kons. suhdetta. Al. Sitä sovelletaan yleensä monissa vaiheissa, sosiologin ja tietokoneiden välisen dialogin muodossa. Siten A.l. on huomattavan joustava, antaa mahdollisuuden muotoilla erilaisia ​​oletuksia ihmissuhteista, sisällyttää sosiologin kokemusta muodollisen data-analyysin prosessiin.

Lit.: Ylhäällä G. Taulukon analyysi. konjugaatio. M., 1982; Typologia ja luokittelu sosiaalissa. tutkimusta. M., 1982; Piispa Y.M.M. et ai. Diskreetti monimuuttuja-analyysi. N.Y., 1975; Agresti A. Johdatus kategorialliseen data-analyysiin. N.Y., 1966.

A.A. Mirzoev

MONIMUUTTUJA TILASTOANALYYSI- sek. matemaattiset tilastot, omistettu matematiikalle. menetelmät, joilla pyritään tunnistamaan tutkittavien komponenttien välisten suhteiden luonne ja rakenne merkki moniulotteisuudesta ja tarkoitus on saada tieteellistä. ja käytännön seurauksia. Alkuperäinen moniulotteisen tiedon joukko A.m.s:n suorittamista varten yleensä toimivat moniulotteisen attribuutin komponenttien mittauksen tuloksina jokaiselle tutkitun populaation kohteelle, ts. monimuuttujahavaintojen sarja (katso havainto tilastoissa). Moniulotteinen piirre tulkitaan useimmiten moniulotteiseksi led-


ranking satunnainen, ja monimuuttujahavaintojen sarja - otoksena yleisestä populaatiosta. Tässä tapauksessa alkuperäisen tilaston käsittelytavan valinta. tiedot tuotetaan tiettyjen luonteeseen liittyvien oletusten perusteella jakelulaki tutkinut moniulotteista ominaisuutta (katso. Todennäköisyysjakauma).

1. A.m.s. monimuuttujajakaumat ja niiden pääasialliset. ominaisuudet kattaa tilanteet, joissa käsitellyt havainnot ovat luonteeltaan todennäköisyyspohjaisia, ts. tulkitaan näytteeksi acc. yleinen väestö. Pääasiaan Tämän alaosan tavoitteita ovat mm. tilastollinen arvio tutki monimuuttujajakaumia ja niiden pääasiallisia. parametrit; käytetyn tilaston tutkimusominaisuudet. luokitukset; useiden tilastojen todennäköisyysjakaumien tutkimus, jonka avulla laaditaan tilastoja. testikriteerien ero hypoteeseja analysoidun monimuuttujan datan todennäköisyydestä (katso Tilastollisten hypoteesien testaus).

2. A.m.s. tutkittavan moniulotteisen ominaisuuden komponenttien keskinäisten suhteiden luonne ja rakenne yhdistää käsitteet ja tulokset, jotka ovat luontaisia ​​sellaisille menetelmille ja malleille kuin regressioanalyysi, dispersioanalyysi, kovarianssianalyysi, tekijäanalyysi, piilevä rakenneanalyysi, loggery-analyysi, vuorovaikutusten etsiminen. Tähän ryhmään kuuluvat menetelmät sisältävät molemmat algoritmit, pää. perustuen oletukseen tietojen todennäköisyydestä sekä menetelmistä, jotka eivät sovi k.-l. todennäköisyysmalli (jälkimmäisiä kutsutaan usein menetelmiksi tietojen analysointi).

3. A.m.s. tutkitun moniulotteisten havaintojen joukon geometrinen rakenne yhdistää sellaisille malleille ja menetelmille ominaiset käsitteet ja tulokset kuin erotteluanalyysi, klusterianalyysi (katso. Luokittelumenetelmät, asteikko). Nodal näihin malleihin yavl. etäisyyden tai läheisyyden käsite analysoitavien elementtien välillä tietyn pisteinä

SYY-ANALYYSI


vaellukset. Tässä tapauksessa sekä objektit (ominaisuusavaruudessa määritettyinä pisteinä) että piirteet (objekti-avaruudessa määritettyinä pisteinä) voidaan analysoida.

Käytetty arvo A.m.s. koostuu pääosista palvelussa seuraavaksi. kolme ongelmaa: stat. tarkasteltavien indikaattoreiden välisten riippuvuuksien tutkimus; elementtien (objektien) tai ominaisuuksien luokittelu; tarkasteltavan ominaisuustilan mittaa pienentämällä ja informatiivisimpien ominaisuuksien valitseminen.

Lit.: Tila. sosiologisen analyysin menetelmät. tiedot. M., 1979; Typologia ja luokittelu sosiaalissa. tutkimusta. M., 1982; Sosiaalisen tiedon tulkinta ja analysointi, tutkimus. M., 1987; Ayvazyan S.A., Mkhitaryan V.S. Sovellettavat tilastot ja ekonometriikan perusteet: Proc. M., 1998; Soshnikova L.A. jne. Moniulotteinen stat. taloustieteen analyysi. M., 1999; Dubrov A.M., Mkhitaryan V.S., Troshin L.I. Moniulotteinen tilasto. menetelmiä taloustieteilijöille ja johtajille. M., 2000; Rostovtsev B.C., Kovaleva T.D. Sosiologinen analyysi. tiedot käyttämällä stat. SPSS paketti. Novosibirsk, 2001; Tyurin Yu.N., Makarov A.A. Tietojen analysointi tietokoneella. Y., 2003; Krysh-tanovsky A. O. Sosiologinen analyysi. tiedot SPSS-paketin avulla. M., 2006.

YUN. Tolstova

SYY-ANALYYSI- menetelmät ominaisuuksien välisten syy-suhteiden mallintamiseen stat-järjestelmiä käyttäen. yhtälöt, useimmiten regressio (katso. taantumisanalyysi). Tälle melko laajalle ja jatkuvasti muuttuvalle menetelmäalueelle on muitakin nimiä: polkuanalyysi, kuten sen perustaja S. Wright kutsui sitä ensin; rakenneekonometristen yhtälöiden menetelmät, kuten ekonometriassa on tapana, jne. Osn. käsitteet A.p. yavl.: polku (rakenteellinen, kausaalinen) kaavio, kausaali (polku) kerroin, merkkien välisen yhteyden suorat, epäsuorat ja imaginaariset komponentit. Käytetään A.p. käsite "syy-yhteys * ei vaikuta monimutkaisiin fi-


los. "syy-seuraussuhteen" käsitteeseen liittyviä ongelmia. Syy-kerroin määritetty. varsin toimiva. Matto. Laite mahdollistaa suorien ja epäsuorien kausaalisuhteiden olemassaolon tarkistamisen merkkien välillä sekä tunnistaa ne korrelaatiokertoimien komponentit (ks. korrelaatio), to-rye liittyy suoriin, epäsuoreihin ja kuvitteellisiin yhteyksiin.

Polkukaavio heijastaa graafisesti hypoteettisesti oletettuja kausaalisia, suunnattuja suhteita piirteiden välillä. Ominaisuusjärjestelmää, jossa on yksisuuntaisia ​​linkkejä, kutsutaan rekursiivisiksi. Ei-rekursiiviset kausaaliset järjestelmät ottavat huomioon myös palautteet, esimerkiksi järjestelmän kaksi ominaisuutta voivat olla sekä syy että seuraus suhteessa toisiinsa. Kaikki merkit on jaettu merkkeihin-seuraamuksiin (riippuvainen, endogeeninen) ja merkkeihin-syihin (riippumaton, eksogeeninen). Yhtälöjärjestelmässä yhden yhtälön endogeeniset piirteet voivat kuitenkin olla muiden yhtälöiden eksogeenisiä piirteitä. Neljän ominaisuuden tapauksessa kaikkien rekursiivinen kaavio mahdolliset liitännät ominaisuuksien välillä näyttää tältä:

x 2
/ N
*1 TO
G
Vastaanottaja S

Kytkentäkaavion rakentaminen yavl. matematiikan välttämätön lähtökohta. järjestelmän stat. yhtälöt heijastavat kaaviossa esitettyjä vaikutuksia. Main Havainnollistamme regressioyhtälöjärjestelmän muodostamisen periaatteita käyttämällä esimerkkinä samoja neljää ominaisuutta. Mennään nuolten suuntaan alkaen Hei löytää ensimmäinen endogeeninen

ANALYYSI SYY


merkki ja huomioi ne merkit, jotka vaikuttavat siihen sekä suoraan (suoraan) että epäsuorasti (epäsuorasti) ja muiden merkkien kautta. Ensimmäinen standardoitu regressioyhtälö vastaa ensimmäistä endogeenistä ominaisuutta Xj ja ilmaisee riippuvuutta Χι niistä merkeistä, jotka vaikuttavat häneen, ts. alkaen Χγ. Ensimmäisellä yhtälöllä on siis muoto: Χι = bi\X\.

Sitten paljastamme toisen endogeenisen merkin, johon tory on suunnattu viestintää. Tämä on merkki Aj:sta, se vastaa eksogeenisiä muuttujia X\ Ja Χι, siksi toinen regressioyhtälö standardoidussa muodossa muotoillaan seuraavasti: Aj = bcx\+ bpXg jne. Mittausvirheet huomioon ottaen U standardoitujen regressiomallien järjestelmä erityiselle kausaalidiagrammillemme on: X\u003d Ui, A? =

- b->\X\+ Ui, xt,= 631ΑΊ + byiXi+ Voi, Χα -

- baXi+ binXi+ J43A3 + SCH. Kertoimien arvioimiseksi b, s, se on ratkaistava. Päätös on olemassa sillä ehdolla, että tiedot täyttävät tietyn luonteen. stat. vaatimukset. b$ Niitä kutsutaan syytekijöiksi ja niitä kutsutaan usein nimellä RU. Että., R# osoittaa sen osuuden endogeenisen ominaisuuden vaihtelun muutoksesta;, joka tapahtuu, kun eksogeeninen ominaisuus muuttuu j tämän ominaisuuden keskihajonnan yksikköä kohti edellyttäen, että yhtälön muiden ominaisuuksien vaikutus suljetaan pois (katso. taantumisanalyysi). Toisin sanoen P,y:llä on suora piirrevaikutus j piirteeseen d. Ominaisuuden epäsuora vaikutus j on;) lasketaan ottamalla huomioon kaikki vaikutuspolut j päällä i paitsi suora.

Kaaviossa ensimmäisen ominaisuuden suora vaikutus neljänteen on esitetty kaavamaisesti suoralla nuolella, joka tulee suoraan Χι Vastaanottaja xt, symbolisesti kuvattu 1->4; se on yhtä suuri kuin kausaalisen vaikutuksen kerroin P, X 2,..., H R. Tiukasti regressiivinen riippuvuus voidaan määritellä seuraavasti. tavalla.

Anna U X\, Xr,..., X p - satunnainen
määrät tietyllä liitoksella Kisat
todennäköisyydet.
Jos jokaiselle
pitkä arvosarja X λ \u003d x \, X 2= hg,...,
X p \u003d x p ehdollinen matematiikka. odota
Tanska Υ(χ\, X2,..., Xp) - E(Y/(X]= xj,
Χι = X2, ..., X p \u003d Xp)), sitten funktio Υ(Χ],
x2,
..., Xp) kutsutaan magnitudiregressioksi
ns Y suuruuden mukaan X\, Xr,..., x r, ja hän
kaavio - regressioviiva Y by X\, Xr,
..., X p,
tai regressioyhtälö. Zavi
Y:n riippuvuus ΛΊ:sta, hg....... X s ilmenee siinä

Vpri:n keskiarvojen muutos alkaen
vaihtaa X\, Xr........ Chr. Vaikka jokaisessa

kiinteät arvot X]- xj, xg = xg,» , Xp ~ Xp määrä Τ jää satunnaismuuttujaksi, jolla on määritelmä. hajoaminen. Saadaksesi selville, kuinka tarkasti regressio arvioi Y:n muutoksen ΑΊ:n muutoksella, hg,..., x r, varianssin Y keskiarvoa käytetään eri arvosarjoille X\, Xr,..., Xp(itse asiassa puhumme riippuvan muuttujan dispersiomittasta regressioviivan ympärillä).

Käytännössä regressiosuoraa haetaan useimmiten lineaarifunktion Y = muodossa bx + biXi + bxxr+ - + bpXp(lineaarinen regressio), paras tapa likimääräinen haluttu käyrä. Tämä tehdään pienimmän neliösumman menetelmällä, kun tosiasiallisesti havaitun Y:n neliöityjen poikkeamien summa niiden Y-estimaateista minimoidaan (eli estimaatteja käyttäen suoraa, joka väittää edustavansa haluttua regressioriippuvuutta): w

U (U -U) => min (Ν - näytekoko), s

Tämä lähestymistapa perustuu hyvin tunnettuun tosiasiaan, että yllä olevassa lausekkeessa esiintyvä summa ottaa mini-nimin. arvo tapaukselle, kun Y= Υ(χ\, xr, --, x R). Sovellus