Multivariate Statistical Analysis Special Applied Economics. Multivariate na pagsusuri sa istatistika

Halimbawa

Mayroong data sa output ng mga produkto ng isang pangkat ng mga negosyo sa mga buwan (milyong rubles):

Upang matukoy ang pangkalahatang kalakaran sa paglago ng output, palakihin natin ang mga pagitan. Para sa layuning ito, pinagsama-sama namin ang paunang (buwanang) data sa output ng produksyon sa quarterly na data at kumuha ng mga indicator ng output para sa isang pangkat ng mga negosyo ayon sa quarter:

Bilang resulta ng pagpapalaki ng mga agwat, ang pangkalahatang takbo ng paglago sa output ng grupong ito ng mga negosyo ay naiiba:

64,5 < 76,9 < 78,8 < 85,9.

Ang pagkilala sa pangkalahatang kalakaran ng serye ng oras ay maaari ding gawin sa pamamagitan ng pagpapakinis ng serye ng oras gamit moving average na paraan. Ang kakanyahan ng pamamaraang ito ay ang mga kinakalkula (teoretikal) na antas ay tinutukoy mula sa mga paunang antas ng serye (empirical na data). Sa kasong ito, sa pamamagitan ng pag-average ng data ng empirikal, ang mga indibidwal na pagbabagu-bago ay pinapatay, at ang pangkalahatang kalakaran sa pag-unlad ng kababalaghan ay ipinahayag sa anyo ng isang tiyak na makinis na linya (mga antas ng teoretikal).

Ang pangunahing kondisyon para sa paglalapat ng pamamaraang ito ay upang kalkulahin ang gumagalaw (gumagalaw) na average na mga link mula sa ganoong bilang ng mga antas ng serye na tumutugma sa tagal ng cycle dynamics na naobserbahan sa serye.

Ang kawalan ng paraan ng pagpapakinis ng serye ng dinamika ay ang nakuhang mga average ay hindi nagbibigay ng mga teoretikal na regularidad (mga modelo) ng serye, na ibabatay sa isang mathematically na ipinahayag na regularidad at ito ay magpapahintulot hindi lamang na magsagawa ng pagsusuri, kundi pati na rin upang mahulaan ang dynamics ng serye para sa hinaharap.

Ang isang mas advanced na pamamaraan para sa pag-aaral ng pangkalahatang trend sa time series ay analytical alignment. Kapag pinag-aaralan ang pangkalahatang kalakaran sa pamamagitan ng paraan ng analytical alignment, ipinapalagay na ang mga pagbabago sa mga antas ng isang serye ng mga dinamika ay maaaring i-average sa tulong ng ilang mga pag-andar ng matematika na may iba't ibang antas ng katumpakan ng pagtatantya. paraan teoretikal na pagsusuri ang likas na katangian ng pag-unlad ng kababalaghan ay inihayag, at sa batayan na ito ay pinili ang isa o isa pang mathematical expression tulad ng pagbabago sa phenomenon: kasama ang isang tuwid na linya, kasama ang isang second-order na parabola, isang exponential (logarithmic) curve, atbp .

Malinaw, ang mga antas ng serye ng oras ay nabuo sa ilalim ng pinagsamang impluwensya ng maraming pangmatagalan at panandaliang mga kadahilanan, kasama. iba't ibang uri ng aksidente. Ang isang pagbabago sa mga kondisyon para sa pag-unlad ng isang kababalaghan ay humahantong sa isang mas o hindi gaanong matinding pagbabago sa mga salik mismo, sa isang pagbabago sa lakas at pagiging epektibo ng kanilang epekto, at, sa huli, sa isang pagkakaiba-iba sa antas ng kababalaghan sa ilalim ng pag-aaral sa paglipas ng panahon.



Multivariate na pagsusuri sa istatistika- isang seksyon ng mga istatistika ng matematika, na nakatuon sa mga pamamaraan ng matematika na naglalayong tukuyin ang kalikasan at istraktura ng mga relasyon sa pagitan ng mga bahagi ng pinag-aralan na katangiang multidimensional at nilayon upang makakuha ng siyentipiko at praktikal na mga konklusyon. Ang unang hanay ng multidimensional na data para sa naturang pagsusuri ay karaniwang mga resulta ng pagsukat sa mga bahagi ng isang multidimensional na katangian para sa bawat isa sa mga bagay ng pinag-aralan na populasyon, i.e. isang pagkakasunud-sunod ng mga multivariate na obserbasyon. Multidimensional na tampok kadalasang binibigyang kahulugan bilang isang multivariate na random variable, at isang sequence ng multivariate na mga obserbasyon bilang sample mula sa pangkalahatang populasyon. Sa kasong ito, ang pagpili ng paraan ng pagproseso ng paunang data ng istatistika ay ginawa batay sa ilang mga pagpapalagay tungkol sa kalikasan batas sa pamamahagi pinag-aralan ang multidimensional na tampok.

1. Pagsusuri ng mga multivariate distribution at ang kanilang mga pangunahing katangian sumasaklaw sa mga sitwasyon kung saan ang mga naprosesong obserbasyon ay may probabilistikong kalikasan, i.e. binibigyang kahulugan bilang sample mula sa kaukulang pangkalahatang populasyon. Ang mga pangunahing gawain ng subsection na ito ay kinabibilangan ng: istatistikal na pagtatantya ng mga pinag-aralan na multivariate distribution at ang kanilang mga pangunahing parameter; pag-aaral ng mga katangian ng mga istatistikal na pagtatantya na ginamit; pag-aaral ng mga pamamahagi ng posibilidad para sa isang bilang ng mga istatistika, na ginagamit upang bumuo ng mga istatistikal na pamantayan para sa pagsubok ng iba't ibang mga hypotheses tungkol sa probabilistikong katangian ng nasuri na multivariate na data.
2. Pagsusuri ng kalikasan at istruktura ng mga ugnayan sa pagitan ng mga bahagi ng pinag-aralan na multidimensional na tampok pinagsasama ang mga konsepto at resulta na likas sa mga pamamaraan at modelo tulad ng pagsusuri ng regression, pagsusuri ng dispersion, pagsusuri ng covariance, pagsusuri ng factorial, pagtatasa ng latent-structural, pagsusuri ng log-linear, paghahanap ng mga pakikipag-ugnayan . Kasama sa mga pamamaraan na kabilang sa pangkat na ito ang parehong mga algorithm batay sa pagpapalagay ng probabilistikong katangian ng data, at mga pamamaraan na hindi akma sa balangkas ng anumang probabilistikong modelo (ang huli ay madalas na tinutukoy bilang mga pamamaraan ng pagsusuri ng data).

3. Pinagsasama ng pagsusuri ng geometric na istruktura ng pinag-aralan na hanay ng mga multidimensional na obserbasyon ang mga konsepto at resulta na likas sa mga modelo at pamamaraan tulad ng discriminant analysis, cluster analysis, multidimensional scaling. Ang nodal para sa mga modelong ito ay ang konsepto ng distansya, o isang sukatan ng kalapitan sa pagitan ng mga nasuri na elemento bilang mga punto ng ilang espasyo. Sa kasong ito, maaaring suriin ang parehong mga bagay (bilang mga puntong tinukoy sa espasyo ng tampok) at mga tampok (bilang mga puntong tinukoy sa espasyo ng bagay).

Ang inilapat na halaga ng multivariate statistical analysis ay pangunahing binubuo sa paghahatid ng sumusunod na tatlong problema:

Mga problema ng istatistikal na pananaliksik ng mga dependency sa pagitan ng mga itinuturing na tagapagpahiwatig;

Mga problema sa pag-uuri ng mga elemento (mga bagay o tampok);

Mga problema sa pagbabawas ng dimensyon ng feature space na isinasaalang-alang at pagpili ng pinakakaalaman na mga feature.

Ang mga pangunahing konsepto at pamamaraan ng pagsusuri sa istatistika ay nakabalangkas. multidimensional resulta teknikal mga eksperimento. <...>Teoretikal na impormasyon tungkol sa ari-arian multidimensional Gaussian mga pamamahagi. <...>Ang resulta ng eksperimento na isinasaalang-alang sa manwal ay random vector ipinamahagi ayon sa normal na batas.<...>Multidimensional normal density Kadalasan ang resulta ng isang eksperimento ay kabuuan mga numerong nagpapakilala sa ilang bagay na pinag-aaralan.<...>4 f x  Isulat bilang ξ  ~ ( ND,)μ  ay may p-dimensional normal pamamahagi. ibig sabihin nun vectorξ , ξ) tumatagal iba't ibang kahulugan, kaya makatwirang pag-usapan random vector 12 sangkap vector,ξ  component,ξ  i.e. EDE E   ξ= E E ξ ξ  = μ = ξ − μ ξ − μ ()()  ξp kung saan ang E ang palatandaan inaasahan sa matematika. <...>Hayaan ang η ay p pp   ng mga solusyon μ= ν +B ;.   bD BD Bη ξ = ′ , (1.3) Matrix Ang D mula sa (1.2) ay simetriko, positibo-tiyak; samakatuwid, ang representasyon nito ay D CC′=Λ kung saan ang C ay orthogonal matris, gawa sa sariling mga vector matrice;D Λ – dayagonal matris Sa sariling numeroλ>i 0 matrice D kasama ang pangunahing dayagonal.<...> Pinagsama densidad ang bahagi nito,1,η=i ip, na tinutukoy mula sa pangkalahatan mga tuntunin(tingnan ang apendiks) ay katumbas ng 5 (1.4); linear pagbabagong-anyo,η  kung saan ang B ay isang parisukat na matrix ng mga sukat  ay isang random na vector, ng mga variation,.<...>Pagtatantya ng mga parameter ng normal na distribusyon ND . <...>Ang pangunahing gawain ng pangunahing μ=i n  matrix covariance . <...>A ln ∂ = (1.5) mga regulasyon pagkakaiba-iba functional na may kinalaman sa mga argumento ng vector o matrix (tingnan<...>Pagkatapos σ = ξ −ξ ξ − ξ = ξ ξ −ξ ξ∑∑ ij nn ki i kj j kk Narito ang kiξ ay ang i-th sangkap vector average na iμ i-th Mga bahagi vector . <...> Mga rating maximum kredibilidad coefficients j / ρ=σ σ σ ay may anyo na ij ,. ij ii jj ri j σ σσ  ≠ ii jj Patunay.<...>Pagtatantya ng Dependency sa Pagitan ng Mga Bahagi normal vector Detalyadong pagsusuri ng link<...>

MU_to_performing_course_work_"Multivariate_statistical_analysis".pdf

UDC 519.2 LBC 22.172 K27 Reviewer V.Yu. Chuev Kartashov G.D., Timonin V.I., Budovskaya L.M. K27 Multivariate statistical analysis: Mga patnubay para sa pagpapatupad ng course work. - M .: Publishing house ng MSTU im. N.E. Bauman, 2007. - 48 p.: may sakit. Ang mga pangunahing konsepto at pamamaraan ng istatistikal na pagsusuri ng mga multidimensional na resulta ng mga teknikal na eksperimento ay nakabalangkas. Ang teoretikal na impormasyon tungkol sa mga katangian ng multidimensional na mga distribusyon ng Gaussian ay ibinigay. Para sa mga senior na estudyante ng Faculty of Fundamental Sciences. Il. 2. Bibliograpiya. 5 pangalan UDC 519.2 LBC 22.172 © MSTU im. N.E. Bauman, 2007

Pahina 2

TALAAN NG NILALAMAN Panimula.............................................. .................... ................................ ................... ..... 3 1. Multivariate normal distribution .................... .......................... 4 2. Mga istatistikal na hinuha tungkol sa vector ng mga ibig sabihin .............. ...................... 17 3. Pagsusuri ng diskriminasyon .. ..................... ............................ .............. 23 4. Paraan ng pangunahing bahagi .. ............................ ...................... ............ 27 5. Mga ugnayang kanonikal .................. ............... .................................. 30 6. Multivariate regression analysis .......... .................................... .. 35 7. Factor analysis ....... ....................................... ................ ....................... 40 Apendise ......................... ...... ................................................ ..... .................................... 44 Mga Sanggunian ....... ....................... .............................. ...................... ....................... 46 47

Ang pagpapakilala ng isang PC sa pamamahala ng pambansang ekonomiya ay nagsasangkot ng paglipat mula sa mga tradisyunal na pamamaraan ng pagsusuri sa mga aktibidad ng mga negosyo patungo sa mas advanced na mga modelo ng pamamahala ng ekonomiya, na nagpapahintulot sa pagbubunyag ng malalim na mga proseso nito.

Ang malawakang paggamit ng mga pamamaraan ng mga istatistika ng matematika sa pananaliksik sa ekonomiya ay ginagawang posible upang palalimin ang pagsusuri sa ekonomiya, pagbutihin ang kalidad ng impormasyon sa pagpaplano at pagtataya ng mga tagapagpahiwatig ng produksyon at pagsusuri sa pagiging epektibo nito.

Ang pagiging kumplikado at iba't ibang mga relasyon sa pagitan ng mga tagapagpahiwatig ng ekonomiya ay tumutukoy sa multidimensionality ng mga tampok at, samakatuwid, ay nangangailangan ng paggamit ng pinaka-kumplikadong mathematical apparatus - mga pamamaraan ng multivariate statistical analysis.

Ang konsepto ng "multivariate statistical analysis" ay nagpapahiwatig ng kumbinasyon ng isang bilang ng mga pamamaraan na idinisenyo upang galugarin ang isang kumbinasyon ng magkakaugnay na mga tampok. Pinag-uusapan natin ang tungkol sa dismemberment (partitioning) ng itinuturing na set, na kinakatawan ng mga multidimensional na tampok sa isang medyo maliit na bilang ng mga ito.

Kasabay nito, ang paglipat mula sa isang malaking bilang ng mga tampok sa isang mas maliit na isa ay naglalayong bawasan ang kanilang dimensyon at dagdagan ang kakayahang nagbibigay-kaalaman. Nakamit ang layuning ito sa pamamagitan ng pagtukoy ng impormasyon na paulit-ulit, nabuo ng magkakaugnay na mga tampok, pagtatatag ng posibilidad ng pagsasama-sama (pagsasama-sama, pagbubuod) ayon sa ilang mga tampok. Ang huli ay nagsasangkot ng pagbabago ng aktwal na modelo sa isang modelo na may mas kaunting mga tampok na kadahilanan.

Ang paraan ng multidimensional na istatistikal na pagsusuri ay ginagawang posible upang matukoy ang obhetibong umiiral, ngunit hindi malinaw na ipinahayag, mga pattern na nagpapakita ng kanilang mga sarili sa ilang mga socio-economic phenomena. Kailangang harapin ito ng isang tao kapag nilulutas ang ilang praktikal na problema sa larangan ng ekonomiya. Sa partikular, ang nasa itaas ay nagaganap kung kinakailangan upang maipon (ayusin) nang sabay-sabay ang mga halaga ng ilang mga quantitative na katangian (mga tampok) para sa object ng obserbasyon sa ilalim ng pag-aaral, kapag ang bawat katangian ay madaling kapitan ng hindi makontrol na pagkakaiba-iba (sa konteksto ng mga bagay. ), sa kabila ng homogeneity ng mga bagay ng pagmamasid.

Halimbawa, kapag sinusuri ang homogenous (sa mga tuntunin ng natural at pang-ekonomiyang mga kondisyon at uri ng espesyalisasyon) mga negosyo sa mga tuntunin ng isang bilang ng mga tagapagpahiwatig ng kahusayan sa produksyon, kami ay kumbinsido na kapag lumipat mula sa isang bagay patungo sa isa pa, halos bawat isa sa mga napiling katangian ( magkapareho) ay may hindi pantay na halaga ng numero, iyon ay, nahahanap nito, wika nga, hindi nakokontrol (random) na scatter. Ang ganitong "random" na pagkakaiba-iba ng mga katangian ay may posibilidad na sumunod sa ilang (regular) na mga ugali, kapwa sa mga tuntunin ng mahusay na tinukoy na mga sukat ng mga katangian kung saan nangyayari ang pagkakaiba-iba, at sa mga tuntunin ng antas at pagtutulungan ng pagkakaiba-iba mismo.

Ang nabanggit ay humahantong sa kahulugan ng isang multidimensional na random na variable bilang isang hanay ng mga quantitative na tampok, ang halaga ng bawat isa ay napapailalim sa hindi makontrol na scatter sa panahon ng pag-uulit ng prosesong ito, statistical observation, karanasan, eksperimento, atbp.

Nauna nang sinabi na ang multivariate analysis ay pinagsasama ang isang bilang ng mga pamamaraan; tawagin natin sila: factor analysis, principal component analysis, cluster analysis, pattern recognition, discriminant analysis, atbp. Ang unang tatlo sa mga paraang ito ay isinasaalang-alang sa mga sumusunod na talata.

Tulad ng iba pang mga pamamaraan ng matematika at istatistika, ang pagsusuri ng multivariate ay maaaring maging epektibo sa aplikasyon nito, sa kondisyon na ang paunang impormasyon ay may mataas na kalidad at ang data ng pagmamasid ay napakalaking at naproseso gamit ang isang PC.

Mga pangunahing konsepto ng pamamaraan ng pagsusuri ng kadahilanan, ang kakanyahan ng mga gawain na nalulutas nito

Kapag sinusuri (at pantay na pinag-aralan) ang mga socio-economic phenomena, ang isang tao ay madalas na nakakaharap ng mga kaso kung saan, kabilang sa iba't ibang (mayaman na parametricity) ng mga bagay ng pagmamasid, kinakailangan na ibukod ang isang proporsyon ng mga parameter, o palitan ang mga ito ng isang mas maliit na bilang ng ilang mga function. nang hindi napinsala ang integridad (pagkakumpleto) ng impormasyon . Ang solusyon ng naturang problema ay may katuturan sa loob ng balangkas ng isang partikular na modelo at tinutukoy ng istraktura nito. Ang isang halimbawa ng gayong modelo, na pinakaangkop para sa maraming totoong sitwasyon, ay ang modelo factor analysis, na ang mga pamamaraan ay nagpapahintulot sa iyo na pag-isipan ang mga tampok (impormasyon tungkol sa mga ito) sa pamamagitan ng "pagkondensasyon" ng isang malaking bilang sa isang mas maliit, mas malawak na impormasyon. Sa kasong ito, ang nakuha na "condensate" ng impormasyon ay dapat na kinakatawan ng pinaka makabuluhan at pagtukoy ng mga katangian ng dami.

Ang konsepto ng "factorial analysis" ay hindi dapat malito sa malawak na konsepto ng pagsusuri ng sanhi-at-epekto na mga relasyon, kapag ang impluwensya ng iba't ibang mga kadahilanan (kanilang mga kumbinasyon, mga kumbinasyon) sa isang produktibong katangian ay pinag-aralan.

Ang kakanyahan ng pamamaraan ng pagsusuri ng kadahilanan ay upang ibukod ang paglalarawan ng maramihang mga katangian ng pinag-aralan at palitan ito ng isang mas maliit na bilang ng mga variable na mas malawak na impormasyon, na tinatawag na mga kadahilanan at sumasalamin sa mga pinaka makabuluhang katangian ng mga phenomena. Ang ganitong mga variable ay ilang mga function ng mga orihinal na tampok.

Ang pagsusuri, sa mga salita ni Ya. Okun, 9 ay ginagawang posible na magkaroon ng mga unang tinatayang katangian ng mga regular na pinagbabatayan ng phenomenon, upang bumalangkas ng una, pangkalahatang konklusyon tungkol sa mga direksyon kung saan dapat isagawa ang karagdagang pananaliksik. Dagdag pa, itinuturo niya ang pangunahing pagpapalagay ng pagsusuri ng kadahilanan, na ang kababalaghan, sa kabila ng pagkakaiba-iba at pagkakaiba-iba nito, ay maaaring ilarawan ng isang maliit na bilang ng mga functional unit, parameter o mga kadahilanan. Iba ang tawag sa mga terminong ito: impluwensya, sanhi, parameter, functional unit, kakayahan, pangunahing o independiyenteng tagapagpahiwatig. Ang paggamit ng isang termino o iba pa ay napapailalim sa

Okun Ya.Factor analysis: Per. Sa. sahig. M.: Statistics, 1974.- P.16.

konteksto tungkol sa salik at kaalaman sa kakanyahan ng kababalaghang pinag-aaralan.

Ang mga yugto ng pagsusuri ng salik ay sunud-sunod na paghahambing ng iba't ibang hanay ng mga salik at opsyon sa mga grupo kasama ang kanilang pagsasama, pagbubukod at pagtatasa ng kahalagahan ng mga pagkakaiba sa pagitan ng mga grupo.

Sina V.M. Zhukovska at I.B. Muchnik 10, na nagsasalita tungkol sa kakanyahan ng mga gawain ng pagsusuri ng kadahilanan, ay nagtalo na ang huli ay hindi nangangailangan ng isang priori subdivision ng mga variable sa umaasa at independiyenteng mga, dahil ang lahat ng mga variable dito ay itinuturing na pantay.

Ang gawain ng pagsusuri ng kadahilanan ay nabawasan sa isang tiyak na konsepto, ang bilang at likas na katangian ng pinaka makabuluhan at medyo independiyenteng mga katangian ng pagganap ng kababalaghan, ang mga metro nito o pangunahing mga parameter - mga kadahilanan. Ayon sa mga may-akda, ito ay mahalaga natatanging katangian Ang pagsusuri sa kadahilanan ay nagbibigay-daan sa iyo upang sabay na galugarin ang isang malaking bilang ng mga magkakaugnay na mga variable nang walang pag-aakalang "pananatili ng lahat ng iba pang mga kondisyon", kaya kinakailangan kapag gumagamit ng isang bilang ng iba pang mga pamamaraan ng pagsusuri. Ito ang malaking bentahe ng factor analysis bilang isang mahalagang tool para sa pag-aaral ng phenomenon, dahil sa kumplikadong pagkakaiba-iba at interweaving ng mga relasyon.

Ang pagsusuri ay higit na nakasalalay sa mga obserbasyon ng natural na pagkakaiba-iba ng mga variable.

1. Kapag gumagamit ng factor analysis, ang hanay ng mga variable na pinag-aaralan sa mga tuntunin ng mga relasyon sa pagitan ng mga ito ay hindi pinili nang basta-basta: ang pamamaraang ito ay nagbibigay-daan sa iyo upang matukoy ang mga pangunahing kadahilanan na may malaking epekto sa lugar na ito.

2. Ang pagsusuri ay hindi nangangailangan ng mga paunang hypotheses, sa kabaligtaran, ito mismo ay maaaring magsilbi bilang isang paraan para sa paglalagay ng mga hypotheses, gayundin bilang isang criterion para sa mga hypotheses batay sa data na nakuha ng iba pang mga pamamaraan.

3. Ang pagsusuri ay hindi nangangailangan ng isang priori na hula kung aling mga variable ang independyente at umaasa, hindi nito pinalalaki ang mga ugnayang sanhi at nireresolba ang isyu ng kanilang lawak sa proseso ng karagdagang pananaliksik.

Ang listahan ng mga tiyak na gawain na malulutas gamit ang mga pamamaraan ng pagsusuri ng kadahilanan ay ang mga sumusunod (ayon kay V.M. Zhukovsky). Pangalanan natin ang mga pangunahing sa larangan ng sosyo-ekonomikong pananaliksik:

Zhukovskaya V.M., Muchnik I.B. Factor analysis sa sosyo-ekonomikong pananaliksik. - Estadistika, 1976. P.4.

1. Pagpapasiya ng mga pangunahing aspeto ng mga pagkakaiba sa pagitan ng mga bagay ng pagmamasid (minimization ng paglalarawan).

2. Pagbubuo ng mga hypotheses tungkol sa katangian ng mga pagkakaiba sa pagitan ng mga bagay.

3. Pagkilala sa istruktura ng mga relasyon sa pagitan ng mga tampok.

4. Pagsubok ng mga hypotheses tungkol sa kaugnayan at pagpapalitan ng mga tampok.

5. Paghahambing ng mga istruktura ng mga set ng tampok.

6. Paghiwa-hiwalay ng mga bagay ng pagmamasid para sa mga tipikal na katangian.

Ang nabanggit ay nagpapahiwatig ng mahusay na mga posibilidad ng factor analysis sa

ang pag-aaral ng mga social phenomena, kung saan, bilang panuntunan, imposibleng kontrolin (eksperimento) ang impluwensya ng mga indibidwal na kadahilanan.

Ito ay lubos na epektibong gamitin ang mga resulta ng factor analysis sa maramihang mga modelo ng regression.

Ang pagkakaroon ng pre-formed correlation-regression model ng phenomenon na pinag-aaralan sa anyo ng mga correlated features, sa tulong ng factor analysis, ang naturang set ng features ay maaaring gawing mas maliit na bilang ng mga ito sa pamamagitan ng aggregation. Kasabay nito, dapat tandaan na ang gayong pagbabago sa anumang paraan ay hindi nakakapinsala sa kalidad at pagkakumpleto ng impormasyon tungkol sa hindi pangkaraniwang bagay na pinag-aaralan. Ang nabuong pinagsama-samang mga tampok ay hindi nauugnay at kumakatawan sa isang linear na kumbinasyon ng mga pangunahing tampok. Mula sa pormal na bahagi ng matematika, ang pahayag ng problema sa kasong ito ay maaaring magkaroon ng isang walang katapusang hanay ng mga solusyon. Ngunit dapat nating tandaan na kapag pinag-aaralan ang mga socio-economic phenomena, ang nakuhang pinagsama-samang mga palatandaan ay dapat magkaroon ng isang ekonomikong makatwiran na interpretasyon. Sa madaling salita, sa anumang kaso ng paggamit ng mathematical apparatus, una sa lahat, lumabas sila sa kaalaman pang-ekonomiyang kakanyahan phenomena na pinag-aaralan.

Kaya, ang nasa itaas ay nagpapahintulot sa amin na ibuod na ang pagsusuri ng kadahilanan ay isang tiyak na pamamaraan ng pananaliksik, na isinasagawa batay sa isang arsenal ng mga pamamaraan ng mga istatistika ng matematika.

Ang pagsusuri sa kadahilanan ay unang natagpuan ang praktikal na aplikasyon nito sa larangan ng sikolohiya. Kakayahang pagsama-samahin ang isang malaking bilang mga pagsusulit sa sikolohikal sa isang maliit na bilang ng mga salik na pinapayagang ipaliwanag ang kakayahan ng katalinuhan ng tao.

Sa pag-aaral ng socio-economic phenomena, kung saan may mga kahirapan sa paghihiwalay ng impluwensya ng mga indibidwal na variable, ang factor analysis ay maaaring matagumpay na magamit. Ang paggamit ng mga pamamaraan nito ay nagbibigay-daan, sa pamamagitan ng ilang mga kalkulasyon, na "i-filter" ang mga di-mahahalagang tampok at magpatuloy sa pagsasaliksik sa direksyon ng pagpapalalim nito.

Ang pagiging epektibo ng pamamaraang ito ay halata sa pag-aaral ng mga naturang isyu (problema): sa ekonomiya - pagdadalubhasa at konsentrasyon ng produksyon, ang intensity ng housekeeping, ang badyet ng mga pamilya ng mga manggagawa, ang pagtatayo ng iba't ibang mga generalizing indicator. atbp

Ang mga bagay na panlipunan at pang-ekonomiya, bilang panuntunan, ay nailalarawan sa pamamagitan ng isang medyo malaking bilang ng mga parameter na bumubuo ng mga multidimensional na vector, at ang mga problema sa pag-aaral ng mga ugnayan sa pagitan ng mga bahagi ng mga vector na ito ay partikular na kahalagahan sa pang-ekonomiya at panlipunang pag-aaral, at ang mga relasyon na ito ay dapat matukoy batay sa limitadong bilang ng mga multidimensional na obserbasyon.

Ang multivariate statistical analysis ay isang seksyon ng mathematical statistics na pinag-aaralan ang mga paraan ng pagkolekta at pagproseso ng multivariate statistical data, ang kanilang systematization at pagproseso upang matukoy ang kalikasan at istraktura ng mga relasyon sa pagitan ng mga bahagi ng pinag-aralan na multivariate na katangian, at upang makagawa ng mga praktikal na konklusyon.

Tandaan na maaaring mag-iba ang mga paraan ng pagkolekta ng data. Kaya, kung magsasaliksik ekonomiya ng daigdig, kung gayon natural na kunin ang mga bansa bilang mga bagay kung saan sinusunod ang mga halaga ng vector X, ngunit kung ang pambansang sistemang pang-ekonomiya, kung gayon natural na obserbahan ang mga halaga ng vector X sa parehong (interesado sa mananaliksik) na bansa sa iba't ibang mga punto ng oras.

Ang mga pamamaraan ng istatistika tulad ng maramihang ugnayan at pagsusuri ng regression ay tradisyonal na pinag-aaralan sa mga kurso ng probability theory at mathematical statistics, ang disiplina na "Econometrics" ay nakatuon sa pagsasaalang-alang ng mga inilapat na aspeto ng pagsusuri ng regression.

Ang manwal na ito ay nakatuon sa iba pang mga paraan ng pag-aaral ng multivariate na pangkalahatang populasyon batay sa istatistikal na datos.

Ang mga pamamaraan para sa pagbabawas ng dimensyon ng isang multidimensional na espasyo ay nagpapahintulot, nang walang makabuluhang pagkawala ng impormasyon, na lumipat mula sa orihinal na sistema ng isang malaking bilang ng mga naobserbahang magkakaugnay na mga kadahilanan patungo sa isang sistema ng isang makabuluhang mas maliit na bilang ng mga nakatagong (hindi napapansin) na mga kadahilanan na tumutukoy sa pagkakaiba-iba ng ang mga paunang tampok. Ang unang kabanata ay naglalarawan ng mga paraan ng component at factor analysis, na maaaring gamitin upang tukuyin ang obhetibong umiiral, ngunit hindi direktang nakikitang mga pattern gamit ang mga pangunahing bahagi o salik.

Ang mga pamamaraan ng multidimensional na pag-uuri ay idinisenyo upang hatiin ang mga koleksyon ng mga bagay (nailalarawan ng isang malaking bilang ng mga tampok) sa mga klase, bawat isa ay dapat magsama ng mga bagay na homogenous o katulad sa isang tiyak na kahulugan. Ang ganitong pag-uuri batay sa istatistikal na data sa mga halaga ng mga tampok sa mga bagay ay maaaring isagawa gamit ang mga pamamaraan ng cluster at discriminant analysis, na tinalakay sa ikalawang kabanata (Multivariate statistical analysis gamit ang "STATISTICA").

Ang pag-unlad ng teknolohiya ng computer at software ay nag-aambag sa malawakang pagpapakilala ng mga multivariate na pamamaraan ng pagsusuri sa istatistika sa pagsasanay. Ang mga package ng application na may maginhawang user interface, tulad ng SPSS, Statistica, SAS, atbp., ay nag-aalis ng mga kahirapan sa paglalapat ng mga pamamaraang ito, na kung saan ay ang pagiging kumplikado ng mathematical apparatus batay sa linear algebra, probability theory at mathematical statistics, at ang pagiging kumplikado ng mga kalkulasyon.

Gayunpaman, ang paggamit ng mga programa nang hindi nauunawaan ang mathematical essence ng mga algorithm na ginamit ay nag-aambag sa pagbuo ng ilusyon ng mananaliksik sa pagiging simple ng paggamit ng multivariate na mga istatistikal na pamamaraan, na maaaring humantong sa hindi tama o hindi makatwirang mga resulta. Ang mga makabuluhang praktikal na resulta ay maaaring makuha lamang sa batayan ng propesyonal na kaalaman sa lugar ng paksa, na sinusuportahan ng kaalaman sa mga pamamaraan ng matematika at mga pakete ng aplikasyon kung saan ipinatupad ang mga pamamaraang ito.

Samakatuwid, para sa bawat isa sa mga pamamaraan na isinasaalang-alang sa aklat na ito, ang pangunahing teoretikal na impormasyon ay ibinigay, kabilang ang mga algorithm; ang pagpapatupad ng mga pamamaraan at algorithm na ito sa mga pakete ng aplikasyon ay tinalakay. Ang mga pamamaraan na isinasaalang-alang ay inilalarawan ng mga halimbawa ng kanilang praktikal na aplikasyon sa ekonomiya gamit ang SPSS package.

Ang manwal ay isinulat batay sa karanasan sa pagbabasa ng kursong "Multivariate statistical method" sa mga mag-aaral Pambansang Unibersidad pamamahala. Para sa isang mas detalyadong pag-aaral ng mga pamamaraan ng inilapat na multivariate statistical analysis, inirerekomenda ang mga libro.

Ipinapalagay na ang mambabasa ay lubos na pamilyar sa mga kurso ng linear algebra (halimbawa, sa dami ng aklat-aralin at sa apendise sa aklat-aralin), teorya ng posibilidad at mga istatistika ng matematika (halimbawa, sa dami ng aklat-aralin).

Panimula

Kabanata 1 Pagsusuri ng Maramihang Pagbabalik

Kabanata 2. Cluster analysis

Kabanata 3. Pagsusuri ng Salik

Kabanata 4. Discriminant Analysis

Bibliograpiya

Panimula

Ang paunang impormasyon sa mga pag-aaral sa sosyo-ekonomiko ay madalas na ipinakita bilang isang hanay ng mga bagay, na ang bawat isa ay nailalarawan sa pamamagitan ng isang bilang ng mga tampok (mga tagapagpahiwatig). Dahil ang bilang ng mga naturang bagay at tampok ay maaaring umabot sa sampu at daan-daan, at ang visual na pagsusuri ng mga datos na ito ay hindi epektibo, ang mga problema sa pagbawas, pag-concentrate ng paunang data, paglalantad ng istraktura at ang relasyon sa pagitan ng mga ito batay sa pagbuo ng mga pangkalahatang katangian ng isang hanay ng mga tampok at isang hanay ng mga bagay ang lumitaw. Ang ganitong mga problema ay maaaring malutas sa pamamagitan ng mga pamamaraan ng multivariate statistical analysis.

Ang multivariate na pagsusuri sa istatistika ay isang seksyon ng mga istatistika na nakatuon sa mga pamamaraan ng matematika na naglalayong tukuyin ang kalikasan at istraktura ng mga relasyon sa pagitan ng mga bahagi ng pananaliksik at nilayon upang makakuha ng mga siyentipiko at praktikal na konklusyon.

Ang pangunahing pansin sa multivariate statistical analysis ay binabayaran sa mga pamamaraan ng matematika para sa pagbuo ng pinakamainam na mga plano para sa pagkolekta, pag-systematize at pagproseso ng data, na naglalayong kilalanin ang kalikasan at istraktura ng mga relasyon sa pagitan ng mga bahagi ng pinag-aralan na katangian ng multivariate at idinisenyo upang makakuha ng siyentipiko at praktikal na mga konklusyon.

Ang paunang hanay ng multidimensional na data para sa pagsasagawa ng multivariate analysis ay karaniwang mga resulta ng pagsukat sa mga bahagi ng isang multidimensional na katangian para sa bawat isa sa mga bagay ng pinag-aralan na populasyon, i.e. isang pagkakasunud-sunod ng mga multivariate na obserbasyon. Ang isang multivariate na katangian ay kadalasang binibigyang kahulugan bilang , at isang pagkakasunud-sunod ng mga obserbasyon bilang sample mula sa pangkalahatang populasyon. Sa kasong ito, ang pagpili ng paraan ng pagproseso ng paunang data ng istatistika ay ginawa batay sa ilang mga pagpapalagay tungkol sa likas na katangian ng batas ng pamamahagi ng pinag-aralan na katangiang multidimensional.

1. Ang multivariate na istatistikal na pagsusuri ng mga multivariate na distribusyon at ang kanilang mga pangunahing katangian ay sumasaklaw sa mga sitwasyon kung saan ang mga naprosesong obserbasyon ay may probabilistikong kalikasan, i.e. binibigyang kahulugan bilang sample mula sa kaukulang pangkalahatang populasyon. Ang mga pangunahing gawain ng subsection na ito ay kinabibilangan ng: istatistikal na pagtatantya ng mga pinag-aralan na multivariate distribution at ang kanilang mga pangunahing parameter; pag-aaral ng mga katangian ng mga istatistikal na pagtatantya na ginamit; pag-aaral ng mga pamamahagi ng posibilidad para sa isang bilang ng mga istatistika, na ginagamit upang bumuo ng mga istatistikal na pamantayan para sa pagsubok ng iba't ibang mga hypotheses tungkol sa probabilistikong katangian ng nasuri na multivariate na data.

2. Pinagsasama ng multivariate na istatistikal na pagsusuri ang kalikasan at istruktura ng mga interrelasyon ng mga bahagi ng pinag-aralan na multivariate na katangian ng mga konsepto at resulta na likas sa mga pamamaraan at modelo tulad ng pagsusuri, pagsusuri ng pagkakaiba, pagsusuri ng covariance, pagsusuri ng kadahilanan, atbp. Kasama sa mga pamamaraan na kabilang sa pangkat na ito ang parehong mga algorithm batay sa pagpapalagay ng probabilistikong katangian ng data, at mga pamamaraan na hindi akma sa balangkas ng anumang probabilistikong modelo (ang huli ay madalas na tinutukoy bilang mga pamamaraan).

3. Pinagsasama ng multidimensional na istatistikal na pagsusuri ng geometric na istruktura ng pinag-aralan na hanay ng mga multivariate na obserbasyon ang mga konsepto at resulta na likas sa mga modelo at pamamaraan tulad ng discriminant analysis, cluster analysis, multidimensional scaling. Ang nodal para sa mga modelong ito ay ang konsepto ng distansya, o isang sukatan ng kalapitan sa pagitan ng mga nasuri na elemento bilang mga punto ng ilang espasyo. Sa kasong ito, maaaring suriin ang parehong mga bagay (bilang mga puntong tinukoy sa espasyo ng tampok) at mga tampok (bilang mga puntong tinukoy sa espasyo ng bagay).

Ang inilapat na halaga ng multivariate statistical analysis ay pangunahing binubuo sa paglutas ng sumusunod na tatlong problema:

ang gawain ng istatistikal na pag-aaral ng mga dependencies sa pagitan ng mga tagapagpahiwatig na isinasaalang-alang;

ang gawain ng pag-uuri ng mga elemento (mga bagay o tampok);

· ang gawain ng pagbabawas ng dimensyon ng feature space na isinasaalang-alang at pagpili ng pinaka-kaalaman na mga feature.

Ang pagsusuri ng maramihang regression ay idinisenyo upang bumuo ng isang modelo na nagpapahintulot sa mga halaga ng mga independiyenteng variable na makakuha ng mga pagtatantya ng mga halaga ng umaasa na variable.

Logistic regression para sa paglutas ng problema sa pag-uuri. Ito ay isang uri ng multiple regression, ang layunin nito ay suriin ang ugnayan sa pagitan ng ilang independent variable at isang dependent variable.

Ang pagsusuri ng salik ay tumatalakay sa pagpapasiya ng isang medyo maliit na bilang ng mga nakatagong (latent) na mga salik, ang pagkakaiba-iba nito ay nagpapaliwanag ng pagkakaiba-iba ng lahat ng naobserbahang tagapagpahiwatig. Ang pagsusuri sa kadahilanan ay naglalayong bawasan ang sukat ng problemang isinasaalang-alang.

Ang cluster at discriminant analysis ay idinisenyo upang hatiin ang mga koleksyon ng mga bagay sa mga klase, bawat isa ay dapat magsama ng mga bagay na homogenous o malapit sa isang tiyak na kahulugan. Sa pagsusuri ng kumpol, hindi alam nang maaga kung gaano karaming mga grupo ng mga bagay ang lalabas at kung anong laki ang mga ito. Hinahati ng discriminant analysis ang mga bagay sa mga dati nang klase.

Kabanata 1 Pagsusuri ng Maramihang Pagbabalik

Takdang-aralin: Pananaliksik sa merkado ng pabahay sa Orel (mga rehiyon ng Sobyet at Hilaga).

Ipinapakita ng talahanayan ang data sa presyo ng mga apartment sa Orel at sa iba't ibang mga kadahilanan na tumutukoy dito:

· kabuuang lugar;

Ang lugar ng kusina

· living space;

uri ng bahay

ang bilang ng mga silid. (Fig.1)

kanin. 1 Paunang data

Sa hanay na "Rehiyon" ang mga pagtatalaga ay ginagamit:

3 - Sobyet (mga piling tao, kabilang sa mga gitnang rehiyon);

4 - Hilaga.

Sa column na "Uri ng bahay":

1 - ladrilyo;

0 - panel.

Kailangan:

1. Suriin ang kaugnayan ng lahat ng mga kadahilanan sa tagapagpahiwatig ng "Presyo" at sa kanilang sarili. Piliin ang mga salik na pinakaangkop para sa pagbuo ng modelo ng regression;

2. Bumuo ng dummy variable na sumasalamin sa pagmamay-ari ng apartment sa gitna at paligid na mga lugar ng lungsod;

3. Bumuo ng isang linear na modelo ng regression para sa lahat ng mga kadahilanan, kabilang ang isang dummy variable dito. Ipaliwanag ang pang-ekonomiyang kahulugan ng mga parameter ng equation. Suriin ang kalidad ng modelo, ang istatistikal na kahalagahan ng equation at ang mga parameter nito;

4. Ipamahagi ang mga salik (maliban sa dummy variable) ayon sa antas ng impluwensya sa tagapagpahiwatig ng "Presyo";

5. Bumuo ng linear regression na modelo para sa pinaka-maimpluwensyang salik, na nag-iiwan ng dummy variable sa equation. Suriin ang kalidad at istatistikal na kahalagahan ng equation at mga parameter nito;

6. Bigyang-katwiran ang kapakinabangan o kawalan ng kakayahang magsama ng dummy variable sa equation ng mga talata 3 at 5;

7. Tantyahin ang mga pagtatantya ng pagitan ng mga parameter ng equation na may posibilidad na 95%;

8. Tukuyin kung magkano ang halaga ng isang apartment na may kabuuang lawak na 74.5 m² sa isang piling tao (peripheral) na lugar.

Pagganap:

1. Pagkatapos pag-aralan ang kaugnayan ng lahat ng mga salik sa tagapagpahiwatig ng "Presyo" at sa kanilang mga sarili, ang mga salik na pinakaangkop para sa pagbuo ng isang modelo ng regression ay pinili gamit ang "Ipasa" na paraan ng pagsasama:

A) ang kabuuang lugar;

C) ang bilang ng mga silid.

Kasama/ibinukod na mga variable(a)

isang Dependent variable: Presyo

2. Ang Variable X4 "Region" ay isang dummy variable, dahil mayroon itong 2 value: 3-na kabilang sa gitnang rehiyon na "Soviet", 4- sa peripheral na rehiyon na "Severny".

3. Bumuo tayo ng linear regression model para sa lahat ng mga salik (kabilang ang dummy variable na X4).

Natanggap na modelo:

Pagsusuri ng kalidad ng modelo.

Karaniwang error = 126.477

Durbin-Watson ratio = 2.136

Pagsusuri sa Kahalagahan ng Regression Equation

Halaga ng pagsubok sa F-Fisher = 41.687

4. Bumuo tayo ng linear regression model na may lahat ng mga salik (maliban sa dummy variable na X4)

Ayon sa antas ng impluwensya sa tagapagpahiwatig ng "Presyo", sila ay ibinahagi:

Ang pinakamahalagang salik ay ang kabuuang lawak (F= 40.806)

Ang pangalawang pinakamahalagang salik ay ang bilang ng mga silid (F= 29.313)

5. Kasama/ibinukod na mga variable

isang Dependent variable: Presyo

6. Bumuo tayo ng linear regression model para sa pinaka-maimpluwensyang salik na may dummy variable, sa aming kaso ito ay isa sa mga maimpluwensyang salik.

Natanggap na modelo:

Y \u003d 348.349 + 35.788 X1 -217.075 X4 +305.687 X7

Pagsusuri ng kalidad ng modelo.

Determination coefficient R2 = 0.807

Ipinapakita ang proporsyon ng pagkakaiba-iba ng nagresultang katangian sa ilalim ng impluwensya ng mga pinag-aralan na salik. Dahil dito, ang humigit-kumulang 89% ng variation ng dependent variable ay isinasaalang-alang at dahil sa impluwensya ng mga kasamang salik sa modelo.

Multiple correlation coefficient R = 0.898

Ipinapakita ang lapit ng ugnayan sa pagitan ng dependent variable Y kasama ang lahat ng nagpapaliwanag na salik na kasama sa modelo.

Karaniwang error = 126.477

Durbin-Watson ratio = 2.136

Pagsusuri sa Kahalagahan ng Regression Equation

Halaga ng pagsubok sa F-Fisher = 41.687

Ang equation ng regression ay dapat kilalanin bilang sapat, ang modelo ay itinuturing na makabuluhan.

Ang pinakamahalagang salik ay ang bilang ng mga silid (F=41,687)

Ang pangalawang pinakamahalagang salik ay ang kabuuang lugar (F= 40.806)

Ang ikatlong pinakamahalagang salik ay ang rehiyon (F= 32.288)

7. Ang dummy variable na X4 ay isang makabuluhang salik, kaya ipinapayong isama ito sa equation.

Ang mga pagtatantya ng pagitan ng mga parameter ng equation ay nagpapakita ng mga resulta ng pagtataya ng modelo ng regression.

Sa posibilidad na 95%, ang dami ng mga benta sa buwan ng pagtataya ay mula 540.765 hanggang 1080.147 milyong rubles.

8. Pagpapasiya ng halaga ng isang apartment sa isang piling lugar

Para sa 1 silid U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 1

Para sa 2 silid U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 2

Para sa 3 silid U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 3

sa paligid

Para sa 1 silid U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 1

Para sa 2 silid U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 2

Para sa 3 silid U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 3

Kabanata 2. Cluster analysis

Takdang-Aralin: Pag-aaral ng istruktura ng mga gastusin sa pananalapi at pagtitipid ng populasyon.

Ipinapakita ng talahanayan ang istraktura ng mga paggasta at pagtitipid ng populasyon ayon sa mga rehiyon ng Central Federal District Pederasyon ng Russia noong 2003 Para sa mga sumusunod na tagapagpahiwatig:

PTIOU - pagbili ng mga kalakal at pagbabayad para sa mga serbisyo;

· OPiV - mga obligasyong pagbabayad at kontribusyon;

PN - pagbili ng real estate;

· PFA – pagtaas ng mga asset sa pananalapi;

· DR - pagtaas (pagbaba) ng pera sa mga kamay ng populasyon.

kanin. 8 Paunang datos

Kailangan:

1) tukuyin ang pinakamainam na bilang ng mga kumpol para sa paghahati ng mga rehiyon sa magkakatulad na mga grupo ayon sa lahat ng mga katangian ng pagpapangkat nang sabay-sabay;

2) isakatuparan ang pag-uuri ng mga lugar sa pamamagitan ng isang hierarchical na pamamaraan na may isang algorithm ng mga relasyon sa intergroup at ipakita ang mga resulta sa anyo ng isang dendrogram;

3) pag-aralan ang mga pangunahing priyoridad ng paggastos ng pera at pagtitipid sa mga resultang kumpol;

Pagganap:

1) Tukuyin ang pinakamainam na bilang ng mga kumpol para sa paghahati ng mga rehiyon sa magkakatulad na mga grupo ayon sa lahat ng katangian ng pagpapangkat nang sabay-sabay;

Upang matukoy ang pinakamainam na bilang ng mga kumpol, kailangan mong gamitin ang Hierarchical cluster analysis at sumangguni sa talahanayan na "Mga Hakbang ng pagsasama-sama" sa column na "Mga Coefficient".

Ang mga coefficient na ito ay nagpapahiwatig ng distansya sa pagitan ng dalawang kumpol, na tinutukoy batay sa napiling sukat ng distansya (Euclidean distance). Sa yugto kung kailan ang sukat ng distansya sa pagitan ng dalawang kumpol ay biglang tumaas, ang proseso ng pagsasama sa mga bagong kumpol ay dapat na itigil.

Bilang resulta, ang pinakamainam na bilang ng mga kumpol ay itinuturing na katumbas ng pagkakaiba sa pagitan ng bilang ng mga obserbasyon (17) at ang bilang ng hakbang (14), pagkatapos nito ay biglang tumaas ang koepisyent. Kaya, ang pinakamainam na bilang ng mga kumpol ay 3. (Larawan 9)

kumpol ng pagtatasa ng istatistikal na matematika

kanin. 9 Talahanayan "Mga hakbang sa sintering"

2) Isagawa ang pag-uuri ng mga lugar sa pamamagitan ng isang hierarchical na pamamaraan na may isang algorithm ng mga relasyon sa pagitan ng grupo at ipakita ang mga resulta sa anyo ng isang dendrogram;

Ngayon, gamit ang pinakamainam na bilang ng mga kumpol, inuuri namin ang mga lugar gamit ang isang hierarchical na pamamaraan. At sa output ay bumaling tayo sa talahanayan na "Nauukol sa mga kumpol". (Fig.10)

kanin. 10 Talahanayan "Nauukol sa mga kumpol"

Sa Fig. Malinaw na ipinapakita ng 10 na ang cluster 3 ay kinabibilangan ng 2 rehiyon (Kaluga, Moscow) at Moscow, ang cluster 2 ay kinabibilangan ng dalawang rehiyon (Bryansk, Voronezh, Ivanovo, Lipetsk, Oryol, Ryazan, Smolensk, Tambov, Tver), cluster 1 - Belgorod , Vladimir, Kostroma , Kursk, Tula, Yaroslavl.

kanin. 11 Dendrogram

3) pag-aralan ang mga pangunahing priyoridad ng paggastos ng pera at pagtitipid sa mga resultang kumpol;

Upang pag-aralan ang mga resultang kumpol, kailangan nating magsagawa ng "Paghahambing ng mga average". Ang output window ay nagpapakita ng sumusunod na talahanayan (Fig. 12)

kanin. 12 Ang ibig sabihin ng mga halaga ng mga variable

Sa talahanayan na "Average na mga halaga" maaari nating matunton kung aling mga istruktura ang binibigyan ng pinakamataas na priyoridad sa pamamahagi ng mga paggasta sa pera at pagtitipid ng populasyon.

Una sa lahat, dapat tandaan na ang pinakamataas na priyoridad sa lahat ng mga lugar ay ibinibigay sa pagbili ng mga kalakal at pagbabayad para sa mga serbisyo. Ang parameter ay tumatagal ng mas malaking halaga sa 3rd cluster.

Ang 2nd place ay inookupahan ng paglago ng mga financial asset. Pinakamataas na halaga sa 1 cluster.

Ang pinakamaliit na koepisyent sa 1st at 2nd clusters ay para sa "acquisition of real estate", at sa 3rd cluster isang kapansin-pansing pagbaba ng pera sa mga kamay ng populasyon ay ipinahayag.

Sa pangkalahatan, ang pagbili ng mga kalakal at serbisyo at ang hindi gaanong halaga ng pagbili ng real estate ay partikular na kahalagahan para sa populasyon.

4) ihambing ang resultang pag-uuri sa mga resulta ng paglalapat ng intragroup na algorithm ng relasyon.

Sa pagsusuri ng mga ugnayang intergroup, halos hindi nagbago ang sitwasyon, maliban sa rehiyon ng Tambov, na nahulog sa 1 sa 2 kumpol. (Larawan 13)

kanin. 13 Pagsusuri ng mga relasyon sa loob ng grupo

Walang mga pagbabago sa talahanayang "Mga Average."

Kabanata 3. Pagsusuri ng Salik

Gawain: Pagsusuri ng mga aktibidad ng mga negosyo magaan na industriya.

Available ang data ng survey para sa 20 light industry enterprise (Fig. 14) ayon sa mga sumusunod na katangian:

X1 - ang antas ng pagiging produktibo ng kapital;

X2 - lakas ng paggawa ng isang yunit ng produksyon;

X3 - ang bahagi ng mga materyales sa pagkuha sa kabuuang gastos;

X4 - salik ng paglilipat ng kagamitan;

X5 - mga bonus at suweldo bawat empleyado;

X6 - ang proporsyon ng mga pagkalugi mula sa kasal;

X7 – average na taunang gastos ng mga fixed production asset;

X8 - ang karaniwang taunang pondo ng sahod;

X9 - ang antas ng kakayahang maibenta ng mga produkto;

· X10 – permanenteng asset index (ratio ng mga fixed asset at iba pang hindi kasalukuyang asset na nagmamay-ari ng mga pondo);

X11 - turnover ng working capital;

X12 - mga hindi gastos sa produksyon.

Fig.14 Paunang data

Kailangan:

1. magsagawa ng factor analysis ng mga sumusunod na variable: 1,3,5-7, 9, 11,12, kilalanin at bigyang-kahulugan ang mga katangian ng salik;

2. ipahiwatig ang pinakamaunlad at promising na mga negosyo.

Pagganap:

1. Magsagawa ng factor analysis ng mga sumusunod na variable: 1,3,5-7, 9, 11,12, kilalanin at bigyang-kahulugan ang mga katangian ng salik.

Ang pagsusuri sa kadahilanan ay isang hanay ng mga pamamaraan na, batay sa totoong buhay na mga relasyon ng mga bagay (mga tampok), ginagawang posible upang makilala ang mga nakatagong (implicit) na pangkalahatang katangian ng istraktura ng organisasyon.

Sa dialog box ng factor analysis, piliin ang aming mga variable, tukuyin ang mga kinakailangang parameter.

kanin. 15 Kabuuang ipinaliwanag na pagkakaiba

Ayon sa talahanayan ng "Total explained variance" makikita na 3 mga kadahilanan ang natukoy na nagpapaliwanag ng 74.8% ng mga pagkakaiba-iba ng mga variable - ang itinayong modelo ay medyo maganda.

Ngayon ay binibigyang-kahulugan namin ang mga palatandaan ng kadahilanan ayon sa "Matrix of Rotated Components": (Fig.16).

kanin. 16 Matrix ng mga pinaikot na bahagi

Ang Factor 1 ay pinaka malapit na nauugnay sa antas ng mga benta ng produkto at may kabaligtaran na kaugnayan sa mga gastos na hindi produksyon.

Ang Factor 2 ay pinaka malapit na nauugnay sa bahagi ng mga materyales sa pagkuha sa kabuuang gastos at bahagi ng mga pagkalugi mula sa kasal at may kabaligtaran na kaugnayan sa mga bonus at suweldo sa bawat empleyado.

Ang Factor 3 ay pinaka malapit na nauugnay sa antas ng produktibidad ng kapital at paglilipat ng kapital na nagtatrabaho at may kabaligtaran na kaugnayan sa average na taunang halaga ng mga fixed asset.

2. Ipahiwatig ang pinaka-maunlad at promising na mga negosyo.

Upang matukoy ang pinakamaunlad na mga negosyo, pag-uuri-uriin namin ang data ayon sa 3 pamantayan ng kadahilanan sa pababang pagkakasunud-sunod. (Larawan 17)

Ang pinaka-maunlad na negosyo ay dapat isaalang-alang: 13,4,5, dahil sa pangkalahatan, ayon sa 3 mga kadahilanan, ang kanilang mga tagapagpahiwatig ay sumasakop sa pinakamataas at pinaka-matatag na posisyon.

Kabanata 4. Discriminant Analysis

Pagtatasa ng pagiging creditworthiness ng mga legal na entity sa isang komersyal na bangko

Pinili ng bangko ang anim na tagapagpahiwatig bilang makabuluhang tagapagpahiwatig na nagpapakilala sa kalagayang pinansyal ng mga organisasyong humihiram (Talahanayan 4.1.1):

QR (X1) - mabilis na ratio ng pagkatubig;

CR (X2) - kasalukuyang ratio ng pagkatubig;

EQ/TA (X3) - ratio ng kalayaan sa pananalapi;

TD/EQ (X4) - kabuuang pananagutan sa equity capital;

ROS (X5) - kakayahang kumita ng mga benta;

FAT (X6) - turnover ng fixed assets.

Talahanayan 4.1.1. Paunang data


Kailangan:

Batay sa discriminant analysis gamit ang SPSS package, alamin kung alin sa apat na kategorya ang kinabibilangan ng tatlong borrower ( mga legal na entity) na nagnanais na makakuha ng pautang mula sa isang komersyal na bangko:

§ Grupo 1 - na may mahusay na pagganap sa pananalapi;

§ Pangkat 2 - na may mahusay na pagganap sa pananalapi;

§ Pangkat 3 - na may mahinang pagganap sa pananalapi;

§ Pangkat 4 - na may napakahinang pagganap sa pananalapi.

Batay sa mga resulta ng pagkalkula, bumuo ng mga discriminant function; suriin ang kanilang kahalagahan sa pamamagitan ng Wilks coefficient (λ). Bumuo ng isang perception map at mga diagram ng mga relatibong posisyon ng mga obserbasyon sa espasyo ng tatlong function. Magsagawa ng interpretasyon ng mga resulta ng pagsusuri.

Pag-unlad:

Upang matukoy kung saan kabilang sa apat na kategorya ang tatlong borrower na gustong kumuha ng pautang mula sa isang komersyal na bangko, bumuo kami ng isang discriminant analysis na nagbibigay-daan sa aming matukoy kung alin sa mga dating natukoy na populasyon (mga sample ng pagsasanay) ang mga bagong customer ang dapat italaga sa .

Bilang isang dependent variable, pipili tayo ng isang grupo kung saan maaaring kabilang ang nanghihiram, depende sa pagganap nito sa pananalapi. Mula sa datos ng gawain, ang bawat pangkat ay bibigyan ng kaukulang marka na 1, 2, 3, at 4.

Mga hindi normal na canonical coefficient ng mga discriminant function na ipinapakita sa Fig. 4.1.1 ay ginagamit upang bumuo ng equation ng mga discriminant function na D1(X), D2(X) at D3(X):

3.) D3(X) =


1

(Patuloy)

kanin. 4.1.1. Coefficients ng canonical discriminant function

kanin. 4.1.2. Lambda Wilks

Gayunpaman, dahil ang kahalagahan ng Wilks coefficient (Larawan 4.1.2) ng pangalawa at pangatlong function ay higit sa 0.001, hindi ipinapayong gamitin ang mga ito para sa diskriminasyon.

Ang data ng talahanayan na "Mga resulta ng pag-uuri" (Larawan 4.1.3) ay nagpapahiwatig na para sa 100% ng mga obserbasyon ang pag-uuri ay natupad nang tama, ang mataas na katumpakan ay nakamit sa lahat ng apat na grupo (100%).

kanin. 4.1.3. Mga resulta ng pag-uuri

Ang impormasyon tungkol sa aktwal at hinulaang mga grupo para sa bawat nanghihiram ay ibinibigay sa talahanayan na "Mga Istatistika ng Punto" (Larawan 4.1.4).

Bilang resulta ng discriminant analysis, natukoy na may mataas na posibilidad na ang mga bagong borrower ng bangko ay kabilang sa training subset M1 - ang una, pangalawa at pangatlong borrower (mga serial number 41, 42, 43) ay itinalaga sa M1 subset na may ang kaukulang mga probabilidad ng 100%.

Numero ng pagmamasid

Aktwal na Grupo

Malamang na Grupo

Hinulaang pangkat

ungrouped

ungrouped

ungrouped

kanin. 4.1.4. Mga istatistika ng punto

Ang mga coordinate ng mga centroid ayon sa mga grupo ay ibinibigay sa talahanayan na "Mga Function sa mga centroid ng grupo" (Larawan 4.1.5). Ginagamit ang mga ito upang i-plot ang mga centroid sa isang perceptual na mapa (Figure 4.1.6).

1

kanin. 4.1.5. Mga pag-andar sa mga sentroid ng pangkat

kanin. 4.1.6. Mapa ng perception para sa dalawang discriminant function na D1(X) at D2(X) (* - group centroid)

Ang patlang ng "Mapa ng teritoryo" ay nahahati ng mga discriminant function sa apat na lugar: sa kaliwang bahagi mayroong pangunahing mga obserbasyon ng ika-apat na grupo ng mga borrower na may napakahirap na pagganap sa pananalapi, sa kanang bahagi - ang unang pangkat na may mahusay na pagganap sa pananalapi, sa gitna at ibabang bahagi - ang ikatlo at pangalawang grupo ng mga nanghihiram na may masama at mahusay na pagganap sa pananalapi, ayon sa pagkakabanggit.

kanin. 4.1.7. Scatterplot para sa lahat ng grupo

Sa fig. Ipinapakita ng 4.1.7 ang pinagsamang iskedyul para sa pamamahagi ng lahat ng grupo ng mga nanghihiram kasama ng kanilang mga centroid; maaari itong magamit upang magsagawa ng isang comparative visual analysis ng likas na katangian ng kamag-anak na posisyon ng mga grupo ng mga borrower sa bangko sa mga tuntunin ng mga tagapagpahiwatig ng pananalapi. Sa kanang bahagi ng graph ay ang mga borrower na may mataas na pagganap, sa kaliwa - na may mababa, at sa gitna - na may average na pagganap sa pananalapi. Dahil, ayon sa mga resulta ng pagkalkula, ang pangalawang discriminant function na D2(X) ay naging hindi gaanong mahalaga, ang mga pagkakaiba sa mga coordinate ng centroid sa kahabaan ng axis na ito ay hindi gaanong mahalaga.

Pagtatasa ng pagiging creditworthiness ng mga indibidwal sa isang komersyal na bangko

Ang departamento ng kredito ng isang komersyal na bangko ay nagsagawa ng isang sample na survey ng 30 sa mga kliyente nito (mga indibidwal). Batay sa isang paunang pagsusuri ng data, ang mga nanghihiram ay nasuri ayon sa anim na tagapagpahiwatig (Talahanayan 4.2.1):

X1 - nangutang ang nanghihiram komersyal na mga bangko dati;

Ang X2 ay ang average na buwanang kita ng pamilya ng nanghihiram, libong rubles;

X3 - termino (panahon) ng pagbabayad ng utang, taon;

X4 - ang halaga ng utang na ibinigay, libong rubles;

X5 - komposisyon ng pamilya ng nanghihiram, mga tao;

X6 - edad ng nanghihiram, taon.

Kasabay nito, tatlong grupo ng mga nanghihiram ang nakilala ayon sa posibilidad ng pagbabayad ng utang:

§ Pangkat 1 - na may mababang posibilidad ng pagbabayad ng utang;

§ Pangkat 2 - na may average na posibilidad ng pagbabayad ng utang;

§ Pangkat 3 - na may mataas na posibilidad ng pagbabayad ng utang.

Kailangan:

Batay sa discriminant analysis gamit ang SPSS package, kinakailangang pag-uri-uriin ang tatlong customer ng bangko (ayon sa posibilidad ng pagbabayad ng utang), i.e. suriin kung ang bawat isa sa kanila ay kabilang sa isa sa tatlong pangkat. Batay sa mga resulta ng pagkalkula, bumuo ng mga makabuluhang discriminant function, suriin ang kanilang kahalagahan sa pamamagitan ng Wilks coefficient (λ). Sa espasyo ng dalawang discriminant function para sa bawat grupo, bumuo ng mga diagram ng mutual arrangement ng mga obserbasyon at isang pinagsamang diagram. Tayahin ang lokasyon ng bawat nanghihiram sa mga chart na ito. Magsagawa ng interpretasyon ng mga resulta ng pagsusuri.

Talahanayan 4.2.1. Paunang data

Pag-unlad:

Upang bumuo ng isang discriminant analysis, pipiliin namin ang posibilidad ng napapanahong pagbabayad ng isang loan ng isang kliyente bilang isang dependent variable. Dahil maaari itong mababa, katamtaman at mataas, ang bawat kategorya ay bibigyan ng katumbas na marka na 1,2 at 3.

Mga hindi normal na canonical coefficient ng mga discriminant function na ipinapakita sa Fig. 4.2.1 ay ginagamit upang bumuo ng equation ng mga discriminant function na D1(X), D2(X):

2.) D2(X) =

kanin. 4.2.1. Coefficients ng canonical discriminant function

kanin. 4.2.2. Lambda Wilks

Ayon sa Wilks coefficient (Fig. 4.2.2) para sa pangalawang function, ang kahalagahan ay higit sa 0.001, samakatuwid, hindi ipinapayong gamitin ito para sa diskriminasyon.

Ang data ng talahanayan na "Mga resulta ng pag-uuri" (Larawan 4.2.3) ay nagpapahiwatig na para sa 93.3% ng mga obserbasyon ang pag-uuri ay natupad nang tama, ang mataas na katumpakan ay nakamit sa una at pangalawang grupo (100% at 91.7%), hindi gaanong tumpak ang mga resulta ay nakuha sa ikatlong pangkat (88.9%).

kanin. 4.2.3. Mga resulta ng pag-uuri

Ang impormasyon tungkol sa aktwal at hinulaang mga grupo para sa bawat kliyente ay ibinibigay sa talahanayan na "Mga istatistika ng punto" (Larawan 4.2.4).

Bilang resulta ng discriminant analysis, natukoy na may mataas na posibilidad na ang mga bagong kliyente ng bangko ay kabilang sa training subset M3 - ang una, pangalawa at pangatlong kliyente (mga serial number 31, 32, 33) ay itinalaga sa M3 subset na may ang kaukulang probabilidad ng 99%, 99% at 100%.

Numero ng pagmamasid

Aktwal na Grupo

Malamang na Grupo

Hinulaang pangkat

ungrouped

ungrouped

ungrouped

kanin. 4.2.4. Mga istatistika ng punto

Ang posibilidad ng pagbabayad ng utang

kanin. 4.2.5. Mga pag-andar sa mga sentroid ng pangkat

Ang mga coordinate ng mga centroid ayon sa mga grupo ay ibinibigay sa talahanayan na "Mga Pag-andar sa mga centroid ng grupo" (Larawan 4.2.5). Ginagamit ang mga ito upang i-plot ang mga centroid sa isang perceptual na mapa (Figure 4.2.6).

Ang patlang na "Mapa ng teritoryo" ay nahahati ng mga discriminant function sa tatlong lugar: sa kaliwang bahagi mayroong pangunahing mga obserbasyon ng unang grupo ng mga customer na may napakababang posibilidad na mabayaran ang utang, sa kanang bahagi - ang ikatlong pangkat na may mataas na posibilidad , sa gitna - ang pangalawang pangkat ng mga customer na may average na posibilidad na mabayaran ang utang, ayon sa pagkakabanggit. .

Sa fig. 4.2.7 (a - c) ay sumasalamin sa lokasyon ng mga kliyente ng bawat isa sa tatlong grupo sa eroplano ng dalawang discriminant function na D1(X) at D2(X). Batay sa mga graph na ito, posible na magsagawa ng isang detalyadong pagsusuri ng posibilidad ng pagbabayad ng utang sa loob ng bawat grupo, upang hatulan ang likas na katangian ng pamamahagi ng mga customer at upang masuri ang antas ng kanilang pagkalayo mula sa kaukulang centroid.

kanin. 4.2.6. Mapa ng perception para sa tatlong discriminant function na D1(X) at D2(X) (* - group centroid)

Gayundin sa fig. 4.2.7 (d) sa parehong sistema ng coordinate, ang pinagsamang graph ng distribusyon ng lahat ng pangkat ng customer ay ipinapakita kasama ng kanilang mga centroid; maaari itong magamit upang magsagawa ng isang paghahambing na visual na pagsusuri ng likas na katangian ng kamag-anak na posisyon ng mga grupo ng mga customer sa bangko na may iba't ibang posibilidad ng pagbabayad ng utang. Sa kaliwang bahagi ng graph ay ang mga borrower na may mataas na posibilidad na mabayaran ang utang, sa kanan - na may mababang posibilidad, at sa gitnang bahagi - na may average na posibilidad. Dahil, ayon sa mga resulta ng pagkalkula, ang pangalawang discriminant function na D2(X) ay naging hindi gaanong mahalaga, ang mga pagkakaiba sa mga coordinate ng centroid sa kahabaan ng axis na ito ay hindi gaanong mahalaga.

kanin. 4.2.7. Lokasyon ng mga obserbasyon sa eroplano ng dalawang discriminant function para sa mga grupong may mababang (a), medium (b), mataas (c) na posibilidad ng pagbabayad ng utang at para sa lahat ng grupo (d)

Bibliograpiya

1. “Multivariate statistical analysis in economic problems. Pagmomodelo ng computer sa SPSS", 2009

2. Orlov A.I. "Applied statistics" M .: Publishing house "Exam", 2004

3. Fisher R.A. "Mga Paraan ng Istatistika para sa mga Mananaliksik", 1954

4. Kalinina V.N., Soloviev V.I. "Introduction to Multivariate Statistical Analysis" Textbook SUM, 2003;

5. Achim Buyul, Peter Zöfel, SPSS: The Art of Information Processing, DiaSoft Publishing, 2005;

6. http://ru.wikipedia.org/wiki