Vícerozměrná statistická analýza Speciální aplikovaná ekonomie. Vícerozměrná statistická analýza

Příklad

Existují údaje o produkci produktů skupiny podniků podle měsíců (v milionech rublů):

Abychom identifikovali obecný trend růstu produkce, intervaly zvětšíme. Za tímto účelem spojujeme výchozí (měsíční) údaje o výkonu produkce do čtvrtletních údajů a získáváme ukazatele výkonu za skupinu podniků podle čtvrtletí:

V důsledku rozšíření intervalů je obecný trend růstu produkce této skupiny podniků zřetelný:

64,5 < 76,9 < 78,8 < 85,9.

Identifikaci obecného trendu časové řady lze také provést pomocí vyhlazování časové řady metoda klouzavého průměru. Podstatou této techniky je, že vypočítané (teoretické) úrovně jsou určeny z počátečních úrovní řady (empirických dat). V tomto případě zprůměrováním empirických dat dochází k uhašení jednotlivých výkyvů a obecný trend ve vývoji jevu je vyjádřen v podobě určité hladké linie (teoretické úrovně).

Hlavní podmínkou pro aplikaci této metody je výpočet klouzavých (klouzavých) průměrných vazeb z takového počtu úrovní řady, který odpovídá délce trvání dynamiky cyklu pozorované v řadě.

Nevýhodou metody vyhlazování řad dynamiky je, že získané průměry nedávají teoretické zákonitosti (modely) řad, které by vycházely z matematicky vyjádřené pravidelnosti a to by umožnilo nejen provést rozbor, ale i předpovídat dynamiku série pro budoucnost.

Mnohem pokročilejší technika pro studium obecného trendu v časových řadách je analytické zarovnání. Při studiu obecného trendu metodou analytického zarovnání se předpokládá, že změny v úrovních řady dynamiky lze zprůměrovat pomocí určitých matematických funkcí s různým stupněm přesnosti aproximace. způsob teoretický rozbor odhalí se povaha vývoje jevu a na tomto základě se vybere ten či onen matematický výraz, jako je změna jevu: podél přímky, podél paraboly druhého řádu, exponenciální (logaritmická) křivka atd. .

Je zřejmé, že úrovně časových řad se tvoří pod kombinovaným vlivem mnoha dlouhodobých a krátkodobých faktorů, vč. různé druhy nehod. Změna podmínek pro rozvoj jevu vede k více či méně intenzivní změně faktorů samotných, ke změně síly a účinnosti jejich působení a v konečném důsledku ke změně úrovně jevu pod studovat v průběhu času.



Vícerozměrná statistická analýza- oddíl matematické statistiky, věnovaný matematickým metodám zaměřeným na identifikaci povahy a struktury vztahů mezi složkami studovaného vícerozměrného atributu a určený k získání vědeckých a praktických závěrů. Počáteční pole vícerozměrných dat pro takovou analýzu jsou obvykle výsledky měření složek vícerozměrného atributu pro každý z objektů studované populace, tzn. sled mnohorozměrných pozorování. Vícerozměrná funkce nejčastěji interpretován jako vícerozměrná náhodná proměnná a sekvence vícerozměrných pozorování jako vzorek z obecné populace. V tomto případě se výběr způsobu zpracování výchozích statistických údajů provádí na základě určitých předpokladů týkajících se povahy distribuční zákon studovaný multidimenzionální rys.

1. Analýza vícerozměrných rozdělení a jejich hlavních charakteristik pokrývá situace, kdy zpracovávaná pozorování mají pravděpodobnostní charakter, tzn. interpretovány jako vzorek z odpovídající obecné populace. Mezi hlavní úkoly této podsekce patří: statistický odhad studovaných vícerozměrných rozdělení a jejich hlavních parametrů; studium vlastností použitých statistických odhadů; studium rozdělení pravděpodobnosti pro řadu statistik, které se používají k sestavení statistických kritérií pro testování různých hypotéz o pravděpodobnostní povaze analyzovaných vícerozměrných dat.
2. Analýza povahy a struktury vztahů mezi složkami studovaného vícerozměrného znaku kombinuje koncepty a výsledky, které jsou vlastní takovým metodám a modelům, jako je regresní analýza, disperzní analýza, kovarianční analýza, faktorová analýza, latentně-strukturální analýza, log-lineární analýza, hledání interakcí . Metody patřící do této skupiny zahrnují jak algoritmy založené na předpokladu pravděpodobnostní povahy dat, tak metody, které nezapadají do rámce žádného pravděpodobnostního modelu (druhé jsou často označovány jako metody analýzy dat).

3. Analýza geometrické struktury studovaného souboru vícerozměrných pozorování kombinuje koncepty a výsledky vlastní takovým modelům a metodám, jako je např. diskriminační analýza, shluková analýza, vícerozměrné škálování. Nodální pro tyto modely je pojem vzdálenosti nebo míra blízkosti mezi analyzovanými prvky jako body nějakého prostoru. V tomto případě lze analyzovat jak objekty (jako body určené v prostoru prvků), tak prvky (jako body určené v prostoru objektů).

Použitá hodnota vícerozměrné statistické analýzy spočívá především v řešení následujících tří problémů:

Problémy statistického výzkumu závislostí mezi uvažovanými ukazateli;

Problémy klasifikace prvků (předmětů nebo znaků);

Problémy zmenšení dimenze uvažovaného prostoru prvků a výběr nejinformativnějších prvků.

Jsou nastíněny základní pojmy a metody statistické analýzy. multidimenzionální Výsledek technický experimenty. <...>Teoretické informace o vlastnosti multidimenzionální Gaussův distribuce. <...>Výsledkem experimentu uvažovaného v návodu je náhodný vektor distribuovány podle běžného zákona.<...>Multidimenzionální normální hustota Často je výsledkem experimentu celekčísla charakterizující nějaký zkoumaný objekt.<...>4 f x  Zapište jako ξ  ~ ( ND,)μ  má p-rozměrný normální rozdělení. znamená, že vektorξ , ξ) bere různé významy, takže je rozumné o tom mluvit náhodný vektor 12 komponent vektor,ξ  složka,ξ  tj. EDE E   ξ= E E ξ ξ  = μ = ξ − μ ξ − μ ()()  ξp kde E je znaménko matematické očekávání. <...>Nechť η je p pp   řešeními μ= ν +B ;.   bD BD Bη ξ = ′ , (1.3) Matice D z (1.2) je symetrické, pozitivně definitní, proto je jeho zobrazení D CC′=Λ, kde C je ortogonální matice, složen z vlastní vektory matrice;D Λ – úhlopříčka matice S vlastní číslaλ>i 0 matrice D podél hlavní diagonály.<...> Kloub hustota jeho složka,1,η=i ip, určená z obecné pravidla(viz příloha) se rovná 5 (1.4) ; lineární proměna,η  kde B je čtvercová matice rozměrů  je náhodný vektor, variací,.<...>Odhad parametrů normálního rozdělení ND . <...>Hlavním úkolem primární μ=i n  matice kovariance . <...>A ln ∂ = (1,5) předpisy diferenciace funkcionály s ohledem na vektorové nebo maticové argumenty (viz<...>Pak σ = ξ −ξ ξ − ξ = ξ ξ −ξ ξ∑∑ ij nn ki i kj j kk Zde kiξ je i-té komponent vektor průměr iμ i-tý Komponenty vektor . <...> Hodnocení maximum důvěryhodnost koeficienty j / ρ=σ σ σ mají tvar ij ,. ij ii jj ri j σ σσ  ≠ ii jj Důkaz.<...>Odhad závislosti mezi komponentami normální vektor Podrobná analýza odkazů<...>

MU_to_performing_course_work_"Multivariantní_statistická_analýza".pdf

Recenzent UDC 519.2 LBC 22.172 K27 V.Yu. Chuev Kartashov G.D., Timonin V.I., Budovskaya L.M. K27 Vícerozměrná statistická analýza: Pokyny pro implementaci práce v kurzu. - M .: Vydavatelství MSTU im. N.E. Bauman, 2007. - 48 s.: nemocný. Jsou nastíněny základní pojmy a metody statistické analýzy vícerozměrných výsledků technických experimentů. Jsou uvedeny teoretické informace o vlastnostech vícerozměrných Gaussových rozdělení. Pro studenty vyšších ročníků Fakulty základních věd. Il. 2. Bibliografie. 5 jmen UDC 519.2 LBC 22.172 © MSTU im. N.E. Bauman, 2007

strana 2

OBSAH Úvod ................................................................. ...................................................................... ................... ..... 3 1. Vícerozměrné normální rozdělení .................... ........................... 4 2. Statistické závěry o vektoru průměrů ................... ...................... 17 3. Diskriminační analýza .. ...................... ............................ .............. 23 4. Metoda hlavní složky .. ............................................................ ............ 27 5. Kanonické korelace .................. ............... ................................... 30 6. Vícerozměrná regresní analýza .......... .................................... .. 35 7. Faktorová analýza ....... ...................................................................... ...................... 40 Dodatek ...................... ...................................................... ...................................... 44 Reference ....... ...................................................................... ...................................... 46 47

Zavedení PC do řízení národního hospodářství znamená přechod od tradičních metod analýzy činnosti podniků k pokročilejším modelům ekonomického řízení, které umožňují odhalit jeho hluboké procesy.

Široké využití metod matematické statistiky v ekonomickém výzkumu umožňuje prohloubit ekonomickou analýzu, zlepšit kvalitu informací při plánování a prognózování produkčních ukazatelů a analyzování její účinnosti.

Složitost a rozmanitost vztahů mezi ekonomickými ukazateli určují mnohorozměrnost znaků, a proto vyžadují použití nejsložitějšího matematického aparátu – metod vícerozměrné statistické analýzy.

Koncept "multivariantní statistické analýzy" zahrnuje kombinaci řady metod navržených k prozkoumání kombinace vzájemně souvisejících vlastností. Hovoříme o rozčlenění (rozdělení) uvažovaného souboru, který je reprezentován vícerozměrnými znaky na relativně malý počet z nich.

Přechod z velkého počtu znaků na menší má zároveň za cíl snížit jejich rozměr a zvýšit vypovídací schopnost. Tohoto cíle je dosaženo identifikací informací, které se opakují, generované vzájemně souvisejícími znaky, čímž je stanovena možnost agregace (kombinování, sčítání) podle některých znaků. Ten zahrnuje transformaci skutečného modelu na model s menším počtem faktorů.

Metoda vícerozměrné statistické analýzy umožňuje identifikovat objektivně existující, nikoli však explicitně vyjádřené vzorce, které se projevují v určitých socioekonomických jevech. Člověk tomu musí čelit při řešení řady praktických problémů v oblasti ekonomiky. K výše uvedenému dochází zejména tehdy, je-li nutné akumulovat (fixovat) současně hodnoty několika kvantitativních charakteristik (znaků) pro studovaný objekt pozorování, kdy každá charakteristika je náchylná k nekontrolovanému kolísání (v kontextu objektů ), navzdory homogenitě objektů pozorování.

Například při zkoumání homogenních (z hlediska přírodních a ekonomických podmínek a typu specializace) podniků z hlediska řady ukazatelů efektivnosti výroby jsme přesvědčeni, že při přechodu z jednoho objektu do druhého téměř každá z vybraných charakteristik ( identický) má nestejnou číselnou hodnotu, to znamená, že najde takříkajíc neřízený (náhodný) rozptyl. Taková „náhodná“ variace vlastností má tendenci sledovat některé (pravidelné) tendence, a to jak z hlediska dobře definovaných dimenzí vlastností, kolem kterých se variace vyskytuje, tak z hlediska míry a vzájemné závislosti variace samotné.

Výše uvedené vede k definici vícerozměrné náhodné veličiny jako souboru kvantitativních znaků, z nichž hodnota každého podléhá nekontrolovanému rozptylu během opakování tohoto procesu, statistického pozorování, zkušenosti, experimentu atd.

Dříve bylo řečeno, že multivariační analýza kombinuje řadu metod; říkejme jim: faktorová analýza, analýza hlavních komponent, shluková analýza, rozpoznávání vzorů, diskriminační analýza atd. První tři z těchto metod jsou popsány v následujících odstavcích.

Stejně jako jiné matematické a statistické metody může být i vícerozměrná analýza efektivní při její aplikaci za předpokladu, že počáteční informace jsou vysoké kvality a pozorovaná data jsou masivní a jsou zpracována pomocí PC.

Základní pojmy metody faktorové analýzy, podstata úloh, které řeší

Při analýze (a stejně studovaných) socioekonomických jevů se často setkáváme s případy, kdy je z rozmanitosti (bohaté parametričnosti) objektů pozorování nutné vyloučit část parametrů nebo je nahradit menším počtem určitých funkcí. aniž by byla narušena integrita (úplnost) informací . Řešení takového problému má smysl v rámci určitého modelu a je dáno jeho strukturou. Příkladem takového modelu, který je nejvhodnější pro mnoho reálných situací, je model faktorová analýza, jehož metody umožňují koncentrovat vlastnosti (informace o nich) „zhuštěním“ velkého množství do menší, prostornější informace. V tomto případě by měl být získaný „kondenzát“ informací reprezentován nejvýznamnějšími a určujícími kvantitativními charakteristikami.

Pojem „faktoriální analýza“ by neměl být zaměňován s širokým pojmem analýzy vztahů příčiny a následku, kdy je studován vliv různých faktorů (jejich kombinace, kombinace) na produktivní atribut.

Podstatou metody faktorové analýzy je vyloučit popis více charakteristik studovaného a nahradit jej menším počtem informačně objemnějších proměnných, které se nazývají faktory a odrážejí nejvýznamnější vlastnosti jevů. Takové proměnné jsou některé funkce původních funkcí.

Analýza, slovy Ya.Okuna, 9 umožňuje získat první přibližné charakteristiky zákonitostí, které jsou základem jevu, formulovat první, obecné závěry o směrech, kterými by se měl další výzkum ubírat. Dále poukazuje na hlavní předpoklad faktorové analýzy, který spočívá v tom, že jev lze i přes svou heterogenitu a variabilitu popsat malým počtem funkčních jednotek, parametrů nebo faktorů. Tyto pojmy se nazývají různě: vliv, příčiny, parametry, funkční jednotky, schopnosti, hlavní nebo nezávislé ukazatele. Použití jednoho nebo druhého výrazu podléhá

Okun Ya Faktorová analýza: Per. S. podlaha. M.: Statistika, 1974.- S.16.

kontextu o faktoru a znalosti podstaty zkoumaného jevu.

Fáze faktorové analýzy jsou sekvenční porovnávání různých souborů faktorů a možností skupinám s jejich zahrnutím, vyloučením a posouzením významnosti rozdílů mezi skupinami.

V.M. Zhukovska a I.B. Muchnik 10, když mluví o podstatě úloh faktorové analýzy, tvrdí, že faktorová analýza nevyžaduje apriorní dělení proměnných na závislé a nezávislé, protože všechny proměnné v ní jsou považovány za stejné.

Úkol faktorové analýzy je redukován na určitý pojem, počet a povahu nejvýznamnějších a relativně nezávislých funkčních charakteristik jevu, jeho měřiče nebo základní parametry - faktory. Podle autorů je to důležité charakteristický rys faktorová analýza spočívá v tom, že umožňuje simultánně zkoumat velké množství vzájemně souvisejících proměnných bez předpokladu „stálosti všech ostatních podmínek“, což je nezbytné při použití řady dalších metod analýzy. To je velká výhoda faktorové analýzy jako cenného nástroje pro studium jevu, vzhledem ke složité rozmanitosti a prolínání vztahů.

Analýza se opírá především o pozorování přirozené variace proměnných.

1. Při použití faktorové analýzy není množina proměnných, které jsou studovány z hlediska vztahů mezi nimi, vybírána libovolně: tato metoda umožňuje identifikovat hlavní faktory, které mají na tuto oblast významný vliv.

2. Analýza nevyžaduje předběžné hypotézy, naopak může sama sloužit jako metoda pro předkládání hypotéz a také jako kritérium pro hypotézy založené na datech získaných jinými metodami.

3. Analýza nevyžaduje apriorní odhady, které proměnné jsou nezávislé a závislé, nepřehání kauzální vztahy a řeší otázku jejich rozsahu v procesu dalšího výzkumu.

Seznam konkrétních úloh k řešení pomocí metod faktorové analýzy bude následující (podle V.M. Zhukovského). Jmenujme ty hlavní v oblasti socioekonomického výzkumu:

Zhukovskaya V.M., Muchnik I.B. Faktorová analýza v socioekonomickém výzkumu. - Statistika, 1976. S.4.

1. Určení hlavních aspektů rozdílů mezi objekty pozorování (minimalizace popisu).

2. Formulace hypotéz o povaze rozdílů mezi objekty.

3. Identifikace struktury vztahů mezi znaky.

4. Testování hypotéz o vztahu a zaměnitelnosti znaků.

5. Porovnání struktur množin prvků.

6. Rozdělení objektů pozorování pro typické znaky.

Výše uvedené ukazuje na velké možnosti faktorové analýzy v

studium sociálních jevů, kde zpravidla nelze (experimentálně) kontrolovat vliv jednotlivých faktorů.

Je poměrně efektivní použít výsledky faktorové analýzy ve více regresních modelech.

Máme-li předem vytvořený korelační-regresní model studovaného jevu ve formě korelovaných znaků, lze pomocí faktorové analýzy takový soubor znaků agregací proměnit na podstatně menší počet z nich. Zároveň je třeba poznamenat, že taková transformace nijak nesnižuje kvalitu a úplnost informací o zkoumaném jevu. Vygenerované agregované rysy jsou nekorelované a představují lineární kombinaci primárních prvků. Z formální matematické stránky může mít zadání problému v tomto případě nekonečnou množinu řešení. Musíme si však pamatovat, že při studiu socioekonomických jevů musí mít získané agregované znaky ekonomicky odůvodněnou interpretaci. Jinými slovy, v každém případě použití matematického aparátu vycházejí především ze znalostí ekonomická podstata studované jevy.

Výše uvedené nám tedy umožňuje shrnout, že faktorová analýza je specifickou výzkumnou metodou, která se provádí na základě arzenálu metod matematické statistiky.

Faktorová analýza poprvé našla své praktické uplatnění v oblasti psychologie. Schopnost dát dohromady velké množství psychologické testy k malému počtu faktorů umožnilo vysvětlit schopnost lidské inteligence.

Při studiu socioekonomických jevů, kde je obtížné izolovat vliv jednotlivých proměnných, lze s úspěchem použít faktorovou analýzu. Použití jeho metod umožňuje pomocí určitých výpočtů „filtrovat“ nepodstatné rysy a pokračovat ve výzkumu směrem k jeho prohlubování.

Efektivita této metody je zřejmá při studiu takových otázek (problémů): v ekonomice - specializace a koncentrace výroby, náročnost péče o domácnost, rozpočet rodin pracovníků, konstrukce různých zobecňujících ukazatelů. atd

Sociální a ekonomické objekty se zpravidla vyznačují poměrně velkým počtem parametrů, které tvoří vícerozměrné vektory, a problémy studia vztahů mezi složkami těchto vektorů jsou v ekonomických a sociálních studiích zvláště důležité a tyto vztahy musí být identifikován na základě omezeného počtu vícerozměrných pozorování.

Vícerozměrná statistická analýza je část matematické statistiky, která studuje metody sběru a zpracování vícerozměrných statistických dat, jejich systematizaci a zpracování za účelem identifikace povahy a struktury vztahů mezi složkami studovaného vícerozměrného atributu a vyvození praktických závěrů.

Upozorňujeme, že metody sběru dat se mohou lišit. Takže pokud výzkum světové ekonomiky, pak je přirozené brát země jako objekty, na kterých jsou pozorovány hodnoty vektoru X, ale pokud národní ekonomický systém, pak je přirozené pozorovat hodnoty vektoru X ve stejné (pro výzkumníka zajímavé) zemi v různých časových okamžicích.

Statistické metody jako vícenásobná korelace a regresní analýza jsou tradičně studovány v kurzech teorie pravděpodobnosti a matematické statistiky, disciplína "Ekonometrie" je věnována zvažování aplikovaných aspektů regresní analýzy.

Tato příručka je věnována dalším metodám studia vícerozměrných obecných populací na základě statistických údajů.

Metody zmenšování dimenze vícerozměrného prostoru umožňují bez výrazných ztrát informací přejít z původního systému velkého počtu pozorovaných vzájemně souvisejících faktorů do systému výrazně menšího počtu skrytých (nepozorovatelných) faktorů, které určují variaci počáteční vlastnosti. První kapitola popisuje metody komponentní a faktorové analýzy, které lze použít k identifikaci objektivně existujících, ale ne přímo pozorovatelných vzorců pomocí hlavních komponent nebo faktorů.

Vícerozměrné klasifikační metody jsou navrženy tak, aby rozdělovaly kolekce objektů (charakterizované velkým počtem znaků) do tříd, z nichž každá by měla zahrnovat objekty, které jsou v určitém smyslu homogenní nebo podobné. Takovou klasifikaci založenou na statistických údajích o hodnotách znaků na objektech lze provést pomocí metod shlukové a diskriminační analýzy, o kterých pojednává druhá kapitola (Vícerozměrná statistická analýza pomocí „STATISTICA“).

Rozvoj výpočetní techniky a softwaru přispívá k širokému zavádění metod vícerozměrné statistické analýzy do praxe. Aplikační balíčky s pohodlným uživatelským rozhraním, jako je SPSS, Statistica, SAS atd., odstraňují obtíže při aplikaci těchto metod, kterými jsou složitost matematického aparátu založeného na lineární algebře, teorii pravděpodobnosti a matematické statistice a těžkopádnost výpočty.

Používání programů bez pochopení matematické podstaty použitých algoritmů však přispívá k rozvoji iluze výzkumníka o jednoduchosti použití vícerozměrných statistických metod, což může vést k nesprávným nebo nepřiměřeným výsledkům. Významných praktických výsledků lze dosáhnout pouze na základě odborných znalostí v dané oblasti, podpořených znalostí matematických metod a aplikačních balíčků, ve kterých jsou tyto metody implementovány.

Proto jsou pro každou z metod zvažovaných v této knize uvedeny základní teoretické informace, včetně algoritmů; je diskutována implementace těchto metod a algoritmů v balíčcích aplikací. Uvažované metody jsou ilustrovány jejich příklady praktická aplikace v ekonomii pomocí balíku SPSS.

Manuál je napsán na základě zkušeností z četby kurzu "Multivariantní statistické metody" studentům Státní univerzitařízení. Pro podrobnější studium metod aplikované vícerozměrné statistické analýzy jsou doporučeny knihy.

Předpokládá se, že čtenář dobře zná kurzy lineární algebry (např. ve svazku učebnice a v příloze učebnice), teorie pravděpodobnosti a matematické statistiky (např. ve svazku učebnice).

Úvod

Kapitola 1 Vícenásobná regresní analýza

Kapitola 2. Shluková analýza

Kapitola 3. Faktorová analýza

Kapitola 4. Diskriminační analýza

Bibliografie

Úvod

Výchozí informace v socioekonomických studiích jsou nejčastěji prezentovány jako soubor objektů, z nichž každý je charakterizován řadou znaků (indikátorů). Vzhledem k tomu, že počet takových objektů a prvků může dosáhnout desítek a stovek a vizuální analýza těchto dat je neúčinná, problémy s redukcí, koncentrací počátečních dat, odhalením struktury a vztahu mezi nimi na základě konstrukce zobecněných charakteristik vzniká množina vlastností a množina objektů. Takové problémy lze řešit metodami vícerozměrné statistické analýzy.

Vícerozměrná statistická analýza je oddíl statistiky věnovaný matematickým metodám zaměřeným na identifikaci povahy a struktury vztahů mezi složkami výzkumu a určený k získání vědeckých a praktických závěrů.

Hlavní pozornost ve vícerozměrné statistické analýze je věnována matematickým metodám pro konstrukci optimálních plánů sběru, systematizace a zpracování dat, zaměřených na identifikaci povahy a struktury vztahů mezi složkami studovaného vícerozměrného atributu a navržených k získání vědeckých a praktických závěrů.

Počáteční pole vícerozměrných dat pro provádění vícerozměrné analýzy jsou obvykle výsledky měření složek vícerozměrného atributu pro každý z objektů studované populace, tj. sled mnohorozměrných pozorování. Vícerozměrný atribut je nejčastěji interpretován jako a sled pozorování jako vzorek z obecné populace. V tomto případě se volba způsobu zpracování výchozích statistických dat provádí na základě určitých předpokladů týkajících se povahy distribučního zákona studovaného vícerozměrného atributu.

1. Vícerozměrná statistická analýza vícerozměrných rozdělení a jejich hlavních charakteristik pokrývá situace, kdy zpracovaná pozorování mají pravděpodobnostní charakter, tzn. interpretovány jako vzorek z odpovídající obecné populace. Mezi hlavní úkoly této podsekce patří: statistický odhad studovaných vícerozměrných rozdělení a jejich hlavních parametrů; studium vlastností použitých statistických odhadů; studium rozdělení pravděpodobnosti pro řadu statistik, které se používají k sestavení statistických kritérií pro testování různých hypotéz o pravděpodobnostní povaze analyzovaných vícerozměrných dat.

2. Vícerozměrná statistická analýza povahy a struktury vzájemných vztahů složek studovaného vícerozměrného atributu kombinuje pojmy a výsledky, které jsou vlastní takovým metodám a modelům, jako je analýza, analýza rozptylu, analýza kovariance, faktorová analýza atd. Mezi metody patřící do této skupiny patří jak algoritmy založené na předpokladu pravděpodobnostní povahy dat, tak metody, které nezapadají do rámce žádného pravděpodobnostního modelu (druhé jsou často označovány jako metody).

3. Vícerozměrná statistická analýza geometrické struktury studovaného souboru vícerozměrných pozorování kombinuje pojmy a výsledky, které jsou vlastní modelům a metodám, jako je diskriminační analýza, shluková analýza, vícerozměrné škálování. Nodální pro tyto modely je pojem vzdálenosti nebo míra blízkosti mezi analyzovanými prvky jako body nějakého prostoru. V tomto případě lze analyzovat jak objekty (jako body určené v prostoru prvků), tak prvky (jako body určené v prostoru objektů).

Použitá hodnota vícerozměrné statistické analýzy spočívá především v řešení následujících tří problémů:

úkol statistického studia závislostí mezi uvažovanými ukazateli;

úkol klasifikovat prvky (předměty nebo rysy);

· úkol zmenšit rozměr uvažovaného prostoru prvků a vybrat ty nejinformativnější prvky.

Vícenásobná regresní analýza je navržena tak, aby vytvořila model, který umožňuje hodnotám nezávislých proměnných získat odhady hodnot závislé proměnné.

Logistická regrese pro řešení klasifikačního problému. Jedná se o typ vícenásobné regrese, jejímž účelem je analyzovat vztah mezi několika nezávislými proměnnými a závislou proměnnou.

Faktorová analýza se zabývá stanovením relativně malého počtu skrytých (latentních) faktorů, jejichž variabilita vysvětluje variabilitu všech sledovaných ukazatelů. Faktorová analýza je zaměřena na zmenšení rozměru uvažovaného problému.

Clusterová a diskriminační analýza jsou navrženy tak, aby rozdělily kolekce objektů do tříd, z nichž každá by měla obsahovat objekty, které jsou v určitém smyslu homogenní nebo blízké. Při shlukové analýze není předem známo, kolik skupin objektů vznikne a jakou budou mít velikost. Diskriminační analýza rozděluje objekty do již existujících tříd.

Kapitola 1 Vícenásobná regresní analýza

Zadání: Průzkum trhu s byty v Orlu (sovětské a severní regiony).

Tabulka ukazuje údaje o ceně bytů v Orel a o různých faktorech, které ji určují:

· celková plocha;

Prostor kuchyně

· obytný prostor;

typ domu

počet pokojů. (Obr. 1)

Rýže. 1 Počáteční údaje

Ve sloupci "Region" se používají označení:

3 - sovětská (elita, patří do centrálních oblastí);

4 - Sever.

Ve sloupci "Typ domu":

1 - cihla;

0 - panel.

Požadované:

1. Analyzujte vztah všech faktorů s ukazatelem "Cena" a mezi sebou navzájem. Vyberte faktory nejvhodnější pro sestavení regresního modelu;

2. Vytvořte fiktivní proměnnou, která odráží příslušnost bytu k centrální a okrajové části města;

3. Sestavte lineární regresní model pro všechny faktory, včetně fiktivní proměnné. Vysvětlete ekonomický význam parametrů rovnice. Vyhodnotit kvalitu modelu, statistickou významnost rovnice a její parametry;

4. Rozdělte faktory (kromě fiktivní proměnné) podle míry vlivu na ukazatel „Cena“;

5. Sestavte lineární regresní model pro nejvlivnější faktory, přičemž v rovnici ponechejte fiktivní proměnnou. Vyhodnotit kvalitu a statistickou významnost rovnice a jejích parametrů;

6. Zdůvodněte účelnost nebo neúčelnost zahrnutí fiktivní proměnné do rovnice v odstavcích 3 a 5;

7. Odhadněte intervalové odhady parametrů rovnice s pravděpodobností 95 %;

8. Určete, kolik bude stát byt o celkové ploše 74,5 m² v elitní (okrajové) oblasti.

Výkon:

1. Po analýze vztahu všech faktorů s indikátorem „Price“ a mezi sebou navzájem byly pomocí metody inkluze „Forward“ vybrány faktory nejvhodnější pro sestavení regresního modelu:

A) celková plocha;

C) počet pokojů.

Zahrnuté/vyloučené proměnné(a)

a Závislá proměnná: Cena

2. Proměnná X4 "Region" je fiktivní proměnná, protože má 2 hodnoty: 3-patřící do centrální oblasti "sovětské", 4- k periferní oblasti "Severny".

3. Vytvořme lineární regresní model pro všechny faktory (včetně fiktivní proměnné X4).

Přijatý model:

Hodnocení kvality modelu.

Standardní chyba = 126,477

Durbin-Watsonův poměr = 2,136

Kontrola významnosti regresní rovnice

Hodnota testu F-Fisher = 41,687

4. Vytvořme lineární regresní model se všemi faktory (kromě fiktivní proměnné X4)

Podle míry vlivu na ukazatel „Cena“ byly rozděleny:

Nejvýznamnějším faktorem je celková plocha (F= 40,806)

Druhým nejdůležitějším faktorem je počet pokojů (F= 29,313)

5. Zahrnuté/vyloučené proměnné

a Závislá proměnná: Cena

6. Sestavme lineární regresní model pro nejvlivnější faktory s fiktivní proměnnou, v našem případě je to jeden z vlivných faktorů.

Přijatý model:

Y \u003d 348,349 + 35,788 X1 -217,075 X4 +305,687 X7

Hodnocení kvality modelu.

Koeficient determinace R2 = 0,807

Ukazuje podíl variace výsledného znaku pod vlivem studovaných faktorů. V důsledku toho je zohledněno asi 89 % variace závislé proměnné a to díky vlivu faktorů zahrnutých v modelu.

Vícenásobný korelační koeficient R = 0,898

Ukazuje blízkost vztahu mezi závisle proměnnou Y se všemi vysvětlujícími faktory zahrnutými v modelu.

Standardní chyba = 126,477

Durbin-Watsonův poměr = 2,136

Kontrola významnosti regresní rovnice

Hodnota testu F-Fisher = 41,687

Regresní rovnice by měla být uznána jako adekvátní, model je považován za významný.

Nejvýznamnějším faktorem je počet pokojů (F=41 687)

Druhým nejdůležitějším faktorem je celková plocha (F= 40,806)

Třetím nejdůležitějším faktorem je region (F= 32,288)

7. Falešná proměnná X4 je významným faktorem, proto je vhodné ji zahrnout do rovnice.

Intervalové odhady parametrů rovnice ukazují výsledky prognózy pomocí regresního modelu.

S pravděpodobností 95% bude objem prodeje v předpovídaném měsíci od 540,765 do 1080,147 milionů rublů.

8. Stanovení ceny bytu v elitní oblasti

Pro 1 pokoj U \u003d 348,349 + 35,788 * 74, 5 - 217,075 * 3 + 305,687 * 1

Pro 2 pokoje U \u003d 348,349 + 35,788 * 74, 5 - 217,075 * 3 + 305,687 * 2

Pro 3 pokoje U \u003d 348,349 + 35,788 * 74, 5 - 217,075 * 3 + 305,687 * 3

v periferii

Pro 1 pokoj U \u003d 348,349 + 35,788 * 74, 5 - 217,075 * 4 + 305,687 * 1

Pro 2 pokoje U \u003d 348,349 + 35,788 * 74, 5 - 217,075 * 4 + 305,687 * 2

Pro 3 pokoje U \u003d 348,349 + 35,788 * 74, 5 - 217,075 * 4 + 305,687 * 3

Kapitola 2. Shluková analýza

Zadání: Studie struktury peněžních výdajů a úspor obyvatelstva.

Tabulka ukazuje strukturu hotovostních výdajů a úspor obyvatelstva podle regionů centrálního federálního okruhu Ruská Federace v roce 2003 pro následující ukazatele:

PTIOU - nákup zboží a platba za služby;

· OPiV - povinné platby a příspěvky;

PN - nákup nemovitosti;

· PFA – zvýšení finančního majetku;

· DR - nárůst (úbytek) peněz v rukou obyvatelstva.

Rýže. 8 Počáteční údaje

Požadované:

1) určit optimální počet shluků pro rozdělení regionů do homogenních skupin podle všech seskupovacích charakteristik současně;

2) provést klasifikaci oblastí hierarchickou metodou s algoritmem meziskupinových vztahů a zobrazit výsledky ve formě dendrogramu;

3) analyzovat hlavní priority peněžních výdajů a úspor ve výsledných klastrech;

Výkon:

1) Určete optimální počet shluků pro rozdělení regionů do homogenních skupin podle všech seskupovacích charakteristik současně;

Pro určení optimálního počtu shluků je třeba použít Hierarchickou shlukovou analýzu a v tabulce "Kroky aglomerace" se podívat na sloupec "Koeficienty".

Tyto koeficienty implikují vzdálenost mezi dvěma shluky, určenou na základě zvolené vzdálenosti (euklidovské vzdálenosti). Ve fázi, kdy se míra vzdálenosti mezi dvěma shluky prudce zvětší, musí být proces slučování do nových shluků zastaven.

V důsledku toho je optimální počet shluků považován za rovný rozdílu mezi počtem pozorování (17) a číslem kroku (14), po kterém se koeficient prudce zvýší. Optimální počet shluků je tedy 3. (obr. 9)

shluk statistické matematické analýzy

Rýže. 9 Tabulka „Kroky slinování“

2) Provést klasifikaci oblastí hierarchickou metodou s algoritmem meziskupinových vztahů a zobrazit výsledky ve formě dendrogramu;

Nyní pomocí optimálního počtu shluků klasifikujeme oblasti pomocí hierarchické metody. A ve výstupu se obracíme na tabulku "Patří do clusterů". (obr. 10)

Rýže. 10 Tabulka „Příslušnost ke klastrům“

Na Obr. 10 jasně ukazuje, že shluk 3 zahrnuje 2 regiony (Kaluga, Moskva) a Moskvu, shluk 2 zahrnuje dva regiony (Brjansk, Voroněž, Ivanovo, Lipetsk, Oryol, Rjazaň, Smolensk, Tambov, Tver), shluk 1 - Bělgorod, Vladimir, Kostroma , Kursk, Tula, Jaroslavl.

Rýže. 11 Dendrogram

3) analyzovat hlavní priority peněžních výdajů a úspor ve výsledných klastrech;

Abychom mohli analyzovat výsledné shluky, musíme provést "Porovnání průměrů". Ve výstupním okně se zobrazí následující tabulka (obr. 12)

Rýže. 12 Střední hodnoty proměnných

V tabulce „Průměrné hodnoty“ můžeme sledovat, které struktury mají nejvyšší prioritu v rozložení peněžních výdajů a úspor obyvatelstva.

Především je třeba poznamenat, že nejvyšší prioritou ve všech oblastech je nákup zboží a platba za služby. Parametr nabývá větší hodnoty ve 3. clusteru.

2. místo zaujímá růst finančního majetku. Nejvyšší hodnota v 1 shluku.

Nejmenší koeficient v 1. a 2. shluku je pro „pořízení nemovitosti“ a ve 3. shluku byl odhalen znatelný úbytek peněz v rukou obyvatel.

Obecně platí, že pro obyvatelstvo má zvláštní význam nákup zboží a služeb a nevýznamný nákup nemovitostí.

4) porovnejte výslednou klasifikaci s výsledky aplikace algoritmu vnitroskupinových vztahů.

V analýze meziskupinových vztahů se situace prakticky nezměnila, s výjimkou regionu Tambov, který spadal do 1 ze 2 shluků (obr. 13).

Rýže. 13 Analýza vnitroskupinových vztahů

V tabulce "Průměry" nedošlo k žádným změnám.

Kapitola 3. Faktorová analýza

Úkol: Analýza činnosti podniků lehký průmysl.

Údaje z šetření jsou k dispozici pro 20 podniků lehkého průmyslu (obr. 14) podle následujících charakteristik:

X1 - úroveň produktivity kapitálu;

X2 – pracnost jednotky výroby;

X3 - podíl pořizovacích materiálů na celkových nákladech;

X4 – faktor posunu zařízení;

X5 - prémie a odměny na zaměstnance;

X6 - podíl ztrát z manželství;

X7 – průměrné roční náklady dlouhodobého výrobního majetku;

X8 - průměrný roční mzdový fond;

X9 - úroveň prodejnosti produktů;

· X10 – index stálých aktiv (poměr dlouhodobého majetku a ostatního dlouhodobého majetku k vlastnímu kapitálu);

X11 - obrat pracovního kapitálu;

X12 - nevýrobní náklady.

Obr.14 Počáteční údaje

Požadované:

1. provést faktorovou analýzu následujících proměnných: 1,3,5-7, 9, 11,12, identifikovat a interpretovat charakteristiky faktorů;

2. uveďte nejvíce prosperující a perspektivní podniky.

Výkon:

1. Proveďte faktorovou analýzu následujících proměnných: 1,3,5-7, 9, 11,12, identifikujte a interpretujte charakteristiky faktorů.

Faktorová analýza je soubor metod, které na základě reálných vztahů objektů (vlastností) umožňují identifikovat latentní (implicitní) zobecňující charakteristiky organizační struktury.

V dialogovém okně faktorové analýzy vyberte naše proměnné, zadejte potřebné parametry.

Rýže. 15 Celkový vysvětlený rozptyl

Podle tabulky „Celkové vysvětlené rozptyly“ lze vidět, že byly identifikovány 3 faktory, které vysvětlují 74,8 % variací proměnných – sestrojený model je docela dobrý.

Nyní interpretujeme znaménka faktoru podle "Matice rotovaných komponent": (obr.16).

Rýže. 16 Matice pootočených součástí

Faktor 1 nejvíce souvisí s úrovní prodeje produktu a má inverzní vztah k nevýrobním nákladům.

Faktor 2 nejvíce souvisí s podílem pořizovacích materiálů na celkových nákladech a podílem ztrát z manželství a má nepřímý vztah k prémiím a odměnám na zaměstnance.

Faktor 3 nejvíce souvisí s úrovní produktivity kapitálu a obratu pracovního kapitálu a má nepřímý vztah k průměrným ročním nákladům na stálá aktiva.

2. Uveďte nejvíce prosperující a perspektivní podniky.

Abychom identifikovali nejvíce prosperující podniky, seřadíme data podle 3 faktorových kritérií v sestupném pořadí. (obr. 17)

Za nejvíce prosperující podniky je třeba považovat: 13,4,5, protože obecně podle 3 faktorů zaujímají jejich ukazatele nejvyšší a nejstabilnější pozice.

Kapitola 4. Diskriminační analýza

Posuzování bonity právnických osob v komerční bance

Jako významné ukazatele charakterizující finanční situaci přijímajících organizací banka vybrala šest ukazatelů (tabulka 4.1.1):

QR (X1) - ukazatel rychlé likvidity;

CR (X2) - ukazatel běžné likvidity;

EQ/TA (X3) - poměr finanční nezávislosti;

TD/EQ (X4) - celkové závazky vůči vlastnímu kapitálu;

ROS (X5) - ziskovost tržeb;

FAT (X6) - obrat dlouhodobého majetku.

Tabulka 4.1.1. Počáteční údaje


Požadované:

Na základě diskriminační analýzy pomocí balíčku SPSS určete, do které ze čtyř kategorií patří tři dlužníci ( právnické osoby) chtějí získat úvěr od komerční banky:

§ Skupina 1 - s vynikající finanční výkonností;

§ Skupina 2 - s dobrou finanční výkonností;

§ Skupina 3 – se špatnou finanční výkonností;

§ Skupina 4 – s velmi špatnou finanční výkonností.

Na základě výsledků výpočtu sestrojte diskriminační funkce; vyhodnotit jejich význam Wilksovým koeficientem (λ). Sestavte mapu vnímání a diagramy vzájemných poloh pozorování v prostoru tří funkcí. Proveďte interpretaci výsledků analýzy.

Pokrok:

Abychom určili, do které ze čtyř kategorií patří tři dlužníci, kteří chtějí získat úvěr od komerční banky, vytváříme diskriminační analýzu, která nám umožňuje určit, ke které z dříve identifikovaných populací (tréninkových vzorků) by měli být noví zákazníci přiřazeni. .

Jako závisle proměnnou zvolíme skupinu, do které může dlužník patřit v závislosti na jeho finanční výkonnosti. Z údajů o úkolu je každé skupině přiřazeno odpovídající skóre 1, 2, 3 a 4.

Nenormalizované kanonické koeficienty diskriminačních funkcí znázorněné na Obr. 4.1.1 se používají ke konstrukci rovnice diskriminačních funkcí D1(X), D2(X) a D3(X):

3.) D3(X) =


1

(Konstantní)

Rýže. 4.1.1. Koeficienty kanonické diskriminační funkce

Rýže. 4.1.2. Lambda Wilks

Protože však významnost pomocí Wilksova koeficientu (obr. 4.1.2) druhé a třetí funkce je větší než 0,001, není vhodné je používat k diskriminaci.

Z údajů tabulky „Výsledky klasifikace“ (obr. 4.1.3) vyplývá, že u 100 % pozorování byla klasifikace provedena správně, vysoké přesnosti bylo dosaženo ve všech čtyřech skupinách (100 %).

Rýže. 4.1.3. Výsledky klasifikace

Informace o skutečných a předpokládaných skupinách pro každého dlužníka jsou uvedeny v tabulce „Statistika bodů“ (obr. 4.1.4).

Na základě diskriminační analýzy bylo s vysokou pravděpodobností zjištěno, že noví dlužníci banky patří do tréninkové podmnožiny M1 - první, druhý a třetí dlužník (sériová čísla 41, 42, 43) jsou přiřazeni do podmnožiny M1 s odpovídající pravděpodobnosti 100 %.

Číslo pozorování

Skutečná skupina

Nejpravděpodobnější skupina

Předpokládaná skupina

neseskupené

neseskupené

neseskupené

Rýže. 4.1.4. Bodová statistika

Souřadnice těžišť podle skupin jsou uvedeny v tabulce "Funkce ve skupinových těžištích" (obr. 4.1.5). Používají se k vykreslení těžišť na vjemové mapě (obrázek 4.1.6).

1

Rýže. 4.1.5. Funkce ve skupinových centroidech

Rýže. 4.1.6. Mapa vnímání pro dvě diskriminační funkce D1(X) a D2(X) (* - těžiště skupiny)

Pole „Územní mapy“ je rozděleno diskriminačními funkcemi do čtyř oblastí: na levé straně jsou především pozorování čtvrté skupiny dlužníků s velmi špatnou finanční výkonností, na pravé straně – první skupina s vynikající finanční výkonností, na straně druhé jsou to především pozorování čtvrté skupiny dlužníků s velmi špatnou finanční výkonností. ve střední a spodní části - třetí a druhá skupina dlužníků se špatnou a dobrou finanční výkonností, resp.

Rýže. 4.1.7. Scatterplot pro všechny skupiny

Na Obr. 4.1.7 ukazuje kombinovaný plán rozdělení všech skupin dlužníků spolu s jejich centroidy; lze jej použít k provedení srovnávací vizuální analýzy povahy relativní pozice skupin bankovních dlužníků z hlediska finančních ukazatelů. Na pravé straně grafu jsou dlužníci s vysokým výkonem, vlevo - s nízkým a uprostřed - s průměrným finančním výkonem. Protože se podle výsledků výpočtu druhá diskriminační funkce D2(X) ukázala jako nevýznamná, jsou rozdíly v souřadnicích těžiště podél této osy nevýznamné.

Posuzování bonity fyzických osob v komerční bance

Úvěrové oddělení komerční banky provedlo výběrové šetření u 30 svých klientů (fyzických osob). Na základě předběžné analýzy dat byli dlužníci hodnoceni podle šesti ukazatelů (tabulka 4.2.1):

X1 - dlužník si vzal půjčku komerční banky dříve;

X2 je průměrný měsíční příjem rodiny dlužníka, tisíc rublů;

X3 - doba (doba) splácení úvěru, roky;

X4 - výše poskytnuté půjčky, tisíc rublů;

X5 - složení rodiny dlužníka, osoby;

X6 - věk dlužníka, roky.

Zároveň byly identifikovány tři skupiny dlužníků podle pravděpodobnosti splacení úvěru:

§ 1. skupina - s nízkou pravděpodobností splacení úvěru;

§ 2. skupina - s průměrnou pravděpodobností splacení úvěru;

§ 3. skupina - s vysokou pravděpodobností splacení úvěru.

Požadované:

Na základě diskriminační analýzy pomocí balíčku SPSS je nutné klasifikovat tři zákazníky bank (podle pravděpodobnosti splacení úvěru), tzn. posoudit, zda každý z nich patří do jedné ze tří skupin. Na základě výsledků výpočtu sestavte významné diskriminační funkce, vyhodnoťte jejich významnost Wilksovým koeficientem (λ). V prostoru dvou diskriminačních funkcí pro každou skupinu sestrojte diagramy vzájemného uspořádání pozorování a kombinovaný diagram. Zhodnoťte umístění každého dlužníka na těchto grafech. Proveďte interpretaci výsledků analýzy.

Tabulka 4.2.1. Počáteční údaje

Pokrok:

Pro sestavení diskriminační analýzy volíme jako závisle proměnnou pravděpodobnost včasného splacení úvěru klientem. Vzhledem k tomu, že může být nízká, střední a vysoká, bude každé kategorii přiděleno odpovídající skóre 1,2 a 3.

Nenormalizované kanonické koeficienty diskriminačních funkcí znázorněné na Obr. 4.2.1 se používají ke konstrukci rovnice diskriminačních funkcí D1(X), D2(X):

2.) D2(X) =

Rýže. 4.2.1. Koeficienty kanonické diskriminační funkce

Rýže. 4.2.2. Lambda Wilks

Podle Wilksova koeficientu (obr. 4.2.2) pro druhou funkci je významnost větší než 0,001, proto není vhodné jej používat pro diskriminaci.

Z údajů tabulky „Výsledky klasifikace“ (obr. 4.2.3) vyplývá, že u 93,3 % pozorování byla klasifikace provedena správně, vysoká přesnost byla dosažena v první a druhé skupině (100 % a 91,7 %), méně přesné výsledky byly získány ve třetí skupině (88,9 %).

Rýže. 4.2.3. Výsledky klasifikace

Informace o skutečných a predikovaných skupinách pro každého klienta jsou uvedeny v tabulce "Statistika bodů" (obr. 4.2.4).

Na základě diskriminační analýzy bylo s vysokou pravděpodobností zjištěno, že noví klienti banky patří do tréninkové podmnožiny M3 - první, druhý a třetí klient (sériová čísla 31, 32, 33) jsou přiřazeni do podmnožiny M3 s odpovídající pravděpodobnosti 99 %, 99 % a 100 %.

Číslo pozorování

Skutečná skupina

Nejpravděpodobnější skupina

Předpokládaná skupina

neseskupené

neseskupené

neseskupené

Rýže. 4.2.4. Bodová statistika

Pravděpodobnost splacení úvěru

Rýže. 4.2.5. Funkce ve skupinových centroidech

Souřadnice těžišť podle skupin jsou uvedeny v tabulce "Funkce ve skupinových těžištích" (obr. 4.2.5). Používají se k vykreslení těžišť na vjemové mapě (obrázek 4.2.6).

Pole "Územní mapa" je rozděleno diskriminačními funkcemi do tří oblastí: na levé straně jsou především pozorování první skupiny zákazníků s velmi nízkou pravděpodobností splacení úvěru, na pravé straně - třetí skupina s vysokou pravděpodobností , uprostřed - druhá skupina zákazníků s průměrnou pravděpodobností splacení úvěru, resp.

Na Obr. 4.2.7 (a - c) odráží umístění klientů každé ze tří skupin v rovině dvou diskriminačních funkcí D1(X) a D2(X). Na základě těchto grafů je možné provést podrobnou analýzu pravděpodobnosti splacení úvěru v rámci každé skupiny, posoudit charakter rozložení zákazníků a posoudit míru jejich odlehlosti od příslušného centroidu.

Rýže. 4.2.6. Mapa vnímání pro tři diskriminační funkce D1(X) a D2(X) (* - těžiště skupiny)

Také na Obr. 4.2.7 (d) ve stejném souřadnicovém systému je zobrazen kombinovaný graf rozložení všech skupin zákazníků spolu s jejich centroidy; lze jej použít k provedení srovnávací vizuální analýzy charakteru relativní pozice skupin klientů bank s různou pravděpodobností splacení úvěru. Na levé straně grafu jsou dlužníci s vysokou pravděpodobností splacení půjčky, vpravo - s nízkou pravděpodobností a uprostřed - s průměrnou pravděpodobností. Protože se podle výsledků výpočtu druhá diskriminační funkce D2(X) ukázala jako nevýznamná, jsou rozdíly v souřadnicích těžiště podél této osy nevýznamné.

Rýže. 4.2.7. Umístění pozorování na rovině dvou diskriminačních funkcí pro skupiny s nízkou (a), střední (b), vysokou (c) pravděpodobností splacení úvěru a pro všechny skupiny (d)

Bibliografie

1. „Vícerozměrná statistická analýza v ekonomických problémech. Počítačové modelování v SPSS“, 2009

2. Orlov A.I. "Aplikovaná statistika" M .: Nakladatelství "Zkouška", 2004

3. Fisher R.A. "Statistické metody pro výzkumníky", 1954

4. Kalinina V.N., Solovjev V.I. Učebnice "Úvod do vícerozměrné statistické analýzy" SUM, 2003;

5. Achim Buyul, Peter Zöfel, SPSS: The Art of Information Processing, DiaSoft Publishing, 2005;

6. http://ru.wikipedia.org/wiki