Видове зависимости, изучавани при многомерен статистически анализ. Многомерен статистически анализ

Очертани са основните понятия и методи на статистическия анализ. многоизмерен резултати технически експерименти. <...>Теоретична информация за Имоти многоизмеренГаус разпределения. <...>Резултатът от експеримента, разгледан в ръководството, е случаен векторразпределени по нормалния закон.<...>Многоизмерен нормалноплътност Често резултатът от експеримент е съвкупностчисла, характеризиращи даден обект на изследване.<...>4 f x  Запишете като ξ  ~ ( ND,)μ  има p-измереннормално разпространение. означава, че векторξ , ξ) взема различни значения, така че е разумно да се говори за случаен вектор 12 компонент вектор,ξ  компонент,ξ  т.е. EDE E   ξ= E E ξ ξ  = μ = ξ − μ ξ − μ ()()  ξp където E е знакът за очакване.<...>Нека η е p pp   чрез решения μ= ν +B ;.   bD BD Bη ξ = ′ , (1.3) Матрица D от (1.2) е симетричен, положително определен; следователно, неговото представяне е D CC′=Λ, където C е ортогонален матрица, съставен от собственвектори матрици;D Λ – диагонал матрицас собствен числаλ>i 0 матрици D по главния диагонал.<...> става плътностнеговия компонент,1,η=i ip, определен от общ правила(вижте приложението) е равно на 5 (1,4) ; линеен трансформация,η  където B е квадратна матрица с размери  е случаен вектор от вариации,.<...>Оценяване на параметрите на нормалното разпределение ND . <...>Основната задача на първичната μ=i n  матрица ковариация . <...>A ln ∂ = (1,5) регламенти диференциацияфункционали по отношение на векторни или матрични аргументи (вижте<...>Тогава σ = ξ −ξ ξ − ξ = ξ ξ −ξ ξ∑∑ ij nn ki i kj j kk Тук kiξ е i-тото компонент векторсреден iμ i-ти Компоненти вектор . <...> Оценкимаксимум достоверносткоефициентите j / ρ=σ σ σ имат формата ij ,. ij ii jj ri j σ σσ  ≠ ii jj Доказателство.<...>Оценяване на зависимостта между компонентите нормално векторПодробен анализ на връзката<...>

MU_to_performing_course_work_"Multivariate_statistical_analysis".pdf

UDC 519.2 LBC 22.172 K27 Рецензент V.Yu. Чуев Карташов Г.Д., Тимонин В.И., Будовская Л.М. K27 Многовариантен статистически анализ: Насоки за изпълнение на курсовата работа. - М .: Издателство на MSTU im. Н.Е. Бауман, 2007. - 48 с.: ил. Очертани са основните понятия и методи за статистически анализ на многомерни резултати от технически експерименти. Дадена е теоретична информация за свойствата на многомерните разпределения на Гаус. За старши студенти от Факултета по фундаментални науки. I л. 2. Библиография. 5 имена UDC 519.2 LBC 22.172 © MSTU im. Н.Е. Бауман, 2007 г

Страница 2

СЪДЪРЖАНИЕ Въведение.................................................. .................... .............................. ................... ..... 3 1. Многомерно нормално разпределение .................... .......................... 4 2. Статистически изводи за вектора на средните стойности .............. ...................... 17 3. Дискриминантен анализ .. ..................... ............................................ 23 4. Метод на главния компонент .. ............................ ...................... ............ 27 5. Канонични корелации .................................. .................................. 30 6. Многовариантен регресионен анализ .......... .................................. .. 35 7. Факторен анализ ....... ....................................... ........... ....................... 40 Приложение ......................... ...... ............................................ ..................................................... 44 Използвана литература ..... ........................ ........................ ........................ 46 47

Из предговора на автора
Глава 1 Въведение
1.1. Многомерно нормално разпределение като модел
1.2. общ прегледмногомерни методи
Литература
Глава 2
2.1. Въведение
2.2. Концепции, свързани с многомерни разпределения
2.3. Многомерно нормално разпределение
2.4. Разпределение на линейна комбинация от нормално разпределени величини; независимост на количествата; частни дистрибуции
2.5. Условни разпределения и коефициент на множествена корелация
2.6. характерна функция; моменти
Литература
Задачи
Глава 3 Оценяване на средния вектор и ковариационната матрица
3.1. Въведение
3.2. Оценки на максималната вероятност за среден вектор и ковариационна матрица
3.3. Примерно средно векторно разпределение; заключение за средната стойност, когато ковариационната матрица е известна
Литература
Задачи
Глава 4. Разпределения и използване на примерни корелационни коефициенти
4.1. Въведение
4.2. 2D примерен корелационен коефициент
4.3. Частични коефициенти на корелация
4.4. Множествен коефициент на корелация
Литература
Задачи
Глава 5
5.1. Въведение
5.2. Обобщена Т2 статистика и нейното разпределение
5.3. Приложения на T2 статистика
5.4. Разпределение на Т2 статистика при наличие на конкуриращи се хипотези; степенна функция
5.5. Някои оптимални свойства на критерия Т2
5.6. Многомерен проблем на Беренс-Фишер
Литература
Задачи
Глава 6
6.1. Проблем с класификацията
6.2. Принципи на правилна класификация
6.3. Методи за класифициране на наблюденията в случай на две популации с известно разпределение на вероятностите
6.4. Класификация на наблюденията в случай на две популации с известни многовариантни нормални разпределения
6.5. Класификация на наблюденията в случай на две многовариантни нормални популации, чиито параметри са оценени от извадка
6.6. Класификация на наблюденията в случай на няколко популации
6.7. Класификация на наблюденията в случай на няколко многомерни нормални популации
6.8. Пример за класификация в случай на няколко многовариантни нормални популации
Литература
Задачи
Глава 7
7.1. Въведение
7.2. Wishart разпространение
7.3. Някои свойства на разпределението Wishart
7.4. Теорема на Кокран
7.5. Обобщена дисперсия
7.6. Разпределение на набора от коефициенти на корелация в случай на диагонална ковариационна матрица на популацията
Литература
Задачи
Глава 8 Дисперсионен анализ
8.1. Въведение
8.2. Оценки на параметри за многомерна линейна регресия
8.3. Тестове за коефициент на вероятност за тестване на линейни хипотези относно коефициентите на регресия
8.4. Моменти на съотношението на вероятността в случай, когато нулевата хипотеза е вярна
8.5. Някои разпределения на U
8.6. Асимптотично разширение на разпределението на съотношението на вероятността
8.7. Тестване на хипотези на матрици на регресионни коефициенти и доверителни региони
8.8. Тестване на хипотезата за равенството на средните на нормалните разпределения с обща ковариационна матрица
8.9. Обобщен дисперсионен анализ
8.10. Други критерии за проверка на линейната хипотеза
8.11. Канонична форма
Литература
Задачи
Глава 9
9.1. Въведение
9.2. Коефициентът на вероятност като критерий за тестване на хипотезата за независимост на набори от случайни променливи
9.3. Моменти на съотношение на вероятност, при условие че нулевата хипотеза е вярна
9.4. Някои разпределения на коефициента на вероятност
9.5. Асимптотично разширение на разпределението на h (коефициент на вероятност)
9.6. Пример
9.7. Случай на два набора от случайни променливи
Литература
Задачи
Глава 10
10.1 Въведение
10.2 Критерии за тестване на хипотези за равенството на няколко ковариационни матрици
10.3. Критерии за проверка на хипотезата за еквивалентност на няколко нормални популации
10.4. Моменти на съотношението на вероятността
10.5. Асимптотични разложения на функциите на разпределение на величините V1 и V
10.6. Случай на две популации
10.7. Тестване на хипотезата, че ковариационната матрица е пропорционална на дадената матрица. Критерий за сферичност
10.8. Тестване на хипотезата, че ковариационната матрица е равна на дадената матрица
10.9. Тестване на хипотезата, че средният вектор и ковариационната матрица са съответно равни даден вектори дадена матрица
Литература
Задачи
Глава 11
11.1. Въведение
11.2. Определяне на основните компоненти на популацията
11.3. Оценки на максималната вероятност за основните компоненти и техните дисперсии
11.4. Изчисляване на оценки на максималната вероятност за основните компоненти
11.5. Пример
Литература
Задачи
Глава 12
12.1. Въведение
12.2. Канонични корелации и канонични стойности на популацията
12.3. Оценка на канонични корелации и канонични величини
12.4. Метод на изчисление
12.5. Пример
Литература
Задачи
Глава 13
13.1. Въведение
13.2. Случай на две матрици на Wishart
13.3. Случаят на един неизродена матрица Wishart
13.4. Канонични корелации
Литература
Задачи
Глава 14
14.1. Въведение
14.2 Тестване на хипотези за ранга и оценяване на линейни ограничения върху регресионните коефициенти. Канонични корелации и канонични величини
14.3. Нецентрално разпределение на Wishart
14.4. Разпределение на някои характеристични корени и вектори в зависимост от параметрите
14.5. Асимптотично разпределение на някои характеристични корени и вектори
14.6. Главни компоненти
14.7. Факторен анализ
14.8. Стохастични уравнения
14.9. Анализ на времеви редове
Литература
Приложение. Теория на матрицата
1. Дефиниция на матрици. Матрични действия
2. Характеристични корени и вектори
3. Разделяне на вектори и матрици на блокове
4. Някои резултати
5. Метод на редукция на Дулитъл и метод на кондензация на осите за решаване на системи линейни уравнения
Литература
Предметен индекс

Иконометрия

Многомерен статистически анализ


При многовариантния статистически анализ извадката се състои от елементи на многовариантно пространство. Оттук и името на този раздел от иконометрични методи. От многото проблеми на многовариантния статистически анализ, нека разгледаме два - възстановяване на зависимостта и класификация.

Оценяване на линейна прогнозна функция

Нека започнем с проблема за точкова и доверителна оценка на линейна прогнозна функция на една променлива.

Първоначалните данни са набор от n двойки числа (t k , x k), k = 1,2,…,n, където t k е независима променлива (например време), а x k е зависима променлива (например инфлационен индекс, обменен курс на щатския долар, месечно производство или размер на дневните приходи на търговския обект). Предполага се, че променливите са свързани

x k = a (t k - t cf)+ b + e k, k = 1,2,…,n,

където a и b са параметри, неизвестни на статистиката и подлежащи на оценка, а e k са грешки, които изкривяват зависимостта. Средно аритметично на времеви точки

t cf \u003d (t 1 + t 2 + ... + t n) / n

въведени в модела за улесняване на по-нататъшни изчисления.

Обикновено параметрите a и b на линейната зависимост се оценяват с помощта на метода на най-малките квадрати. Реконструираната връзка след това се използва за прогнозиране на точка и интервал.

Както знаете, методът на най-малките квадрати е разработен от великия немски математик К. Гаус през 1794 г. Според този метод, за да се изчисли най-добрата функция, която линейно приближава зависимостта на x от t, трябва да се разгледа функция от две променливи


Оценките на най-малките квадрати са тези стойности на a* и b*, за които функцията f(a,b) достига минимум за всички стойности на аргументите.

За да се намерят тези оценки, е необходимо да се изчислят частните производни на функцията f(a,b) по отношение на аргументите a и b, да се приравнят към 0, след което да се намерят оценките от получените уравнения: Имаме:

Нека трансформираме десните части на получените отношения. Нека извадим общите множители 2 и (-1) от знака на сбора. Тогава нека да разгледаме условията. Нека отворим скобите в първия израз, получаваме, че всеки член е разделен на три. Във втория израз всеки член също е сбор от три. Така че всяка от сумите е разделена на три суми. Ние имаме:


Приравняваме частните производни на 0. Тогава факторът (-2) може да бъде намален в получените уравнения. Тъй като

(1)

уравненията приемат формата

Следователно оценките на метода на най-малките квадрати имат формата

(2)

Поради съотношението (1) оценката a* може да бъде записана в по-симетрична форма:

Не е трудно тази оценка да се трансформира във формата

Следователно реконструираната функция, която може да се използва за прогнозиране и интерполиране, има формата

x*(t) = a*(t - t cf) + b*.

Нека обърнем внимание на факта, че използването на t cf в последната формула по никакъв начин не ограничава нейната общност. Сравнете с изглед модел

x k = c t k + d + e k , k = 1,2,…,n.

Това е ясно

Оценките на параметрите са свързани по подобен начин:

Няма нужда да се позовавате на някакъв вероятностен модел, за да получите оценки на параметрите и прогнозна формула. Въпреки това, за да се изследват грешките в оценките на параметрите и възстановената функция, т.е. изграждане доверителни интервализа a*, b* и x*(t) е необходим подобен модел.

Непараметричен вероятностен модел. Нека стойностите на независимата променлива t са определени, а грешките e k , k = 1,2,…,n, са независими еднакво разпределени случайни променливи с нула математическо очакванеи дисперсия

неизвестна статистика.

В бъдеще многократно ще използваме централната гранична теорема (CLT) на теорията на вероятностите за величините e k , k = 1,2,…,n (с тегла), следователно, за да изпълним нейните условия, е необходимо да приемем, например, че грешките e k , k = 1,2 ,…,n, са крайни или имат краен трети абсолютен момент. Въпреки това, няма нужда да се фокусираме върху тези вътрешноматематически "условия на редовност".

Асимптотични разпределения на оценки на параметри. От формула (2) следва, че

(5)

Според CLT оценката b* има асимптотично нормално разпределение с очакване b и дисперсия

което се оценява по-долу.

От формули (2) и (5) следва, че

Последният член във втората връзка изчезва, когато се сумира върху i, така че от формули (2-4) следва, че

(6)

Формула (6) показва, че оценката

е асимптотично нормално със средна стойност и дисперсия

Имайте предвид, че многомерна нормалност съществува, когато всеки член във формула (6) е малък в сравнение с цялата сума, т.е.


От формули (5) и (6) и първоначалните допускания за грешките следва и безпристрастността на оценките на параметрите.

Безпристрастността и асимптотичната нормалност на оценките на най-малките квадрати улесняват определянето на асимптотични доверителни граници за тях (подобно на границите в предишната глава) и тестване на статистически хипотези, например за равенство на определени стойности, предимно 0. Оставяме читателя възможността да се напишат формули за изчисляване на доверителните граници и да се формулират правила за тестване на споменатите хипотези.

Асимптотично разпределение на прогностичната функция. От формули (5) и (6) следва, че

тези. оценката на разглежданата прогностична функция е безпристрастна. Ето защо

В същото време, тъй като грешките са независими в съвкупност и

, тогава

По този начин,

Въведение

Глава 1 Множествен регресионен анализ

Глава 2. Клъстерен анализ

Глава 3. Факторен анализ

Глава 4. Дискриминантен анализ

Библиография

Въведение

Първоначалната информация в социално-икономическите изследвания най-често се представя като набор от обекти, всеки от които се характеризира с редица признаци (показатели). Тъй като броят на такива обекти и характеристики може да достигне десетки и стотици, а визуалният анализ на тези данни е неефективен, проблемите за намаляване, концентриране на първоначалните данни, разкриване на структурата и връзката между тях въз основа на изграждането на обобщени характеристики на възниква набор от характеристики и набор от обекти. Такива проблеми могат да бъдат решени чрез методи на многомерен статистически анализ.

Многовариантният статистически анализ е раздел от статистиката, посветен на математическите методи, насочени към идентифициране на естеството и структурата на връзките между компонентите на изследването и предназначени за получаване на научни и практически заключения.

Основното внимание в многовариантния статистически анализ се обръща на математическите методи за конструиране на оптимални планове за събиране, систематизиране и обработка на данни, насочени към идентифициране на естеството и структурата на връзките между компонентите на изучавания многомерен признак и предназначени за получаване на научни и практически изводи.

Първоначалният масив от многомерни данни за провеждане на многомерен анализ обикновено са резултатите от измерване на компонентите на многомерен атрибут за всеки от обектите на изследваната съвкупност, т.е. последователност от многовариантни наблюдения. Многовариантният атрибут най-често се интерпретира като , а последователността от наблюдения като извадка от генералната съвкупност. В този случай изборът на метода за обработка на първоначалните статистически данни се извършва въз основа на определени предположения относно естеството на закона за разпределение на изследвания многомерен признак.

1. Многовариантният статистически анализ на многомерните разпределения и техните основни характеристики обхваща ситуации, при които обработените наблюдения са от вероятностен характер, т.е. интерпретиран като извадка от съответната генерална съвкупност. Основните задачи на този подраздел включват: статистическа оценка на изследваните многомерни разпределения и техните основни параметри; изследване на свойствата на използваните статистически оценки; изследване на вероятностните разпределения за редица статистики, които се използват за изграждане на статистически критерии за тестване на различни хипотези за вероятностния характер на анализираните многовариантни данни.

2. Многовариантният статистически анализ на естеството и структурата на взаимовръзките на компонентите на изучавания многомерен признак съчетава концепциите и резултатите, присъщи на такива методи и модели като анализ, дисперсионен анализ, ковариационен анализ, факторен анализ и др. Методите, принадлежащи към тази група, включват както алгоритми, базирани на предположението за вероятностния характер на данните, така и методи, които не се вписват в рамките на нито един вероятностен модел (последните често се наричат ​​методи).

3. Многомерният статистически анализ на геометричната структура на изследваното множество от многовариантни наблюдения съчетава концепциите и резултатите, присъщи на такива модели и методи като дискриминантен анализ, клъстерен анализ, многомерно скалиране. Възлова за тези модели е концепцията за разстояние или мярка за близост между анализираните елементи като точки от някакво пространство. В този случай могат да бъдат анализирани както обекти (като точки, посочени в пространството на обектите), така и характеристики (като точки, посочени в пространството на обектите).

Приложната стойност на многовариантния статистически анализ се състои главно в решаването на следните три проблема:

задачата за статистическо изследване на зависимостите между разглежданите показатели;

задачата за класифициране на елементи (обекти или характеристики);

· задачата за намаляване на размерността на разглежданото пространство на характеристиките и избор на най-информативните характеристики.

Множественият регресионен анализ е предназначен да изгради модел, който позволява стойностите на независимите променливи да получат оценки на стойностите на зависимата променлива.

Логистична регресия за решаване на проблема с класификацията. Това е вид множествена регресия, чиято цел е да анализира връзката между няколко независими променливи и зависима променлива.

Факторният анализ се занимава с определянето на относително малък брой скрити (латентни) фактори, чиято променливост обяснява променливостта на всички наблюдавани показатели. Факторният анализ е насочен към намаляване на измерението на разглеждания проблем.

Клъстерният и дискриминантният анализ са предназначени да разделят колекции от обекти на класове, всеки от които трябва да включва обекти, които са хомогенни или близки в определен смисъл. При клъстерния анализ не се знае предварително колко групи от обекти ще се получат и какъв ще бъде размерът им. Дискриминантният анализ разделя обектите на вече съществуващи класове.

Глава 1 Множествен регресионен анализ

Задача: Изследване на жилищния пазар в Орел (Съветски и Северни региони).

Таблицата показва данни за цената на апартаментите в Орел и за различни фактори, които я определят:

· цялата зона;

Площта на кухнята

· жилищно пространство;

тип къща

броя на стаите. (Фиг. 1)

Ориз. 1 Изходни данни

В колона "Регион" се използват обозначенията:

3 - съветски (елит, принадлежи към централните региони);

4 - Север.

В колона "Тип къща":

1 - тухла;

0 - панел.

Задължително:

1. Анализирайте връзката на всички фактори с индикатора "Цена" и помежду си. Изберете най-подходящите фактори за изграждане на регресионен модел;

2. Конструирайте фиктивна променлива, която отразява принадлежността на апартамента към централните и периферните райони на града;

3. Изградете линеен регресионен модел за всички фактори, включително фиктивна променлива в него. Обяснете икономическия смисъл на параметрите на уравнението. Оценява качеството на модела, статистическата значимост на уравнението и неговите параметри;

4. Разпределете факторите (с изключение на фиктивната променлива) според степента на влияние върху индикатора “Цена”;

5. Изградете линеен регресионен модел за най-влиятелните фактори, оставяйки фиктивна променлива в уравнението. Оценява качеството и статистическата значимост на уравнението и неговите параметри;

6. Обосновете целесъобразността или нецелесъобразността на включването на фиктивна променлива в уравнението на параграфи 3 и 5;

7. Оценка на интервални оценки на параметрите на уравнението с вероятност 95%;

8. Определете колко ще струва апартамент с обща площ от 74,5 м² в елитен (периферен) район.

Производителност:

1. След анализ на връзката на всички фактори с индикатора „Цена“ и помежду си, факторите, най-подходящи за изграждане на регресионен модел, бяха избрани с помощта на метода за включване „Напред“:

А) общата площ;

В) броя на стаите.

Включени/изключени променливи (a)

Зависима променлива: Цена

2. Променлива X4 "Регион" е фиктивна променлива, тъй като има 2 стойности: 3- принадлежащи към централния регион "Съветски", 4- към периферния регион "Северни".

3. Нека изградим линеен регресионен модел за всички фактори (включително фиктивната променлива X4).

Получен модел:

Оценка на качеството на модела.

Стандартна грешка = 126.477

Коефициент на Дърбин-Уотсън = 2,136

Проверка на значимостта на регресионното уравнение

Стойност на теста на F-Fisher = 41,687

4. Нека изградим линеен регресионен модел с всички фактори (с изключение на фиктивната променлива X4)

Според степента на влияние върху показателя „Цена” те са разпределени:

Най-значимият фактор е общата площ (F= 40.806)

Вторият най-важен фактор е броят на стаите (F= 29.313)

5. Включени/изключени променливи

Зависима променлива: Цена

6. Нека изградим линеен регресионен модел за най-влиятелните фактори с фиктивна променлива, в нашия случай това е един от влиятелните фактори.

Получен модел:

Y \u003d 348,349 + 35,788 X1 -217,075 X4 +305,687 X7

Оценка на качеството на модела.

Коефициент на детерминация R2 = 0,807

Показва съотношението на изменение на резултантния признак под влияние на изследваните фактори. Следователно около 89% от вариацията на зависимата променлива се взема предвид и се дължи на влиянието на включените фактори в модела.

Коефициент на множествена корелация R = 0,898

Показва близостта на връзката между зависимата променлива Y с всички обяснителни фактори, включени в модела.

Стандартна грешка = 126.477

Коефициент на Дърбин-Уотсън = 2,136

Проверка на значимостта на регресионното уравнение

Стойност на теста на F-Fisher = 41,687

Регресионното уравнение трябва да се признае за адекватно, моделът се счита за значим.

Най-значимият фактор е броят на стаите (F=41,687)

Вторият най-важен фактор е общата площ (F= 40.806)

Третият най-важен фактор е регионът (F= 32.288)

7. Фиктивната променлива X4 е значим фактор, така че е препоръчително да я включите в уравнението.

Интервалните оценки на параметрите на уравнението показват резултатите от прогнозирането чрез регресионния модел.

С вероятност от 95% обемът на продажбите през прогнозния месец ще бъде от 540,765 до 1080,147 милиона рубли.

8. Определяне на цената на апартамент в елитен район

За 1 стая U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 1

За 2 стаи U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 2

За 3 стаи U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 3

в периферните

За 1 стая U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 1

За 2 стаи U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 2

За 3 стаи U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 3

Глава 2. Клъстерен анализ

Задача: Изследване на структурата на паричните разходи и спестявания на населението.

Таблицата показва структурата на паричните разходи и спестяванията на населението по региони на Централния федерален окръг Руска федерацияпрез 2003 г. по следните показатели:

PTIOU - покупка на стоки и плащане на услуги;

· ОПиВ - задължителни плащания и вноски;

PN - покупка на недвижим имот;

· PFA – увеличение на финансовите активи;

· DR - увеличение (намаляване) на парите в ръцете на населението.

Ориз. 8 Изходни данни

Задължително:

1) определя оптималния брой клъстери за разделяне на региони на хомогенни групи според всички характеристики на групиране едновременно;

2) извършва класификация на областите по йерархичен метод с алгоритъм на междугрупови отношения и показва резултатите под формата на дендрограма;

3) анализирайте основните приоритети на паричните разходи и спестяванията в получените клъстери;

Производителност:

1) Определяне на оптималния брой клъстери за разделяне на региони на хомогенни групи според всички характеристики на групиране едновременно;

За да определите оптималния брой клъстери, трябва да използвате йерархичния клъстерен анализ и да се обърнете към таблицата „Стъпки на агломерация“ към колоната „Коефициенти“.

Тези коефициенти означават разстоянието между два клъстера, определено на базата на избраната мярка за разстояние (Евклидово разстояние). На етапа, когато разстоянието между два клъстера се увеличи рязко, процесът на сливане в нови клъстери трябва да бъде спрян.

В резултат на това оптималният брой клъстери се счита за равен на разликата между броя на наблюденията (17) и броя на стъпките (14), след което коефициентът рязко нараства. Така оптималният брой клъстери е 3. (Фиг. 9)

клъстер за статистически математически анализ

Ориз. 9 Таблица „Етапи на синтероване“

2) Извършете класификацията на областите по йерархичен метод с алгоритъм на междугрупови отношения и покажете резултатите под формата на дендрограма;

Сега, използвайки оптималния брой клъстери, ние класифицираме области, използвайки йерархичен метод. И в изхода се обръщаме към таблицата "Принадлежност към клъстери". (фиг.10)

Ориз. 10 Таблица „Принадлежност към клъстери“

На фиг. 10 ясно показва, че клъстер 3 включва 2 региона (Калуга, Москва) и Москва, клъстер 2 включва два региона (Брянск, Воронеж, Иваново, Липецк, Орлов, Рязан, Смоленск, Тамбов, Твер), клъстер 1 - Белгород, Владимир, Кострома , Курск, Тула, Ярославъл.

Ориз. 11 Дендрограма

3) анализирайте основните приоритети на паричните разходи и спестяванията в получените клъстери;

За да анализираме получените клъстери, трябва да проведем „Сравнение на средните стойности“. Изходният прозорец показва следната таблица (фиг. 12)

Ориз. 12 Средни стойности на променливите

В таблицата „Средни стойности” можем да проследим на кои структури е даден най-висок приоритет при разпределението на паричните разходи и спестяванията на населението.

На първо място, трябва да се отбележи, че най-висок приоритет във всички области се дава на закупуването на стоки и плащането на услуги. Параметърът приема по-голяма стойност в 3-тия клъстер.

2-ро място заема ръстът на финансовите активи. Най-висока стойноств 1 клъстер.

Най-малък е коефициентът в 1-ви и 2-ри клъстер за „придобиване на недвижимо имущество“, а в 3-ти клъстер се отчита осезаемо намаление на парите в ръцете на населението.

Като цяло покупката на стоки и услуги и незначителната покупка на недвижими имоти са от особено значение за населението.

4) сравнете получената класификация с резултатите от прилагането на алгоритъма за вътрешногрупови взаимоотношения.

При анализа на междугруповите отношения ситуацията практически не се е променила, с изключение на района на Тамбов, който попада в 1 от 2 клъстера (фиг. 13).

Ориз. 13 Анализ на вътрешногруповите взаимоотношения

Няма промени в таблицата "Средни стойности".

Глава 3. Факторен анализ

Задача: Анализ на дейността на предприятията лека промишленост.

Налични са данни от проучването за 20 предприятия от леката промишленост (фиг. 14) според следните характеристики:

X1 - равнището на капиталовата производителност;

Х2 – трудоемкостта на единица продукция;

X3 - делът на материалите за доставка в общите разходи;

X4 – коефициент на смяна на оборудването;

Х5 - бонуси и възнаграждения на служител;

X6 - делът на загубите от брак;

X7 – средногодишна себестойност на дълготрайните производствени активи;

X8 - средният годишен фонд работна заплата;

X9 - нивото на продаваемост на продуктите;

· X10 – индекс на трайните активи (отношение на дълготрайни активи и други нетекущи активи към собствени средства);

X11 - обръщаемост на оборотния капитал;

Х12 - непроизводствени разходи.

Фиг.14 Изходни данни

Задължително:

1. провеждане на факторен анализ на следните променливи: 1,3,5-7, 9, 11,12, идентифициране и интерпретиране на факторни характеристики;

2. посочва най-проспериращите и перспективни предприятия.

Производителност:

1. Извършете факторен анализ на следните променливи: 1,3,5-7, 9, 11,12, идентифицирайте и интерпретирайте факторните характеристики.

Факторният анализ е набор от методи, които въз основа на реални връзки на обекти (характеристики) позволяват да се идентифицират латентни (имплицитни) обобщаващи характеристики на организационната структура.

В диалоговия прозорец факторен анализизберете нашите променливи, посочете необходимите параметри.

Ориз. 15 Общо обяснено отклонение

Според таблицата на "Обща обяснена вариация" се вижда, че са идентифицирани 3 фактора, които обясняват 74,8% от вариациите на променливите - изграденият модел е доста добър.

Сега интерпретираме знаците на фактора според "Матрицата на ротираните компоненти": (фиг.16).

Ориз. 16 Матрица от завъртяни компоненти

Фактор 1 е най-тясно свързан с нивото на продажбите на продукта и има обратна връзка с непроизводствените разходи.

Фактор 2 е най-тясно свързан с дела на материалите за доставка в общите разходи и дела на загубите от брак и има обратна връзка с бонусите и възнагражденията на служител.

Фактор 3 е най-тясно свързан с равнището на капиталовата производителност и обръщаемостта на оборотния капитал и има обратна връзка със средногодишната цена на дълготрайните активи.

2. Посочете най-проспериращите и перспективни предприятия.

За да идентифицираме най-проспериращите предприятия, ще сортираме данните по 3 факторни критерия в низходящ ред. (фиг.17)

Най-проспериращите предприятия трябва да бъдат разгледани: 13,4,5, тъй като като цяло, според 3 фактора, техните показатели заемат най-високите и най-стабилни позиции.

Глава 4. Дискриминантен анализ

Оценка на кредитоспособността на юридически лица в търговска банка

Банката избра шест показателя като значими показатели, характеризиращи финансовото състояние на организациите кредитополучатели (Таблица 4.1.1):

QR (X1) - коефициент на бърза ликвидност;

CR (X2) - коефициент на текуща ликвидност;

EQ/TA (X3) - коефициент на финансова независимост;

TD/EQ (X4) - общите задължения към собствения капитал;

ROS (X5) - рентабилност на продажбите;

FAT (X6) - оборот на дълготрайни активи.

Таблица 4.1.1. Изходни данни


Задължително:

Въз основа на дискриминантен анализ с помощта на пакета SPSS, определете към коя от четирите категории принадлежат трима кредитополучатели ( юридически лица) желаещи да получат кредит от търговска банка:

§ 1 група - с отлично финансово представяне;

§ 2 група - с добро финансово състояние;

§ 3 група - с лошо финансово състояние;

§ Група 4 - с много лошо финансово състояние.

Въз основа на резултатите от изчислението конструирайте дискриминантни функции; оценете тяхната значимост чрез коефициента на Wilks (λ). Изградете карта на възприятието и диаграми на относителните позиции на наблюденията в пространството на три функции. Извършете интерпретация на резултатите от анализа.

Напредък:

За да определим към коя от четирите категории принадлежат трима кредитополучатели, които искат да получат кредит от търговска банка, ние изграждаме дискриминантен анализ, който ни позволява да определим към коя от предварително идентифицираните популации (обучителни проби) трябва да бъдат причислени новите клиенти .

Като зависима променлива ще изберем група, към която може да принадлежи кредитополучателят в зависимост от финансовите му резултати. От данните за задачите на всяка група се присвоява съответна оценка от 1, 2, 3 и 4.

Ненормализирани канонични коефициенти на дискриминантни функции, показани на фиг. 4.1.1 се използват за конструиране на уравнението на дискриминантните функции D1(X), D2(X) и D3(X):

3.) D3(X) =


1

(Постоянен)

Ориз. 4.1.1. Коефициенти на каноничната дискриминантна функция

Ориз. 4.1.2. Ламбда Уилкс

Въпреки това, тъй като значимостта на коефициента на Wilks (фиг. 4.1.2) на втората и третата функция е повече от 0,001, не е препоръчително да се използват за дискриминация.

Данните от таблицата "Резултати от класификацията" (фиг. 4.1.3) показват, че за 100% от наблюденията класификацията е извършена правилно, висока точност е постигната и в четирите групи (100%).

Ориз. 4.1.3. Резултати от класирането

Информация за действителните и прогнозираните групи за всеки кредитополучател е дадена в таблицата „Статистика на точките“ (фиг. 4.1.4).

В резултат на дискриминантния анализ беше установено с голяма вероятност, че новите кредитополучатели на банката принадлежат към подмножеството M1 за обучение - първият, вторият и третият кредитополучател (серийни номера 41, 42, 43) са причислени към подмножеството M1 с съответните вероятности от 100%.

Номер на наблюдение

Действителна група

Най-вероятна група

Прогнозна група

негрупиран

негрупиран

негрупиран

Ориз. 4.1.4. Статистика на точките

Координатите на центроидите по групи са дадени в таблицата "Функции в групови центроиди" (фиг. 4.1.5). Те се използват за начертаване на центроиди върху перцептивна карта (Фигура 4.1.6).

1

Ориз. 4.1.5. Функции в групови центроиди

Ориз. 4.1.6. Карта на възприемане за две дискриминантни функции D1(X) и D2(X) (* - групов център)

Полето на "Териториална карта" е разделено чрез дискриминантни функции на четири области: от лявата страна има основно наблюдения на четвъртата група кредитополучатели с много лошо финансово състояние, от дясната страна - първата група с отлично финансово състояние, в средната и долната част - съответно трета и втора група кредитополучатели с лошо и добро финансово състояние.

Ориз. 4.1.7. Точкова диаграма за всички групи

На фиг. 4.1.7 показва комбинирания график за разпределението на всички групи кредитополучатели заедно с техните центроиди; може да се използва за извършване на сравнителен визуален анализ на характера на относителната позиция на групи банкови кредитополучатели по отношение на финансовите показатели. От дясната страна на графиката са кредитополучателите с високо представяне, отляво - с ниско, а в средата - със средно финансово представяне. Тъй като според резултатите от изчислението втората дискриминантна функция D2(X) се оказа незначителна, разликите в центроидните координати по тази ос са незначителни.

Оценка на кредитоспособността на физически лица в търговска банка

Кредитният отдел на търговска банка проведе извадково проучване на 30 свои клиенти (физически лица). Въз основа на предварителен анализ на данните, кредитополучателите бяха оценени по шест показателя (Таблица 4.2.1):

X1 - кредитополучателят е взел заем търговските банкипреди това;

X2 е средният месечен доход на семейството на кредитополучателя, хиляди рубли;

X3 - срок (период) на погасяване на кредита, години;

X4 - размерът на издадения заем, хиляди рубли;

X5 - състав на семейството на кредитополучателя, лица;

X6 - възраст на кредитополучателя, години.

В същото време бяха идентифицирани три групи кредитополучатели според вероятността за изплащане на заема:

§ Група 1 - с ниска вероятност за погасяване на кредита;

§ Група 2 - със средна вероятност за погасяване на кредита;

§ Група 3 - с висока вероятност за изплащане на кредита.

Задължително:

Въз основа на дискриминантен анализ с помощта на пакета SPSS е необходимо да се класифицират трима банкови клиенти (според вероятността за изплащане на кредита), т.е. преценете дали всеки от тях принадлежи към една от трите групи. Въз основа на резултатите от изчислението изградете значими дискриминантни функции, оценете тяхната значимост чрез коефициента на Wilks (λ). В пространството на две дискриминантни функции за всяка група постройте диаграми на взаимното подреждане на наблюденията и комбинирана диаграма. Оценете местоположението на всеки кредитополучател в тези диаграми. Извършете интерпретация на резултатите от анализа.

Таблица 4.2.1. Изходни данни

Напредък:

За да изградим дискриминантен анализ, ние избираме вероятността за навременно изплащане на заема от клиента като зависима променлива. Като се има предвид, че може да бъде нисък, среден и висок, на всяка категория ще бъде дадена съответна оценка от 1, 2 и 3.

Ненормализирани канонични коефициенти на дискриминантни функции, показани на фиг. 4.2.1 се използват за конструиране на уравнението на дискриминантните функции D1(X), D2(X):

2.) D2(X) =

Ориз. 4.2.1. Коефициенти на каноничната дискриминантна функция

Ориз. 4.2.2. Ламбда Уилкс

Според коефициента на Wilks (фиг. 4.2.2) за втората функция значимостта е повече от 0,001, поради което не е препоръчително да се използва за дискриминация.

Данните от таблицата „Резултати от класификацията“ (фиг. 4.2.3) показват, че за 93,3% от наблюденията класификацията е извършена правилно, висока точност е постигната в първата и втората група (100% и 91,7%), по-малко точни резултати са получени в третата група (88,9%).

Ориз. 4.2.3. Резултати от класирането

Информация за действителните и прогнозираните групи за всеки клиент е дадена в таблицата "Статистика на точките" (фиг. 4.2.4).

В резултат на дискриминантния анализ беше установено с голяма вероятност, че новите клиенти на банката принадлежат към обучаващата подгрупа M3 – първият, вторият и третият клиент (поредни номера 31, 32, 33) са присвоени към подгрупата M3 с съответните вероятности от 99%, 99% и 100%.

Номер на наблюдение

Действителна група

Най-вероятна група

Прогнозна група

негрупиран

негрупиран

негрупиран

Ориз. 4.2.4. Статистика на точките

Вероятност за изплащане на заема

Ориз. 4.2.5. Функции в групови центроиди

Координатите на центроидите по групи са дадени в таблицата "Функции в групови центроиди" (фиг. 4.2.5). Те се използват за начертаване на центроиди върху перцептивна карта (Фигура 4.2.6).

Полето "Териториална карта" е разделено чрез дискриминантни функции на три области: от лявата страна има основно наблюдения на първата група клиенти с много ниска вероятност за погасяване на кредита, от дясната страна - третата група с висока вероятност , в средата - втората група клиенти със средна вероятност за изплащане на кредита, респ.

На фиг. 4.2.7 (a - c) отразява местоположението на клиентите на всяка от трите групи в равнината на две дискриминантни функции D1(X) и D2(X). Въз основа на тези графики е възможно да се извърши подробен анализ на вероятността за изплащане на заем във всяка група, да се прецени естеството на разпределението на клиентите и да се оцени степента на тяхната отдалеченост от съответния център.

Ориз. 4.2.6. Карта на възприемане за три дискриминантни функции D1(X) и D2(X) (* - групов център)

Също така на фиг. 4.2.7 (d) в същата координатна система е показана комбинираната графика на разпределението на всички групи клиенти заедно с техните центроиди; може да се използва за извършване на сравнителен визуален анализ на характера на относителната позиция на групи банкови клиенти с различни вероятности за изплащане на кредита. От лявата страна на графиката са кредитополучателите с висока вероятност за изплащане на заема, отдясно - с ниска вероятност, а в средната част - със средна вероятност. Тъй като според резултатите от изчислението втората дискриминантна функция D2(X) се оказа незначителна, разликите в центроидните координати по тази ос са незначителни.

Ориз. 4.2.7. Разположение на наблюденията в равнината на две дискриминантни функции за групи с ниска (a), средна (b), висока (c) вероятност за изплащане на заема и за всички групи (d)

Библиография

1. „Многовариантен статистически анализ в икономически проблеми. Компютърно моделиране в SPSS”, 2009

2. Орлов А.И. "Приложна статистика" М .: Издателство "Изпит", 2004 г

3. Фишър Р.А. "Статистически методи за изследователи", 1954 г

4. Калинина В.Н., Соловьов В.И. „Въведение в многомерния статистически анализ” Учебник СУМ, 2003;

5. Achim Buyul, Peter Zöfel, SPSS: The Art of Information Processing, DiaSoft Publishing, 2005;

6. http://ru.wikipedia.org/wiki


примерна таблица. conjugacy max, правдоподобни оценки:

G2= -2 ^ p sch Sht t ■ p w)

има асимптотично χ 2 -разпределение. Това се основава на стат. тестване на хипотезата за връзката.

Опит в обработката на данни с помощта на A.l. показа своята ефективност като метод за целенасочен анализ на многомерна таблица. конюгация, която съдържа (в случай на смислено разумен избор на променливи) огромно, в сравнение с двумерните таблици, количество информация, представляваща интерес за социолога. Методът ви позволява да опишете накратко тази таблица. (под формата на хипотеза за връзките) и в същото време да анализира подробно конц. връзка. Ал. обикновено се прилага на много етапи, под формата на диалог социолог-компютър. Така А.л. има значителна гъвкавост, предоставя възможност за формулиране на различни видове предположения за взаимоотношенията, за включване на опита на социолог в процедурата за анализ на официални данни.

Лит.: Uptop G.Анализ на таблицата. конюгация. М., 1982; Типология и класификация в социол. изследвания. М., 1982; Епископ Й.М.М. et ai. Дискретен многомерен анализ. N.Y., 1975; Агрести А.Въведение в категоричния анализ на данни. Ню Йорк, 1966 г.

А.А. Мирзоев

МНОГОВАРИАНТЕН СТАТИСТИЧЕСКИ АНАЛИЗ- сек. математическа статистика,посветен на математиката. методи, насочени към идентифициране на естеството и структурата на връзките между изследваните компоненти знак за многоизмерности предназначени за получаване на научна. и практически последици. Първоначалният масив от многомерни данни за провеждане на A.m.s. обикновено служат като резултати от измерване на компонентите на многомерен атрибут за всеки от обектите на изследваната популация, т.е. последователност от многовариантни наблюдения (вж наблюдение в статистиката).Многоизмерната характеристика най-често се интерпретира като многоизмерна led-


ранг случаен,и последователността на многовариантните наблюдения - като извадка от генералната съвкупност. В този случай изборът на метода за обработка на оригиналния стат. данните се произвеждат въз основа на определени предположения относно природата разпределителен законизследвана многоизмерна характеристика (вж. Разпределение на вероятностите).

1. А.М.С. многомерни разпределения и техните основни. характеристики обхваща ситуации, когато обработените наблюдения са от вероятностен характер, т.е. се тълкуват като образец от съгл. общото население. Към основното Целите на този подраздел включват; статистическа оценкаизследва многовариантни разпределения и техните основни. параметри; изследователски свойства на използвания стат. рейтинги; изследване на вероятностни разпределения за редица статистики, с помощта на които се конструират статистики. тестови критерии разл. хипотези за вероятностния характер на анализираните многовариантни данни (вж Тестване на статистически хипотези).

2. А.М.С. естеството и структурата на взаимовръзките на компонентите на изследваната многомерна характеристика комбинира концепциите и резултатите, присъщи на такива методи и модели като регресионен анализ, дисперсионен анализ, ковариационен анализ,факторен анализ, латентно-структурен анализ, loggery анализ, търсене на взаимодействия.Методите, принадлежащи към тази група, включват и двата алгоритъма, основният. въз основа на предположението за вероятностния характер на данните, както и методи, които не се вписват в рамките на к.-л. вероятностен модел (последните често се наричат ​​методи Анализ на данни).

3. А.М.С. геометричната структура на изследвания набор от многоизмерни наблюдения съчетава концепциите и резултатите, присъщи на такива модели и методи като дискриминантен анализ,клъстерен анализ (вж. Методи за класификация, скала). Nodal за тези модели yavl. концепцията за разстояние или мярка за близост между анализираните елементи като точки от някакъв вид

ПРИЧИННО-СЛЕДСТВЕН АНАЛИЗ


скитания. В този случай могат да бъдат анализирани както обекти (като точки, посочени в пространството на характеристиките), така и характеристики (като точки, посочени в пространството „обект“).

Приложена стойност A.m.s. се състои в осн в експлоатация следващ. три проблема: стат. изследване на зависимостите между разглежданите показатели; класификация на елементи (обекти) или характеристики; намаляване на размерите на разглежданото пространство на характеристиките и избор на най-информативните характеристики.

Лит.: Стат. методи на социологически анализ. информация. М., 1979; Типология и класификация в социол. изследвания. М., 1982; Интерпретация и анализ на данни в социол, изследвания. М., 1987; Айвазян С.А., Мхитарян В.С.Приложна статистика и основи на иконометрията: Proc. М., 1998; Сошникова Л.А.и др. Многоизмерна статистика. анализ в икономиката. М., 1999; Дубров A.M., Мхитарян V.S., Трошин L.I.Многоизмерна статистика. методи за икономисти и мениджъри. М., 2000; Ростовцев B.C., Ковалева T.D.Социологически анализ. данни с помощта на стат. SPSS пакет. Новосибирск, 2001; Тюрин Ю.Н., Макаров А.А.Анализ на данни на компютър. Й., 2003; Криш-тановски А. О.Социологически анализ. данни с помощта на пакета SPSS. М., 2006.

YUN. Толстова

ПРИЧИННО-СЛЕДСТВЕН АНАЛИЗ- методи за моделиране на причинно-следствени връзки между признаци с помощта на статистически системи. уравнения, най-често регресия (вж. регресионен анализ).Има и други имена за тази доста обширна и постоянно променяща се област от методи: анализ на пътя, както първо го нарече неговият основател С. Райт; методи на структурни иконометрични уравнения, както е прието в иконометрията и др. Осн. концепции на А.п. явл.: пътна (структурна, причинно-следствена) диаграма, каузален (пътен) коефициент, преки, непреки и въображаеми компоненти на връзката между знаците. Използва се в A.p. понятието "причинно-следствена връзка * не засяга сложните фи-


лос. проблеми, свързани с понятието "причинност". Определен коефициент на причинност. доста оперативен. Мат. Апаратът позволява да се провери наличието на преки и косвени причинно-следствени връзки между признаците, както и да се идентифицират тези компоненти на коефициентите на корелация (виж фиг. корелация), to-rye, свързани с преки, непреки и въображаеми връзки.

Диаграмата на пътя отразява графично хипотетично предполагаемите причинно-следствени, насочени връзки между характеристиките. Функционална система с еднопосочни връзки се нарича рекурсивна. Нерекурсивните причинно-следствени системи също вземат предвид обратната връзка, например две характеристики на една система могат да бъдат както причина, така и следствие една спрямо друга. Всички признаци се делят на признаци-последствия (зависими, ендогенни) и признаци-причини (независими, екзогенни). Въпреки това, в система от уравнения ендогенните характеристики на едно от уравненията могат да бъдат екзогенни характеристики на други уравнения. В случай на четири характеристики, рекурсивната диаграма на всички възможни връзкимежду характеристиките изглежда така:

х 2
/ н
*1 Да се
Ж
да се С

Изграждане на диаграма на връзките yavl. необходима предпоставка на математиката. формулиране на системата стат. уравнения, отразяващи влиянията, представени в диаграмата. Основен Ще илюстрираме принципите за конструиране на система от регресионни уравнения, използвайки същите четири характеристики като пример. По посока на стрелките, започвайки от хейнамерете първия ендогенен

АНАЛИЗ ПРИЧИННА


знак и отбележете онези признаци, които го засягат както пряко (директно), така и косвено (косвено) и чрез други знаци. Първото стандартизирано регресионно уравнение съответства на първата ендогенна черта Xjи изразява зависимост Χι от онези признаци, които му влияят, т.е. от Χγ. Така първото уравнение има формата: Χι = bi\X\.

След това разкриваме втория ендогенен знак, към който има насочени комуникации. Това е знак на Aj, съответства на екзогенни променливи Х\и Χι, следователно второто регресионно уравнение в стандартизирана форма се формулира, както следва: Aj = bcx\+ bpXgи т.н. Като се вземат предвид грешките при измерване Uсистемата от стандартизирани регресионни модели за нашата конкретна причинно-следствена диаграма е: X \ u003d Ui,НО? =

- b->\X\+ Ui, xt,= 631ΑΊ + от iXi+ Uy, Χα -

- baXi+ binXi+ J43A3 + SCH.За оценка на коефициентите b, s,трябва да се разреши. Решението съществува при условие, че данните отговарят на определен характер. статистика. изисквания. b$се наричат ​​причинни фактори и често се означават като RU.Че., R#показва тази част от промяната в вариацията на ендогенния признак;, която възниква, когато екзогенният признак се промени йза единица стандартно отклонение на тази характеристика, при условие че е изключено влиянието на другите характеристики на уравнението (вж. регресионен анализ).С други думи, P,y има директен ефект йвърху чертата г. Косвено въздействие на чертата й on;) се изчислява въз основа на отчитане на всички пътища на влияние йна азс изключение на директните.

В диаграмата прякото влияние на първата характеристика върху четвъртата е схематично представено с права стрелка, идваща директно от Χι да се xt,символично изобразен като 1->4; той е равен на коефициента на причинно-следствено влияние P, X 2,..., Х Р.Строго регресивната зависимост може да се дефинира по следния начин. начин.

Нека U X\, Xr,..., X p -случаен
количества с дадена фуга състезания
вероятности.
Ако за всеки
дълъг набор от стойности X λ \u003d x \, X 2= hg,...,
X p \u003d x pусловна математика. изчакайте
Дания Υ(χ\, X2,..., Xp) - E(Y/(X]= xj,
Χι = X2, ..., X p \u003d Xp)),след това функцията Υ(Χ],
х2,
..., Xp)наречена магнитудна регресия
ns Y по величина X\, Xr,..., x r,и тя
графика - регресионна линия Y от X\, Xr,
..., X p,
или регресионно уравнение. Зави
зависимост на Y от ΛΊ, hg....... X стрсе проявява в

промяна в средните стойности на Vpri от
промяна X\, Xr........ Chr.Въпреки че на всеки

фиксиран набор от стойности Х]- xj, xg = xg,» , Xp ~ Xpвеличината Τ остава случайна величина с определение. разсейване. За да разберете колко точно регресията оценява промяната в Y с промяна в ΑΊ, hg,..., x r,средната стойност на дисперсията Y се използва за различни набори от стойности X\, Xr,..., Xp(всъщност говорим за мярката за дисперсия на зависимата променлива около линията на регресия).

В практиката регресионната линия най-често се търси под формата на линейна функция Y = bx + biXi + bxxr+ - + bpXp(линейна регресия), по най-добрия начинприближаване на желаната крива. Това се прави с помощта на метода на най-малките квадрати, когато сумата от квадратите на отклоненията на действително наблюдаваното Y от техните Y оценки е сведена до минимум (което означава оценки, използващи права линия, която твърди, че представлява желаната регресионна зависимост): w

U (U -U) => мин (Ν - размер на извадката), s

Този подход се основава на добре известния факт, че сумата, която се появява в горния израз, приема мини-ним. стойност за случая, когато Y= Υ(χ\, xr, --, x R).Приложение