Tipos de dependencias estudiadas en el análisis estadístico multivariado. Análisis estadístico multivariado

Se describen los conceptos y métodos básicos del análisis estadístico. multidimensional resultados técnico experimentos. <...>Información teórica sobre propiedades multidimensional gaussiano distribuciones. <...>El resultado del experimento considerado en el manual es aleatorio vector distribuidos de acuerdo con la ley normal.<...>Multidimensional normal densidad A menudo, el resultado de un experimento es totalidad números que caracterizan algún objeto bajo estudio.<...>4 f x  Escribir como ξ  ~ ( DAKOTA DEL NORTE,)μ  tiene p-dimensional normal distribución. significa que vectorξ , ξ) toma varios significados, por lo que es razonable hablar de aleatorio vector 12 componente vector,ξ  componente,ξ  es ​​decir, EDE E   ξ= E E ξ ξ  = μ = ξ − μ ξ − μ ()()  ξp donde E es el signo de expectativa.<...>Sea η p pp   por soluciones μ= ν +B ;.   bD BD Bη ξ = ′ , (1.3) Matriz D de (1.2) es simétrico, definido positivo, por lo tanto, su representación es D CC′=Λ donde C es ortogonal matriz, compuesto de propio vectores matrices;D Λ – diagonal matriz Con propio númerosλ>i 0 matrices D a lo largo de la diagonal principal.<...> articulación densidad su componente,1,η=i ip, determinada a partir de la general normas(ver apéndice) es igual a 5 (1.4) ; lineal transformación,η  donde B es una matriz cuadrada de dimensiones  es ​​un vector aleatorio, de variaciones,.<...>Estimación de los parámetros de la distribución normal DAKOTA DEL NORTE . <...>La tarea principal de la matriz primaria μ=i n  covarianza . <...>A ln ∂ = (1.5) regulaciones diferenciación funcionales con respecto a argumentos vectoriales o matriciales (ver<...>Entonces σ = ξ −ξ ξ − ξ = ξ ξ −ξ ξ∑∑ ij nn ki i kj j kk Aquí kiξ es el i-ésimo componente vector promedio iμ i-th Componentes vector . <...> Calificaciones máximo credibilidad los coeficientes j / ρ=σ σ σ tienen la forma ij ,. ij ii jj ri j σ σσ  ≠ ii jj Demostración.<...>Estimación de la dependencia entre componentes normal vector Análisis detallado de enlaces<...>

MU_to_performing_course_work_"Multivariate_statistical_analysis".pdf

UDC 519.2 LBC 22.172 K27 Revisor V.Yu. Chuev Kartashov G.D., Timonin V.I., Budovskaya L.M. K27 Análisis estadístico multivariante: Pautas para la implementación del trabajo del curso. - M .: Editorial de MSTU im. NORDESTE. Bauman, 2007. - 48 p.: il. Se describen los conceptos básicos y métodos de análisis estadístico de resultados multidimensionales de experimentos técnicos. Se proporciona información teórica sobre las propiedades de las distribuciones gaussianas multidimensionales. Para estudiantes de último año de la Facultad de Ciencias Fundamentales. Illinois. 2. Bibliografía. 5 nombres UDC 519.2 LBC 22.172 © MSTU im. NORDESTE. Bauman, 2007

Página 2

TABLA DE CONTENIDO Introducción .................................................. .................................................................. ................... ..... 3 1. Distribución normal multivariante .................. .......................... 4 2. Inferencias estadísticas sobre el vector de medias .............. ...................... 17 3. Análisis discriminante .. ..................... ............................ .............. 23 4. Método de componentes principales .. ............................ ...................... ............ 27 5. Correlaciones canónicas ............... ............... .................................. 30 6. Análisis de regresión multivariado .......... .................................. .. 35 7. Análisis factorial ....... .......................................... ........... ....................... 40 Apéndice ......................... ...... ............................................ ..... .................................... 44 Referencias ....... ....................... ........................... .................................................. 46 47

Del prólogo del autor
Capítulo 1 Introducción
1.1. Distribución normal multivariada como modelo
1.2. revisión general métodos multidimensionales
Literatura
Capitulo 2
2.1. Introducción
2.2. Conceptos relacionados con las distribuciones multivariadas
2.3. Distribución normal multivariante
2.4. Distribución de una combinación lineal de cantidades normalmente distribuidas; independencia de cantidades; distribuciones privadas
2.5. Distribuciones Condicionales y Coeficiente de Correlación Múltiple
2.6. función característica; momentos
Literatura
Tareas
Capítulo 3 Estimación del vector medio y la matriz de covarianza
3.1. Introducción
3.2. Estimaciones de máxima verosimilitud para el vector medio y la matriz de covarianza
3.3. Muestra de distribución vectorial media; conclusión sobre la media cuando se conoce la matriz de covarianza
Literatura
Tareas
Capítulo 4. Distribuciones y uso de coeficientes de correlación muestral
4.1. Introducción
4.2. Coeficiente de correlación de muestra 2D
4.3. Coeficientes de correlación parcial
4.4. Coeficiente de correlación múltiple
Literatura
Tareas
Capítulo 5
5.1. Introducción
5.2. Estadísticas T2 generalizadas y su distribución
5.3. Aplicaciones de las estadísticas T2
5.4. Distribución de las estadísticas de T2 en presencia de hipótesis contrapuestas; función de poder
5.5. Algunas propiedades óptimas del criterio T2
5.6. Problema multidimensional de Behrens-Fischer
Literatura
Tareas
Capítulo 6
6.1. Problema de clasificación
6.2. Principios de clasificación correcta
6.3. Métodos para clasificar las observaciones en el caso de dos poblaciones con una distribución de probabilidad conocida
6.4. Clasificación de las observaciones en el caso de dos poblaciones con distribuciones normales multivariadas conocidas
6.5. Clasificación de las observaciones en el caso de dos poblaciones normales multivariadas cuyos parámetros se estiman a partir de una muestra
6.6. Clasificación de las observaciones en el caso de varias poblaciones
6.7. Clasificación de las observaciones en el caso de varias poblaciones normales multivariadas
6.8. Un ejemplo de clasificación en el caso de varias poblaciones normales multivariadas
Literatura
Tareas
Capítulo 7
7.1. Introducción
7.2. distribución de deseos
7.3. Algunas propiedades de la distribución Wishart
7.4. teorema de cochran
7.5. Varianza generalizada
7.6. Distribución del conjunto de coeficientes de correlación en el caso de una matriz de covarianza poblacional diagonal
Literatura
Tareas
Capítulo 8 Análisis de variación
8.1. Introducción
8.2. Estimaciones de parámetros para regresión lineal multivariable
8.3. Pruebas de razón de verosimilitud para probar hipótesis lineales sobre coeficientes de regresión
8.4. Momentos de la razón de verosimilitud en el caso cuando la hipótesis nula es verdadera
8.5. Algunas distribuciones de U
8.6. Expansión asintótica de la distribución de razón de verosimilitud
8.7. Pruebas de hipótesis de matrices de coeficientes de regresión y regiones de confianza
8.8. Comprobación de la hipótesis sobre la igualdad de las medias de las distribuciones normales con una matriz de covarianza común
8.9. Análisis de varianza generalizado
8.10. Otros criterios para probar la hipótesis lineal
8.11. Forma canónica
Literatura
Tareas
Capítulo 9
9.1. Introducción
9.2. Razón de verosimilitud como criterio para probar la hipótesis de independencia de conjuntos de variables aleatorias
9.3. Razón de verosimilitud momentos siempre que la hipótesis nula sea verdadera
9.4. Algunas distribuciones de razón de verosimilitud
9.5. Expansión asintótica de la distribución de h (razón de verosimilitud)
9.6. Ejemplo
9.7. Caso de dos conjuntos de variables aleatorias
Literatura
Tareas
Capítulo 10
10.1 Introducción
10.2 Criterios para contrastar hipótesis sobre la igualdad de varias matrices de covarianza
10.3. Criterios para probar la hipótesis de equivalencia de varias poblaciones normales
10.4. Momentos de razón de verosimilitud
10.5. Expansiones asintóticas de las funciones de distribución de las cantidades V1 y V
10.6. Caso de dos poblaciones
10.7. Probar la hipótesis de que la matriz de covarianza es proporcional a la matriz dada. Criterio de esfericidad
10.8. Probando la hipótesis de que la matriz de covarianza es igual a la matriz dada
10.9. Prueba de la hipótesis de que el vector medio y la matriz de covarianza son respectivamente iguales vector dado y matriz dada
Literatura
Tareas
Capítulo 11
11.1. Introducción
11.2. Determinación de los componentes principales de la población
11.3. Estimaciones de máxima verosimilitud para componentes principales y sus varianzas
11.4. Cálculo de estimaciones de máxima verosimilitud para los componentes principales
11.5. Ejemplo
Literatura
Tareas
Capítulo 12
12.1. Introducción
12.2. Correlaciones canónicas y valores de población canónica
12.3. Estimación de correlaciones canónicas y cantidades canónicas
12.4. Método de cálculo
12.5. Ejemplo
Literatura
Tareas
Capítulo 13
13.1. Introducción
13.2. Caso de dos matrices Wishart
13.3. el caso de uno matriz no degenerada Deseos
13.4. Correlaciones canónicas
Literatura
Tareas
capitulo 14
14.1. Introducción
14.2 Prueba de hipótesis sobre rango y evaluación de restricciones lineales sobre coeficientes de regresión. Correlaciones canónicas y cantidades canónicas
14.3. Distribución Wishart no central
14.4. Distribución de algunas raíces y vectores característicos según parámetros
14.5. Distribución asintótica de algunas raíces y vectores característicos
14.6. Componentes principales
14.7. Análisis factorial
14.8. Ecuaciones estocásticas
14.9. Análisis de series temporales
Literatura
Solicitud. teoría de la matriz
1. Definición de matrices. Acciones de matriz
2. Raíces y vectores característicos
3. Dividir vectores y matrices en bloques
4. Algunos resultados
5. Método de reducción de Doolittle y método de condensación de ejes para resolver sistemas ecuaciones lineales
Literatura
Índice de materias

Econometría

Análisis estadístico multivariado


En el análisis estadístico multivariado, una muestra consta de elementos de un espacio multivariado. De ahí el nombre de esta sección de métodos econométricos. De los muchos problemas del análisis estadístico multivariante, consideremos dos: recuperación de dependencia y clasificación.

Estimación de función predictiva lineal

Comencemos con el problema de la estimación puntual y de confianza de una función predictiva lineal de una variable.

Los datos iniciales son un conjunto de n pares de números (t k , x k), k = 1,2,…,n, donde t k es una variable independiente (por ejemplo, el tiempo) y x k es una variable dependiente (por ejemplo, índice de inflación, tipo de cambio del dólar estadounidense, producción mensual o el tamaño de los ingresos diarios del punto de venta). Se supone que las variables están relacionadas

x k = a (t k - t cf)+ b + e k , k = 1,2,…,n,

donde a y b son parámetros desconocidos para la estadística y sujetos a estimación, yek son errores que distorsionan la dependencia. Media aritmética de los puntos de tiempo

t cf \u003d (t 1 + t 2 + ... + t n) / norte

introducido en el modelo para facilitar los cálculos posteriores.

Normalmente, los parámetros ayb de la dependencia lineal se estiman utilizando el método de mínimos cuadrados. La relación reconstruida se usa luego para la predicción de puntos e intervalos.

Como saben, el método de los mínimos cuadrados fue desarrollado por el gran matemático alemán K. Gauss en 1794. Según este método, para calcular la mejor función que aproxime linealmente la dependencia de x en t, se debe considerar una función de dos variables


Las estimaciones por mínimos cuadrados son aquellos valores de a* y b* para los cuales la función f(a,b) alcanza un mínimo sobre todos los valores de los argumentos.

Para encontrar estas estimaciones, es necesario calcular las derivadas parciales de la función f(a,b) con respecto a los argumentos a y b, igualarlas a 0, luego encontrar las estimaciones a partir de las ecuaciones resultantes: Tenemos:

Transformemos las partes correctas de las relaciones obtenidas. Saquemos los factores comunes 2 y (-1) del signo de la suma. Entonces veamos los términos. Abramos los paréntesis en la primera expresión, obtenemos que cada término se divide en tres. En la segunda expresión, cada término es también la suma de tres. Entonces cada una de las sumas se divide en tres sumas. Tenemos:


Igualamos las derivadas parciales a 0. Entonces el factor (-2) se puede reducir en las ecuaciones resultantes. Porque el

(1)

las ecuaciones toman la forma

Por lo tanto, las estimaciones del método de mínimos cuadrados tienen la forma

(2)

Debido a la relación (1), la estimación a* se puede escribir de una forma más simétrica:

No es difícil transformar esta estimación en la forma

Por lo tanto, la función reconstruida, que puede usarse para predecir e interpolar, tiene la forma

x*(t) = a*(t - t cf) + b*.

Prestemos atención al hecho de que el uso de t cf en la última fórmula no limita en modo alguno su generalidad. Comparar con ver modelo

x k = c t k + d + e k , k = 1,2,…,n.

Está claro que

Las estimaciones de los parámetros están relacionadas de manera similar:

No es necesario referirse a ningún modelo probabilístico para obtener estimaciones de parámetros y una fórmula predictiva. Sin embargo, para estudiar los errores en las estimaciones de los parámetros y la función restaurada, es decir, construir intervalos de confianza para a*, b* yx*(t), se necesita un modelo similar.

Modelo probabilístico no paramétrico. Sean determinados los valores de la variable independiente t, y los errores e k , k = 1,2,…,n, sean variables aleatorias independientes idénticamente distribuidas con cero expectativa matemática y dispersión

estadísticas desconocidas.

En el futuro utilizaremos repetidamente el Teorema del Límite Central (TLC) de la teoría de probabilidades para las cantidades e k , k = 1,2,…,n (con pesos), por lo que para cumplir sus condiciones es necesario asumir, por ejemplo, que los errores e k , k = 1,2 ,…,n, son finitos o tienen un tercer momento absoluto finito. Sin embargo, no hay necesidad de centrarse en estas "condiciones de regularidad" intramatemáticas.

Distribuciones asintóticas de estimaciones de parámetros. De la fórmula (2) se sigue que

(5)

Según la CLT, la estimación b* tiene una distribución asintóticamente normal con expectativa b y varianza

que se evalúa a continuación.

De las fórmulas (2) y (5) se sigue que

El último término de la segunda relación desaparece cuando se suma sobre i, por lo que de las fórmulas (2-4) se sigue que

(6)

La fórmula (6) muestra que la estimación

es asintóticamente normal con media y varianza

Tenga en cuenta que la normalidad multidimensional existe cuando cada término en la fórmula (6) es pequeño en comparación con la suma total, es decir


De las fórmulas (5) y (6) y los supuestos iniciales sobre los errores, también se deduce la falta de sesgo de las estimaciones de los parámetros.

La ausencia de sesgo y la normalidad asintótica de las estimaciones de mínimos cuadrados facilitan la especificación de límites de confianza asintóticos para ellas (similares a los límites del capítulo anterior) y la prueba de hipótesis estadísticas, por ejemplo, sobre la igualdad a ciertos valores, principalmente 0. Dejamos al lector la oportunidad de escribir fórmulas para calcular los límites de confianza y formular reglas para probar las hipótesis mencionadas.

Distribución asintótica de la función pronóstica. De las fórmulas (5) y (6) se sigue que

aquellos. la estimación de la función pronóstica bajo consideración es imparcial. Es por eso

Al mismo tiempo, dado que los errores son independientes en el agregado y

, después

De este modo,

Introducción

Capítulo 1 Análisis de regresión múltiple

Capítulo 2. Análisis de conglomerados

Capítulo 3. Análisis factorial

Capítulo 4. Análisis discriminante

Bibliografía

Introducción

La información inicial en los estudios socioeconómicos suele presentarse como un conjunto de objetos, cada uno de los cuales se caracteriza por una serie de características (indicadores). Dado que el número de tales objetos y características puede llegar a decenas y cientos, y el análisis visual de estos datos es ineficaz, los problemas de reducción, concentración de los datos iniciales, revelación de la estructura y la relación entre ellos basada en la construcción de características generalizadas de surge un conjunto de rasgos y un conjunto de objetos. Estos problemas pueden resolverse mediante métodos de análisis estadístico multivariante.

El análisis estadístico multivariante es una sección de la estadística dedicada a los métodos matemáticos destinados a identificar la naturaleza y estructura de las relaciones entre los componentes de la investigación y destinados a obtener conclusiones científicas y prácticas.

La atención principal en el análisis estadístico multivariado se presta a los métodos matemáticos para construir planes óptimos para recolectar, sistematizar y procesar datos, destinados a identificar la naturaleza y estructura de las relaciones entre los componentes del atributo multivariado estudiado y diseñados para obtener conclusiones científicas y prácticas.

La matriz inicial de datos multidimensionales para realizar un análisis multivariado suele ser el resultado de medir los componentes de un atributo multidimensional para cada uno de los objetos de la población estudiada, es decir, una secuencia de observaciones multivariadas. La mayoría de las veces, un atributo multivariable se interpreta como , y una secuencia de observaciones como una muestra de la población general. En este caso, la elección del método de procesamiento de los datos estadísticos iniciales se realiza sobre la base de ciertos supuestos sobre la naturaleza de la ley de distribución del atributo multidimensional estudiado.

1. El análisis estadístico multivariado de distribuciones multivariadas y sus principales características cubre situaciones donde las observaciones procesadas son de naturaleza probabilística, es decir, interpretada como una muestra de la población general correspondiente. Las principales tareas de esta subsección incluyen: estimación estadística de las distribuciones multivariadas estudiadas y sus principales parámetros; estudio de las propiedades de las estimaciones estadísticas utilizadas; estudio de distribuciones de probabilidad para una serie de estadísticas, que se utilizan para construir criterios estadísticos para probar varias hipótesis sobre la naturaleza probabilística de los datos multivariados analizados.

2. El análisis estadístico multivariante de la naturaleza y estructura de las interrelaciones de los componentes del atributo multivariante estudiado combina los conceptos y resultados inherentes a métodos y modelos tales como análisis, análisis de varianza, análisis de covarianza, análisis factorial, etc. Los métodos que pertenecen a este grupo incluyen tanto algoritmos basados ​​en la suposición de la naturaleza probabilística de los datos, como métodos que no encajan en el marco de ningún modelo probabilístico (estos últimos se denominan a menudo métodos).

3. El análisis estadístico multidimensional de la estructura geométrica del conjunto estudiado de observaciones multivariadas combina los conceptos y resultados inherentes a modelos y métodos como el análisis discriminante, el análisis de conglomerados, el escalado multidimensional. Nodal para estos modelos es el concepto de distancia, o medida de proximidad entre los elementos analizados como puntos de algún espacio. En este caso, se pueden analizar tanto los objetos (como puntos especificados en el espacio de características) como las características (como puntos especificados en el espacio de objetos).

El valor aplicado del análisis estadístico multivariante consiste principalmente en resolver los siguientes tres problemas:

la tarea de estudio estadístico de las dependencias entre los indicadores considerados;

la tarea de clasificar elementos (objetos o características);

· la tarea de reducir la dimensión del espacio de características bajo consideración y seleccionar las características más informativas.

El análisis de regresión múltiple está diseñado para construir un modelo que permita obtener los valores de las variables independientes para obtener estimaciones de los valores de la variable dependiente.

Regresión logística para resolver el problema de clasificación. Este es un tipo de regresión múltiple, cuyo propósito es analizar la relación entre varias variables independientes y una variable dependiente.

El análisis factorial se ocupa de la determinación de un número relativamente pequeño de factores ocultos (latentes), cuya variabilidad explica la variabilidad de todos los indicadores observados. El análisis factorial tiene como objetivo reducir la dimensión del problema bajo consideración.

Los análisis de conglomerados y discriminantes están diseñados para dividir colecciones de objetos en clases, cada una de las cuales debe incluir objetos que sean homogéneos o cercanos en cierto sentido. En el análisis de conglomerados, no se sabe de antemano cuántos grupos de objetos resultarán y qué tamaño tendrán. El análisis discriminante divide los objetos en clases preexistentes.

Capítulo 1 Análisis de regresión múltiple

Tarea: Investigación del mercado inmobiliario en Orel (regiones soviética y del norte).

La tabla muestra datos sobre el precio de los apartamentos en Orel y sobre varios factores que lo determinan:

· área total;

La zona de la cocina

· espacio vital;

tipo de casa

el número de habitaciones. (Figura 1)

Arroz. 1 Datos iniciales

En la columna "Región" se utilizan las designaciones:

3 - Soviética (élite, pertenece a las regiones centrales);

4 - Norte.

En la columna "Tipo de casa":

1 - ladrillo;

0 - tablero.

Requerido:

1. Analizar la relación de todos los factores con el indicador "Precio" y entre ellos. Seleccionar los factores más adecuados para construir un modelo de regresión;

2. Construir una variable ficticia que refleje la pertenencia del departamento a las zonas centrales y periféricas de la ciudad;

3. Cree un modelo de regresión lineal para todos los factores, incluida una variable ficticia. Explique el significado económico de los parámetros de la ecuación. Evaluar la calidad del modelo, la significación estadística de la ecuación y sus parámetros;

4. Distribuir los factores (excepto la variable ficticia) según el grado de influencia sobre el indicador “Precio”;

5. Construya un modelo de regresión lineal para los factores más influyentes, dejando una variable ficticia en la ecuación. Evaluar la calidad y significación estadística de la ecuación y sus parámetros;

6. Justificar la conveniencia o inconveniencia de incluir una variable ficticia en la ecuación de los numerales 3 y 5;

7. Estimar estimaciones de intervalo de los parámetros de la ecuación con una probabilidad del 95%;

8. Determine cuánto costará un apartamento con un área total de 74,5 m² en un área de élite (periférica).

Actuación:

1. Después de analizar la relación de todos los factores con el indicador “Precio” y entre ellos, se seleccionaron los factores más adecuados para construir un modelo de regresión utilizando el método de inclusión “Adelante”:

A) el área total;

C) el número de habitaciones.

Variables incluidas/excluidas(a)

a Variable dependiente: Precio

2. La variable X4 "Región" es una variable ficticia, ya que tiene 2 valores: 3-perteneciente a la región central "Soviet", 4- a la región periférica "Severny".

3. Construyamos un modelo de regresión lineal para todos los factores (incluida la variable ficticia X4).

Modelo recibido:

Evaluación de la calidad del modelo.

Error estándar = 126,477

Relación de Durbin-Watson = 2.136

Comprobación de la importancia de la ecuación de regresión

Valor de la prueba F-Fisher = 41,687

4. Construyamos un modelo de regresión lineal con todos los factores (excepto la variable ficticia X4)

Según el grado de influencia en el indicador “Precio”, se distribuyeron:

El factor más significativo es el área total (F= 40.806)

El segundo factor más importante es el número de habitaciones (F= 29.313)

5. Variables incluidas/excluidas

a Variable dependiente: Precio

6. Construyamos un modelo de regresión lineal para los factores más influyentes con una variable ficticia, en nuestro caso es uno de los factores influyentes.

Modelo recibido:

Y \u003d 348.349 + 35.788 X1 -217.075 X4 +305.687 X7

Evaluación de la calidad del modelo.

Coeficiente de determinación R2 = 0,807

Muestra la proporción de variación del carácter resultante bajo la influencia de los factores estudiados. En consecuencia, se tiene en cuenta alrededor del 89% de la variación de la variable dependiente y debido a la influencia de los factores incluidos en el modelo.

Coeficiente de correlación múltiple R = 0,898

Muestra la cercanía de la relación entre la variable dependiente Y con todos los factores explicativos incluidos en el modelo.

Error estándar = 126,477

Relación de Durbin-Watson = 2.136

Comprobación de la importancia de la ecuación de regresión

Valor de la prueba F-Fisher = 41,687

La ecuación de regresión debe reconocerse como adecuada, el modelo se considera significativo.

El factor más significativo es el número de habitaciones (F=41.687)

El segundo factor más importante es el área total (F= 40.806)

El tercer factor más importante es la región (F= 32.288)

7. La variable ficticia X4 es un factor significativo, por lo que es recomendable incluirla en la ecuación.

Las estimaciones de intervalo de los parámetros de la ecuación muestran los resultados de la previsión mediante el modelo de regresión.

Con una probabilidad del 95%, el volumen de ventas en el mes previsto será de 540.765 a 1080.147 millones de rublos.

8. Determinación del costo de un apartamento en un área de élite.

Para 1 habitación U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 1

Para 2 habitaciones U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 2

Para 3 habitaciones U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 3

en el periférico

Para 1 habitación U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 1

Para 2 habitaciones U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 2

Para 3 habitaciones U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 3

Capítulo 2. Análisis de conglomerados

Encargo: Estudio de la estructura de los gastos y ahorros monetarios de la población.

El cuadro muestra la estructura de los gastos y ahorros en efectivo de la población por regiones del Distrito Federal Central Federación Rusa en 2003 Para los siguientes indicadores:

PTIOU - compra de bienes y pago de servicios;

· OPiV - pagos y contribuciones obligatorias;

PN - compra de bienes inmuebles;

· PFA - aumento de los activos financieros;

· DR - aumento (disminución) de dinero en manos de la población.

Arroz. 8 Datos iniciales

Requerido:

1) determinar el número óptimo de conglomerados para dividir regiones en grupos homogéneos según todas las características de agrupación simultáneamente;

2) realizar la clasificación de áreas por un método jerárquico con un algoritmo de relaciones intergrupales y visualizar los resultados en forma de dendograma;

3) analizar las principales prioridades de gasto y ahorro en efectivo en los clusters resultantes;

Actuación:

1) Determinar el número óptimo de conglomerados para dividir regiones en grupos homogéneos según todas las características de agrupación simultáneamente;

Para determinar el número óptimo de conglomerados, debe utilizar el análisis de conglomerados jerárquico y consultar la tabla "Pasos de aglomeración" en la columna "Coeficientes".

Estos coeficientes implican la distancia entre dos clústeres, determinada sobre la base de la medida de distancia seleccionada (distancia euclidiana). En la etapa en que la medida de la distancia entre dos grupos aumenta abruptamente, se debe detener el proceso de fusión en nuevos grupos.

Como resultado, se considera que el número óptimo de conglomerados es igual a la diferencia entre el número de observaciones (17) y el número de pasos (14), después de lo cual el coeficiente aumenta abruptamente. Por lo tanto, el número óptimo de conglomerados es 3. (Fig. 9)

clúster de análisis matemático estadístico

Arroz. 9 Tabla “Pasos de sinterización”

2) Realizar la clasificación de áreas por un método jerárquico con un algoritmo de relaciones intergrupales y visualizar los resultados en forma de dendograma;

Ahora, usando el número óptimo de conglomerados, clasificamos las áreas usando un método jerárquico. Y en la salida pasamos a la tabla "Perteneciente a clústeres". (Fig.10)

Arroz. 10 Cuadro “Perteneciente a conglomerados”

en la fig. 10 muestra claramente que el grupo 3 incluye 2 regiones (Kaluga, Moscú) y Moscú, el grupo 2 incluye dos regiones (Bryansk, Voronezh, Ivanovo, Lipetsk, Oryol, Ryazan, Smolensk, Tambov, Tver), el grupo 1: Belgorod, Vladimir, Kostroma , Kursk, Tula, Yaroslavl.

Arroz. 11 Dendograma

3) analizar las principales prioridades de gasto y ahorro en efectivo en los clusters resultantes;

Para analizar los grupos resultantes, necesitamos realizar una "Comparación de promedios". La ventana de salida muestra la siguiente tabla (Fig. 12)

Arroz. 12 Valores medios de las variables

En la tabla "Valores promedio" podemos rastrear qué estructuras tienen la mayor prioridad en la distribución de los gastos y ahorros en efectivo de la población.

En primer lugar, cabe señalar que la mayor prioridad en todas las áreas se da a la compra de bienes y pago de servicios. El parámetro toma un valor mayor en el tercer grupo.

El segundo lugar lo ocupa el crecimiento de los activos financieros. valor más alto en 1 racimo.

El coeficiente más pequeño en los grupos 1 y 2 es para "adquisición de bienes inmuebles", y en el grupo 3 se reveló una disminución notable del dinero en manos de la población.

En general, la compra de bienes y servicios y la compra insignificante de bienes inmuebles son de particular importancia para la población.

4) comparar la clasificación resultante con los resultados de aplicar el algoritmo de relación intragrupo.

En el análisis de las relaciones intergrupales, la situación prácticamente no cambió, con la excepción de la región de Tambov, que cayó en 1 de 2 grupos (Fig. 13).

Arroz. 13 Análisis de las relaciones intragrupales

No hubo cambios en la tabla "Promedios".

Capítulo 3. Análisis factorial

Tarea: Análisis de las actividades de las empresas. industria de la luz.

Los datos de la encuesta están disponibles para 20 empresas de la industria ligera (Fig. 14) de acuerdo con las siguientes características:

X1 - el nivel de productividad del capital;

X2 – intensidad de trabajo de una unidad de producción;

X3 - la participación de los materiales de adquisición en los costos totales;

X4 – factor de desplazamiento del equipo;

X5 - bonos y remuneración por empleado;

X6 - la proporción de pérdidas del matrimonio;

X7 - costo promedio anual de los activos fijos de producción;

X8 - el fondo de salario medio anual;

X9 - el nivel de comerciabilidad de los productos;

· X10 – índice de activos permanentes (relación de activos fijos y otros activos no corrientes a fondos propios);

X11 - rotación del capital de trabajo;

X12 - costos de no producción.

Fig.14 Datos iniciales

Requerido:

1. realizar un análisis factorial de las siguientes variables: 1,3,5-7, 9, 11,12, identificar e interpretar las características de los factores;

2. indicar las empresas más prósperas y prometedoras.

Actuación:

1. Realizar un análisis factorial de las siguientes variables: 1,3,5-7, 9, 11,12, identificar e interpretar las características de los factores.

El análisis factorial es un conjunto de métodos que, sobre la base de las relaciones de la vida real de los objetos (características), hacen posible identificar las características generalizadoras latentes (implícitas) de la estructura organizacional.

En el cuadro de diálogo análisis factorial seleccione nuestras variables, especifique los parámetros necesarios.

Arroz. 15 Varianza explicada total

Según la tabla de "Varianza total explicada" se puede observar que se han identificado 3 factores que explican el 74,8% de las variaciones de las variables - el modelo construido es bastante bueno.

Ahora interpretamos los signos de los factores según la "Matriz de Componentes Rotados": (Fig.16).

Arroz. 16 Matriz de componentes rotados

El factor 1 está más estrechamente relacionado con el nivel de ventas del producto y tiene una relación inversa con los costos que no son de producción.

El factor 2 está más estrechamente relacionado con la participación de los materiales de adquisición en los costos totales y la participación de las pérdidas por matrimonio y tiene una relación inversa con las bonificaciones y la remuneración por empleado.

El factor 3 está más estrechamente relacionado con el nivel de productividad del capital y la rotación del capital de trabajo y tiene una relación inversa con el costo promedio anual de los activos fijos.

2. Indicar las empresas más prósperas y prometedoras.

Para identificar las empresas más prósperas, ordenaremos los datos según criterios de 3 factores en orden descendente. (Fig. 17)

Se deben considerar las empresas más prósperas: 13,4,5, ya que en general, según 3 factores, sus indicadores ocupan las posiciones más altas y estables.

Capítulo 4. Análisis discriminante

Evaluación de la solvencia de las personas jurídicas en un banco comercial

El banco seleccionó seis indicadores como indicadores significativos que caracterizan la condición financiera de las organizaciones prestatarias (Tabla 4.1.1):

QR (X1) - índice de liquidez rápida;

CR (X2) - índice de liquidez actual;

EQ/TA (X3) - índice de independencia financiera;

TD/EQ (X4) - pasivos totales al capital social;

ROS (X5) - rentabilidad de las ventas;

FAT (X6) - rotación de activos fijos.

Tabla 4.1.1. Datos iniciales


Requerido:

Con base en el análisis discriminante utilizando el paquete SPSS, determine a cuál de las cuatro categorías pertenecen tres prestatarios ( entidades legales) que deseen obtener un préstamo de un banco comercial:

§ Grupo 1 - con excelente desempeño financiero;

§ Grupo 2 - con buen desempeño financiero;

§ Grupo 3 - con mal desempeño financiero;

§ Grupo 4 - con muy mal desempeño financiero.

Con base en los resultados del cálculo, construya funciones discriminantes; evaluar su significado por el coeficiente de Wilks (λ). Construya un mapa de percepción y diagramas de las posiciones relativas de las observaciones en el espacio de tres funciones. Realizar la interpretación de los resultados del análisis.

Progreso:

Para determinar a cuál de las cuatro categorías pertenecen tres prestatarios que desean obtener un préstamo de un banco comercial, construimos un análisis discriminante que nos permite determinar a cuál de las poblaciones previamente identificadas (muestras de entrenamiento) se deben asignar nuevos clientes. .

Como variable dependiente, elegiremos un grupo al que puede pertenecer el prestatario, en función de su desempeño financiero. A partir de los datos de la tarea, a cada grupo se le asigna una puntuación correspondiente de 1, 2, 3 y 4.

Los coeficientes canónicos no normalizados de las funciones discriminantes que se muestran en las Figs. 4.1.1 se utilizan para construir la ecuación de las funciones discriminantes D1(X), D2(X) y D3(X):

3.) D3(X) =


1

(Constante)

Arroz. 4.1.1. Coeficientes de la función discriminante canónica

Arroz. 4.1.2. lambda-wilks

Sin embargo, dado que la significación por el coeficiente de Wilks (Fig. 4.1.2) de la segunda y tercera funciones es superior a 0,001, no es recomendable utilizarlas para la discriminación.

Los datos de la tabla "Resultados de clasificación" (Fig. 4.1.3) indican que para el 100% de las observaciones la clasificación se realizó correctamente, se logró una alta precisión en los cuatro grupos (100%).

Arroz. 4.1.3. Resultados de clasificación

La información sobre los grupos reales y previstos para cada prestatario se proporciona en la tabla "Estadísticas de puntos" (Fig. 4.1.4).

Como resultado del análisis discriminante, se determinó con alta probabilidad que los nuevos prestatarios del banco pertenecen al subconjunto de formación M1: el primer, segundo y tercer prestatario (números de serie 41, 42, 43) se asignan al subconjunto M1 con las probabilidades correspondientes del 100%.

Número de observación

grupo real

Grupo más probable

grupo previsto

desagrupado

desagrupado

desagrupado

Arroz. 4.1.4. Estadísticas de puntos

Las coordenadas de los centroides por grupos se dan en la tabla "Funciones en centroides de grupo" (Fig. 4.1.5). Se utilizan para trazar centroides en un mapa de percepción (Figura 4.1.6).

1

Arroz. 4.1.5. Funciones en centroides de grupo

Arroz. 4.1.6. Mapa de percepción para dos funciones discriminantes D1(X) y D2(X) (* - centroide de grupo)

El campo del "Mapa territorial" está dividido por funciones discriminantes en cuatro áreas: en el lado izquierdo hay principalmente observaciones del cuarto grupo de prestatarios con muy mal desempeño financiero, en el lado derecho, el primer grupo con excelente desempeño financiero, en las partes media e inferior: el tercer y segundo grupo de prestatarios con mal y buen desempeño financiero, respectivamente.

Arroz. 4.1.7. Diagrama de dispersión para todos los grupos

En la fig. 4.1.7 muestra el calendario combinado para la distribución de todos los grupos de prestatarios junto con sus centroides; puede usarse para realizar un análisis visual comparativo de la naturaleza de la posición relativa de grupos de prestatarios bancarios en términos de indicadores financieros. En el lado derecho del gráfico están los prestatarios con un rendimiento alto, a la izquierda, con un rendimiento financiero bajo y en el medio, con un rendimiento financiero promedio. Dado que, según los resultados del cálculo, la segunda función discriminante D2(X) resultó ser insignificante, las diferencias en las coordenadas del centroide a lo largo de este eje son insignificantes.

Evaluación de la solvencia de las personas en un banco comercial

El departamento de crédito de un banco comercial realizó una encuesta por muestreo de 30 de sus clientes (individuos). Con base en un análisis preliminar de los datos, los prestatarios fueron evaluados de acuerdo con seis indicadores (Tabla 4.2.1):

X1 - el prestatario tomó un préstamo en bancos comerciales previamente;

X2 es el ingreso mensual promedio de la familia del prestatario, mil rublos;

X3 - plazo (período) de reembolso del préstamo, años;

X4 - el monto del préstamo emitido, mil rublos;

X5 - composición de la familia del prestatario, personas;

X6 - edad del prestatario, años.

A su vez, se identificaron tres grupos de prestatarios según la probabilidad de repago del préstamo:

§ Grupo 1 - con baja probabilidad de reembolso del préstamo;

§ Grupo 2 - con probabilidad media de reembolso del préstamo;

§ Grupo 3 - con alta probabilidad de reembolso del préstamo.

Requerido:

Con base en el análisis discriminante utilizando el paquete SPSS, es necesario clasificar tres clientes bancarios (según la probabilidad de reembolso del préstamo), es decir, evaluar si cada uno de ellos pertenece a uno de los tres grupos. Con base en los resultados del cálculo, construya funciones discriminantes significativas, evalúe su importancia por el coeficiente de Wilks (λ). En el espacio de dos funciones discriminantes para cada grupo, construya diagramas del arreglo mutuo de observaciones y un diagrama combinado. Evalúe la ubicación de cada prestatario en estos gráficos. Realizar la interpretación de los resultados del análisis.

Tabla 4.2.1. Datos iniciales

Progreso:

Para construir un análisis discriminante, elegimos la probabilidad de pago oportuno de un préstamo por parte de un cliente como variable dependiente. Dado que puede ser bajo, medio y alto, a cada categoría se le asignará una puntuación correspondiente de 1,2 y 3.

Los coeficientes canónicos no normalizados de las funciones discriminantes que se muestran en las Figs. 4.2.1 se utilizan para construir la ecuación de las funciones discriminantes D1(X), D2(X):

2.) D2(X) =

Arroz. 4.2.1. Coeficientes de la función discriminante canónica

Arroz. 4.2.2. lambda-wilks

Según el coeficiente de Wilks (Fig. 4.2.2) para la segunda función, la significación es superior a 0,001, por lo que no es recomendable utilizarlo para discriminación.

Los datos de la tabla "Resultados de clasificación" (Fig. 4.2.3) indican que para el 93,3% de las observaciones la clasificación se realizó correctamente, se logró una alta precisión en el primer y segundo grupo (100% y 91,7%), menos precisa se obtuvieron resultados en el tercer grupo (88,9%).

Arroz. 4.2.3. Resultados de clasificación

La información sobre los grupos reales y previstos para cada cliente se proporciona en la tabla "Estadísticas de puntos" (Fig. 4.2.4).

Como resultado del análisis discriminante, se determinó con alta probabilidad que los nuevos clientes del banco pertenecen al subconjunto de formación M3 - el primer, segundo y tercer cliente (números de serie 31, 32, 33) se asignan al subconjunto M3 con las probabilidades correspondientes de 99%, 99% y 100%.

Número de observación

grupo real

Grupo más probable

grupo previsto

desagrupado

desagrupado

desagrupado

Arroz. 4.2.4. Estadísticas de puntos

Probabilidad de reembolso del préstamo

Arroz. 4.2.5. Funciones en centroides de grupo

Las coordenadas de los centroides por grupos se dan en la tabla "Funciones en centroides de grupo" (Fig. 4.2.5). Se utilizan para trazar centroides en un mapa de percepción (Figura 4.2.6).

El campo "Mapa territorial" está dividido por funciones discriminantes en tres áreas: en el lado izquierdo hay principalmente observaciones del primer grupo de clientes con muy baja probabilidad de pagar el préstamo, en el lado derecho - el tercer grupo con alta probabilidad , en el medio: el segundo grupo de clientes con una probabilidad promedio de pagar el préstamo, respectivamente. .

En la fig. 4.2.7 (a - c) refleja la ubicación de los clientes de cada uno de los tres grupos en el plano de dos funciones discriminantes D1(X) y D2(X). Con base en estos gráficos, es posible realizar un análisis detallado de la probabilidad de pagar un préstamo dentro de cada grupo, juzgar la naturaleza de la distribución de clientes y evaluar el grado de su lejanía del centroide correspondiente.

Arroz. 4.2.6. Mapa de percepción para tres funciones discriminantes D1(X) y D2(X) (* - centroide de grupo)

También en la fig. 4.2.7 (d) en el mismo sistema de coordenadas, se muestra el gráfico combinado de la distribución de todos los grupos de clientes junto con sus centroides; se puede utilizar para realizar un análisis visual comparativo de la naturaleza de la posición relativa de grupos de clientes bancarios con diferentes probabilidades de reembolso del préstamo. En el lado izquierdo del gráfico están los prestatarios con una alta probabilidad de pagar el préstamo, a la derecha, con una probabilidad baja, y en la parte central, con una probabilidad promedio. Dado que, según los resultados del cálculo, la segunda función discriminante D2(X) resultó ser insignificante, las diferencias en las coordenadas del centroide a lo largo de este eje son insignificantes.

Arroz. 4.2.7. Ubicación de las observaciones en el plano de dos funciones discriminantes para grupos con baja (a), media (b), alta (c) probabilidad de reembolso del préstamo y para todos los grupos (d)

Bibliografía

1. “Análisis estadístico multivariante en problemas económicos. Modelado por computadora en SPSS”, 2009

2. IA de Orlov "Estadística aplicada" M.: Editorial "Examen", 2004

3. Fisher R. A. "Métodos estadísticos para investigadores", 1954

4. Kalinina V.N., Soloviev V.I. Libro de texto "Introducción al análisis estadístico multivariante" SUM, 2003;

5. Achim Buyul, Peter Zöfel, SPSS: El arte del procesamiento de la información, DiaSoft Publishing, 2005;

6. http://es.wikipedia.org/wiki


tabla de muestra máxima conjugación, estimaciones plausibles:

G2= -2 ^ p sch Sht t ■ p w)

tiene una distribución asintótica de χ 2 . Esto se basa en estadísticas. probar la hipótesis de la relación.

Experiencia en procesamiento de datos utilizando A.l. mostró su eficacia como método de análisis dirigido de la tabla multidimensional. conjugación, que contiene (en el caso de una elección significativamente razonable de variables) una enorme, en comparación con las tablas bidimensionales, la cantidad de información de interés para el sociólogo. El método le permite describir sucintamente esta tabla. (en forma de hipótesis sobre las conexiones) y al mismo tiempo analizar en detalle conc. relación. Alabama. se suele aplicar en muchas etapas, en forma de diálogo sociólogo-computadora. Así, A.l. tiene una flexibilidad considerable, brinda la oportunidad de formular varios tipos de suposiciones sobre las relaciones, para incluir la experiencia de un sociólogo en el procedimiento de análisis de datos formales.

Iluminado.: Arriba G. Análisis de la tabla. conjugación M., 1982; Tipología y clasificación en sociol. investigar. M., 1982; Obispo Y.M.M. et ai. Análisis multivariado discreto. Nueva York, 1975; Agresti A. Una introducción al análisis de datos categóricos. Nueva York, 1966.

AUTOMÓVIL CLUB BRITÁNICO. Mirzoev

ANÁLISIS ESTADÍSTICO MULTIVARIANTE- seg. estadísticas matemáticas, dedicado a las matemáticas. métodos destinados a identificar la naturaleza y la estructura de las relaciones entre los componentes del estudio signo de multidimensional y destinado a recibir científica. e implicaciones prácticas. La matriz inicial de datos multidimensionales para realizar A.m.s. suelen servir como resultado de medir los componentes de un atributo multidimensional para cada uno de los objetos de la población estudiada, es decir una secuencia de observaciones multivariadas (ver observación en estadística). Una característica multidimensional se interpreta con mayor frecuencia como una característica multidimensional. dirigió-


clasificar al azar, y la secuencia de observaciones multivariadas, como una muestra de la población general. En este caso, la elección del método de procesamiento de la estadística original. los datos se producen sobre la base de ciertas suposiciones con respecto a la naturaleza ley de distribucion característica multidimensional estudiada (ver. Distribución de probabilidad).

1. A.m.s. Distribuciones multivariadas y sus principales. características cubre situaciones en las que las observaciones procesadas son de naturaleza probabilística, es decir, se interpretan como una muestra de acc. la población en general. a la principal Los objetivos de esta subsección incluyen; estimación estadística investigó las distribuciones multivariadas y sus principales. parámetros; propiedades de investigación de la estadística utilizada. calificaciones; estudio de distribuciones de probabilidad para una serie de estadísticas, con la ayuda de las cuales se construyen estadísticas. diferencia de criterios de prueba hipótesis sobre la naturaleza probabilística de los datos multivariados analizados (ver Prueba de hipótesis estadísticas).

2. A.m.s. la naturaleza y estructura de las interrelaciones de los componentes de la característica multidimensional bajo estudio combina los conceptos y resultados inherentes a tales métodos y modelos como análisis de regresión, análisis de dispersión, análisis de covarianza, análisis factorial, análisis latente-estructural, análisis de logología, búsqueda de interacciones. Los métodos que pertenecen a este grupo incluyen ambos algoritmos, main. basado en la suposición de la naturaleza probabilística de los datos, así como métodos que no encajan en el marco de k.-l. modelo probabilístico (estos últimos a menudo se denominan métodos análisis de los datos).

3. A.m.s. la estructura geométrica del conjunto estudiado de observaciones multidimensionales combina los conceptos y resultados inherentes a modelos y métodos tales como análisis discriminante, análisis de conglomerados (ver. Métodos de clasificación, Escala). Nodal para estos modelos yavl. el concepto de una distancia o una medida de proximidad entre los elementos analizados como puntos de algún tipo de

ANÁLISIS CAUSAL


andanzas. En este caso, se pueden analizar tanto los objetos (como puntos especificados en el espacio de características) como las características (como puntos especificados en el espacio de “objetos”).

Valor aplicado A.m.s. consiste en lo principal en servicio a continuación. tres problemas: stat. estudio de dependencias entre los indicadores considerados; clasificación de elementos (objetos) o características; reduciendo la dimensión del espacio de características bajo consideración y seleccionando las características más informativas.

Lit.: Stat. métodos de análisis sociológico. información. M., 1979; Tipología y clasificación en sociol. investigar. M., 1982; Interpretación y análisis de datos en sociología, investigación. M., 1987; Ayvazyan S.A., Mkhitaryan V.S. Estadística aplicada y fundamentos de econometría: Proc. M., 1998; Soshnikova L.A. etc. Estadística multidimensional. análisis en economía. M., 1999; Dubrov AM, Mkhitaryan VS, Troshin L.I. Estadística multidimensional. métodos para economistas y gerentes. M., 2000; Rostovtsev BC, Kovaleva T.D. Análisis sociológico. datos usando stat. paquete SPSS. Novosibirsk, 2001; Tyurin Yu.N., Makarov A.A. Análisis de datos en una computadora. y, 2003; Krysh-tanovsky A. O. Análisis sociológico. datos con el paquete SPSS. M, 2006.

YUN. Tolstova

ANÁLISIS CAUSAL- métodos para modelar relaciones causales entre características utilizando sistemas estadísticos. ecuaciones, más a menudo regresión (ver. análisis de regresión). Hay otros nombres para este campo de métodos bastante extenso y en constante cambio: análisis de ruta, como lo llamó por primera vez su fundador S. Wright; métodos de ecuaciones econométricas estructurales, como es habitual en econometría, etc. Osn. conceptos de A.p. yavl.: diagrama de camino (estructural, causal), coeficiente causal (camino), componentes directos, indirectos e imaginarios de la conexión entre signos. Usado en A.p. el concepto de "relación causal* no afecta fi-


los. problemas asociados con el concepto de "causalidad". Coeficiente causal determinado. bastante operativo. Estera. El aparato permite comprobar la presencia de relaciones causales directas e indirectas entre los signos, así como identificar aquellos componentes de los coeficientes de correlación (ver Fig. Correlación), a-centeno asociado con conexiones directas, indirectas e imaginarias.

El diagrama de ruta refleja gráficamente las relaciones causales y dirigidas hipotéticamente asumidas entre las características. Un sistema de características con enlaces unidireccionales se llama recursivo. Los sistemas causales no recursivos también tienen en cuenta las retroalimentaciones, por ejemplo, dos características de un sistema pueden ser tanto una causa como un efecto entre sí. Todos los signos se dividen en signos-consecuencias (dependientes, endógenos) y signos-causas (independientes, exógenos). Sin embargo, en un sistema de ecuaciones, las características endógenas de una de las ecuaciones pueden ser características exógenas de otras ecuaciones. En el caso de cuatro características, el diagrama recursivo de todas posibles conexiones entre características se parece a:

x2
/ norte
*1 A
GRAMO
a S

Construyendo un diagrama de conexiones yavl. una premisa necesaria de las matemáticas. formulación del sistema stat. ecuaciones que reflejan las influencias presentadas en el diagrama. Principal Ilustraremos los principios de construcción de un sistema de ecuaciones de regresión usando las mismas cuatro características como ejemplo. Yendo en la dirección de las flechas, comenzando desde jeje encontrar la primera endógena

ANÁLISIS CAUSAL


un signo y anotar aquellos signos que lo afectan tanto directa (directamente) como indirectamente (indirectamente) y a través de otros signos. La primera ecuación de regresión estandarizada corresponde al primer rasgo endógeno xj y expresa dependencia Χι de aquellos signos que le afectan, i.e. de Χγ. Así, la primera ecuación tiene la forma: Χι = bi\X\.

Luego revelamos el segundo signo endógeno, to-ry tiene comunicaciones dirigidas a él. Este es un signo de Aj, corresponde a variables exógenas X\ y Χι, por lo tanto, la segunda ecuación de regresión en forma estandarizada se formula de la siguiente manera: Aj = bcx\+ bpXg etc. Teniendo en cuenta los errores de medición tu el sistema de modelos de regresión estandarizados para nuestro diagrama causal particular es: X\ \u003dUy,¿PERO? =

- b->\X\+ interfaz de usuario, xt,= 631ΑΊ + poriXi+ Uy, Χα -

- baxi+ binXi+ J43A3 + SCH. Para evaluar los coeficientes b, s, necesita ser resuelto. La decisión existe bajo la condición de que los datos satisfagan una determinada naturaleza. estadística requisitos b$ se denominan factores causales y a menudo se denotan como RU. Que., R# muestra que la proporción del cambio en la variación del rasgo endógeno, que ocurre cuando cambia el rasgo exógeno j por unidad de desviación estándar de esta característica, siempre que se excluya la influencia de las otras características de la ecuación (ver. análisis de regresión). En otras palabras, P,y tiene un efecto de característica directo j sobre el rasgo D. Efecto indirecto del rasgo j on;) se calcula sobre la base de tener en cuenta todas las rutas de influencia j sobre el i excepto directo.

En el diagrama, la influencia directa de la primera característica sobre la cuarta está representada esquemáticamente por una flecha recta que proviene directamente de Χι a x, representado simbólicamente como 1->4; es igual al coeficiente de influencia causal P, X 2,..., hr La dependencia estrictamente regresiva se puede definir de la siguiente manera. camino.

Dejarte X\, Xr,..., X p - aleatorio
cantidades con una junta dada Razas
probabilidades
si por cada
conjunto largo de valores X λ \u003d x \, X 2= hg,...,
X p \u003d x p matemática condicional. Espere
Dinamarca Υ(χ\, X2,..., Xp) - E(Y/(X)= xj,
Χι = X2, ..., X p \u003d Xp)), entonces la función Υ(Χ],
x2,
..., XP) llamada regresión de magnitud
ns Y por magnitud X\, Xr,..., xr, y ella
gráfico - línea de regresión Y por X\, Xr,
..., X p,
o ecuación de regresión. Zavi
dependencia de Y de ΛΊ, hg....... X pag se manifiesta en

cambio en los valores medios de Vpri de
cambiando X\, Xr........ Cr. Aunque en cada

conjunto fijo de valores X]- xj, xg = xg,» , xp ~ xp la cantidad Τ sigue siendo una variable aleatoria con una definición. dispersión. Para averiguar con qué precisión la regresión estima el cambio en Y con un cambio en ΑΊ, hg,..., xr, el valor promedio de la varianza Y se usa para diferentes conjuntos de valores X\, Xr,..., XP(de hecho, estamos hablando de la medida de dispersión de la variable dependiente alrededor de la línea de regresión).

En la práctica, la recta de regresión suele buscarse en forma de una función lineal Y = bx + biXi + bxxr+ - + bpXp(regresión lineal), la mejor manera aproximando la curva deseada. Esto se hace utilizando el método de mínimos cuadrados, cuando se minimiza la suma de las desviaciones al cuadrado de Y realmente observadas a partir de sus estimaciones de Y (es decir, estimaciones que utilizan una línea recta que pretende representar la dependencia de regresión deseada): w

U (U -U) => min (Ν - tamaño de la muestra), s

Este enfoque se basa en el hecho bien conocido de que la suma que aparece en la expresión anterior toma un mini-nim. valor para el caso cuando Y= Υ(χ\, xr, --, xR). Solicitud