ประเภทของการอ้างอิงที่ศึกษาในการวิเคราะห์ทางสถิติหลายตัวแปร การวิเคราะห์ทางสถิติหลายตัวแปร

มีการสรุปแนวคิดพื้นฐานและวิธีการวิเคราะห์ทางสถิติ หลายมิติ ผลลัพธ์ เทคนิค การทดลอง. <...>ข้อมูลทางทฤษฎีเกี่ยวกับ คุณสมบัติ หลายมิติเกาส์เซียน การกระจาย. <...>ผลการทดลองที่พิจารณาในคู่มือคือ สุ่ม เวกเตอร์แจกจ่ายตามกฎหมายปกติ<...>หลายมิติ ปกติความหนาแน่น บ่อยครั้งผลของการทดลองคือ จำนวนทั้งหมดตัวเลขที่แสดงลักษณะของวัตถุบางอย่างที่อยู่ระหว่างการศึกษา<...>4 fx  เขียนเป็น ξ  ~ ( ND,)μ  มี p-มิติปกติ การกระจาย. หมายความว่า เวกเตอร์ξ , ξ) รับ ความหมายต่างๆดังนั้นจึงมีเหตุผลที่จะพูดถึง สุ่ม เวกเตอร์ 12 ส่วนประกอบ เวกเตอร์,ξ  ส่วนประกอบ,ξ  เช่น EDE E   ξ= E E ξ ξ  = μ = ξ − μ ξ − μ ()()  ξp โดยที่ E เป็นสัญญาณคาดหวัง<...>ให้ η เป็น p pp   โดยการแก้ปัญหา μ= ν +B ;.   bD BD Bη ξ = ′ , (1.3) เมทริกซ์ D จาก (1.2) มีความสมมาตร เป็นค่าบวกแน่นอน ดังนั้นการแสดงแทนค่าของมันคือ D CC′=Λ โดยที่ C คือ มุมฉาก เมทริกซ์, ประกอบด้วย เป็นเจ้าของเวกเตอร์ เมทริกซ์;D Λ – เส้นทแยงมุม เมทริกซ์กับ เป็นเจ้าของ ตัวเลขλ>ฉัน 0 เมทริกซ์ D ตามเส้นทแยงมุมหลัก<...> ข้อต่อ ความหนาแน่นส่วนประกอบ,1,η=i ip, กำหนดจากทั่วไป กฎ(ดูภาคผนวก) เท่ากับ 5 (1.4) ; เชิงเส้น การเปลี่ยนแปลง,η  โดยที่ B คือเมทริกซ์กำลังสองของมิติ  คือเวกเตอร์สุ่มของการเปลี่ยนแปลง<...>การประมาณค่าพารามิเตอร์ของการแจกแจงแบบปกติ ND . <...>งานหลักของหลัก μ=i n  เมทริกซ์ ความแปรปรวนร่วม . <...>ln ∂ = (1.5) กฎระเบียบ ความแตกต่างฟังก์ชันที่เกี่ยวกับอาร์กิวเมนต์เวกเตอร์หรือเมทริกซ์ (ดู<...>จากนั้น σ = ξ −ξ ξ − ξ = ξ ξ −ξ ξ∑∑ ij nn ki i kj j kk ที่นี่ kiξ เป็น i-th ส่วนประกอบ เวกเตอร์เฉลี่ย iμ i-th ส่วนประกอบ เวกเตอร์ . <...> คะแนนขีดสุด ความน่าเชื่อถือสัมประสิทธิ์ j / ρ=σ σ σ มีรูปแบบ ij ,. ij ii jj ri j σ σσ  ≠ ii jj พิสูจน์<...>การประเมินการพึ่งพาระหว่างส่วนประกอบ ปกติ เวกเตอร์การวิเคราะห์ลิงค์โดยละเอียด<...>

MU_to_performing_course_work_"Multivariate_statistical_analysis".pdf

UDC 519.2 LBC 22.172 K27 ผู้ตรวจสอบ V.Yu. Chuev Kartashov G.D. , Timonin V.I. , Budovskaya L.M. K27 การวิเคราะห์ทางสถิติหลายตัวแปร: แนวทางสำหรับการดำเนินการตามหลักสูตร - M.: สำนักพิมพ์ของ MSTU im. เน.อี. บาวแมน 2550 - 48 หน้า: ป่วย มีการสรุปแนวคิดพื้นฐานและวิธีการวิเคราะห์ทางสถิติของผลการทดลองทางเทคนิคหลายมิติ ข้อมูลทางทฤษฎีเกี่ยวกับคุณสมบัติของการแจกแจงแบบเกาส์เซียนหลายมิติจะได้รับ สำหรับนักศึกษารุ่นพี่คณะวิทยาศาสตร์พื้นฐาน อิล. 2. บรรณานุกรม. 5 ชื่อ UDC 519.2 LBC 22.172 © MSTU อิมเมจ เน.อี. บาวแมน ปี 2550

หน้า 2

สารบัญ บทนำ.............................................. ................................ .................................. ................................ ..... 3 1. การแจกแจงแบบปกติพหุตัวแปร .................... .......................... 4 2. การอนุมานทางสถิติเกี่ยวกับเวกเตอร์ของค่าเฉลี่ย .............. ...................... 17 3. การวิเคราะห์การเลือกปฏิบัติ .. ..................... ................................ .............. 23 4. วิธีส่วนประกอบหลัก .. ................................ .................. ............ 27 5. ความสัมพันธ์ที่ยอมรับได้ .................. ............... .................................. 30 6. การวิเคราะห์การถดถอยพหุตัวแปร .......... ..................................... .. 35 7. การวิเคราะห์ปัจจัย ....... ....................................... ........... ....................... 40 ภาคผนวก ................................ ...... ................................................ ..... ................................................ 44 เอกสารอ้างอิง ....... ....................... ................................ ................................ ....................... 46 47

จากคำนำของผู้เขียน
บทที่ 1 บทนำ
1.1. การแจกแจงแบบปกติหลายตัวแปรเป็นแบบจำลอง
1.2. รีวิวทั่วไปวิธีการหลายมิติ
วรรณกรรม
บทที่ 2
2.1. บทนำ
2.2. แนวคิดที่เกี่ยวข้องกับการแจกแจงหลายตัวแปร
2.3. การแจกแจงแบบปกติหลายตัวแปร
2.4. การกระจายตัวเชิงเส้นของปริมาณที่กระจายตามปกติ ความเป็นอิสระของปริมาณ การกระจายส่วนตัว
2.5. การแจกแจงแบบมีเงื่อนไขและสัมประสิทธิ์สหสัมพันธ์พหุคูณ
2.6. ฟังก์ชันลักษณะเฉพาะ ช่วงเวลา
วรรณกรรม
งาน
บทที่ 3 การประมาณค่าเฉลี่ยเวกเตอร์และเมทริกซ์ความแปรปรวนร่วม
3.1. บทนำ
3.2. ค่าประมาณความน่าจะเป็นสูงสุดสำหรับค่าเฉลี่ยเวกเตอร์และเมทริกซ์ความแปรปรวนร่วม
3.3. ตัวอย่างการแจกแจงเวกเตอร์เฉลี่ย ข้อสรุปเกี่ยวกับค่าเฉลี่ยเมื่อทราบเมทริกซ์ความแปรปรวนร่วม
วรรณกรรม
งาน
บทที่ 4 การแจกแจงและการใช้สัมประสิทธิ์สหสัมพันธ์ตัวอย่าง
4.1. บทนำ
4.2. ค่าสัมประสิทธิ์สหสัมพันธ์ตัวอย่าง 2D
4.3. ค่าสัมประสิทธิ์สหสัมพันธ์บางส่วน
4.4. สัมประสิทธิ์สหสัมพันธ์พหุคูณ
วรรณกรรม
งาน
บทที่ 5
5.1. บทนำ
5.2. สถิติ T2 ทั่วไปและการกระจาย
5.3. การประยุกต์ใช้สถิติ T2
5.4. การกระจายสถิติ T2 เมื่อมีสมมติฐานที่แข่งขันกัน ฟังก์ชั่นพลังงาน
5.5. คุณสมบัติที่เหมาะสมที่สุดของเกณฑ์ T2
5.6. ปัญหา Behrens-Fischer หลายมิติ
วรรณกรรม
งาน
บทที่ 6
6.1. ปัญหาการจำแนกประเภท
6.2. หลักการจำแนกประเภทที่ถูกต้อง
6.3. วิธีการจำแนกการสังเกตในกรณีของประชากรสองกลุ่มที่มีการแจกแจงความน่าจะเป็นที่ทราบแล้ว
6.4. การจำแนกการสังเกตในกรณีของประชากรสองกลุ่มที่มีการแจกแจงปกติแบบพหุตัวแปรที่รู้จัก
6.5. การจำแนกประเภทการสังเกตในกรณีของประชากรปกติพหุตัวแปรสองตัวซึ่งมีการประมาณค่าพารามิเตอร์จากกลุ่มตัวอย่าง
6.6. การจำแนกการสังเกตกรณีประชากรหลายกลุ่ม
6.7. การจำแนกการสังเกตในกรณีของประชากรปกติหลายตัวแปรหลายตัว
6.8. ตัวอย่างของการจำแนกประเภทในกรณีของประชากรปกติหลายตัวแปรหลายตัว
วรรณกรรม
งาน
บทที่ 7
7.1. บทนำ
7.2. การกระจาย Wishart
7.3. คุณสมบัติบางประการของการกระจาย Wishart
7.4. ทฤษฎีบทของ Cochran
7.5. ความแปรปรวนทั่วไป
7.6. การกระจายของเซตของสัมประสิทธิ์สหสัมพันธ์ในกรณีของเมทริกซ์ความแปรปรวนร่วมของประชากรในแนวทแยง
วรรณกรรม
งาน
บทที่ 8 การวิเคราะห์ความแปรปรวน
8.1. บทนำ
8.2. ค่าประมาณพารามิเตอร์สำหรับการถดถอยเชิงเส้นพหุตัวแปร
8.3. การทดสอบอัตราส่วนความน่าจะเป็นสำหรับการทดสอบสมมติฐานเชิงเส้นเกี่ยวกับสัมประสิทธิ์การถดถอย
8.4. โมเมนต์ของอัตราส่วนความน่าจะเป็นในกรณีที่สมมติฐานว่างเป็นจริง
8.5. การกระจายบางส่วนของU
8.6. การขยายตัวแบบไม่แสดงอาการของการกระจายอัตราส่วนความน่าจะเป็น
8.7. การทดสอบสมมติฐานของเมทริกซ์สัมประสิทธิ์การถดถอยและบริเวณความเชื่อมั่น
8.8. การทดสอบสมมติฐานเกี่ยวกับความเท่าเทียมกันของค่าเฉลี่ยของการแจกแจงแบบปกติกับเมทริกซ์ความแปรปรวนร่วมร่วม
8.9. การวิเคราะห์ความแปรปรวนทั่วไป
8.10. เกณฑ์อื่นๆ สำหรับการทดสอบสมมติฐานเชิงเส้น
8.11. รูปแบบบัญญัติ
วรรณกรรม
งาน
บทที่ 9
9.1. บทนำ
9.2. อัตราส่วนความน่าจะเป็นเป็นเกณฑ์ในการทดสอบสมมติฐานความเป็นอิสระของชุดของตัวแปรสุ่ม
9.3. โมเมนต์อัตราส่วนความน่าจะเป็นโดยมีเงื่อนไขว่าสมมติฐานว่างเป็นจริง
9.4. การแจกแจงอัตราส่วนความน่าจะเป็นบางส่วน
9.5. การขยายตัวแบบไม่แสดงอาการของการกระจายของ h (อัตราส่วนความน่าจะเป็น)
9.6. ตัวอย่าง
9.7. กรณีของตัวแปรสุ่มสองชุด
วรรณกรรม
งาน
บทที่ 10
10.1 บทนำ
10.2 เกณฑ์การทดสอบสมมติฐานเกี่ยวกับความเท่าเทียมกันของเมทริกซ์ความแปรปรวนร่วมหลายตัว
10.3. เกณฑ์การทดสอบสมมติฐานความสมมูลของประชากรปกติหลายกลุ่ม
10.4. ช่วงเวลาอัตราส่วนความน่าจะเป็น
10.5. การขยายแบบไม่มีซีมโทติกของฟังก์ชันการกระจายของปริมาณ V1 และ V
10.6. กรณีของสองประชากร
10.7. การทดสอบสมมติฐานว่าเมทริกซ์ความแปรปรวนร่วมนั้นเป็นสัดส่วนกับเมทริกซ์ที่กำหนด เกณฑ์ทรงกลม
10.8. การทดสอบสมมติฐานว่าเมทริกซ์ความแปรปรวนร่วมเท่ากับเมทริกซ์ที่กำหนด
10.9. การทดสอบสมมติฐานว่าเวกเตอร์เฉลี่ยและเมทริกซ์ความแปรปรวนร่วมมีค่าเท่ากันตามลำดับ ให้เวกเตอร์และให้เมทริกซ์
วรรณกรรม
งาน
บทที่ 11
11.1. บทนำ
11.2. การกำหนดองค์ประกอบหลักของประชากร
11.3. ค่าประมาณความเป็นไปได้สูงสุดสำหรับส่วนประกอบหลักและความแปรปรวนของส่วนประกอบเหล่านี้
11.4. การคำนวณค่าประมาณความน่าจะเป็นสูงสุดสำหรับส่วนประกอบหลัก
11.5. ตัวอย่าง
วรรณกรรม
งาน
บทที่ 12
12.1. บทนำ
12.2. ความสัมพันธ์ที่ยอมรับได้และค่านิยมของประชากรที่ยอมรับได้
12.3. การประมาณค่าสหสัมพันธ์ตามรูปแบบบัญญัติและปริมาณตามรูปแบบบัญญัติ
12.4. วิธีการคำนวณ
12.5. ตัวอย่าง
วรรณกรรม
งาน
บทที่ 13
13.1. บทนำ
13.2. กรณีของสอง Wishart เมทริกซ์
13.3. กรณีหนึ่ง เมทริกซ์ที่ไม่เสื่อมสภาพ Wishart
13.4. ความสัมพันธ์ที่เป็นที่ยอมรับ
วรรณกรรม
งาน
บทที่ 14
14.1. บทนำ
14.2 การทดสอบสมมติฐานเกี่ยวกับอันดับและการประเมินข้อจำกัดเชิงเส้นของสัมประสิทธิ์การถดถอย ค่าสหสัมพันธ์ที่ยอมรับได้และปริมาณที่ยอมรับได้
14.3. การกระจาย Wishart ที่ไม่ใช่ส่วนกลาง
14.4. การกระจายของรากและเวกเตอร์ที่มีลักษณะเฉพาะบางอย่างขึ้นอยู่กับพารามิเตอร์
14.5. การกระจายแบบไม่มีซีมโทติกของรากและเวกเตอร์ที่มีลักษณะเฉพาะบางตัว
14.6. องค์ประกอบหลัก
14.7. การวิเคราะห์ปัจจัย
14.8. สมการสุ่ม
14.9. การวิเคราะห์อนุกรมเวลา
วรรณกรรม
แอปพลิเคชัน. ทฤษฎีเมทริกซ์
1. คำจำกัดความของเมทริกซ์ Matrix Actions
2. ลักษณะรากและเวกเตอร์
3. แยกเวกเตอร์และเมทริกซ์ออกเป็นบล็อค
4. ผลลัพธ์บางอย่าง
5. วิธีการลดดูลิตเติ้ลและวิธีการควบแน่นของแกนสำหรับการแก้ปัญหาระบบ สมการเชิงเส้น
วรรณกรรม
ดัชนีหัวเรื่อง

เศรษฐมิติ

การวิเคราะห์ทางสถิติหลายตัวแปร


ในการวิเคราะห์ทางสถิติหลายตัวแปร ตัวอย่างประกอบด้วยองค์ประกอบของช่องว่างหลายตัวแปร ดังนั้นชื่อของส่วนนี้ของวิธีเศรษฐมิติ จากปัญหามากมายของการวิเคราะห์ทางสถิติพหุตัวแปร ลองพิจารณาสอง - การกู้คืนการพึ่งพาอาศัยกันและการจำแนกประเภท

การประมาณฟังก์ชันการทำนายเชิงเส้น

เริ่มจากปัญหาของการประมาณค่าจุดและความมั่นใจของฟังก์ชันการทำนายเชิงเส้นของตัวแปรหนึ่งตัว

ข้อมูลเริ่มต้นคือชุดของ n คู่ตัวเลข (t k , x k), k = 1,2,…,n โดยที่ t k เป็นตัวแปรอิสระ (เช่น เวลา) และ x k เป็นตัวแปรตาม (เช่น ดัชนีเงินเฟ้อ อัตราแลกเปลี่ยนเงินดอลลาร์สหรัฐ การผลิตรายเดือน หรือขนาดของรายได้รายวันของร้าน) ตัวแปรจะถือว่ามีความเกี่ยวข้องกัน

x k = a (t k - t cf)+ b + e k , k = 1,2,…,n,

โดยที่ a และ b เป็นพารามิเตอร์ที่สถิติไม่รู้จักและอยู่ภายใต้การประมาณค่า และ e k เป็นข้อผิดพลาดที่บิดเบือนการพึ่งพา ค่าเฉลี่ยเลขคณิตของจุดเวลา

t cf \u003d (t 1 + t 2 + ... + t n) / n

นำเข้าสู่แบบจำลองเพื่ออำนวยความสะดวกในการคำนวณเพิ่มเติม

โดยปกติ พารามิเตอร์ a และ b ของการพึ่งพาอาศัยกันเชิงเส้นจะถูกประมาณโดยใช้วิธีกำลังสองน้อยที่สุด จากนั้นใช้ความสัมพันธ์ที่สร้างขึ้นใหม่สำหรับการทำนายจุดและช่วงเวลา

อย่างที่คุณทราบ วิธีกำลังสองน้อยที่สุดได้รับการพัฒนาโดย K. Gauss นักคณิตศาสตร์ชาวเยอรมันผู้ยิ่งใหญ่ในปี ค.ศ. 1794 ตามวิธีนี้ ในการคำนวณฟังก์ชันที่ดีที่สุดที่ประมาณการพึ่งพาของ x บน t เป็นเส้นตรง ควรพิจารณาฟังก์ชันของตัวแปรสองตัว


ค่าประมาณกำลังสองน้อยที่สุดคือค่าของ a* และ b* ซึ่งฟังก์ชัน f(a,b) ถึงค่าต่ำสุดของค่าอาร์กิวเมนต์ทั้งหมด

ในการหาค่าประมาณเหล่านี้ จำเป็นต้องคำนวณอนุพันธ์ย่อยบางส่วนของฟังก์ชัน f(a,b) เทียบกับอาร์กิวเมนต์ a และ b ให้เท่ากับ 0 แล้วจึงหาค่าประมาณจากสมการที่ได้:

ให้เราแปลงส่วนที่ถูกต้องของความสัมพันธ์ที่ได้รับ ลองเอาตัวประกอบร่วม 2 และ (-1) ออกจากเครื่องหมายของผลรวม แล้วมาดูเงื่อนไขกัน มาเปิดวงเล็บในนิพจน์แรกกัน เราจะแยกแต่ละพจน์ออกเป็นสามส่วน ในนิพจน์ที่สอง แต่ละเทอมเป็นผลรวมของสามด้วย ดังนั้นแต่ละผลรวมจะถูกแบ่งออกเป็นสามผลรวม เรามี:


เราให้อนุพันธ์ย่อยบางส่วนเท่ากับ 0 จากนั้นตัวประกอบ (-2) จะลดลงในสมการผลลัพธ์ เพราะว่า

(1)

สมการอยู่ในรูปแบบ

ดังนั้นการประมาณค่าของวิธีกำลังสองน้อยที่สุดจึงมีรูปแบบ

(2)

เนื่องจากความสัมพันธ์ (1) ค่าประมาณ a* สามารถเขียนได้ในรูปแบบสมมาตรมากขึ้น:

แปลงค่าประมาณนี้ให้อยู่ในรูปได้ไม่ยาก

ดังนั้น ฟังก์ชันที่สร้างใหม่ซึ่งสามารถใช้ในการทำนายและสอดแทรกได้จึงมีรูปแบบ

x*(t) = a*(t - t cf) + b*

ให้เราใส่ใจกับความจริงที่ว่าการใช้ t cf ในสูตรสุดท้ายไม่ได้จำกัดความทั่วไปของมัน เปรียบเทียบกับโมเดลการดู

x k = c t k + d + e k , k = 1,2,…,n.

เป็นที่ชัดเจนว่า

การประมาณค่าพารามิเตอร์มีความเกี่ยวข้องในทำนองเดียวกัน:

ไม่จำเป็นต้องอ้างอิงถึงแบบจำลองความน่าจะเป็นใดๆ เพื่อรับค่าประมาณพารามิเตอร์และสูตรการทำนาย อย่างไรก็ตาม เพื่อศึกษาข้อผิดพลาดในการประมาณค่าพารามิเตอร์และฟังก์ชันการคืนค่า กล่าวคือ สร้าง ช่วงความเชื่อมั่นสำหรับ a*, b* และ x*(t) จำเป็นต้องใช้แบบจำลองที่คล้ายกัน

แบบจำลองความน่าจะเป็นแบบไม่อิงพารามิเตอร์ ปล่อยให้ค่าของตัวแปรอิสระ t ถูกกำหนดและข้อผิดพลาด e k , k = 1,2,…,n เป็นอิสระ กระจายตัวแปรสุ่มเหมือนกันกับศูนย์ ความคาดหวังทางคณิตศาสตร์และการกระจายตัว

สถิติที่ไม่รู้จัก

ในอนาคต เราจะใช้ Central Limit Theorem (CLT) ซ้ำๆ ของทฤษฎีความน่าจะเป็นสำหรับปริมาณ e k , k = 1,2,…,n (ด้วยน้ำหนัก) ดังนั้น เพื่อให้เป็นไปตามเงื่อนไข จึงจำเป็นต้องสมมติ ตัวอย่างเช่น ข้อผิดพลาด e k , k = 1,2 ,…,n มีขอบเขตหรือมีช่วงเวลาสัมบูรณ์ที่สามที่แน่นอน อย่างไรก็ตาม ไม่จำเป็นต้องเน้นที่ "สภาวะปกติ" ของโครงสร้างภายใน

การแจกแจงแบบไม่มีซีมโทติกของการประมาณค่าพารามิเตอร์ จากสูตร (2) จะได้ว่า

(5)

ตาม CLT ค่าประมาณ b* มีการแจกแจงแบบปกติแบบไม่มีซีมโทติคโดยมีค่าคาดคะเน b และความแปรปรวน

ซึ่งประเมินไว้ด้านล่าง

จากสูตร (2) และ (5) ได้ดังนี้

เทอมสุดท้ายในความสัมพันธ์ที่สองจะหายไปเมื่อบวกด้วย i ดังนั้นมันจึงเป็นไปตามสูตร (2-4) ว่า

(6)

สูตร (6) แสดงว่าค่าประมาณ

เป็นปกติไม่มีอาการโดยมีค่าเฉลี่ยและความแปรปรวน

โปรดทราบว่าภาวะปกติหลายมิติจะเกิดขึ้นเมื่อแต่ละเทอมในสูตร (6) มีขนาดเล็กเมื่อเทียบกับผลรวมทั้งหมด กล่าวคือ


จากสูตร (5) และ (6) และสมมติฐานเบื้องต้นเกี่ยวกับข้อผิดพลาด ความเป็นกลางของการประมาณค่าพารามิเตอร์ก็เป็นไปตามนั้นด้วย

ความเป็นกลางและภาวะปกติของซีมโทติคของการประมาณค่ากำลังสองน้อยที่สุดทำให้ง่ายต่อการระบุขีดจำกัดความเชื่อมั่นเชิงซีมโทติกสำหรับพวกมัน (คล้ายกับขีดจำกัดในบทที่แล้ว) และทดสอบสมมติฐานทางสถิติ เช่น เกี่ยวกับความเท่าเทียมกันของค่าบางค่า โดยหลักเป็น 0 เราปล่อยให้ผู้อ่าน โอกาสในการเขียนสูตรสำหรับคำนวณขีดจำกัดความเชื่อมั่นและกำหนดกฎเกณฑ์สำหรับการทดสอบสมมติฐานดังกล่าว

การกระจายแบบไม่มีซีมโทติกของฟังก์ชันพยากรณ์โรค จากสูตร (5) และ (6) ได้ดังนี้

เหล่านั้น. การประมาณการของฟังก์ชันพยากรณ์ที่อยู่ระหว่างการพิจารณานั้นไม่มีอคติ นั่นเป็นเหตุผลที่

ในเวลาเดียวกันเนื่องจากข้อผิดพลาดเป็นอิสระในภาพรวมและ

, แล้ว

ทางนี้,

บทนำ

บทที่ 1 การวิเคราะห์การถดถอยพหุคูณ

บทที่ 2 การวิเคราะห์คลัสเตอร์

บทที่ 3 การวิเคราะห์ปัจจัย

บทที่ 4 การวิเคราะห์การเลือกปฏิบัติ

บรรณานุกรม

บทนำ

ข้อมูลเบื้องต้นในการศึกษาทางสังคมและเศรษฐกิจมักนำเสนอเป็นชุดของวัตถุ ซึ่งแต่ละอย่างมีลักษณะเด่น (ตัวชี้วัด) หลายประการ เนื่องจากจำนวนของอ็อบเจกต์และคุณลักษณะดังกล่าวสามารถมีถึงหลักสิบและหลายร้อย และการวิเคราะห์ข้อมูลด้วยภาพไม่ได้ผล ปัญหาของการลด การเพ่งความสนใจไปที่ข้อมูลเบื้องต้น การเปิดเผยโครงสร้างและความสัมพันธ์ระหว่างพวกเขาตามการสร้างลักษณะทั่วไปของ ชุดของคุณสมบัติและชุดของวัตถุเกิดขึ้น ปัญหาดังกล่าวสามารถแก้ไขได้โดยวิธีการวิเคราะห์ทางสถิติหลายตัวแปร

การวิเคราะห์ทางสถิติหลายตัวแปรเป็นส่วนหนึ่งของสถิติที่ใช้กับวิธีการทางคณิตศาสตร์โดยมีวัตถุประสงค์เพื่อระบุลักษณะและโครงสร้างของความสัมพันธ์ระหว่างองค์ประกอบของการวิจัยและตั้งใจเพื่อให้ได้ข้อสรุปทางวิทยาศาสตร์และในทางปฏิบัติ

ความสนใจหลักในการวิเคราะห์ทางสถิติพหุตัวแปรจะจ่ายให้กับวิธีการทางคณิตศาสตร์สำหรับการสร้างแผนที่เหมาะสมสำหรับการรวบรวม จัดระบบ และประมวลผลข้อมูล โดยมุ่งเป้าไปที่การระบุลักษณะและโครงสร้างของความสัมพันธ์ระหว่างองค์ประกอบของแอตทริบิวต์พหุตัวแปรที่ศึกษา และได้รับการออกแบบมาเพื่อให้ได้ข้อสรุปทางวิทยาศาสตร์และในทางปฏิบัติ

อาร์เรย์เริ่มต้นของข้อมูลหลายมิติสำหรับการวิเคราะห์หลายตัวแปรมักเป็นผลของการวัดส่วนประกอบของแอตทริบิวต์หลายมิติสำหรับวัตถุแต่ละชิ้นของประชากรที่ศึกษา กล่าวคือ ลำดับของการสังเกตหลายตัวแปร แอตทริบิวต์พหุตัวแปรมักถูกตีความว่าเป็น และลำดับของการสังเกตเป็นตัวอย่างจากประชากรทั่วไป ในกรณีนี้ การเลือกวิธีการประมวลผลข้อมูลทางสถิติเบื้องต้นจะทำบนพื้นฐานของสมมติฐานบางประการเกี่ยวกับธรรมชาติของกฎการกระจายของแอตทริบิวต์หลายมิติที่ศึกษา

1. การวิเคราะห์ทางสถิติหลายตัวแปรของการแจกแจงแบบพหุตัวแปรและคุณลักษณะหลักครอบคลุมสถานการณ์ที่การสังเกตที่ประมวลผลมีลักษณะน่าจะเป็น เช่น ตีความเป็นตัวอย่างจากประชากรทั่วไปที่เกี่ยวข้อง งานหลักของส่วนย่อยนี้ ได้แก่ การประมาณค่าทางสถิติของการแจกแจงพหุตัวแปรที่ศึกษาและพารามิเตอร์หลัก ศึกษาคุณสมบัติของค่าประมาณทางสถิติที่ใช้ การศึกษาการแจกแจงความน่าจะเป็นสำหรับสถิติจำนวนหนึ่ง ซึ่งใช้ในการสร้างเกณฑ์ทางสถิติสำหรับการทดสอบสมมติฐานต่างๆ เกี่ยวกับลักษณะความน่าจะเป็นของข้อมูลหลายตัวแปรที่วิเคราะห์

2. การวิเคราะห์ทางสถิติหลายตัวแปรของธรรมชาติและโครงสร้างของความสัมพันธ์ขององค์ประกอบของแอตทริบิวต์พหุตัวแปรที่ศึกษารวมแนวคิดและผลลัพธ์ที่มีอยู่ในวิธีการและแบบจำลองดังกล่าว เช่น การวิเคราะห์ การวิเคราะห์ความแปรปรวน การวิเคราะห์ความแปรปรวนร่วม การวิเคราะห์ปัจจัย ฯลฯ วิธีการที่เป็นของกลุ่มนี้รวมถึงอัลกอริธึมทั้งสองตามสมมติฐานของลักษณะความน่าจะเป็นของข้อมูล และวิธีการที่ไม่เข้ากับกรอบของแบบจำลองความน่าจะเป็นใดๆ (วิธีหลังมักเรียกว่าวิธีการ)

3. การวิเคราะห์ทางสถิติแบบหลายมิติของโครงสร้างทางเรขาคณิตของชุดการสังเกตหลายตัวแปรที่ศึกษาจะรวมแนวคิดและผลลัพธ์ที่มีอยู่ในแบบจำลองและวิธีการดังกล่าว เช่น การวิเคราะห์แบบจำแนก การวิเคราะห์คลัสเตอร์ การสเกลหลายมิติ จุดสำคัญสำหรับโมเดลเหล่านี้คือแนวคิดของระยะทาง หรือการวัดความใกล้ชิดระหว่างองค์ประกอบที่วิเคราะห์แล้วเป็นจุดของพื้นที่บางส่วน ในกรณีนี้ สามารถวิเคราะห์ทั้งอ็อบเจ็กต์ (ตามจุดที่ระบุในพื้นที่คุณสมบัติ) และฟีเจอร์ (ตามจุดที่ระบุในพื้นที่อ็อบเจ็กต์)

ค่าประยุกต์ของการวิเคราะห์ทางสถิติพหุตัวแปรประกอบด้วยหลักในการแก้ปัญหาสามข้อต่อไปนี้:

งานศึกษาทางสถิติของการพึ่งพาระหว่างตัวบ่งชี้ที่พิจารณา

งานจำแนกองค์ประกอบ (วัตถุหรือคุณสมบัติ);

· งานในการลดขนาดของพื้นที่คุณลักษณะภายใต้การพิจารณาและเลือกคุณลักษณะที่มีข้อมูลมากที่สุด

การวิเคราะห์การถดถอยพหุคูณได้รับการออกแบบมาเพื่อสร้างแบบจำลองที่ช่วยให้ค่าของตัวแปรอิสระได้รับการประมาณค่าของตัวแปรตาม

การถดถอยโลจิสติกสำหรับการแก้ปัญหาการจำแนกประเภท นี่คือประเภทของการถดถอยพหุคูณ ซึ่งมีจุดประสงค์เพื่อวิเคราะห์ความสัมพันธ์ระหว่างตัวแปรอิสระหลายตัวกับตัวแปรตาม

การวิเคราะห์ปัจจัยเกี่ยวข้องกับการกำหนดปัจจัยที่ซ่อนอยู่ (แฝง) จำนวนค่อนข้างน้อย ความแปรปรวนจะอธิบายความแปรปรวนของตัวบ่งชี้ที่สังเกตได้ทั้งหมด การวิเคราะห์ปัจจัยมีวัตถุประสงค์เพื่อลดขนาดของปัญหาที่กำลังพิจารณา

การวิเคราะห์แบบกลุ่มและแบบแยกส่วนได้รับการออกแบบมาเพื่อแบ่งคอลเล็กชันของอ็อบเจ็กต์ออกเป็นคลาส โดยแต่ละรายการควรรวมออบเจ็กต์ที่เป็นเนื้อเดียวกันหรือใกล้เคียงกันในความหมายที่แน่นอน ในการวิเคราะห์คลัสเตอร์ ไม่ทราบล่วงหน้าว่าจะมีออบเจ็กต์กี่กลุ่มและจะมีขนาดเท่าใด การวิเคราะห์จำแนกแบ่งวัตถุออกเป็นคลาสที่มีอยู่แล้ว

บทที่ 1 การวิเคราะห์การถดถอยพหุคูณ

การมอบหมาย: การวิจัยตลาดที่อยู่อาศัยใน Orel (ภูมิภาคโซเวียตและภาคเหนือ)

ตารางแสดงข้อมูลเกี่ยวกับราคาอพาร์ทเมนท์ใน Orel และปัจจัยต่างๆ ที่กำหนด:

· พื้นที่ทั้งหมด;

พื้นที่ครัว

· พื้นที่อยู่อาศัย;

แบบบ้าน

จำนวนห้อง (รูปที่ 1)

ข้าว. 1 ข้อมูลเบื้องต้น

ในคอลัมน์ "ภูมิภาค" มีการใช้การกำหนด:

3 - โซเวียต (ชนชั้นสูงเป็นของภาคกลาง);

4 - ภาคเหนือ

ในคอลัมน์ "ประเภทบ้าน":

1 - อิฐ;

0 - แผง

ที่จำเป็น:

1. วิเคราะห์ความสัมพันธ์ของปัจจัยทั้งหมดด้วยตัวบ่งชี้ "ราคา" และระหว่างกัน เลือกปัจจัยที่เหมาะสมที่สุดในการสร้างแบบจำลองการถดถอย

2. สร้างตัวแปรจำลองที่สะท้อนถึงกรรมสิทธิ์ของอพาร์ตเมนต์ไปยังพื้นที่ส่วนกลางและรอบนอกของเมือง

3. สร้างตัวแบบการถดถอยเชิงเส้นสำหรับปัจจัยทั้งหมด รวมถึงตัวแปรจำลองด้วย อธิบายความหมายทางเศรษฐกิจของพารามิเตอร์ของสมการ ประเมินคุณภาพของแบบจำลอง นัยสำคัญทางสถิติของสมการและพารามิเตอร์

4. กระจายปัจจัย (ยกเว้นตัวแปรจำลอง) ตามระดับอิทธิพลของตัวบ่งชี้ "ราคา"

5. สร้างแบบจำลองการถดถอยเชิงเส้นสำหรับปัจจัยที่มีอิทธิพลมากที่สุด โดยปล่อยให้ตัวแปรจำลองอยู่ในสมการ ประเมินคุณภาพและนัยสำคัญทางสถิติของสมการและพารามิเตอร์

6. ให้เหตุผลความเหมาะสมหรือความไม่สมเหตุสมผลของการรวมตัวแปรจำลองในสมการของวรรค 3 และ 5

7. ประมาณการช่วงระยะเวลาของพารามิเตอร์ของสมการที่มีความน่าจะเป็น 95%;

8. กำหนดราคาอพาร์ทเมนต์ที่มีพื้นที่รวม 74.5 ตร.ม. ในพื้นที่ชั้นยอด (อุปกรณ์ต่อพ่วง)

ประสิทธิภาพ:

1. หลังจากวิเคราะห์ความสัมพันธ์ของปัจจัยทั้งหมดที่มีตัวบ่งชี้ "ราคา" และระหว่างกันแล้ว ปัจจัยที่เหมาะสมที่สุดสำหรับการสร้างแบบจำลองการถดถอยถูกเลือกโดยใช้วิธีการรวม "ไปข้างหน้า":

ก) พื้นที่ทั้งหมด

C) จำนวนห้อง

รวม/ไม่รวมตัวแปร(ก)

ตัวแปรตาม: ราคา

2. ตัวแปร X4 "ภูมิภาค" เป็นตัวแปรจำลอง เนื่องจากมี 2 ค่า: 3- เป็นของภาคกลาง "โซเวียต" 4- กับบริเวณรอบข้าง "Severny"

3. มาสร้างแบบจำลองการถดถอยเชิงเส้นสำหรับปัจจัยทั้งหมด (รวมถึงตัวแปรจำลอง X4)

รุ่นที่ได้รับ:

การประเมินคุณภาพของแบบจำลอง

ข้อผิดพลาดมาตรฐาน = 126.477

อัตราส่วน Durbin-Watson = 2.136

การตรวจสอบความสำคัญของสมการถดถอย

ค่าทดสอบ F-Fisher = 41.687

4. มาสร้างแบบจำลองการถดถอยเชิงเส้นพร้อมปัจจัยทั้งหมด (ยกเว้นตัวแปรจำลอง X4)

ตามระดับอิทธิพลของตัวบ่งชี้ "ราคา" พวกเขาถูกแจกจ่าย:

ปัจจัยที่สำคัญที่สุดคือพื้นที่ทั้งหมด (F= 40.806)

ปัจจัยที่สำคัญที่สุดอันดับสองคือจำนวนห้อง (F= 29.313)

5. รวม/ไม่รวมตัวแปร

ตัวแปรตาม: ราคา

6. มาสร้างแบบจำลองการถดถอยเชิงเส้นสำหรับปัจจัยที่มีอิทธิพลมากที่สุดกับตัวแปรดัมมี่ ในกรณีของเรา มันเป็นหนึ่งในปัจจัยที่มีอิทธิพล

รุ่นที่ได้รับ:

Y \u003d 348.349 + 35.788 X1 -217.075 X4 +305.687 X7

การประเมินคุณภาพของแบบจำลอง

ค่าสัมประสิทธิ์การกำหนด R2 = 0.807

แสดงสัดส่วนความแปรผันของลักษณะผลลัพธ์ภายใต้อิทธิพลของปัจจัยที่ศึกษา ดังนั้น ประมาณ 89% ของการเปลี่ยนแปลงของตัวแปรตามจะถูกนำมาพิจารณาและเนื่องจากอิทธิพลของปัจจัยที่รวมอยู่ในแบบจำลอง

ค่าสัมประสิทธิ์สหสัมพันธ์พหุคูณ R = 0.898

แสดงความใกล้ชิดของความสัมพันธ์ระหว่างตัวแปรตาม Y กับปัจจัยอธิบายทั้งหมดที่รวมอยู่ในแบบจำลอง

ข้อผิดพลาดมาตรฐาน = 126.477

อัตราส่วน Durbin-Watson = 2.136

การตรวจสอบความสำคัญของสมการถดถอย

ค่าทดสอบ F-Fisher = 41.687

สมการถดถอยควรได้รับการยอมรับว่าเพียงพอ แบบจำลองนี้ถือว่ามีนัยสำคัญ

ปัจจัยที่สำคัญที่สุดคือจำนวนห้อง (F=41,687)

ปัจจัยที่สำคัญที่สุดอันดับสองคือพื้นที่ทั้งหมด (F= 40.806)

ปัจจัยที่สำคัญที่สุดอันดับสามคือภูมิภาค (F= 32.288)

7. ตัวแปรจำลอง X4 เป็นปัจจัยสำคัญ ดังนั้นจึงแนะนำให้รวมไว้ในสมการ

การประมาณช่วงเวลาของพารามิเตอร์สมการแสดงผลการพยากรณ์โดยตัวแบบการถดถอย

ด้วยความน่าจะเป็น 95% ปริมาณการขายในเดือนที่คาดการณ์จะอยู่ที่ 540.765 ถึง 1080.147 ล้านรูเบิล

8. การกำหนดราคาอพาร์ตเมนต์ในพื้นที่ชนชั้นสูง

สำหรับ 1 ห้อง U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 1

สำหรับ 2 ห้อง U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 2

สำหรับ 3 ห้อง U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 3

ในอุปกรณ์ต่อพ่วง

สำหรับ 1 ห้อง U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 1

สำหรับ 2 ห้อง U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 2

สำหรับ 3 ห้อง U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 3

บทที่ 2 การวิเคราะห์คลัสเตอร์

การมอบหมาย : ศึกษาโครงสร้างรายจ่ายทางการเงินและการออมของประชากร

ตารางแสดงโครงสร้างการใช้จ่ายเงินสดและการออมของประชากรตามภูมิภาคของ Central Federal District สหพันธรัฐรัสเซียในปี พ.ศ. 2546 สำหรับตัวชี้วัดดังต่อไปนี้

PTIOU - ซื้อสินค้าและชำระค่าบริการ

· OPiV - การชำระเงินและเงินสมทบที่บังคับ;

PN - การซื้ออสังหาริมทรัพย์

· PFA – การเพิ่มขึ้นของสินทรัพย์ทางการเงิน

· DR - เพิ่ม (ลดลง) ของเงินในมือของประชากร

ข้าว. 8 ข้อมูลเบื้องต้น

ที่จำเป็น:

1) กำหนดจำนวนคลัสเตอร์ที่เหมาะสมที่สุดสำหรับการแบ่งภูมิภาคออกเป็นกลุ่มที่เป็นเนื้อเดียวกันตามลักษณะการจัดกลุ่มทั้งหมดพร้อมกัน

2) ดำเนินการจำแนกพื้นที่โดยวิธีลำดับชั้นด้วยอัลกอริทึมของความสัมพันธ์ระหว่างกลุ่มและแสดงผลในรูปแบบของ dendrogram

3) วิเคราะห์ลำดับความสำคัญหลักของการใช้จ่ายเงินสดและการออมในกลุ่มผลลัพธ์

ประสิทธิภาพ:

1) กำหนดจำนวนกระจุกที่เหมาะสมที่สุดสำหรับการแบ่งภูมิภาคออกเป็นกลุ่มที่เป็นเนื้อเดียวกันตามลักษณะการจัดกลุ่มทั้งหมดพร้อมกัน

ในการกำหนดจำนวนคลัสเตอร์ที่เหมาะสมที่สุด คุณต้องใช้การวิเคราะห์คลัสเตอร์แบบลำดับชั้นและอ้างอิงตาราง "ขั้นตอนของการรวมตัวกัน" กับคอลัมน์ "สัมประสิทธิ์"

ค่าสัมประสิทธิ์เหล่านี้บอกเป็นนัยถึงระยะห่างระหว่างสองคลัสเตอร์ โดยพิจารณาจากการวัดระยะทางที่เลือก (ระยะทางแบบยุคลิด) ในขั้นตอนที่การวัดระยะห่างระหว่างสองคลัสเตอร์เพิ่มขึ้นอย่างกะทันหัน กระบวนการรวมเข้าเป็นคลัสเตอร์ใหม่จะต้องหยุดลง

เป็นผลให้จำนวนที่เหมาะสมที่สุดของคลัสเตอร์ถือว่าเท่ากับความแตกต่างระหว่างจำนวนการสังเกต (17) และหมายเลขขั้นตอน (14) หลังจากนั้นสัมประสิทธิ์จะเพิ่มขึ้นอย่างกะทันหัน ดังนั้นจำนวนคลัสเตอร์ที่เหมาะสมที่สุดคือ 3 (รูปที่ 9)

กลุ่มวิเคราะห์ทางคณิตศาสตร์เชิงสถิติ

ข้าว. 9 ตาราง “ขั้นตอนการเผาผนึก”

2) ดำเนินการจำแนกพื้นที่โดยวิธีลำดับชั้นด้วยอัลกอริทึมของความสัมพันธ์ระหว่างกลุ่มและแสดงผลในรูปแบบของ dendrogram

ตอนนี้ โดยใช้จำนวนคลัสเตอร์ที่เหมาะสมที่สุด เราจัดประเภทพื้นที่โดยใช้วิธีการแบบลำดับชั้น และในผลลัพธ์เราเปลี่ยนเป็นตาราง "เป็นของคลัสเตอร์" (รูปที่ 10)

ข้าว. 10 ตาราง “เป็นของคลัสเตอร์”

ในรูป 10 แสดงให้เห็นชัดเจนว่าคลัสเตอร์ 3 ประกอบด้วย 2 ภูมิภาค (Kaluga, Moscow) และมอสโก, กลุ่มที่ 2 ประกอบด้วยสองภูมิภาค (Bryansk, Voronezh, Ivanovo, Lipetsk, Oryol, Ryazan, Smolensk, Tambov, Tver), กลุ่มที่ 1 - Belgorod , Vladimir, Kostroma , เคิร์สต์, ทูลา, ยาโรสลาฟล์.

ข้าว. 11 เดนโดรแกรม

3) วิเคราะห์ลำดับความสำคัญหลักของการใช้จ่ายเงินสดและการออมในกลุ่มผลลัพธ์

ในการวิเคราะห์กลุ่มผลลัพธ์ เราจำเป็นต้องดำเนินการ "เปรียบเทียบค่าเฉลี่ย" หน้าต่างแสดงผลจะแสดงตารางต่อไปนี้ (รูปที่ 12)

ข้าว. 12 ค่าเฉลี่ยของตัวแปร

ในตาราง "ค่าเฉลี่ย" เราสามารถติดตามโครงสร้างที่ได้รับความสำคัญสูงสุดในการกระจายการใช้จ่ายเงินสดและการออมของประชากร

ประการแรกควรสังเกตว่าการจัดลำดับความสำคัญสูงสุดในทุกด้านคือการซื้อสินค้าและการชำระค่าบริการ พารามิเตอร์ใช้ค่าที่มากกว่าในคลัสเตอร์ที่ 3

อันดับที่ 2 ถูกครอบครองโดยการเติบโตของสินทรัพย์ทางการเงิน มูลค่าสูงสุดใน 1 คลัสเตอร์

ค่าสัมประสิทธิ์ที่เล็กที่สุดในกลุ่มที่ 1 และ 2 มีไว้สำหรับ "การได้มาซึ่งอสังหาริมทรัพย์" และในกลุ่มที่ 3 พบว่าเงินในมือของประชากรลดลงอย่างเห็นได้ชัด

โดยทั่วไป การซื้อสินค้าและบริการและการซื้ออสังหาริมทรัพย์เพียงเล็กน้อยมีความสำคัญเป็นพิเศษสำหรับประชากร

4) เปรียบเทียบการจัดประเภทผลลัพธ์กับผลลัพธ์ของการใช้อัลกอริทึมความสัมพันธ์ภายในกลุ่ม

ในการวิเคราะห์ความสัมพันธ์ระหว่างกลุ่มสถานการณ์ในทางปฏิบัติไม่เปลี่ยนแปลงยกเว้นภูมิภาค Tambov ซึ่งตกอยู่ใน 1 ใน 2 กลุ่ม (รูปที่ 13)

ข้าว. 13 การวิเคราะห์ความสัมพันธ์ภายในกลุ่ม

ไม่มีการเปลี่ยนแปลงในตาราง "ค่าเฉลี่ย"

บทที่ 3 การวิเคราะห์ปัจจัย

งาน: การวิเคราะห์กิจกรรมขององค์กร อุตสาหกรรมเบา.

ข้อมูลการสำรวจมีให้สำหรับองค์กรอุตสาหกรรมเบา 20 แห่ง (รูปที่ 14) ตามลักษณะดังต่อไปนี้:

X1 - ระดับของผลผลิตทุน;

X2 – ความเข้มแรงงานของหน่วยการผลิต

X3 - ส่วนแบ่งของวัสดุจัดซื้อเป็นต้นทุนรวม

X4 – ปัจจัยการเปลี่ยนอุปกรณ์;

X5 - โบนัสและค่าตอบแทนต่อพนักงาน;

X6 - สัดส่วนการสูญเสียจากการแต่งงาน

X7 – ต้นทุนประจำปีเฉลี่ยของสินทรัพย์การผลิตคงที่;

X8 - กองทุนค่าจ้างรายปีเฉลี่ย

X9 - ระดับความสามารถทางการตลาดของผลิตภัณฑ์

· X10 – ดัชนีสินทรัพย์ถาวร (อัตราส่วนของสินทรัพย์ถาวรและสินทรัพย์ไม่หมุนเวียนอื่น ๆ ต่อกองทุนของตัวเอง);

X11 - การหมุนเวียนของเงินทุนหมุนเวียน

X12 - ต้นทุนที่ไม่ใช่การผลิต

รูปที่ 14 ข้อมูลเบื้องต้น

ที่จำเป็น:

1. ดำเนินการวิเคราะห์ปัจจัยของตัวแปรต่อไปนี้: 1,3,5-7, 9, 11,12 ระบุและตีความลักษณะของปัจจัย

2. ระบุสถานประกอบการที่เจริญรุ่งเรืองและมีแนวโน้มมากที่สุด

ประสิทธิภาพ:

1. ดำเนินการวิเคราะห์ปัจจัยของตัวแปรต่อไปนี้: 1,3,5-7, 9, 11,12, ระบุและตีความลักษณะของปัจจัย

การวิเคราะห์ปัจจัยคือชุดของวิธีการที่บนพื้นฐานของความสัมพันธ์ในชีวิตจริงของวัตถุ (คุณสมบัติ) ทำให้สามารถระบุลักษณะทั่วไปที่แฝงอยู่ (โดยนัย) ของโครงสร้างองค์กร

ในกล่องโต้ตอบ การวิเคราะห์ปัจจัยเลือกตัวแปรของเรา ระบุพารามิเตอร์ที่จำเป็น

ข้าว. 15 ความแปรปรวนที่อธิบายทั้งหมด

จากตาราง "ความแปรปรวนที่อธิบายทั้งหมด" จะเห็นได้ว่ามีการระบุปัจจัย 3 ประการที่อธิบายการเปลี่ยนแปลงของตัวแปรได้ 74.8% - แบบจำลองที่สร้างขึ้นนั้นค่อนข้างดี

ตอนนี้เราตีความสัญญาณปัจจัยตาม "เมทริกซ์ของส่วนประกอบที่หมุน": (รูปที่ 16)

ข้าว. 16 เมทริกซ์ของส่วนประกอบที่หมุน

ปัจจัยที่ 1 มีความเกี่ยวข้องอย่างใกล้ชิดกับระดับการขายผลิตภัณฑ์มากที่สุดและมีความสัมพันธ์แบบผกผันกับต้นทุนที่ไม่ใช่การผลิต

ปัจจัยที่ 2 มีความเกี่ยวข้องอย่างใกล้ชิดกับส่วนแบ่งของวัสดุจัดซื้อจัดจ้างในต้นทุนทั้งหมดและส่วนแบ่งการสูญเสียจากการแต่งงาน และมีความสัมพันธ์แบบผกผันกับโบนัสและค่าตอบแทนต่อพนักงานหนึ่งคน

ปัจจัยที่ 3 มีความเกี่ยวข้องอย่างใกล้ชิดกับระดับการผลิตทุนและการหมุนเวียนของเงินทุนหมุนเวียน และมีความสัมพันธ์แบบผกผันกับต้นทุนเฉลี่ยรายปีของสินทรัพย์ถาวร

2. ระบุสถานประกอบการที่เจริญรุ่งเรืองและมีแนวโน้มมากที่สุด

เพื่อระบุองค์กรที่เจริญรุ่งเรืองที่สุด เราจะจัดเรียงข้อมูลตามเกณฑ์ 3 ปัจจัยโดยเรียงลำดับจากมากไปน้อย (รูปที่ 17)

ควรพิจารณาวิสาหกิจที่เจริญรุ่งเรืองที่สุด: 13,4,5 เนื่องจากโดยทั่วไปแล้ว ตามปัจจัย 3 ประการ ตัวบ่งชี้ของพวกเขามีตำแหน่งสูงสุดและมีเสถียรภาพมากที่สุด

บทที่ 4 การวิเคราะห์การเลือกปฏิบัติ

การประเมินความน่าเชื่อถือของนิติบุคคลในธนาคารพาณิชย์

ธนาคารได้เลือกตัวบ่งชี้ 6 ตัวเป็นตัวบ่งชี้ที่สำคัญซึ่งแสดงถึงสถานะทางการเงินขององค์กรสินเชื่อ (ตารางที่ 4.1.1):

QR (X1) - อัตราส่วนสภาพคล่องที่รวดเร็ว

CR (X2) - อัตราส่วนสภาพคล่องปัจจุบัน

EQ/TA (X3) - อัตราส่วนความเป็นอิสระทางการเงิน

TD/EQ (X4) - หนี้สินรวมต่อทุน;

ROS (X5) - ความสามารถในการทำกำไรจากการขาย

FAT (X6) - การหมุนเวียนของสินทรัพย์ถาวร

ตาราง 4.1.1. ข้อมูลเบื้องต้น


ที่จำเป็น:

จากการวิเคราะห์จำแนกโดยใช้แพ็คเกจ SPSS ให้กำหนดว่าผู้กู้สามประเภทใดในสี่ประเภท ( นิติบุคคล) ประสงค์จะขอสินเชื่อจากธนาคารพาณิชย์:

§ กลุ่มที่ 1 - มีผลงานทางการเงินที่ยอดเยี่ยม

§ กลุ่มที่ 2 - มีผลงานทางการเงินที่ดี

§ กลุ่มที่ 3 - มีผลงานทางการเงินที่ไม่ดี

§ กลุ่มที่ 4 - มีผลงานทางการเงินที่แย่มาก

จากผลการคำนวณ ให้สร้างฟังก์ชันการเลือกปฏิบัติ ประเมินความสำคัญของพวกมันด้วยค่าสัมประสิทธิ์วิลก์ส (λ) สร้างแผนที่การรับรู้และไดอะแกรมของตำแหน่งสัมพัทธ์ของการสังเกตในพื้นที่สามหน้าที่ ดำเนินการตีความผลการวิเคราะห์

ความคืบหน้า:

ในการพิจารณาว่าผู้กู้สามรายที่ต้องการได้รับเงินกู้จากธนาคารพาณิชย์อยู่ในสี่ประเภทใด เราจึงสร้างการวิเคราะห์แบบเลือกปฏิบัติที่ช่วยให้เราสามารถกำหนดได้ว่าควรกำหนดลูกค้าใหม่กลุ่มใด (ตัวอย่างการฝึกอบรม) ในกลุ่มประชากรที่ระบุก่อนหน้านี้ .

ในฐานะตัวแปรตาม เราจะเลือกกลุ่มที่ผู้กู้อาจสังกัด ขึ้นอยู่กับประสิทธิภาพทางการเงินของกลุ่ม จากข้อมูลงาน แต่ละกลุ่มจะได้รับคะแนนที่สอดคล้องกัน 1, 2, 3 และ 4

ค่าสัมประสิทธิ์มาตรฐานที่ไม่เป็นมาตรฐานของฟังก์ชันจำแนกตามที่แสดงในรูปที่ 4.1.1 ใช้เพื่อสร้างสมการของฟังก์ชันจำแนกประเภท D1(X), D2(X) และ D3(X):

3.) D3(X) =


1

(คงที่)

ข้าว. 4.1.1. ค่าสัมประสิทธิ์ของฟังก์ชันจำแนกตามบัญญัติบัญญัติ

ข้าว. 4.1.2. แลมบ์ดา วิลค์ส

อย่างไรก็ตาม เนื่องจากค่าสัมประสิทธิ์ของวิลก์ส (รูปที่ 4.1.2) มีความสำคัญมากกว่า 0.001 จึงไม่แนะนำให้ใช้เพื่อการเลือกปฏิบัติ

ข้อมูลของตาราง "ผลการจัดหมวดหมู่" (รูปที่ 4.1.3) ระบุว่าสำหรับการสังเกต 100% การจำแนกประเภทได้ดำเนินการอย่างถูกต้องมีความแม่นยำสูงในทั้งสี่กลุ่ม (100%)

ข้าว. 4.1.3. ผลการจำแนกประเภท

ข้อมูลเกี่ยวกับกลุ่มจริงและกลุ่มที่คาดการณ์ไว้สำหรับผู้กู้แต่ละคนมีอยู่ในตาราง "สถิติคะแนน" (รูปที่ 4.1.4)

จากการวิเคราะห์แยกแยะ มีความเป็นไปได้สูงที่ผู้กู้รายใหม่ของธนาคารจะอยู่ในกลุ่มย่อยการฝึกอบรม M1 - ผู้กู้รายแรก ที่สอง และสาม (หมายเลขซีเรียล 41, 42, 43) จะได้รับมอบหมายให้กับกลุ่มย่อย M1 ด้วย ความน่าจะเป็นที่สอดคล้องกัน 100%

หมายเลขสังเกตการณ์

กลุ่มจริง

กลุ่มที่มีแนวโน้มมากที่สุด

กลุ่มที่คาดการณ์

ไม่จัดกลุ่ม

ไม่จัดกลุ่ม

ไม่จัดกลุ่ม

ข้าว. 4.1.4. สถิติคะแนน

พิกัดของ centroids ตามกลุ่มมีอยู่ในตาราง "Functions in group centroids" (รูปที่ 4.1.5) พวกมันถูกใช้เพื่อพล็อตเซนทรอยด์บนแผนที่ที่รับรู้ (รูปที่ 4.1.6)

1

ข้าว. 4.1.5. ฟังก์ชั่นในกลุ่ม centroids

ข้าว. 4.1.6. แผนที่การรับรู้สำหรับสองฟังก์ชันจำแนก D1(X) และ D2(X) (* - กลุ่มเซนทรอยด์)

ฟิลด์ของ "แผนที่อาณาเขต" ถูกแบ่งตามหน้าที่แบ่งแยกออกเป็นสี่ส่วน: ทางด้านซ้ายมีการสังเกตส่วนใหญ่ของผู้กู้กลุ่มที่สี่ที่มีผลงานทางการเงินที่แย่มากทางด้านขวา - กลุ่มแรกที่มีผลงานทางการเงินที่ยอดเยี่ยม ในตอนกลางและตอนล่าง - กลุ่มที่สามและกลุ่มที่สองของผู้กู้ที่มีผลการดำเนินงานทางการเงินไม่ดีและดีตามลำดับ

ข้าว. 4.1.7. Scatterplot สำหรับทุกกลุ่ม

ในรูป 4.1.7 แสดงกำหนดการรวมสำหรับการกระจายกลุ่มผู้กู้ทั้งหมดพร้อมกับเซ็นทรอยด์ สามารถใช้ในการวิเคราะห์ภาพเปรียบเทียบลักษณะของตำแหน่งสัมพัทธ์ของกลุ่มผู้กู้ธนาคารในแง่ของตัวชี้วัดทางการเงิน ทางด้านขวาของกราฟคือผู้กู้ที่มีประสิทธิภาพสูง ทางซ้าย - ต่ำและปานกลาง - มีประสิทธิภาพทางการเงินโดยเฉลี่ย เนื่องจากจากผลการคำนวณ ฟังก์ชัน discriminant ที่สอง D2(X) กลับกลายเป็นว่าไม่มีนัยสำคัญ ความแตกต่างในพิกัดเซนทรอยด์ตามแกนนี้จึงไม่มีนัยสำคัญ

การประเมินความน่าเชื่อถือของบุคคลในธนาคารพาณิชย์

ฝ่ายสินเชื่อของธนาคารพาณิชยศาสตร์ได้ทำการสำรวจตัวอย่างลูกค้า 30 ราย (รายบุคคล) จากการวิเคราะห์ข้อมูลเบื้องต้น ผู้กู้ได้รับการประเมินตามตัวชี้วัด 6 ประการ (ตารางที่ 4.2.1):

X1 - ผู้ยืมใช้เงินกู้ใน ธนาคารพาณิชย์ก่อนหน้านี้;

X2 คือรายได้เฉลี่ยต่อเดือนของครอบครัวผู้กู้พันรูเบิล

X3 - ระยะเวลา (งวด) ของการชำระคืนเงินกู้, ปี;

X4 - จำนวนเงินกู้ที่ออก พันรูเบิล;

X5 - องค์ประกอบของครอบครัวผู้กู้บุคคล;

X6 - อายุของผู้กู้ปี

ในเวลาเดียวกัน ระบุกลุ่มผู้กู้สามกลุ่มตามความน่าจะเป็นของการชำระคืนเงินกู้:

§กลุ่มที่ 1 - มีความเป็นไปได้ต่ำในการชำระคืนเงินกู้

§กลุ่ม 2 - มีโอกาสเฉลี่ยในการชำระคืนเงินกู้

§ กลุ่มที่ 3 - มีความเป็นไปได้สูงในการชำระคืนเงินกู้

ที่จำเป็น:

จากการวิเคราะห์จำแนกโดยใช้แพ็คเกจ SPSS จำเป็นต้องจำแนกลูกค้าธนาคารสามราย (ตามความน่าจะเป็นของการชำระคืนเงินกู้) เช่น ประเมินว่าแต่ละกลุ่มอยู่ในกลุ่มใดกลุ่มหนึ่งจากสามกลุ่ม จากผลลัพธ์ของการคำนวณ ให้สร้างฟังก์ชันการเลือกปฏิบัติที่สำคัญ ประเมินความสำคัญของพวกมันด้วยค่าสัมประสิทธิ์ Wilks (λ) ในพื้นที่ของการแบ่งแยกสองฟังก์ชันสำหรับแต่ละกลุ่ม ให้สร้างไดอะแกรมของการจัดเรียงข้อสังเกตร่วมกันและแผนภาพรวม ประเมินตำแหน่งของผู้กู้แต่ละรายในแผนภูมิเหล่านี้ ดำเนินการตีความผลการวิเคราะห์

ตาราง 4.2.1. ข้อมูลเบื้องต้น

ความคืบหน้า:

ในการสร้างการวิเคราะห์จำแนก เราเลือกความน่าจะเป็นของการชำระคืนเงินกู้โดยลูกค้าในเวลาที่เหมาะสมเป็นตัวแปรตาม เนื่องจากสามารถต่ำ กลาง และสูง แต่ละหมวดจะได้รับคะแนนที่สอดคล้องกัน 1,2 และ 3

ค่าสัมประสิทธิ์มาตรฐานที่ไม่เป็นมาตรฐานของฟังก์ชันจำแนกตามที่แสดงในรูปที่ 4.2.1 ใช้เพื่อสร้างสมการของฟังก์ชันจำแนกประเภท D1(X), D2(X):

2.) D2(X) =

ข้าว. 4.2.1. ค่าสัมประสิทธิ์ของฟังก์ชันจำแนกตามบัญญัติบัญญัติ

ข้าว. 4.2.2. แลมบ์ดา วิลค์ส

ตามค่าสัมประสิทธิ์ Wilks (รูปที่ 4.2.2) สำหรับฟังก์ชันที่สอง ความสำคัญมากกว่า 0.001 ดังนั้นจึงไม่แนะนำให้ใช้สำหรับการเลือกปฏิบัติ

ข้อมูลของตาราง "ผลการจำแนกประเภท" (รูปที่ 4.2.3) ระบุว่าสำหรับการสังเกต 93.3% การจำแนกประเภทดำเนินการอย่างถูกต้องมีความแม่นยำสูงในกลุ่มแรกและกลุ่มที่สอง (100% และ 91.7%) แม่นยำน้อยกว่า ได้ผลลัพธ์ในกลุ่มที่สาม (88.9%)

ข้าว. 4.2.3. ผลการจำแนกประเภท

ข้อมูลเกี่ยวกับกลุ่มจริงและกลุ่มที่คาดการณ์สำหรับลูกค้าแต่ละรายอยู่ในตาราง "สถิติคะแนน" (รูปที่ 4.2.4)

จากการวิเคราะห์จำแนก มีความเป็นไปได้สูงที่ลูกค้าใหม่ของธนาคารจะอยู่ในชุดย่อยการฝึกอบรม M3 - ลูกค้ารายแรก ที่สอง และบุคคลที่สาม (หมายเลขซีเรียล 31, 32, 33) จะได้รับมอบหมายให้กับชุดย่อย M3 ด้วย ความน่าจะเป็นที่สอดคล้องกันของ 99%, 99% และ 100%

หมายเลขสังเกตการณ์

กลุ่มจริง

กลุ่มที่มีแนวโน้มมากที่สุด

กลุ่มที่คาดการณ์

ไม่จัดกลุ่ม

ไม่จัดกลุ่ม

ไม่จัดกลุ่ม

ข้าว. 4.2.4. สถิติคะแนน

ความน่าจะเป็นของการชำระคืนเงินกู้

ข้าว. 4.2.5. ฟังก์ชั่นในกลุ่ม centroids

พิกัดของ centroids ตามกลุ่มมีอยู่ในตาราง "Functions in group centroids" (รูปที่ 4.2.5) พวกมันถูกใช้เพื่อพล็อตเซนทรอยด์บนแผนที่ที่รับรู้ (รูปที่ 4.2.6)

ฟิลด์ "แผนที่อาณาเขต" ถูกแบ่งตามฟังก์ชันการแบ่งแยกออกเป็นสามส่วน: ทางด้านซ้ายมีการสังเกตส่วนใหญ่ของลูกค้ากลุ่มแรกที่มีความน่าจะเป็นต่ำมากในการชำระคืนเงินกู้ทางด้านขวา - กลุ่มที่สามที่มีความเป็นไปได้สูง ในกลุ่มลูกค้าระดับกลาง - กลุ่มที่ 2 ที่มีแนวโน้มเฉลี่ยในการชำระคืนเงินกู้ตามลำดับ .

ในรูป 4.2.7 (a - c) สะท้อนถึงที่ตั้งของลูกค้าของแต่ละกลุ่มจากสามกลุ่มบนระนาบของฟังก์ชันการเลือกปฏิบัติสองแบบ D1(X) และ D2(X) จากกราฟเหล่านี้ เป็นไปได้ที่จะทำการวิเคราะห์โดยละเอียดเกี่ยวกับความน่าจะเป็นในการชำระคืนเงินกู้ภายในแต่ละกลุ่ม เพื่อตัดสินลักษณะของการกระจายลูกค้า และเพื่อประเมินระดับความห่างไกลจากเซนทรอยด์ที่เกี่ยวข้อง

ข้าว. 4.2.6. แผนที่การรับรู้สำหรับฟังก์ชันจำแนกสามแบบ D1(X) และ D2(X) (* - กลุ่มเซนทรอยด์)

ในรูปด้วย 4.2.7 (d) ในระบบพิกัดเดียวกัน กราฟรวมของการกระจายของกลุ่มลูกค้าทั้งหมดจะแสดงพร้อมกับเซนทรอยด์ สามารถใช้ในการวิเคราะห์ภาพเปรียบเทียบลักษณะของตำแหน่งสัมพัทธ์ของกลุ่มลูกค้าธนาคารที่มีความน่าจะเป็นที่แตกต่างกันในการชำระคืนเงินกู้ ทางด้านซ้ายของกราฟคือผู้กู้ที่มีความเป็นไปได้สูงที่จะชำระคืนเงินกู้ ทางด้านขวา - มีความเป็นไปได้ต่ำ และในส่วนตรงกลาง - โดยมีความน่าจะเป็นเฉลี่ย เนื่องจากจากผลการคำนวณ ฟังก์ชัน discriminant ที่สอง D2(X) กลับกลายเป็นว่าไม่มีนัยสำคัญ ความแตกต่างในพิกัดเซนทรอยด์ตามแกนนี้จึงไม่มีนัยสำคัญ

ข้าว. 4.2.7. ตำแหน่งของข้อสังเกตบนระนาบของฟังก์ชันจำแนกสองแบบสำหรับกลุ่มที่มีค่าต่ำ (a) ปานกลาง (b) สูง (c) ความน่าจะเป็นของการชำระคืนเงินกู้และสำหรับทุกกลุ่ม (d)

บรรณานุกรม

1. “การวิเคราะห์ทางสถิติหลายตัวแปรในปัญหาเศรษฐกิจ การสร้างแบบจำลองคอมพิวเตอร์ใน SPSS”, 2009

2. Orlov A.I. "สถิติประยุกต์" M.: สำนักพิมพ์ "สอบ", 2004

3. ฟิชเชอร์ อาร์.เอ. "วิธีการทางสถิติสำหรับนักวิจัย", 2497

4. Kalinina V.N. , Soloviev V.I. "บทนำสู่การวิเคราะห์ทางสถิติหลายตัวแปร" หนังสือเรียน SUM, 2003;

5. Achim Buyul, Peter Zöfel, SPSS: The Art of Information Processing, DiaSoft Publishing, 2005;

6. http://ru.wikipedia.org/wiki


ตารางตัวอย่าง conjugacy max, การประมาณการที่เป็นไปได้:

G2= -2 ^ p sch Sht t ■ p w)

มีการแจกแจง asymptotic χ 2 -distribution นี้ขึ้นอยู่กับสถิติ การทดสอบสมมติฐานความสัมพันธ์

มีประสบการณ์ในการประมวลผลข้อมูลโดยใช้ A.l. แสดงให้เห็นถึงประสิทธิภาพในการวิเคราะห์แบบกำหนดเป้าหมายของตารางหลายมิติ การผันคำกริยาซึ่งประกอบด้วย (ในกรณีของการเลือกตัวแปรที่สมเหตุสมผลอย่างมีความหมาย) จำนวนมากเมื่อเทียบกับตารางสองมิติปริมาณข้อมูลที่น่าสนใจสำหรับนักสังคมวิทยา วิธีนี้ช่วยให้คุณอธิบายตารางนี้ได้อย่างกระชับ (ในรูปของสมมติฐานเกี่ยวกับการเชื่อมต่อ) และในขณะเดียวกันก็วิเคราะห์อย่างละเอียด ความสัมพันธ์. อัล มักใช้ในหลายขั้นตอน ในรูปแบบของบทสนทนาทางสังคมวิทยา-คอมพิวเตอร์ ดังนั้น อัล มีความยืดหยุ่นมาก ให้โอกาสในการกำหนดสมมติฐานประเภทต่างๆ เกี่ยวกับความสัมพันธ์ รวมถึงประสบการณ์ของนักสังคมวิทยาในขั้นตอนการวิเคราะห์ข้อมูลอย่างเป็นทางการ

ย่อ: อัพท็อปจีการวิเคราะห์ตาราง การผันคำกริยา ม., 1982; ประเภทและการจำแนกประเภทในสังคม การวิจัย. ม., 1982; บิชอป Y.M.M.เป็นต้น การวิเคราะห์หลายตัวแปรแบบไม่ต่อเนื่อง NY, 1975; อาเกรสตี เอบทนำสู่การวิเคราะห์ข้อมูลตามหมวดหมู่ นิวยอร์ก, 1966.

เอเอ Mirzoev

การวิเคราะห์ทางสถิติหลายตัวแปร- วินาที สถิติทางคณิตศาสตร์ทุ่มเทให้กับคณิตศาสตร์ วิธีการที่มุ่งระบุลักษณะและโครงสร้างของความสัมพันธ์ระหว่างส่วนประกอบของการศึกษา สัญลักษณ์หลายมิติและตั้งใจที่จะรับวิทยาศาตร์ และผลในทางปฏิบัติ อาร์เรย์เริ่มต้นของข้อมูลหลายมิติสำหรับการนำ A.m.s. มักใช้เป็นผลจากการวัดส่วนประกอบของแอตทริบิวต์หลายมิติสำหรับวัตถุแต่ละชิ้นของประชากรที่ศึกษา กล่าวคือ ลำดับของการสังเกตหลายตัวแปร (ดู การสังเกตในสถิติ)คุณลักษณะหลายมิติมักถูกตีความว่าเป็นหลายมิติ นำ-


สุ่มอันดับ,และลำดับของการสังเกตหลายตัวแปร - เป็นตัวอย่างจากประชากรทั่วไป ในกรณีนี้ทางเลือกของวิธีการประมวลผลสถิติเดิม ข้อมูลถูกสร้างขึ้นบนพื้นฐานของสมมติฐานบางประการเกี่ยวกับธรรมชาติ กฎหมายการจัดจำหน่ายศึกษาคุณสมบัติหลายมิติ (ดู การกระจายความน่าจะเป็น).

1. น. การแจกแจงหลายตัวแปรและหลักของพวกเขา ลักษณะครอบคลุมสถานการณ์เมื่อการสังเกตที่ประมวลผลมีลักษณะน่าจะเป็นเช่น ถูกตีความเป็นตัวอย่างจาก acc. ประชากรทั่วไป สู่หลัก วัตถุประสงค์ของส่วนย่อยนี้รวมถึง; การประมาณทางสถิติตรวจสอบการแจกแจงหลายตัวแปรและหลักของพวกเขา พารามิเตอร์; คุณสมบัติการวิจัยของสถิติที่ใช้ การให้คะแนน; ศึกษาการแจกแจงความน่าจะเป็นสำหรับสถิติจำนวนหนึ่งโดยใช้สถิติที่สร้างไว้ เกณฑ์การทดสอบต่างกัน สมมติฐานเกี่ยวกับลักษณะความน่าจะเป็นของข้อมูลหลายตัวแปรที่วิเคราะห์แล้ว (ดู การทดสอบสมมติฐานทางสถิติ)

2. น. ลักษณะและโครงสร้างของความสัมพันธ์กันขององค์ประกอบของคุณลักษณะหลายมิติภายใต้การศึกษารวมแนวคิดและผลลัพธ์ที่มีอยู่ในวิธีการและแบบจำลองเช่น การวิเคราะห์การถดถอย การวิเคราะห์การกระจาย การวิเคราะห์ความแปรปรวนร่วมการวิเคราะห์ปัจจัย การวิเคราะห์โครงสร้างแฝง การวิเคราะห์ loggery การค้นหาปฏิสัมพันธ์เมธอดที่เป็นของกลุ่มนี้มีทั้งอัลกอริธึมหลัก ขึ้นอยู่กับสมมติฐานของลักษณะความน่าจะเป็นของข้อมูล เช่นเดียวกับวิธีการที่ไม่เหมาะสมในกรอบของ k.-l แบบจำลองความน่าจะเป็น (แบบหลังมักเรียกว่าวิธีการ) การวิเคราะห์ข้อมูล).

3. น. โครงสร้างทางเรขาคณิตของชุดการสังเกตแบบหลายมิติที่ศึกษาจะรวมแนวคิดและผลลัพธ์ที่มีอยู่ในแบบจำลองและวิธีการต่างๆ เช่น การวิเคราะห์การเลือกปฏิบัติการวิเคราะห์คลัสเตอร์ (ดู วิธีการจำแนก, มาตราส่วน). Nodal สำหรับรุ่นเหล่านี้ yavl แนวคิดของระยะทางหรือการวัดความใกล้ชิดระหว่างองค์ประกอบที่วิเคราะห์เป็นจุดของ

การวิเคราะห์สาเหตุ


หลงทาง ในกรณีนี้ สามารถวิเคราะห์ทั้งอ็อบเจ็กต์ (ตามจุดที่ระบุในพื้นที่ฟีเจอร์) และฟีเจอร์ (ตามจุดที่ระบุในพื้นที่ "อ็อบเจ็กต์")

ใช้มูลค่า น. ประกอบด้วยหลัก ในการให้บริการต่อไป สามปัญหา: สถิติ การศึกษาการพึ่งพาระหว่างตัวบ่งชี้ที่พิจารณา การจำแนกองค์ประกอบ (วัตถุ) หรือคุณสมบัติ ลดขนาดของพื้นที่คุณลักษณะภายใต้การพิจารณาและเลือกคุณลักษณะที่ให้ข้อมูลมากที่สุด

Lit.: สถิติ วิธีการวิเคราะห์ทางสังคมวิทยา ข้อมูล. ม., 1979; ประเภทและการจำแนกประเภทในสังคม การวิจัย. ม., 1982; การตีความและวิเคราะห์ข้อมูลทางสังคม การวิจัย ม., 1987; Ayvazyan S.A. , Mkhitaryan V.S.สถิติประยุกต์และพื้นฐานของเศรษฐมิติ: Proc. ม., 1998; Soshnikova L.A.เป็นต้น สถิติหลายมิติ การวิเคราะห์ทางเศรษฐศาสตร์ ม., 1999; Dubrov A.M. , Mkhitaryan V.S. , Troshin L.I.สถิติหลายมิติ วิธีการสำหรับนักเศรษฐศาสตร์และผู้จัดการ ม., 2000; Rostovtsev B.C. , Kovaleva T.D.การวิเคราะห์ทางสังคมวิทยา ข้อมูลโดยใช้สถิติ แพ็คเกจ SPSS โนโวซีบีสค์, 2001; Tyurin Yu.N. , Makarov A.A.การวิเคราะห์ข้อมูลบนคอมพิวเตอร์ ย., 2003; Krysh-tanovsky A. O.การวิเคราะห์ทางสังคมวิทยา ข้อมูลโดยใช้แพ็คเกจ SPSS ม., 2549.

ยุน. ทอลสโตวา

การวิเคราะห์สาเหตุ- วิธีการสร้างแบบจำลองความสัมพันธ์เชิงสาเหตุระหว่างคุณสมบัติโดยใช้ระบบสถิติ สมการ ส่วนใหญ่มักจะถดถอย (ดู การวิเคราะห์การถดถอย)มีชื่ออื่นสำหรับขอบเขตของวิธีการที่ค่อนข้างกว้างขวางและเปลี่ยนแปลงตลอดเวลานี้: การวิเคราะห์เส้นทาง ตามที่ผู้ก่อตั้ง S. Wright เรียกมันเป็นครั้งแรก วิธีการของสมการเศรษฐมิติเชิงโครงสร้าง ตามปกติในเศรษฐมิติ เป็นต้น แนวคิดของ A.p. yavl.: เส้นทาง (โครงสร้าง, สาเหตุ) แผนภาพ, สัมประสิทธิ์สาเหตุ (เส้นทาง), ส่วนประกอบทางตรง, ทางอ้อมและจินตภาพของการเชื่อมต่อระหว่างสัญญาณ ใช้ใน A.p. แนวความคิดของ "ความสัมพันธ์เชิงสาเหตุ * ไม่ส่งผลกระทบต่อ fi-


ลอส ปัญหาที่เกี่ยวข้องกับแนวคิดของ "เวรเป็นกรรม" ค่าสัมประสิทธิ์สาเหตุถูกกำหนด ค่อนข้างใช้งานได้ เสื่อ. เครื่องมือทำให้สามารถตรวจสอบการมีอยู่ของความสัมพันธ์เชิงสาเหตุโดยตรงและโดยอ้อมระหว่างสัญญาณ ตลอดจนระบุส่วนประกอบเหล่านั้นของสัมประสิทธิ์สหสัมพันธ์ (ดูรูปที่ ความสัมพันธ์) to-rye เกี่ยวข้องกับการเชื่อมต่อโดยตรงโดยอ้อมและจินตภาพ

ไดอะแกรมพาธสะท้อนถึงความสัมพันธ์เชิงสาเหตุและความสัมพันธ์ระหว่างคุณลักษณะต่างๆ ระบบคุณลักษณะที่มีลิงก์แบบทิศทางเดียวเรียกว่าแบบเรียกซ้ำ ระบบเชิงสาเหตุแบบไม่เรียกซ้ำยังคำนึงถึงการตอบกลับด้วย ตัวอย่างเช่น คุณลักษณะสองประการของระบบสามารถเป็นได้ทั้งสาเหตุและผลกระทบที่สัมพันธ์กัน สัญญาณทั้งหมดแบ่งออกเป็นสัญญาณ - ผล (ขึ้นอยู่กับ, ภายนอก) และสัญญาณ - สาเหตุ (อิสระ, จากภายนอก) อย่างไรก็ตาม ในระบบสมการ คุณลักษณะภายในของสมการใดสมการหนึ่งอาจเป็นคุณลักษณะภายนอกของสมการอื่นๆ ในกรณีของคุณสมบัติสี่ประการ ไดอะแกรมแบบเรียกซ้ำของทั้งหมด การเชื่อมต่อที่เป็นไปได้ระหว่างคุณสมบัติดูเหมือน:

x2
/ นู๋
*1 ถึง
G
ถึง

การสร้างไดอะแกรมการเชื่อมต่อ yavl หลักฐานที่จำเป็นของคณิตศาสตร์ การกำหนดสถานะของระบบ สมการที่สะท้อนอิทธิพลที่นำเสนอในแผนภาพ หลัก เราจะอธิบายหลักการสร้างระบบสมการถดถอยโดยใช้คุณลักษณะ 4 ประการดังตัวอย่าง ไปทางลูกศรโดยเริ่มจาก ฮี่ค้นหาภายในครั้งแรก

การวิเคราะห์ สาเหตุ


เครื่องหมายและหมายเหตุสัญญาณที่ส่งผลกระทบทั้งโดยตรง (โดยตรง) และโดยอ้อม (โดยอ้อม) และผ่านสัญญาณอื่น ๆ สมการถดถอยมาตรฐานแรกสอดคล้องกับลักษณะภายนอกแรก Xjและแสดงออกถึงการพึ่งพา Χι จากสัญญาณเหล่านั้นที่ส่งผลต่อเขานั่นคือ จาก Χγ. ดังนั้นสมการแรกจึงมีรูปแบบดังนี้ Χι = ไบ\X\

จากนั้นเราเปิดเผยสัญญาณภายนอกที่สอง to-ry มีการสื่อสารโดยตรง นี่คือสัญญาณของ Aj มันสอดคล้องกับตัวแปรภายนอก เอ็กซ์\และ Χι, ดังนั้นสมการถดถอยที่สองในรูปแบบมาตรฐานจึงมีสูตรดังนี้: Aj = bcx\+ bpXgเป็นต้น โดยคำนึงถึงข้อผิดพลาดในการวัด ยูระบบของตัวแบบการถดถอยมาตรฐานสำหรับไดอะแกรมสาเหตุเฉพาะของเราคือ: X\ \u003d อุยแต่? =

- b->\X\+ อุ้ย, เอ็กซ์ที,= 631ΑΊ + โดยiXi+ เอ่อ Χα -

- baXi+ binXi+ J43A3 + สช.เพื่อประเมินค่าสัมประสิทธิ์ ข, s,มันต้องได้รับการแก้ไข การตัดสินใจอยู่ภายใต้เงื่อนไขว่าข้อมูลเป็นไปตามลักษณะบางอย่าง สถิติ ความต้องการ. b$เรียกว่าปัจจัยเชิงสาเหตุและมักแสดงเป็น ร.ที่., อาร์#แสดงว่าสัดส่วนของการเปลี่ยนแปลงในการแปรผันของลักษณะภายนอกซึ่งเกิดขึ้นเมื่อลักษณะภายนอกเปลี่ยนแปลง เจต่อหน่วยค่าเบี่ยงเบนมาตรฐานของคุณลักษณะนี้ โดยมีเงื่อนไขว่าไม่รวมอิทธิพลของคุณลักษณะอื่นๆ ของสมการ (ดู การวิเคราะห์การถดถอย)กล่าวอีกนัยหนึ่ง P,y มีผลคุณสมบัติโดยตรง เจเกี่ยวกับลักษณะ ง. ผลกระทบทางอ้อมของลักษณะ เจ on;) คำนวณโดยคำนึงถึงเส้นทางอิทธิพลทั้งหมด เจบน ผมยกเว้นทางตรง

ในแผนภาพ อิทธิพลโดยตรงของคุณลักษณะแรกในส่วนที่สี่จะแสดงเป็นแผนผังโดยลูกศรตรงที่มาจาก Χι ถึง xt,แสดงสัญลักษณ์เป็น 1->4; เท่ากับสัมประสิทธิ์อิทธิพลเชิงสาเหตุ P, X 2,..., เอช อาร์การพึ่งพาอาศัยกันแบบถดถอยอย่างเคร่งครัดสามารถกำหนดได้ดังนี้ ทาง.

ให้ U เอ็กซ์\, เอ็กซ์,..., เอ็กซ์ พี -สุ่ม
ปริมาณที่มีข้อต่อที่กำหนด เผ่าพันธุ์
ความน่าจะเป็น
ถ้าสำหรับแต่ละคน
ชุดยาวของค่า X λ \u003d x \, X 2= ปรอท...,
X p \u003d x pคณิตศาสตร์แบบมีเงื่อนไข รอ
เดนมาร์ก Υ(χ\, X2,..., Xp) - E(ใช่/(X]= xj,
Χι = X2, ..., X p \u003d Xp)),แล้วฟังก์ชัน Υ(Χ],
x2,
..., เอ็กซ์พี)เรียกว่าการถดถอยขนาด
ns Y ตามขนาด เอ็กซ์\, เอ็กซ์,..., x r,และเธอ
กราฟ - เส้นถดถอย Y โดย เอ็กซ์\, เอ็กซ์,
..., X พี,
หรือสมการถดถอย ซาวี
การพึ่งพา Y บน ΛΊ, hg....... X pแสดงออกใน

เปลี่ยนค่าเฉลี่ยของ Vpri จาก
การเปลี่ยนแปลง X\, Xr........ Ch.แม้ว่าในทุก ๆ

ชุดค่าคงที่ เอ็กซ์]-เอ็กซ์เจ, xg = xg,» , Xp ~ Xpปริมาณ Τ ยังคงเป็นตัวแปรสุ่มพร้อมคำจำกัดความ กระจัดกระจาย เพื่อหาว่าการถดถอยประมาณการการเปลี่ยนแปลงใน Y ด้วยการเปลี่ยนแปลงใน ΑΊ ได้แม่นยำเพียงใด ปรอท..., x r,ค่าเฉลี่ยของความแปรปรวน Y ใช้สำหรับชุดค่าต่างๆ เอ็กซ์\, เอ็กซ์,..., Xp(อันที่จริง เรากำลังพูดถึงการวัดการกระจายตัวของตัวแปรตามรอบเส้นการถดถอย)

ในทางปฏิบัติ เส้นการถดถอยมักถูกค้นหาในรูปแบบของฟังก์ชันเชิงเส้น Y = bx + biXi + bxxr+ - + bpXp(การถดถอยเชิงเส้น) วิธีที่ดีที่สุดใกล้เคียงกับเส้นโค้งที่ต้องการ สิ่งนี้ทำได้โดยใช้วิธีกำลังสองน้อยที่สุด เมื่อผลรวมของการเบี่ยงเบนกำลังสองของ Y ที่สังเกตได้จริงจากการประมาณค่า Y นั้นถูกย่อให้เล็กสุด (หมายถึงการประมาณโดยใช้เส้นตรงที่อ้างว่าแสดงถึงการพึ่งพาการถดถอยที่ต้องการ): w

U (U -U) => min (Ν - ขนาดตัวอย่าง) s

วิธีการนี้อิงตามข้อเท็จจริงที่ทราบกันดีว่าผลรวมที่ปรากฏในนิพจน์ข้างต้นนั้นใช้ค่ามินินิม ค่าสำหรับกรณีที่ Y= Υ(χ\, xr, --, x ร).แอปพลิเคชัน