коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ

ΠžΡ‚Π±ΠΎΡ€ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² для машинного обучСния Π½Π° Python

ΠŸΡ€ΠΈΠ·Π½Π°ΠΊΠΈ (feature), ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΡ‹Π΅ для обучСния ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΠΎΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‚ большоС влияниС Π½Π° качСство Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ². НСинформативныС ΠΈΠ»ΠΈ слабо ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ‚ΠΈΠ²Π½Ρ‹Π΅ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ ΠΌΠΎΠ³ΡƒΡ‚ сущСствСнно ΠΏΠΎΠ½ΠΈΠ·ΠΈΡ‚ΡŒ ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ ΠΌΠΎΠ΄Π΅Π»ΠΈ.

Π’ этой ΡΡ‚Π°Ρ‚ΡŒΠ΅ ΠΌΡ‹ рассмотрим Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ Π°Π²Ρ‚ΠΎΠΌΠ°Ρ‚ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½Π½ΠΎΠ³ΠΎ ΠΎΡ‚Π±ΠΎΡ€Π° ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² (feature selection), примСняСмыС для ΠΏΠΎΠ΄Π³ΠΎΡ‚ΠΎΠ²ΠΊΠΈ Π΄Π°Π½Π½Ρ‹Ρ…. ΠŸΡ€ΠΈΠΌΠ΅Ρ€Ρ‹ Ρ€Π΅Π°Π»ΠΈΠ·ΠΎΠ²Π°Π½Ρ‹ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Python ΠΈ Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠΈ scikit-learn.

ΠžΡ‚Π±ΠΎΡ€ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²

ΠžΡ‚Π±ΠΎΡ€ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² – это процСсс Π²Ρ‹Π±ΠΎΡ€Π° ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ², ΠΈΠΌΠ΅ΡŽΡ‰ΠΈΡ… Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ тСсныС взаимосвязи с Ρ†Π΅Π»Π΅Π²ΠΎΠΉ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ.

ΠŸΡ€ΠΈΡΡƒΡ‚ΡΡ‚Π²ΠΈΠ΅ Π² Π΄Π°Π½Π½Ρ‹Ρ… Π½Π΅ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ‚ΠΈΠ²Π½Ρ‹Ρ… ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² ΠΏΡ€ΠΈΠ²ΠΎΠ΄ΠΈΡ‚ ΠΊ сниТСнию точности ΠΌΠ½ΠΎΠ³ΠΈΡ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, особСнно Π»ΠΈΠ½Π΅ΠΉΠ½Ρ‹Ρ…, Ρ‚Π°ΠΊΠΈΡ… ΠΊΠ°ΠΊ линСйная ΠΈ логистичСская рСгрСссия.

ΠžΡ‚Π±ΠΎΡ€ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² ΠΏΠ΅Ρ€Π΅Π΄ ΠΌΠΎΠ΄Π΅Π»ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ обСспСчиваСт Ρ‚Ρ€ΠΈ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΡ… прСимущСства:

ΠŸΠΎΠ΄Ρ€ΠΎΠ±Π½ΠΎΠ΅ руководство ΠΏΠΎ ΠΎΡ‚Π±ΠΎΡ€Ρƒ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ scikit-learn Π²Ρ‹ ΠΌΠΎΠΆΠ΅Ρ‚Π΅ Π½Π°ΠΉΡ‚ΠΈ Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°Ρ†ΠΈΠΈ ΠΊ этой Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠ΅ Π² Ρ€Π°Π·Π΄Π΅Π»Π΅ Feature selection.

ΠœΠ΅Ρ‚ΠΎΠ΄Ρ‹ ΠΎΡ‚Π±ΠΎΡ€Π° ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²

Π˜Ρ‚Π°ΠΊ, Π΄Π°Π²Π°ΠΉΡ‚Π΅ рассмотрим 4 ΠΌΠ΅Ρ‚ΠΎΠ΄Π° ΠΎΡ‚Π±ΠΎΡ€Π° ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π½Π° Python. ДСмонстрационныС ΠΏΡ€ΠΈΠΌΠ΅Ρ€Ρ‹ для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΌΠ΅Ρ‚ΠΎΠ΄Π° ΡΠ²Π»ΡΡŽΡ‚ΡΡ ΡΠ°ΠΌΠΎΡΡ‚ΠΎΡΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌΠΈ модулями, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π²Ρ‹ ΠΌΠΎΠΆΠ΅Ρ‚Π΅ просто ΡΠΊΠΎΠΏΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ Π² своих ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π°Ρ….

Π’ Π½Π°ΡˆΠΈΡ… ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π°Ρ… ΠΌΡ‹ Π±ΡƒΠ΄Π΅ΠΌ Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ с Π½Π°Π±ΠΎΡ€ΠΎΠΌ Π΄Π°Π½Π½Ρ‹Ρ…, содСрТащим ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ ΠΎ случаях сахарного Π΄ΠΈΠ°Π±Π΅Ρ‚Π° срСди ΠΈΠ½Π΄Π΅ΠΉΡ†Π΅Π² Пима (Pima Indians diabetes). ВсС ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ ΡΠ²Π»ΡΡŽΡ‚ΡΡ числовыми, Π° Π·Π°Π΄Π°Ρ‡Π° прСдставляСт собой Π΄Π²ΡƒΡ…ΠΊΠ»Π°ΡΡΠΎΠ²ΡƒΡŽ ΠΊΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΡŽ.

ΠŸΡ€ΠΈΠ·Π½Π°ΠΊΠΈ, ΠΈΠΌΠ΅ΡŽΡ‰ΠΈΠ΅ Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½Π½ΡƒΡŽ взаимосвязь с Ρ†Π΅Π»Π΅Π²ΠΎΠΉ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ, ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ ΠΎΡ‚ΠΎΠ±Ρ€Π°Π½Ρ‹ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ статистичСских ΠΊΡ€ΠΈΡ‚Π΅Ρ€ΠΈΠ΅Π². Π‘ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠ° scikit-learn содСрТит класс SelectKBest, Ρ€Π΅Π°Π»ΠΈΠ·ΡƒΡŽΡ‰ΠΈΠΉ ΠΎΠ΄Π½ΠΎΠΌΠ΅Ρ€Π½Ρ‹ΠΉ ΠΎΡ‚Π±ΠΎΡ€ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² (univariate feature selection). Π­Ρ‚ΠΎΡ‚ класс ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€ΠΈΠΌΠ΅Π½ΡΡ‚ΡŒ совмСстно с Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹ΠΌΠΈ статистичСскими критСриями для ΠΎΡ‚Π±ΠΎΡ€Π° Π·Π°Π΄Π°Π½Π½ΠΎΠ³ΠΎ количСства ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ².

Π’ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅ Π½ΠΈΠΆΠ΅ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ ΠΊΡ€ΠΈΡ‚Π΅Ρ€ΠΈΠΉ Ρ…ΠΈ-ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ (chi-squared test) для Π½Π΅ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ², Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΎΡ‚ΠΎΠ±Ρ€Π°Ρ‚ΡŒ 4 Π»ΡƒΡ‡ΡˆΠΈΡ… ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ°.

ΠœΡ‹ Π²ΠΈΠ΄ΠΈΠΌ ΠΎΡ†Π΅Π½ΠΊΠΈ для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ° ΠΈ 4 ΠΎΡ‚ΠΎΠ±Ρ€Π°Π½Π½Ρ‹Ρ… ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ° (с Π½Π°ΠΈΠ²Ρ‹ΡΡˆΠΈΠΌΠΈ ΠΎΡ†Π΅Π½ΠΊΠ°ΠΌΠΈ): plas, test, mass ΠΈ age.

ΠœΠ΅Ρ‚ΠΎΠ΄ рСкурсивного ΠΈΡΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΡ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² (recursive feature elimination, RFE) Ρ€Π΅Π°Π»ΠΈΠ·ΡƒΠ΅Ρ‚ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΉ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ: модСль обучаСтся Π½Π° исходном Π½Π°Π±ΠΎΡ€Π΅ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² ΠΈ ΠΎΡ†Π΅Π½ΠΈΠ²Π°Π΅Ρ‚ ΠΈΡ… Π·Π½Π°Ρ‡ΠΈΠΌΠΎΡΡ‚ΡŒ, Π·Π°Ρ‚Π΅ΠΌ ΠΈΡΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ ΠΎΠ΄ΠΈΠ½ ΠΈΠ»ΠΈ нСсколько Π½Π°ΠΈΠΌΠ΅Π½Π΅Π΅ Π·Π½Π°Ρ‡ΠΈΠΌΡ‹Ρ… ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ², модСль обучаСтся Π½Π° ΠΎΡΡ‚Π°Π²ΡˆΠΈΡ…ΡΡ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ°Ρ…, ΠΈ Ρ‚Π°ΠΊ Π΄Π°Π»Π΅Π΅, ΠΏΠΎΠΊΠ° Π½Π΅ останСтся Π·Π°Π΄Π°Π½Π½ΠΎΠ΅ количСство Π»ΡƒΡ‡ΡˆΠΈΡ… ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ². Π’ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°Ρ†ΠΈΠΈ scikit-learn Π²Ρ‹ ΠΌΠΎΠΆΠ΅Ρ‚Π΅ ΠΏΠΎΠ΄Ρ€ΠΎΠ±Π½Π΅Π΅ ΠΏΡ€ΠΎΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ ΠΎ классС RFE.

Π’ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅ Π½ΠΈΠΆΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄ RFE примСняСтся Π² сочСтании с логистичСской рСгрСссиСй для ΠΎΡ‚Π±ΠΎΡ€Π° 3-Ρ… Π»ΡƒΡ‡ΡˆΠΈΡ… ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ². Для совмСстного использования с RFE ΠΌΠΎΠΆΠ½ΠΎ Π²Ρ‹Π±ΠΈΡ€Π°Ρ‚ΡŒ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ, Π²Π°ΠΆΠ½ΠΎ лишь, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΎΠ½ΠΈ Π±Ρ‹Π»ΠΈ достаточно эффСктивны ΠΈ совмСстимы с RFE.

ΠœΡ‹ Π²ΠΈΠ΄ΠΈΠΌ, Ρ‡Ρ‚ΠΎ Π² Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅ Π±Ρ‹Π»ΠΈ ΠΎΡ‚ΠΎΠ±Ρ€Π°Π½Ρ‹ 3 Π»ΡƒΡ‡ΡˆΠΈΡ… ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ°: preg, mass, pedi. ΠžΡ‚ΠΎΠ±Ρ€Π°Π½Π½Ρ‹Π΅ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ ΠΏΠΎΠΌΠ΅Ρ‡Π΅Π½Ρ‹ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ΠΌ Β«TrueΒ» Π² массивС support_ ΠΈ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ΠΌ Β«1Β» Π² массивС ranking_.

ΠœΠ΅Ρ‚ΠΎΠ΄ Π³Π»Π°Π²Π½Ρ‹Ρ… ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ (principal component analysis, PCA) позволяСт ΡƒΠΌΠ΅Π½ΡŒΡˆΠΈΡ‚ΡŒ Ρ€Π°Π·ΠΌΠ΅Ρ€Π½ΠΎΡΡ‚ΡŒ Π΄Π°Π½Π½Ρ‹Ρ… с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ прСобразования Π½Π° основС Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠΉ Π°Π»Π³Π΅Π±Ρ€Ρ‹. ΠŸΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒ ΠΌΠΎΠΆΠ΅Ρ‚ Π·Π°Π΄Π°Ρ‚ΡŒ Ρ‚Ρ€Π΅Π±ΡƒΠ΅ΠΌΠΎΠ΅ количСство ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠΉ (Π³Π»Π°Π²Π½Ρ‹Ρ… ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚) Π² Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚ΠΈΡ€ΡƒΡŽΡ‰ΠΈΡ… Π΄Π°Π½Π½Ρ‹Ρ….

Π’ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅ Π½ΠΈΠΆΠ΅ ΠΌΡ‹ выдСляСм 3 Π³Π»Π°Π²Π½Ρ‹Ρ… ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Ρ‹ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ PCA.

ΠŸΠΎΠ΄Ρ€ΠΎΠ±Π½Π°Ρ информация ΠΎ классС PCA доступна Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°Ρ†ΠΈΠΈ scikit-learn. Если вас заинтСрСсовала ΠΌΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠ° PCA, ΠΎΠ±Ρ€Π°Ρ‚ΠΈΡ‚Π΅ΡΡŒ ΠΊ ΡΡ‚Π°Ρ‚ΡŒΠ΅ Π² Π’ΠΈΠΊΠΈΠΏΠ΅Π΄ΠΈΠΈ.

Как Π²ΠΈΠ΄ΠΈΠΌ, Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ прСобразования (3 Π³Π»Π°Π²Π½Ρ‹Ρ… ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Ρ‹) совсСм Π½Π΅ ΠΏΠΎΡ…ΠΎΠΆ Π½Π° исходныС Π΄Π°Π½Π½Ρ‹Π΅.

АнсамблСвыС Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ Π½Π° основС Π΄Π΅Ρ€Π΅Π²ΡŒΠ΅Π² Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ, Ρ‚Π°ΠΊΠΈΠ΅ ΠΊΠ°ΠΊ случайный лСс (random forest), ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡŽΡ‚ ΠΎΡ†Π΅Π½ΠΈΡ‚ΡŒ Π²Π°ΠΆΠ½ΠΎΡΡ‚ΡŒ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ².

Π’ прСдставлСнном Π½ΠΈΠΆΠ΅ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅ ΠΌΡ‹ ΠΎΠ±ΡƒΡ‡Π°Π΅ΠΌ классификатор ExtraTreesClassifier, Ρ‡Ρ‚ΠΎΠ±Ρ‹ с Π΅Π³ΠΎ ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ Π²Π°ΠΆΠ½ΠΎΡΡ‚ΡŒ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ². ΠŸΠΎΠ΄Ρ€ΠΎΠ±Π½Π΅Π΅ ΠΎ классС ExtraTreesClassifier ΠΌΠΎΠΆΠ½ΠΎ ΡƒΠ·Π½Π°Ρ‚ΡŒ ΠΈΠ· Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°Ρ†ΠΈΠΈ scikit-learn.

ΠœΡ‹ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠ»ΠΈ ΠΎΡ†Π΅Π½ΠΊΠΈ для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ°. Π§Π΅ΠΌ большС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ ΠΎΡ†Π΅Π½ΠΊΠΈ, Ρ‚Π΅ΠΌ Π²Π°ΠΆΠ½Π΅Π΅ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊ. Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, согласно Π΄Π°Π½Π½ΠΎΠΌΡƒ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρƒ ΠΎΡ‚Π±ΠΎΡ€Π°, трСмя Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ Π²Π°ΠΆΠ½Ρ‹ΠΌΠΈ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ°ΠΌΠΈ ΡΠ²Π»ΡΡŽΡ‚ΡΡ: plas, age ΠΈ mass.

Π—Π°ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠ΅

Π’ этой ΡΡ‚Π°Ρ‚ΡŒΠ΅ ΠΌΡ‹ рассмотрСли 4 ΠΌΠ΅Ρ‚ΠΎΠ΄Π° ΠΎΡ‚Π±ΠΎΡ€Π° ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π½Π° Python с ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ΠΌ Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠΈ scikit-learn:

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ

ΠžΡ‚Π±ΠΎΡ€ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² Π·Π°Π΄Π°Ρ‡Π°Ρ… машинного обучСния. Π§Π°ΡΡ‚ΡŒ 1

1. ΠœΠ΅Ρ‚ΠΎΠ΄Ρ‹ Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΠΈ

ΠœΠ΅Ρ‚ΠΎΠ΄Ρ‹ Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΠΈ ΠΏΡ€ΠΈΠΌΠ΅Π½ΡΡŽΡ‚ΡΡ Π΄ΠΎ обучСния ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈ, ΠΊΠ°ΠΊ ΠΏΡ€Π°Π²ΠΈΠ»ΠΎ, ΠΈΠΌΠ΅ΡŽΡ‚ Π½ΠΈΠ·ΠΊΡƒΡŽ ΡΡ‚ΠΎΠΈΠΌΠΎΡΡ‚ΡŒ вычислСний. К Π½ΠΈΠΌ ΠΌΠΎΠΆΠ½ΠΎ отнСсти Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Ρ‹ΠΉ Π°Π½Π°Π»ΠΈΠ· (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, ΡƒΠ΄Π°Π»Π΅Π½ΠΈΠ΅ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ°, Ρƒ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΠ΄Π½ΠΎ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅, ΠΈΠ»ΠΈ Π±ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²ΠΎ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ ΠΏΡ€ΠΎΠΏΡƒΡ‰Π΅Π½ΠΎ), ΠΎΡ†Π΅Π½ΠΊΡƒ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ ΠΊΠ°ΠΊΠΎΠ³ΠΎ-Π½ΠΈΠ±ΡƒΠ΄ΡŒ статистичСского критСрия (диспСрсии, коррСляции, X 2 ΠΈ Π΄Ρ€.) ΠΈ ΡΠΊΡΠΏΠ΅Ρ€Ρ‚Π½ΡƒΡŽ ΠΎΡ†Π΅Π½ΠΊΡƒ (ΡƒΠ΄Π°Π»Π΅Π½ΠΈΠ΅ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π½Π΅ подходят ΠΏΠΎ смыслу, ΠΈΠ»ΠΈ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² с Π½Π΅ΠΊΠΎΡ€Ρ€Π΅ΠΊΡ‚Π½Ρ‹ΠΌΠΈ значСниями).

ΠŸΡ€ΠΎΡΡ‚Π΅ΠΉΡˆΠΈΠΌ способом ΠΎΡ†Π΅Π½ΠΊΠΈ пригодности ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² являСтся Ρ€Π°Π·Π²Π΅Π΄ΠΎΡ‡Π½Ρ‹ΠΉ Π°Π½Π°Π»ΠΈΠ· Π΄Π°Π½Π½Ρ‹Ρ… (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, с Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠΎΠΉ pandas-profiling). Π­Ρ‚Ρƒ Π·Π°Π΄Π°Ρ‡Ρƒ ΠΌΠΎΠΆΠ½ΠΎ Π°Π²Ρ‚ΠΎΠΌΠ°Ρ‚ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠΈ feature-selector, которая ΠΎΡ‚Π±ΠΈΡ€Π°Π΅Ρ‚ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ ΠΏΠΎ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°ΠΌ:

ΠšΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ ΠΏΡ€ΠΎΠΏΡƒΡ‰Π΅Π½Π½Ρ‹Ρ… Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ (ΡƒΠ΄Π°Π»ΡΡŽΡ‚ΡΡ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ Ρƒ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… ΠΏΡ€ΠΎΡ†Π΅Π½Ρ‚ ΠΏΡ€ΠΎΠΏΡƒΡ‰Π΅Π½Π½Ρ‹Ρ… Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ большС ΠΏΠΎΡ€ΠΎΠ³ΠΎΠ²ΠΎΠ³ΠΎ).

ΠšΠΎΡΡ„Ρ„ΠΈΡ†ΠΈΠ΅Π½Ρ‚ коррСляции (ΡƒΠ΄Π°Π»ΡΡŽΡ‚ΡΡ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ, Ρƒ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… коэффициСнт коррСляции большС ΠΏΠΎΡ€ΠΎΠ³ΠΎΠ²ΠΎΠ³ΠΎ).

Π’Π°Ρ€ΠΈΠ°Ρ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ (ΡƒΠ΄Π°Π»ΡΡŽΡ‚ΡΡ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ, состоящиС ΠΈΠ· ΠΎΠ΄Π½ΠΎΠ³ΠΎ значСния).

ΠžΡ†Π΅Π½ΠΊΠ° ваТности ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ lightgbm (ΡƒΠ΄Π°Π»ΡΡŽΡ‚ΡΡ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ, ΠΈΠΌΠ΅ΡŽΡ‰ΠΈΠ΅ Π½ΠΈΠ·ΠΊΡƒΡŽ Π²Π°ΠΆΠ½ΠΎΡΡ‚ΡŒ Π² ΠΌΠΎΠ΄Π΅Π»ΠΈ lightgbm. Π‘Π»Π΅Π΄ΡƒΠ΅Ρ‚ ΠΏΡ€ΠΈΠΌΠ΅Π½ΡΡ‚ΡŒ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Ссли lightgbm ΠΈΠΌΠ΅Π΅Ρ‚ Ρ…ΠΎΡ€ΠΎΡˆΡƒΡŽ Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ.)

Π’ΡƒΡ‚ΠΎΡ€ΠΈΠ°Π» ΠΏΠΎ этой Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠ΅ находится здСсь.

Π‘ΠΎΠ»Π΅Π΅ слоТныС ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ автоматичСского ΠΎΡ‚Π±ΠΎΡ€Π° ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Ρ€Π΅Π°Π»ΠΈΠ·ΠΎΠ²Π°Π½Ρ‹ Π² sklearn. VarianceThreshold ΠΎΡ‚Π±ΠΈΡ€Π°Π΅Ρ‚ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ, Ρƒ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… диспСрсия мСньшС Π·Π°Π΄Π°Π½Π½ΠΎΠ³ΠΎ значСния. SelectKBest ΠΈ SelectPercentile ΠΎΡ†Π΅Π½ΠΈΠ²Π°ΡŽΡ‚ взаимосвязь ΠΏΡ€Π΅Π΄ΠΈΠΊΡ‚ΠΎΡ€ΠΎΠ² с Ρ†Π΅Π»Π΅Π²ΠΎΠΉ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ статистичСскиС тСсты, позволяя ΠΎΡ‚ΠΎΠ±Ρ€Π°Ρ‚ΡŒ соотвСтствСнно Π·Π°Π΄Π°Π½Π½ΠΎΠ΅ количСство ΠΈ долю Π½Π°ΠΈΠ»ΡƒΡ‡ΡˆΠΈΡ… ΠΏΠΎ Π·Π°Π΄Π°Π½Π½ΠΎΠΌΡƒ ΠΊΡ€ΠΈΡ‚Π΅Ρ€ΠΈΡŽ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ². Π’ качСствС статистичСских тСстов ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ F-тСст,

ΠΈ взаимная информация.

F-тСст

F-тСст ΠΎΡ†Π΅Π½ΠΈΠ²Π°Π΅Ρ‚ ΡΡ‚Π΅ΠΏΠ΅Π½ΡŒ Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠΉ зависимости ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΏΡ€Π΅Π΄ΠΈΠΊΡ‚ΠΎΡ€Π°ΠΌΠΈ ΠΈ Ρ†Π΅Π»Π΅Π²ΠΎΠΉ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ, поэтому ΠΎΠ½ Π»ΡƒΡ‡ΡˆΠ΅ всСго ΠΏΠΎΠ΄ΠΎΠΉΠ΄Ρ‘Ρ‚ для Π»ΠΈΠ½Π΅ΠΉΠ½Ρ‹Ρ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ. Π Π΅Π°Π»ΠΈΠ·ΠΎΠ²Π°Π½ Π² sklearn ΠΊΠ°ΠΊ f_regression ΠΈ f_classif соотвСтствСнно для рСгрСссии ΠΈ классификации.

Π­Ρ‚ΠΎΡ‚ тСст ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ Π² Π·Π°Π΄Π°Ρ… классификации ΠΈ ΠΎΡ†Π΅Π½ΠΈΠ²Π°Π΅Ρ‚ Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΡŒ ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ°ΠΌΠΈ ΠΈ классами Ρ†Π΅Π»Π΅Π²ΠΎΠΉ ΠΏΡ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ. ОписаниС ΠΌΠ΅Ρ‚ΠΎΠ΄Π° ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Π½ΠΎ здСсьи здСсь (для sklearn). Π‘Ρ‚ΠΎΠΈΡ‚ ΠΎΡ‚ΠΌΠ΅Ρ‚ΠΈΡ‚ΡŒ, Ρ‡Ρ‚ΠΎ этот Ρ‚ΠΈΠΏ тСстов Ρ‚Ρ€Π΅Π±ΡƒΠ΅Ρ‚ Π½Π΅ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… ΠΈ ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎ ΠΎΡ‚ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Ρ… ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ².

Взаимная информация

2. ВстроСнныС ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹

ВстроСнныС ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ Π²Ρ‹ΠΏΠΎΠ»Π½ΡΡŽΡ‚ ΠΎΡ‚Π±ΠΎΡ€ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π²ΠΎ врСмя обучСния ΠΌΠΎΠ΄Π΅Π»ΠΈ, оптимизируя ΠΈΡ… Π½Π°Π±ΠΎΡ€ для достиТСния Π»ΡƒΡ‡ΡˆΠ΅ΠΉ точности. К этим ΠΌΠ΅Ρ‚ΠΎΠ΄Π°ΠΌ ΠΌΠΎΠΆΠ½ΠΎ отнСсти Ρ€Π΅Π³ΡƒΠ»ΡΡ€ΠΈΠ·Π°Ρ†ΠΈΡŽ Π² Π»ΠΈΠ½Π΅ΠΉΠ½Ρ‹Ρ… модСлях (ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ L1) ΠΈ расчёт ваТности ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°Ρ… с Π΄Π΅Ρ€Π΅Π²ΡŒΡΠΌΠΈ (ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ Ρ…ΠΎΡ€ΠΎΡˆΠΎ Ρ€Π°Π·ΠΎΠ±Ρ€Π°Π½ здСсь). ΠžΡ‚ΠΌΠ΅Ρ‚ΠΈΠΌ, Ρ‡Ρ‚ΠΎ для Π»ΠΈΠ½Π΅ΠΉΠ½Ρ‹Ρ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ трСбуСтся ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΈ нормализация Π΄Π°Π½Π½Ρ‹Ρ….

ΠŸΡ€ΠΈΠΌΠ΅Ρ€

fnlwgt (final weight) – примСрная ΠΎΡ†Π΅Π½ΠΊΠ° количСства людСй, ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ прСдставляСт каТдая строка Π΄Π°Π½Π½Ρ‹Ρ…

educational-num – Π΄Π»ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ обучСния

capital-gain – прирост ΠΊΠ°ΠΏΠΈΡ‚Π°Π»Π°

capital-loss – потСря ΠΊΠ°ΠΏΠΈΡ‚Π°Π»Π°

hours-per-week – количСство Ρ€Π°Π±ΠΎΡ‡ΠΈΡ… часов Π² нСдСлю

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ

FeatureSelector: ΠΎΡ‚Π±ΠΎΡ€ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² для машинного обучСния Π½Π° Python

Поиск ΠΈ ΠΎΡ‚Π±ΠΎΡ€ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² исходных Π΄Π°Π½Π½Ρ‹Ρ… являСтся ваТнСйшим этапом обучСния. Рассмотрим 5 ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ ΠΈ ΠΎΠ΄ΠΈΠ½ ΡƒΠ΄ΠΎΠ±Π½Ρ‹ΠΉ инструмСнт.

коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π€ΠΎΡ‚ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ

НСнуТныС ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ ΡΠ½ΠΈΠΆΠ°ΡŽΡ‚ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ обучСния ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΠΈΠ½Ρ‚Π΅Ρ€ΠΏΡ€Π΅Ρ‚ΠΈΡ€ΡƒΠ΅ΠΌΠΎΡΡ‚ΡŒ ΠΈ, Π³Π»Π°Π²Π½ΠΎΠ΅, ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡ‚ΡŒ ΠΊ ΠΎΠ±ΠΎΠ±Ρ‰Π΅Π½ΠΈΡŽ. FeatureSelector – это ΡΠΏΠ΅Ρ†ΠΈΠ°Π»ΡŒΠ½Ρ‹ΠΉ класс для ΠΎΡ‚Π±ΠΎΡ€Π° ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ‚ΠΈΠ²Π½Ρ‹Ρ… ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ², написанный Π½Π° языкС Python, Ρ€Π΅Π°Π»ΠΈΠ·ΡƒΡŽΡ‰ΠΈΠΉ самыС распространСнныС ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ. Π•Π³ΠΎ исходный ΠΊΠΎΠ΄ доступСн Π½Π° GitHub. Π˜Π½ΡΡ‚Ρ€ΡƒΠΌΠ΅Π½Ρ‚ позволяСт ΠΎΡ†Π΅Π½ΠΈΠ²Π°Ρ‚ΡŒ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ ΠΏΠΎ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ характСристикам:

Π’ ΡΡ‚Π°Ρ‚ΡŒΠ΅ ΠΌΡ‹ рассмотрим ΠΏΡ€ΠΈΠΌΠ΅Ρ€ использования FeatureSelector для машинного обучСния Π½Π° Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠΌ Π½Π°Π±ΠΎΡ€Π΅ Π΄Π°Π½Π½Ρ‹Ρ… ΠΈ убСдимся, Ρ‡Ρ‚ΠΎ ΠΎΠ½ позволяСт ΠΎΡ€Π³Π°Π½ΠΈΠ·ΠΎΠ²Π°Ρ‚ΡŒ Ρ€Π°Π±ΠΎΡ‚Ρƒ быстро ΠΈ эффСктивно.

На Ρ‚Π΅ΠΊΡƒΡ‰ΠΈΠΉ ΠΌΠΎΠΌΠ΅Π½Ρ‚ инструмСнт находится Π² стадии Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ, Ρ‚Π°ΠΊ Ρ‡Ρ‚ΠΎ Π²Ρ‹ ΠΌΠΎΠΆΠ΅Ρ‚Π΅ внСсти собствСнный Π²ΠΊΠ»Π°Π΄ Π² Π΅Π³ΠΎ Ρ€Π°Π·Π²ΠΈΡ‚ΠΈΠ΅.

Π˜ΡΡ…ΠΎΠ΄Π½Ρ‹ΠΉ Π½Π°Π±ΠΎΡ€ Π΄Π°Π½Π½Ρ‹Ρ…

Для ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π° ΠΌΡ‹ Π±ΡƒΠ΄Π΅ΠΌ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ Π΄Π°Π½Π½Ρ‹Π΅ ΠΈΠ· Kaggle-сорСвнования ΠΏΠΎ Π²Ρ‹Ρ‡ΠΈΡΠ»Π΅Π½ΠΈΡŽ ΠΊΡ€Π΅Π΄ΠΈΡ‚Π½Ρ‹Ρ… рисков. Π—Π°Π³Ρ€ΡƒΠ·ΠΈΡ‚ΡŒ ΠΏΠΎΠ»Π½Ρ‹ΠΉ датасСт ΠΌΠΎΠΆΠ½ΠΎ здСсь. Π•Π³ΠΎ структура прСдставлСна Π½Π° ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΈ:

коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π€ΠΎΡ‚ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ

Π­Ρ‚ΠΎ Π·Π°Π΄Π°Ρ‡Π° ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΠΈΡ€ΡƒΠ΅ΠΌΠΎΠΉ классификации. Набор Π΄Π°Π½Π½Ρ‹Ρ… Π·Π°ΠΌΠ΅Ρ‡Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΈΡ‚ для ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π°. Π’ Π½Π΅ΠΌ ΠΌΠ½ΠΎΠ³ΠΎ ΠΏΡ€ΠΎΠΏΡƒΡ‰Π΅Π½Π½Ρ‹Ρ… Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ, сильно ΠΊΠΎΡ€Ρ€Π΅Π»ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Ρ… (ΠΊΠΎΠ»Π»ΠΈΠ½Π΅Π°Ρ€Π½Ρ‹Ρ…) ΠΈ Π½Π΅Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹Ρ… ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΌΠ΅ΡˆΠ°ΡŽΡ‚ эффСктивному ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΡŽ ΠΌΠΎΠ΄Π΅Π»ΠΈ.

Π‘ΠΎΠ·Π΄Π°Π½ΠΈΠ΅ экзСмпляра

ΠŸΡ€ΠΈ создании экзСмпляра класса FeatureSelector Π΅ΠΌΡƒ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΠΏΠ΅Ρ€Π΅Π΄Π°Ρ‚ΡŒ структурированный Π½Π°Π±ΠΎΡ€ Π΄Π°Π½Π½Ρ‹Ρ… с ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌΠΈ наблюдСния Π² строках ΠΈ Π°Ρ‚Ρ€ΠΈΠ±ΡƒΡ‚Π°ΠΌΠΈ Π² столбцах. НСкоторыС ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ ΠΌΠΎΠ³ΡƒΡ‚ Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ с ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ°ΠΌΠΈ, Π½ΠΎ ΠΌΠ΅Ρ‚ΠΎΠ΄Π°ΠΌ, основанным Π½Π° ваТности, Π½ΡƒΠΆΠ½Ρ‹ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΠ΅ ΠΌΠ΅Ρ‚ΠΊΠΈ. Π’Π°ΠΊ ΠΊΠ°ΠΊ Ρƒ нас Π·Π°Π΄Π°Ρ‡Π° ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΠΈΡ€ΡƒΠ΅ΠΌΠΎΠΉ классификации, ΠΌΡ‹ Π±ΡƒΠ΄Π΅ΠΌ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ Π½Π°Π±ΠΎΡ€ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΉ ΠΈ Π½Π°Π±ΠΎΡ€ ΠΌΠ΅Ρ‚ΠΎΠΊ.

Π£Π±Π΅Π΄ΠΈΡ‚Π΅ΡΡŒ, Ρ‡Ρ‚ΠΎ Π²Ρ‹ запускаСтС этот ΠΊΠΎΠ΄ Π² Ρ‚ΠΎΠΉ ΠΆΠ΅ Π΄ΠΈΡ€Π΅ΠΊΡ‚ΠΎΡ€ΠΈΠΈ, Ρ‡Ρ‚ΠΎ ΠΈ feature_selector.py :

ΠœΠ΅Ρ‚ΠΎΠ΄Ρ‹

FeatureSelector Ρ‚Π°ΠΊΠΆΠ΅ ΡƒΠΌΠ΅Π΅Ρ‚ ΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒ Π³Ρ€Π°Ρ„ΠΈΠΊΠΈ, вСдь Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Ρ‹ΠΉ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒ Π΄Π°Π½Π½Ρ‹Ρ… – это Π²Π°ΠΆΠ½Ρ‹ΠΉ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ машинного обучСния.

ΠŸΡ€ΠΎΠΏΡƒΡ‰Π΅Π½Π½Ρ‹Π΅ значСния

ΠŸΠ΅Ρ€Π²Ρ‹ΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ осущСствляСт ΠΎΡ‚Π±ΠΎΡ€ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² ΠΏΠΎ ΠΎΡ‡Π΅Π½ΡŒ простому Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡƒ: подсчСт количСства ΠΏΡ€ΠΎΠΏΡƒΡ‰Π΅Π½Π½Ρ‹Ρ… Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ. Если ΠΎΠ½ΠΎ ΠΏΡ€Π΅Π²Ρ‹ΡˆΠ°Π΅Ρ‚ Π·Π°Π΄Π°Π½Π½Ρ‹ΠΉ ΠΏΠΎΡ€ΠΎΠ³, ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ рСкомСндуСтся ΡƒΠ΄Π°Π»ΠΈΡ‚ΡŒ.

Π­Ρ‚ΠΎΡ‚ ΠΊΠΎΠ΄ ΠΈΠ΄Π΅Π½Ρ‚ΠΈΡ„ΠΈΡ†ΠΈΡ€ΡƒΠ΅Ρ‚ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ, ΠΈΠΌΠ΅ΡŽΡ‰ΠΈΠ΅ Π±ΠΎΠ»Π΅Π΅ 60% пропусков:

Π’ этом Ρ„Ρ€Π΅ΠΉΠΌΠ΅ ΠΏΠΎΠΊΠ°Π·Π°Π½Ρ‹ Π΄ΠΎΠ»ΠΈ Π½Π΅Π·Π°ΠΏΠΎΠ»Π½Π΅Π½Π½Ρ‹Ρ… Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°:

коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π€ΠΎΡ‚ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ

Π§Ρ‚ΠΎΠ±Ρ‹ ΡƒΠ²ΠΈΠ΄Π΅Ρ‚ΡŒ удаляСмыС ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ, Π½ΡƒΠΆΠ½ΠΎ ΠΎΠ±Ρ€Π°Ρ‚ΠΈΡ‚ΡŒΡΡ ΠΊ Π°Ρ‚Ρ€ΠΈΠ±ΡƒΡ‚Ρƒ ops класса FeatureSelector, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ являСтся словарСм:

ΠŸΠΎΡΡ‚Ρ€ΠΎΠΈΠΌ Π³Ρ€Π°Ρ„ΠΈΠΊ распрСдСлСния ΠΏΡ€ΠΎΠΏΡƒΡ‰Π΅Π½Π½Ρ‹Ρ… Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ ΠΏΠΎ всСм Π°Ρ‚Ρ€ΠΈΠ±ΡƒΡ‚Π°ΠΌ:

коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π€ΠΎΡ‚ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ

ΠšΠΎΠ»Π»ΠΈΠ½Π΅Π°Ρ€Π½Ρ‹Π΅ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ

ΠšΠΎΠ»Π»ΠΈΠ½Π΅Π°Ρ€Π½Ρ‹ΠΌΠΈ Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ΡΡ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ сильно ΠΊΠΎΡ€Ρ€Π΅Π»ΠΈΡ€ΡƒΡŽΡ‚ Π΄Ρ€ΡƒΠ³ с Π΄Ρ€ΡƒΠ³ΠΎΠΌ. Π’ машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ это ΠΏΡ€ΠΈΠ²ΠΎΠ΄ΠΈΡ‚ ΠΊ сниТСнию ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ обобщСния Π΄Π°Π½Π½Ρ‹Ρ… ΠΈΠ·-Π·Π° высокой диспСрсии ΠΈ мСньшСй интСрпрСтируСмости ΠΌΠΎΠ΄Π΅Π»ΠΈ.

ΠœΠ΅Ρ‚ΠΎΠ΄ identify_collinear Π½Π°Ρ…ΠΎΠ΄ΠΈΡ‚ ΠΊΠΎΠ»Π»ΠΈΠ½Π΅Π°Ρ€Π½Ρ‹Π΅ ΠΏΡ€Π΅Π΄ΠΈΠΊΡ‚ΠΎΡ€Ρ‹ Π½Π° основС Π·Π°Π΄Π°Π½Π½ΠΎΠ³ΠΎ значСния коэффициСнта коррСляции. Для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΏΠ°Ρ€Ρ‹ ΠΊΠΎΡ€Ρ€Π΅Π»ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Ρ… ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² ΠΎΠ½ опрСдСляСт ΠΎΠ΄ΠΈΠ½ для удалСния (Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ Π½ΡƒΠΆΠ½ΠΎ ΡƒΠ΄Π°Π»ΠΈΡ‚ΡŒ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΠ΄ΠΈΠ½):

Для Π²ΠΈΠ·ΡƒΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΌΠΎΠΆΠ½ΠΎ ΠΏΠΎΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒ Ρ‚Π΅ΠΏΠ»ΠΎΠ²ΡƒΡŽ ΠΊΠ°Ρ€Ρ‚Ρƒ. Она ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ всС ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹, Ρƒ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Π΅ΡΡ‚ΡŒ хотя Π±Ρ‹ ΠΎΠ΄Π½Π° коррСляция Π²Ρ‹ΡˆΠ΅ ΠΏΠΎΡ€ΠΎΠ³ΠΎΠ²ΠΎΠ³ΠΎ значСния:

коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π€ΠΎΡ‚ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ

Как ΠΈ Ρ€Π°Π½ΡŒΡˆΠ΅, ΠΌΠΎΠΆΠ½ΠΎ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒ доступ ΠΊ ΠΏΠΎΠ»Π½ΠΎΠΌΡƒ списку удаляСмых ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² ΠΈΠ»ΠΈ ΠΈΠ·ΡƒΡ‡ΠΈΡ‚ΡŒ сильно ΠΊΠΎΡ€Ρ€Π΅Π»ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Π΅ ΠΏΠ°Ρ€Ρ‹ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² Π² Π΄Π°Ρ‚Π°Ρ„Ρ€Π΅ΠΉΠΌΠ΅:

коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π€ΠΎΡ‚ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ

МоТно Ρ‚Π°ΠΊΠΆΠ΅ ΠΏΠΎΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒ Π³Ρ€Π°Ρ„ΠΈΠΊ всСх коррСляций Π² Π½Π°Π±ΠΎΡ€Π΅, ΠΏΠ΅Ρ€Π΅Π΄Π°Π² Π²Ρ‹Π·ΠΎΠ²Ρƒ plot_all=True :

коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π€ΠΎΡ‚ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ

ΠŸΡ€ΠΈΠ·Π½Π°ΠΊΠΈ с Π½ΡƒΠ»Π΅Π²ΠΎΠΉ Π²Π°ΠΆΠ½ΠΎΡΡ‚ΡŒΡŽ

Π”Π²Π° пСрСчислСнных ΠΌΠ΅Ρ‚ΠΎΠ΄Π° ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½Ρ‹ ΠΊ Π»ΡŽΠ±ΠΎΠΌΡƒ структурированному Π½Π°Π±ΠΎΡ€Ρƒ Π΄Π°Π½Π½Ρ‹Ρ…. Они ΡΠ²Π»ΡΡŽΡ‚ΡΡ Π΄Π΅Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΌΠΈ, Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ ΠΈΡ… Ρ€Π°Π±ΠΎΡ‚Ρ‹ Π½Π΅ ΠΌΠ΅Π½ΡΡŽΡ‚ΡΡ Π² Ρ€Π°Π·Π½Ρ‹Ρ… ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Π°Ρ….

ΠœΠ΅Ρ‚ΠΎΠ΄, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΌΡ‹ Ρ€Π°Π·Π±Π΅Ρ€Π΅ΠΌ сСйчас, Π½Π΅Π΄Π΅Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ ΠΈ ΠΏΡ€Π΅Π΄Π½Π°Π·Π½Π°Ρ‡Π΅Π½ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ для Π·Π°Π΄Π°Ρ‡ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΠΈΡ€ΡƒΠ΅ΠΌΠΎΠ³ΠΎ машинного обучСния с ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΠΌΠΈ ΠΌΠ΅Ρ‚ΠΊΠ°ΠΌΠΈ. Ѐункция identify_zero_importance Π½Π°Ρ…ΠΎΠ΄ΠΈΡ‚ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΈΠΌΠ΅ΡŽΡ‚ Π½ΡƒΠ»Π΅Π²ΡƒΡŽ Π²Π°ΠΆΠ½ΠΎΡΡ‚ΡŒ. Π’ модСлях Π½Π° основС Π΄Π΅Ρ€Π΅Π²ΡŒΠ΅Π² Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ Ρ‚Π°ΠΊΠΈΠ΅ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ Π½Π΅ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ, поэтому ΠΌΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ смСло ΡƒΠ΄Π°Π»ΠΈΡ‚ΡŒ ΠΈΡ…, Π½Π΅ влияя Π½Π° ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ.

FeatureSelector устанавливаСт Π²Π°ΠΆΠ½ΠΎΡΡ‚ΡŒ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ бустинга ΠΈΠ· Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠΈ LightGBM. ΠŸΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»ΡŒ усрСдняСтся ΠΏΠΎ 10 Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΎΡ‡Π½Ρ‹ΠΌ ΠΏΡ€ΠΎΠ³ΠΎΠ½Π°ΠΌ GBM для ΡƒΠΌΠ΅Π½ΡŒΡˆΠ΅Π½ΠΈΡ диспСрсии. ΠšΡ€ΠΎΠΌΠ΅ Ρ‚ΠΎΠ³ΠΎ, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ ранняя остановка с ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΎΡ‡Π½Ρ‹ΠΌ Π½Π°Π±ΠΎΡ€ΠΎΠΌ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΏΡ€Π΅Π΄ΠΎΡ‚Π²Ρ€Π°Ρ‚ΠΈΡ‚ΡŒ ΠΏΠ΅Ρ€Π΅ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅. Π­Ρ‚Ρƒ ΠΎΠΏΡ†ΠΈΡŽ ΠΌΠΎΠΆΠ½ΠΎ ΠΎΡ‚ΠΊΠ»ΡŽΡ‡ΠΈΡ‚ΡŒ.

ΠŸΡ€ΠΈΠ²Π΅Π΄Π΅Π½Π½Ρ‹ΠΉ Π½ΠΈΠΆΠ΅ ΠΊΠΎΠ΄ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚ ΠΎΡ‚Π±ΠΎΡ€ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² с Π½ΡƒΠ»Π΅Π²ΠΎΠΉ Π²Π°ΠΆΠ½ΠΎΡΡ‚ΡŒΡŽ:

ΠŸΠΎΡΡ‚Ρ€ΠΎΠΈΠΌ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ plot_feature_importance Π΄Π²Π° Π³Ρ€Π°Ρ„ΠΈΠΊΠ°:

Π—Π΄Π΅ΡΡŒ ΠΌΡ‹ Π²ΠΈΠ΄ΠΈΠΌ Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·ΠΎΠ²Π°Π½Π½Ρ‹Π΅ ΠΏΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»ΠΈ ваТности plot_n самых Π·Π½Π°Ρ‡ΠΈΠΌΡ‹Ρ… ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²:

коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π€ΠΎΡ‚ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ

На этом Π³Ρ€Π°Ρ„ΠΈΠΊΠ΅ ΠΎΡ‚Ρ€Π°ΠΆΠ΅Π½ΠΎ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ кумулятивной ваТности Π² зависимости ΠΎΡ‚ ΠΎΠ±Ρ‰Π΅Π³ΠΎ количСства ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ². Π’Π΅Ρ€Ρ‚ΠΈΠΊΠ°Π»ΡŒΠ½Π°Ρ линия ΠΎΡ‚ΠΌΠ΅Ρ‡Π°Π΅Ρ‚ ΠΏΠΎΡ€ΠΎΠ³ΠΎΠ²ΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅, Π² Π΄Π°Π½Π½ΠΎΠΌ случаС 99%.

коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π€ΠΎΡ‚ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ

Π”Π²Π΅ Π²Π°ΠΆΠ½Ρ‹Π΅ Π²Π΅Ρ‰ΠΈ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π½ΡƒΠΆΠ½ΠΎ ΠΏΠΎΠΌΠ½ΠΈΡ‚ΡŒ, производя ΠΎΡ‚Π±ΠΎΡ€ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² ΠΏΠΎ ваТности:

ΠŸΡ€ΠΈΠ·Π½Π°ΠΊΠΈ с Π½ΠΈΠ·ΠΊΠΎΠΉ Π²Π°ΠΆΠ½ΠΎΡΡ‚ΡŒΡŽ

Π­Ρ‚ΠΎΡ‚ ΠΌΠ΅Ρ‚ΠΎΠ΄ основан Π½Π° ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰Π΅ΠΌ. Ѐункция identify_low_importance Π½Π°Ρ…ΠΎΠ΄ΠΈΡ‚ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ с наимСньшСй Π·Π½Π°Ρ‡ΠΈΠΌΠΎΡΡ‚ΡŒΡŽ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π½Π΅ Π²Π»ΠΈΡΡŽΡ‚ Π½Π° ΡƒΠΊΠ°Π·Π°Π½Π½Ρ‹ΠΉ ΠΎΠ±Ρ‰ΠΈΠΉ ΡƒΡ€ΠΎΠ²Π΅Π½ΡŒ. НапримСр, этот Π²Ρ‹Π·ΠΎΠ² ΠΎΡ‚Π±Π΅Ρ€Π΅Ρ‚ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π½Π΅ вносят Π²ΠΊΠ»Π°Π΄ Π² 99% ΠΎΠ±Ρ‰Π΅Π³ΠΎ значСния:

ΠžΡΠ½ΠΎΠ²Ρ‹Π²Π°ΡΡΡŒ Π½Π° Π³Ρ€Π°Ρ„ΠΈΠΊΠ΅ кумулятивной ваТности, Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½Ρ‹ΠΉ бустинг считаСт ΠΌΠ½ΠΎΠ³ΠΈΠ΅ Π°Ρ€Π³ΡƒΠΌΠ΅Π½Ρ‚Ρ‹ Π½Π΅Π°ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½Ρ‹ΠΌΠΈ. ΠžΠΏΡΡ‚ΡŒ ΠΆΠ΅, Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ этого ΠΌΠ΅Ρ‚ΠΎΠ΄Π° Π±ΡƒΠ΄ΡƒΡ‚ ΠΌΠ΅Π½ΡΡ‚ΡŒΡΡ ΠΏΡ€ΠΈ ΠΊΠ°ΠΆΠ΄ΠΎΠΌ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ.

МоТно ΠΏΡ€ΠΎΡΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ всС удаляСмыС ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ Π² Π΄Π°Ρ‚Π°Ρ„Ρ€Π΅ΠΉΠΌΠ΅:

коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π€ΠΎΡ‚ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ

Ѐункция low_importance основываСтся Π½Π° Ρ‚ΠΎΠΌ ΠΆΠ΅ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Π΅, Ρ‡Ρ‚ΠΎ ΠΈ ΠΌΠ΅Ρ‚ΠΎΠ΄ Π³Π»Π°Π²Π½Ρ‹Ρ… ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ (PCA).

ΠžΡ‚Π±ΠΎΡ€ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² ΠΏΠΎ ΠΈΡ… ваТности ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΠΌ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π² случаС использования Ρ€Π΅ΡˆΠ°ΡŽΡ‰Π΅Π³ΠΎ Π΄Π΅Ρ€Π΅Π²Π° для создания ΠΏΡ€ΠΎΠ³Π½ΠΎΠ·ΠΎΠ². Помимо Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎ эти ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ ΡΠ²Π»ΡΡŽΡ‚ΡΡ стохастичСскими, ΠΎΠ½ΠΈ ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²Π»ΡΡŽΡ‚ собой Ρ‡Π΅Ρ€Π½Ρ‹ΠΉ ящик, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ ΠΌΡ‹ Π½Π΅ Π·Π½Π°Π΅ΠΌ, ΠΏΠΎΡ‡Π΅ΠΌΡƒ модСль считаСт ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ Π½Π΅Π°ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½Ρ‹ΠΌΠΈ. ЗапуститС ΠΈΡ… нСсколько Ρ€Π°Π·, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡƒΠ²ΠΈΠ΄Π΅Ρ‚ΡŒ, ΠΊΠ°ΠΊ ΠΈΠ·ΠΌΠ΅Π½ΡΡŽΡ‚ΡΡ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹, ΠΈ создайтС ΠΏΡ€ΠΈ нСобходимости нСсколько Π½Π°Π±ΠΎΡ€ΠΎΠ² Π΄Π°Π½Π½Ρ‹Ρ… с Ρ€Π°Π·Π½Ρ‹ΠΌΠΈ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°ΠΌΠΈ для тСстирования!

ΠŸΡ€ΠΈΠ·Π½Π°ΠΊΠΈ с СдинствСнным Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ΠΌ

ПослСдний ΠΌΠ΅Ρ‚ΠΎΠ΄ просто ΠΎΡ‚Π±ΠΈΡ€Π°Π΅Ρ‚ всС столбцы, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ содСрТат Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΠ΄Π½ΠΎ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅. Π’Π°ΠΊΠΈΠ΅ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ Π½Π΅ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ ΠΏΠΎΠ»Π΅Π·Π½Ρ‹ для машинного обучСния, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ ΠΈΠΌΠ΅ΡŽΡ‚ Π½ΡƒΠ»Π΅Π²ΡƒΡŽ Π΄ΠΈΡΠΏΠ΅Ρ€ΡΠΈΡŽ. НапримСр, Π΄Π΅Ρ€Π΅Π²ΡŒΡ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ Π½Π΅ ΠΌΠΎΠ³ΡƒΡ‚ ΠΈΡ… Ρ€Π°Π·Π΄Π΅Π»ΠΈΡ‚ΡŒ.

Π­Ρ‚ΠΎΡ‚ ΠΌΠ΅Ρ‚ΠΎΠ΄ Π½Π΅ ΠΏΡ€ΠΈΠ½ΠΈΠΌΠ°Π΅Ρ‚ Π½ΠΈΠΊΠ°ΠΊΠΈΡ… ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² для настройки:

ΠŸΠΎΡΡ‚Ρ€ΠΎΠΈΠΌ гистограмму количСства ΡƒΠ½ΠΈΠΊΠ°Π»ΡŒΠ½Ρ‹Ρ… Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ°:

коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π€ΠΎΡ‚ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ

ΠŸΠΎΠΌΠ½ΠΈΡ‚Π΅, Ρ‡Ρ‚ΠΎ Pandas отбрасываСт значСния NaN ΠΏΠ΅Ρ€Π΅Π΄ вычислСниСм.

Π£Π΄Π°Π»Π΅Π½ΠΈΠ΅ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²

ΠœΠ΅Ρ‚ΠΎΠ΄ Π²ΠΎΠ·Π²Ρ€Π°Ρ‰Π°Π΅Ρ‚ Ρ„Ρ€Π΅ΠΉΠΌ Π΄Π°Π½Π½Ρ‹Ρ… с ΡƒΠ΄Π°Π»Π΅Π½Π½Ρ‹ΠΌΠΈ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°ΠΌΠΈ. МоТно Ρ‚Π°ΠΊΠΆΠ΅ ΡƒΠ΄Π°Π»ΠΈΡ‚ΡŒ one-hot ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ, созданныС Π²ΠΎ врСмя обучСния:

ΠžΡ‚Π±ΠΎΡ€ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² всСми ΠΌΠ΅Ρ‚ΠΎΠ΄Π°ΠΌΠΈ

Π’Ρ‹Π²ΠΎΠ΄Ρ‹

Класс FeatureSelector Ρ€Π΅Π°Π»ΠΈΠ·ΡƒΠ΅Ρ‚ нСсколько распространСнных ΠΎΠΏΠ΅Ρ€Π°Ρ†ΠΈΠΉ удалСния ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² ΠΏΠ΅Ρ€Π΅Π΄ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ΠΌ ΠΌΠΎΠ΄Π΅Π»ΠΈ. Π˜Ρ… ΠΌΠΎΠΆΠ½ΠΎ Π·Π°ΠΏΡƒΡΠΊΠ°Ρ‚ΡŒ ΠΏΠΎ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ ΠΈ ΠΎΠ΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ. ΠšΡ€ΠΎΠΌΠ΅ ΠΈΠ΄Π΅Π½Ρ‚ΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΠΈ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², инструмСнт способСн ΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒ Π³Ρ€Π°Ρ„ΠΈΠΊΠΈ ΠΈ гистограммы для Π²ΠΈΠ·ΡƒΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ.

ΠžΡ‚Π±ΠΎΡ€ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² ΠΏΠΎ ΠΏΡ€ΠΎΠΏΡƒΡ‰Π΅Π½Π½Ρ‹ΠΌ значСниям, коллинСарности ΠΈ ΠΌΠ°Π»ΠΎΠΉ диспСрсии Π΄Π΅Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΈΡ€ΠΎΠ²Π°Π½, Π° ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ основанныС Π½Π° ваТности, Π½Π°ΠΏΡ€ΠΎΡ‚ΠΈΠ², ΠΏΡ€ΠΈ ΠΊΠ°ΠΆΠ΄ΠΎΠΌ запускС Π²Ρ‹Π΄Π°ΡŽΡ‚ Π΄Ρ€ΡƒΠ³ΠΈΠ΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹. Π’Ρ‹Π±ΠΎΡ€ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ для ΠΎΡ‚Π±ΠΎΡ€Π°, ΠΊΠ°ΠΊ ΠΈ вся сфСра машинного обучСния, являСтся эмпиричСским ΠΈ Ρ‚Ρ€Π΅Π±ΡƒΠ΅Ρ‚ тСстирования Π½Π΅ΡΠΊΠΎΠ»ΡŒΠΊΠΈΡ… комбинация для поиска ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ Π²Π°Ρ€ΠΈΠ°Π½Ρ‚Π°. FeatureSelector позволяСт Π΄Π΅Π»Π°Ρ‚ΡŒ это быстро ΠΈ эффСктивно.

ΠŸΠΎΠΌΠ½ΠΈΡ‚Π΅, Ρ‡Ρ‚ΠΎ Π²Ρ‹ ΠΌΠΎΠΆΠ΅Ρ‚Π΅ внСсти свой Π²ΠΊΠ»Π°Π΄ Π² Ρ€Π°Π·Π²ΠΈΡ‚ΠΈΠ΅ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π° FeatureSelector.

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ

Как ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΊΠΎΡ€Ρ€Π΅Π»ΡΡ†ΠΈΡŽ для понимания взаимосвязи ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹ΠΌΠΈ

Π”Π°Ρ‚Π° ΠΏΡƒΠ±Π»ΠΈΠΊΠ°Ρ†ΠΈΠΈ 2018-04-27

ΠœΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ слоТныС ΠΈ нСизвСстныС ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡ ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹ΠΌΠΈ Π² вашСм Π½Π°Π±ΠΎΡ€Π΅ Π΄Π°Π½Π½Ρ‹Ρ….

Π’Π°ΠΆΠ½ΠΎ ΠΎΠ±Π½Π°Ρ€ΡƒΠΆΠΈΡ‚ΡŒ ΠΈ количСствСнно ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ ΡΡ‚Π΅ΠΏΠ΅Π½ΡŒ зависимости ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ… Π² вашСм Π½Π°Π±ΠΎΡ€Π΅ Π΄Π°Π½Π½Ρ‹Ρ… Π΄Ρ€ΡƒΠ³ ΠΎΡ‚ Π΄Ρ€ΡƒΠ³Π°. Π­Ρ‚ΠΈ знания ΠΌΠΎΠ³ΡƒΡ‚ ΠΏΠΎΠΌΠΎΡ‡ΡŒ Π²Π°ΠΌ Π»ΡƒΡ‡ΡˆΠ΅ ΠΏΠΎΠ΄Π³ΠΎΡ‚ΠΎΠ²ΠΈΡ‚ΡŒ ваши Π΄Π°Π½Π½Ρ‹Π΅, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΠΎΠ²Π°Ρ‚ΡŒ оТиданиям Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² машинного обучСния, Ρ‚Π°ΠΊΠΈΡ… ΠΊΠ°ΠΊ линСйная рСгрСссия, ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Π±ΡƒΠ΄Π΅Ρ‚ ΡƒΡ…ΡƒΠ΄ΡˆΠ°Ρ‚ΡŒΡΡ ΠΏΡ€ΠΈ Π½Π°Π»ΠΈΡ‡ΠΈΠΈ этих взаимозависимостСй.

ПослС Π·Π°Π²Π΅Ρ€ΡˆΠ΅Π½ΠΈΡ этого ΡƒΡ€ΠΎΠΊΠ° Π²Ρ‹ ΡƒΠ·Π½Π°Π΅Ρ‚Π΅:

коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π€ΠΎΡ‚ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ

ΠžΠ±Π·ΠΎΡ€ ΡƒΡ‡Π΅Π±Π½ΠΈΠΊΠ°

Π­Ρ‚ΠΎΡ‚ ΡƒΡ€ΠΎΠΊ состоит ΠΈΠ· 5 частСй; ΠΎΠ½ΠΈ Π΅ΡΡ‚ΡŒ:

Π§Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ коррСляция?

ΠŸΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Π΅ Π² Π½Π°Π±ΠΎΡ€Π΅ Π΄Π°Π½Π½Ρ‹Ρ… ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ связаны ΠΏΠΎ ΠΌΠ½ΠΎΠ³ΠΈΠΌ ΠΏΡ€ΠΈΡ‡ΠΈΠ½Π°ΠΌ.

Π­Ρ‚ΠΎ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ ΠΏΠΎΠ»Π΅Π·Π½ΠΎ ΠΏΡ€ΠΈ Π°Π½Π°Π»ΠΈΠ·Π΅ Π΄Π°Π½Π½Ρ‹Ρ… ΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠΈ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π»ΡƒΡ‡ΡˆΠ΅ ΠΏΠΎΠ½ΡΡ‚ΡŒ взаимосвязи ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹ΠΌΠΈ. БтатистичСская связь ΠΌΠ΅ΠΆΠ΄Ρƒ двумя ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹ΠΌΠΈ называСтся ΠΈΡ… коррСляциСй.

ΠšΠΎΡ€Ρ€Π΅Π»ΡΡ†ΠΈΡ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ, Ρ‡Ρ‚ΠΎ ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ ΠΎΠ±Π΅ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Π΅ двиТутся Π² ΠΎΠ΄Π½ΠΎΠΌ ΠΈ Ρ‚ΠΎΠΌ ΠΆΠ΅ Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠΈ, ΠΈΠ»ΠΈ ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΠΉ, Ρ‡Ρ‚ΠΎ ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ ΠΊΠΎΠ³Π΄Π° Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ ΠΎΠ΄Π½ΠΎΠΉ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ увСличиваСтся, значСния Π΄Ρ€ΡƒΠ³ΠΈΡ… ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ… ΡƒΠΌΠ΅Π½ΡŒΡˆΠ°ΡŽΡ‚ΡΡ. ΠšΠΎΡ€Ρ€Π΅Π»ΡΡ†ΠΈΡ Ρ‚Π°ΠΊΠΆΠ΅ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ ΠΈΠ»ΠΈ Π½ΡƒΠ»Π΅Π²ΠΎΠΉ, Ρ‡Ρ‚ΠΎ ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Π΅ Π½Π΅ связаны.

ΠŸΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² ΠΌΠΎΠΆΠ΅Ρ‚ ΡƒΡ…ΡƒΠ΄ΡˆΠΈΡ‚ΡŒΡΡ, Ссли Π΄Π²Π΅ ΠΈΠ»ΠΈ Π±ΠΎΠ»Π΅Π΅ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ… тСсно связаны ΠΌΠ΅ΠΆΠ΄Ρƒ собой, Ρ‡Ρ‚ΠΎ называСтся ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΊΠΎΠ»Π»ΠΈΠ½Π΅Π°Ρ€Π½ΠΎΡΡ‚ΡŒΡŽ. ΠŸΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠΌ являСтся линСйная рСгрСссия, Π³Π΄Π΅ ΠΎΠ΄Π½Π° ΠΈΠ· Π½Π°Ρ€ΡƒΡˆΠ΅Π½Π½Ρ‹Ρ… ΠΊΠΎΡ€Ρ€Π΅Π»ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Ρ… ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ… Π΄ΠΎΠ»ΠΆΠ½Π° Π±Ρ‹Ρ‚ΡŒ ΡƒΠ΄Π°Π»Π΅Π½Π°, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡƒΠ»ΡƒΡ‡ΡˆΠΈΡ‚ΡŒ Π½Π°Π²Ρ‹ΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ.

ΠœΡ‹ Ρ‚Π°ΠΊΠΆΠ΅ ΠΌΠΎΠΆΠ΅ΠΌ Π±Ρ‹Ρ‚ΡŒ заинтСрСсованы Π² коррСляции ΠΌΠ΅ΠΆΠ΄Ρƒ Π²Ρ…ΠΎΠ΄Π½Ρ‹ΠΌΠΈ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹ΠΌΠΈ ΠΈ Π²Ρ‹Ρ…ΠΎΠ΄Π½ΠΎΠΉ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π΄Π°Ρ‚ΡŒ прСдставлСниС ΠΎ Ρ‚ΠΎΠΌ, ΠΊΠ°ΠΊΠΈΠ΅ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Π΅ ΠΌΠΎΠ³ΡƒΡ‚ ΠΈΠ»ΠΈ Π½Π΅ ΠΌΠΎΠ³ΡƒΡ‚ ΠΈΠΌΠ΅Ρ‚ΡŒ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Π² качСствС Π²Ρ…ΠΎΠ΄Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ… для Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ.

Π‘Ρ‚Ρ€ΡƒΠΊΡ‚ΡƒΡ€Π° ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠΉ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ извСстна, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, ΠΎΠ½ΠΎ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ Π»ΠΈΠ½Π΅ΠΉΠ½Ρ‹ΠΌ, ΠΈΠ»ΠΈ ΠΌΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ Π½Π΅ ΠΈΠΌΠ΅Ρ‚ΡŒ прСдставлСния, сущСствуСт Π»ΠΈ связь ΠΌΠ΅ΠΆΠ΄Ρƒ двумя ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹ΠΌΠΈ ΠΈΠ»ΠΈ ΠΊΠ°ΠΊΡƒΡŽ структуру ΠΎΠ½Π° ΠΌΠΎΠΆΠ΅Ρ‚ ΠΏΡ€ΠΈΠ½ΡΡ‚ΡŒ. Π’ зависимости ΠΎΡ‚ Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎ извСстно ΠΎ взаимосвязи ΠΈ распрСдСлСнии ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ…, ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ рассчитаны Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ ΠΎΡ†Π΅Π½ΠΊΠΈ коррСляции.

ВСстовый Π½Π°Π±ΠΎΡ€ Π΄Π°Π½Π½Ρ‹Ρ…

ΠŸΡ€Π΅ΠΆΠ΄Π΅ Ρ‡Π΅ΠΌ ΠΌΡ‹ рассмотрим ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ коррСляции, Π΄Π°Π²Π°ΠΉΡ‚Π΅ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΠΌ Π½Π°Π±ΠΎΡ€ Π΄Π°Π½Π½Ρ‹Ρ…, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΌΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ для тСстирования ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ².

ΠœΡ‹ Π±ΡƒΠ΄Π΅ΠΌ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒrandn ()функция для Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ случайных гауссовских Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ со срСдним Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ΠΌ 0 ΠΈ стандартным ΠΎΡ‚ΠΊΠ»ΠΎΠ½Π΅Π½ΠΈΠ΅ΠΌ 1, Π·Π°Ρ‚Π΅ΠΌ ΡƒΠΌΠ½ΠΎΠΆΡŒΡ‚Π΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ Π½Π° нашС собствСнноС стандартноС ΠΎΡ‚ΠΊΠ»ΠΎΠ½Π΅Π½ΠΈΠ΅ ΠΈ Π΄ΠΎΠ±Π°Π²ΡŒΡ‚Π΅ срСднСС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ для смСщСния Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ Π² ΠΏΡ€Π΅Π΄ΠΏΠΎΡ‡Ρ‚ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ Π΄ΠΈΠ°ΠΏΠ°Π·ΠΎΠ½.

Π“Π΅Π½Π΅Ρ€Π°Ρ‚ΠΎΡ€ псСвдослучайных чисСл засСян, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π³Π°Ρ€Π°Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ ΠΌΡ‹ ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅ΠΌ ΠΎΠ΄Π½Ρƒ ΠΈ Ρ‚Ρƒ ΠΆΠ΅ Π²Ρ‹Π±ΠΎΡ€ΠΊΡƒ чисСл ΠΏΡ€ΠΈ ΠΊΠ°ΠΆΠ΄ΠΎΠΌ запускС ΠΊΠΎΠ΄Π°.

ΠŸΡ€ΠΈ запускС ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π° сначала выводится срСднСС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ ΠΈ стандартноС ΠΎΡ‚ΠΊΠ»ΠΎΠ½Π΅Π½ΠΈΠ΅ для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ.

Разброс Π³Ρ€Π°Ρ„ΠΈΠΊΠ° Π΄Π²ΡƒΡ… ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ… создан. ΠŸΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ ΠΌΡ‹ создали этот Π½Π°Π±ΠΎΡ€ Π΄Π°Π½Π½Ρ‹Ρ…, ΠΌΡ‹ Π·Π½Π°Π΅ΠΌ, Ρ‡Ρ‚ΠΎ ΠΌΠ΅ΠΆΠ΄Ρƒ этими двумя ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹ΠΌΠΈ сущСствуСт связь. Π­Ρ‚ΠΎ становится ясным, ΠΊΠΎΠ³Π΄Π° ΠΌΡ‹ просматриваСм сгСнСрированный Π³Ρ€Π°Ρ„ΠΈΠΊ рассСяния, Π³Π΄Π΅ ΠΌΡ‹ Π²ΠΈΠ΄ΠΈΠΌ Ρ‚Π΅Π½Π΄Π΅Π½Ρ†ΠΈΡŽ ΠΊ ΡƒΠ²Π΅Π»ΠΈΡ‡Π΅Π½ΠΈΡŽ.

коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π€ΠΎΡ‚ΠΎ коррСляция ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ

ΠŸΡ€Π΅ΠΆΠ΄Π΅ Ρ‡Π΅ΠΌ ΠΌΡ‹ рассмотрим вычислСниС Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… ΠΏΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»Π΅ΠΉ коррСляции, ΠΌΡ‹ Π΄ΠΎΠ»ΠΆΠ½Ρ‹ сначала Π²Π·Π³Π»ΡΠ½ΡƒΡ‚ΡŒ Π½Π° Π²Π°ΠΆΠ½Ρ‹ΠΉ статистичСский ΡΡ‚Ρ€ΠΎΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ Π±Π»ΠΎΠΊ, Π½Π°Π·Ρ‹Π²Π°Π΅ΠΌΡ‹ΠΉ ΠΊΠΎΠ²Π°Ρ€ΠΈΠ°Ρ†ΠΈΠ΅ΠΉ.

ΠΊΠΎΠ²Π°Ρ€ΠΈΠ°Ρ†ΠΈΠΈ

ΠŸΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Π΅ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ связаны Π»ΠΈΠ½Π΅ΠΉΠ½Ρ‹ΠΌ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠ΅ΠΌ. Π­Ρ‚ΠΎ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠ΅, ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ Π°Π΄Π΄ΠΈΡ‚ΠΈΠ²Π½ΠΎ для Π΄Π²ΡƒΡ… Π²Ρ‹Π±ΠΎΡ€ΠΎΠΊ Π΄Π°Π½Π½Ρ‹Ρ…

Π­Ρ‚ΠΎ ΡΠΎΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠ΅ ΠΌΠΎΠΆΠ½ΠΎ ΡΡƒΠΌΠΌΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΌΠ΅ΠΆΠ΄Ρƒ двумя ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹ΠΌΠΈ, Π½Π°Π·Ρ‹Π²Π°Π΅ΠΌΡ‹ΠΌΠΈ ΠΊΠΎΠ²Π°Ρ€ΠΈΠ°Ρ†ΠΈΠ΅ΠΉ. Он рассчитываСтся ΠΊΠ°ΠΊ срСднСС ΠΏΡ€ΠΎΠΈΠ·Π²Π΅Π΄Π΅Π½ΠΈΠ΅ ΠΌΠ΅ΠΆΠ΄Ρƒ значСниями ΠΈΠ· ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΎΠ±Ρ€Π°Π·Ρ†Π°, Π³Π΄Π΅ значСния Π±Ρ‹Π»ΠΈ ΠΎΡ‚Ρ†Π΅Π½Ρ‚Ρ€ΠΈΡ€ΠΎΠ²Π°Π½Ρ‹ (ΠΈΡ… срСднСС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Π²Ρ‹Ρ‡Ρ‚Π΅Π½ΠΎ).

РасчСт Π²Ρ‹Π±ΠΎΡ€ΠΎΡ‡Π½ΠΎΠΉ ΠΊΠΎΠ²Π°Ρ€ΠΈΠ°Ρ†ΠΈΠΈ выглядит ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ:

ИспользованиС срСднСго значСния Π² расчСтС ΡƒΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ Π½Π° Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎΡΡ‚ΡŒ Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ каТдая Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π΄Π°Π½Π½Ρ‹Ρ… ΠΈΠΌΠ΅Π»Π° гауссово ΠΈΠ»ΠΈ гауссовидноС распрСдСлСниС.

Π—Π½Π°ΠΊ ΠΊΠΎΠ²Π°Ρ€ΠΈΠ°Ρ†ΠΈΠΈ ΠΌΠΎΠΆΠ½ΠΎ ΠΈΠ½Ρ‚Π΅Ρ€ΠΏΡ€Π΅Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΊΠ°ΠΊ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ Π΄Π²ΡƒΡ… ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ… Π² ΠΎΠ΄Π½ΠΎΠΌ ΠΈ Ρ‚ΠΎΠΌ ΠΆΠ΅ Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠΈ (ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ΅) ΠΈΠ»ΠΈ Π² Ρ€Π°Π·Π½Ρ‹Ρ… направлСниях (ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΠ΅). Π’Π΅Π»ΠΈΡ‡ΠΈΠ½Π° ΠΊΠΎΠ²Π°Ρ€ΠΈΠ°Ρ†ΠΈΠΈ Π½Π΅ Π»Π΅Π³ΠΊΠΎ интСрпрСтируСтся. НулСвоС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ ΠΊΠΎΠ²Π°Ρ€ΠΈΠ°Ρ†ΠΈΠΈ ΡƒΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ ΠΎΠ±Π΅ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Π΅ ΠΏΠΎΠ»Π½ΠΎΡΡ‚ΡŒΡŽ нСзависимы.

БОУ ()Ѐункция NumPy ΠΌΠΎΠΆΠ΅Ρ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒΡΡ для вычислСния ΠΊΠΎΠ²Π°Ρ€ΠΈΠ°Ρ†ΠΈΠΎΠ½Π½ΠΎΠΉ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ ΠΌΠ΅ΠΆΠ΄Ρƒ двумя ΠΈΠ»ΠΈ Π±ΠΎΠ»Π΅Π΅ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹ΠΌΠΈ.

Главная диагональ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ содСрТит ΠΊΠΎΠ²Π°Ρ€ΠΈΠ°Ρ†ΠΈΡŽ ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ ΠΈ самой собой. Π”Ρ€ΡƒΠ³ΠΈΠ΅ значСния Π² ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π΅ ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²Π»ΡΡŽΡ‚ ΠΊΠΎΠ²Π°Ρ€ΠΈΠ°Ρ†ΠΈΡŽ ΠΌΠ΅ΠΆΠ΄Ρƒ двумя ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹ΠΌΠΈ; Π² этом случаС Π΄Π²Π° ΠΎΡΡ‚Π°Π²ΡˆΠΈΡ…ΡΡ значСния ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²Ρ‹, учитывая, Ρ‡Ρ‚ΠΎ ΠΌΡ‹ рассчитываСм ΠΊΠΎΠ²Π°Ρ€ΠΈΠ°Ρ†ΠΈΡŽ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ для Π΄Π²ΡƒΡ… ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ….

ΠœΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚ΡŒ ΠΊΠΎΠ²Π°Ρ€ΠΈΠ°Ρ†ΠΈΠΎΠ½Π½ΡƒΡŽ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρƒ для Π΄Π²ΡƒΡ… ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ… Π² нашСй тСстовой Π·Π°Π΄Π°Ρ‡Π΅.

ΠŸΠΎΠ»Π½Ρ‹ΠΉ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Π½ Π½ΠΈΠΆΠ΅.

ΠšΠΎΠ²Π°Ρ€ΠΈΠ°Ρ†ΠΈΠΎΠ½Π½Π°Ρ ΠΈ ковариационная ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ ΡˆΠΈΡ€ΠΎΠΊΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ Π² статистикС ΠΈ ΠΌΠ½ΠΎΠ³ΠΎΠΌΠ΅Ρ€Π½ΠΎΠΌ Π°Π½Π°Π»ΠΈΠ·Π΅ для характСристики ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠΉ ΠΌΠ΅ΠΆΠ΄Ρƒ двумя ΠΈΠ»ΠΈ Π±ΠΎΠ»Π΅Π΅ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹ΠΌΠΈ.

ΠŸΡ€ΠΈ Π²Ρ‹ΠΏΠΎΠ»Π½Π΅Π½ΠΈΠΈ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π° вычисляСтся ΠΈ пСчатаСтся ковариационная ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π°.

ΠŸΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ Π½Π°Π±ΠΎΡ€ Π΄Π°Π½Π½Ρ‹Ρ… Π±Ρ‹Π» Π·Π°Π΄ΡƒΠΌΠ°Π½ для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ, взятой ΠΈΠ· гауссовского распрСдСлСния, Π° ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Π΅ Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎ ΠΊΠΎΡ€Ρ€Π΅Π»ΠΈΡ€ΠΎΠ²Π°Π½Ρ‹, ковариация являСтся Ρ€Π°Π·ΡƒΠΌΠ½Ρ‹ΠΌ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠΌ для описания взаимосвязи.

ΠšΠΎΠ²Π°Ρ€ΠΈΠ°Ρ†ΠΈΡ ΠΌΠ΅ΠΆΠ΄Ρƒ двумя ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹ΠΌΠΈ составляСт 389,75. ΠœΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ Π²ΠΈΠ΄Π΅Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ это ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ, прСдполагая, Ρ‡Ρ‚ΠΎ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Π΅ ΠΈΠ·ΠΌΠ΅Π½ΡΡŽΡ‚ΡΡ Π² Ρ‚ΠΎΠΌ ΠΆΠ΅ Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠΈ, Ρ‡Ρ‚ΠΎ ΠΈ ΠΌΡ‹ ΠΎΠΆΠΈΠ΄Π°Π΅ΠΌ.

ΠŸΡ€ΠΎΠ±Π»Π΅ΠΌΠ° с ΠΊΠΎΠ²Π°Ρ€ΠΈΠ°Ρ†ΠΈΠ΅ΠΉ ΠΊΠ°ΠΊ статистичСского инструмСнта Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ Π΅Π΅ слоТно ΠΈΠ½Ρ‚Π΅Ρ€ΠΏΡ€Π΅Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ. Π­Ρ‚ΠΎ ΠΏΡ€ΠΈΠ²ΠΎΠ΄ΠΈΡ‚ нас ΠΊ коэффициСнту коррСляции ΠŸΠΈΡ€ΡΠΎΠ½Π° дальшС.

ΠšΠΎΡ€Ρ€Π΅Π»ΡΡ†ΠΈΡ ΠŸΠΈΡ€ΡΠΎΠ½Π°

ΠšΠΎΡΡ„Ρ„ΠΈΡ†ΠΈΠ΅Π½Ρ‚ коррСляции ΠŸΠΈΡ€ΡΠΎΠ½Π° (Π½Π°Π·Π²Π°Π½Π½Ρ‹ΠΉ ΠΏΠΎ ΠΈΠΌΠ΅Π½ΠΈ ΠšΠ°Ρ€Π»Π° ΠŸΠΈΡ€ΡΠΎΠ½Π°) ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ для обобщСния силы Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠΉ зависимости ΠΌΠ΅ΠΆΠ΄Ρƒ двумя Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°ΠΌΠΈ Π΄Π°Π½Π½Ρ‹Ρ….

ΠšΠΎΡΡ„Ρ„ΠΈΡ†ΠΈΠ΅Π½Ρ‚ коррСляции ΠŸΠΈΡ€ΡΠΎΠ½Π° рассчитываСтся ΠΊΠ°ΠΊ ковариация Π΄Π²ΡƒΡ… ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ…, дСлСнная Π½Π° ΠΏΡ€ΠΎΠΈΠ·Π²Π΅Π΄Π΅Π½ΠΈΠ΅ стандартного отклонСния ΠΊΠ°ΠΆΠ΄ΠΎΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ Π΄Π°Π½Π½Ρ‹Ρ…. Π­Ρ‚ΠΎ нормализация ΠΊΠΎΠ²Π°Ρ€ΠΈΠ°Ρ†ΠΈΠΈ ΠΌΠ΅ΠΆΠ΄Ρƒ двумя ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹ΠΌΠΈ для получСния ΠΈΠ½Ρ‚Π΅Ρ€ΠΏΡ€Π΅Ρ‚ΠΈΡ€ΡƒΠ΅ΠΌΠΎΠΉ ΠΎΡ†Π΅Π½ΠΊΠΈ.

ИспользованиС срСднСго значСния ΠΈ стандартного отклонСния Π² расчСтС ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°Π΅Ρ‚ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎΡΡ‚ΡŒ Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π΄Π²Π΅ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ Π΄Π°Π½Π½Ρ‹Ρ… ΠΈΠΌΠ΅Π»ΠΈ гауссово ΠΈΠ»ΠΈ гауссовидноС распрСдСлСниС.

Π’ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅ расчСта коэффициСнт коррСляции ΠΌΠΎΠΆΠ½ΠΎ ΠΈΠ½Ρ‚Π΅Ρ€ΠΏΡ€Π΅Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΏΠΎΠ½ΡΡ‚ΡŒ взаимосвязь.

pearsonr ()Ѐункция SciPy ΠΌΠΎΠΆΠ΅Ρ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒΡΡ для расчСта коэффициСнта коррСляции ΠŸΠΈΡ€ΡΠΎΠ½Π° ΠΌΠ΅ΠΆΠ΄Ρƒ двумя Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°ΠΌΠΈ Π΄Π°Π½Π½Ρ‹Ρ… ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²ΠΎΠΉ Π΄Π»ΠΈΠ½Ρ‹.

ΠœΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚ΡŒ ΠΊΠΎΡ€Ρ€Π΅Π»ΡΡ†ΠΈΡŽ ΠΌΠ΅ΠΆΠ΄Ρƒ двумя ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹ΠΌΠΈ Π² нашСй тСстовой Π·Π°Π΄Π°Ρ‡Π΅.

ΠŸΠΎΠ»Π½Ρ‹ΠΉ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Π½ Π½ΠΈΠΆΠ΅.

ΠŸΡ€ΠΈ Π²Ρ‹ΠΏΠΎΠ»Π½Π΅Π½ΠΈΠΈ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π° вычисляСтся ΠΈ пСчатаСтся коэффициСнт коррСляции ΠŸΠΈΡ€ΡΠΎΠ½Π°.

ΠœΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ Π²ΠΈΠ΄Π΅Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ Π΄Π²Π΅ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Π΅ ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΊΠΎΡ€Ρ€Π΅Π»ΠΈΡ€ΡƒΡŽΡ‚ ΠΈ Ρ‡Ρ‚ΠΎ коррСляция составляСт 0,8. Π­Ρ‚ΠΎ Π³ΠΎΠ²ΠΎΡ€ΠΈΡ‚ ΠΎ высоком ΡƒΡ€ΠΎΠ²Π½Π΅ коррСляции, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Π²Ρ‹ΡˆΠ΅ 0,5 ΠΈ Π±Π»ΠΈΠ·ΠΊΠΎ ΠΊ 1,0.

ΠšΠΎΡΡ„Ρ„ΠΈΡ†ΠΈΠ΅Π½Ρ‚ коррСляции ΠŸΠΈΡ€ΡΠΎΠ½Π° ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ для ΠΎΡ†Π΅Π½ΠΊΠΈ взаимосвязи ΠΌΠ΅ΠΆΠ΄Ρƒ Π±ΠΎΠ»Π΅Π΅ Ρ‡Π΅ΠΌ двумя ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹ΠΌΠΈ.

Π­Ρ‚ΠΎ ΠΌΠΎΠΆΠ½ΠΎ ΡΠ΄Π΅Π»Π°Ρ‚ΡŒ, рассчитав ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρƒ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠΉ ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΏΠ°Ρ€ΠΎΠΉ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ… Π² Π½Π°Π±ΠΎΡ€Π΅ Π΄Π°Π½Π½Ρ‹Ρ…. Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠΌ являСтся симмСтричная ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π°, называСмая коррСляционной ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π΅ΠΉ со Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ΠΌ 1,0 вдоль Π³Π»Π°Π²Π½ΠΎΠΉ Π΄ΠΈΠ°Π³ΠΎΠ½Π°Π»ΠΈ, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ столбСц всСгда идСально ΠΊΠΎΡ€Ρ€Π΅Π»ΠΈΡ€ΡƒΠ΅Ρ‚ с самим собой.

ΠšΠΎΡ€Ρ€Π΅Π»ΡΡ†ΠΈΡ Π‘ΠΏΠΈΡ€ΠΌΠ΅Π½Π°

Π”Π²Π΅ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Π΅ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ связаны Π½Π΅Π»ΠΈΠ½Π΅ΠΉΠ½Ρ‹ΠΌ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠ΅ΠΌ, Ρ‚Π°ΠΊ Ρ‡Ρ‚ΠΎ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠ΅ являСтся Π±ΠΎΠ»Π΅Π΅ ΡΠΈΠ»ΡŒΠ½Ρ‹ΠΌ ΠΈΠ»ΠΈ Π±ΠΎΠ»Π΅Π΅ слабым ΠΏΠΎ Ρ€Π°ΡΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΡŽ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ….

ΠšΡ€ΠΎΠΌΠ΅ Ρ‚ΠΎΠ³ΠΎ, Π΄Π²Π΅ рассматриваСмыС ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Π΅ ΠΌΠΎΠ³ΡƒΡ‚ ΠΈΠΌΠ΅Ρ‚ΡŒ нСгауссово распрСдСлСниС.

Π’ этом случаС коэффициСнт коррСляции Π‘ΠΏΠΈΡ€ΠΌΠ΅Π½Π° (Π½Π°Π·Π²Π°Π½Π½Ρ‹ΠΉ ΠΏΠΎ ΠΈΠΌΠ΅Π½ΠΈ Π§Π°Ρ€Π»ΡŒΠ·Π° Π‘ΠΏΠΈΡ€ΠΌΠ΅Π½Π°) ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ для обобщСния силы ΠΌΠ΅ΠΆΠ΄Ρƒ двумя Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°ΠΌΠΈ Π΄Π°Π½Π½Ρ‹Ρ…. Π­Ρ‚ΠΎΡ‚ тСст взаимосвязи Ρ‚Π°ΠΊΠΆΠ΅ ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ, Ссли ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹ΠΌΠΈ сущСствуСт линСйная Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΡŒ, Π½ΠΎ ΠΎΠ½ Π±ΡƒΠ΄Π΅Ρ‚ ΠΈΠΌΠ΅Ρ‚ΡŒ Π½Π΅ΠΌΠ½ΠΎΠ³ΠΎ ΠΌΠ΅Π½ΡŒΡˆΡƒΡŽ ΠΌΠΎΡ‰Π½ΠΎΡΡ‚ΡŒ (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, ΠΌΠΎΠΆΠ΅Ρ‚ привСсти ΠΊ Π±ΠΎΠ»Π΅Π΅ Π½ΠΈΠ·ΠΊΠΈΠΌ показатСлям коэффициСнта).

ВмСсто расчСта коэффициСнта с использованиСм ΠΊΠΎΠ²Π°Ρ€ΠΈΠ°Ρ†ΠΈΠΈ ΠΈ стандартных ΠΎΡ‚ΠΊΠ»ΠΎΠ½Π΅Π½ΠΈΠΉ для самих Π²Ρ‹Π±ΠΎΡ€ΠΎΠΊ эти статистичСскиС Π΄Π°Π½Π½Ρ‹Π΅ Ρ€Π°ΡΡΡ‡ΠΈΡ‚Ρ‹Π²Π°ΡŽΡ‚ΡΡ Π½Π° основС ΠΎΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ³ΠΎ Ρ€Π°Π½Π³Π° Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ. Π­Ρ‚ΠΎ ΠΎΠ±Ρ‰ΠΈΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΡ‹ΠΉ Π² нСпарамСтричСской статистикС, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, статистичСскиС ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹, Π³Π΄Π΅ ΠΌΡ‹ Π½Π΅ ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°Π΅ΠΌ распрСдСлСниС Π΄Π°Π½Π½Ρ‹Ρ…, Ρ‚Π°ΠΊΠΈΡ… ΠΊΠ°ΠΊ гауссовский.

ЛинСйная связь ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹ΠΌΠΈ Π½Π΅ прСдполагаСтся, хотя прСдполагаСтся монотонная связь. Π­Ρ‚ΠΎ матСматичСскоС имя для увСличСния ΠΈΠ»ΠΈ ΡƒΠΌΠ΅Π½ΡŒΡˆΠ΅Π½ΠΈΡ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡ ΠΌΠ΅ΠΆΠ΄Ρƒ двумя ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹ΠΌΠΈ.

spearmanr ()Ѐункция SciPy ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ использована для расчСта коэффициСнта коррСляции Π‘ΠΏΠΈΡ€ΠΌΠ΅Π½Π° ΠΌΠ΅ΠΆΠ΄Ρƒ двумя Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°ΠΌΠΈ Π΄Π°Π½Π½Ρ‹Ρ… ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²ΠΎΠΉ Π΄Π»ΠΈΠ½Ρ‹.

ΠœΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚ΡŒ ΠΊΠΎΡ€Ρ€Π΅Π»ΡΡ†ΠΈΡŽ ΠΌΠ΅ΠΆΠ΄Ρƒ двумя ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹ΠΌΠΈ Π² нашСй тСстовой Π·Π°Π΄Π°Ρ‡Π΅.

ΠŸΠΎΠ»Π½Ρ‹ΠΉ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Π½ Π½ΠΈΠΆΠ΅.

ΠŸΡ€ΠΈ Π²Ρ‹ΠΏΠΎΠ»Π½Π΅Π½ΠΈΠΈ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π° вычисляСтся ΠΈ пСчатаСтся коэффициСнт коррСляции Π‘ΠΏΠΈΡ€ΠΌΠ΅Π½Π°.

ΠœΡ‹ Π·Π½Π°Π΅ΠΌ, Ρ‡Ρ‚ΠΎ Π΄Π°Π½Π½Ρ‹Π΅ гауссовскиС ΠΈ Ρ‡Ρ‚ΠΎ ΡΠΎΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠ΅ ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹ΠΌΠΈ являСтся Π»ΠΈΠ½Π΅ΠΉΠ½Ρ‹ΠΌ. Π’Π΅ΠΌ Π½Π΅ ΠΌΠ΅Π½Π΅Π΅, нСпарамСтричСский Ρ€Π°Π½Π³ΠΎΠ²Ρ‹ΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ ΡΠΈΠ»ΡŒΠ½ΡƒΡŽ ΠΊΠΎΡ€Ρ€Π΅Π»ΡΡ†ΠΈΡŽ ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹ΠΌΠΈ 0,8.

Как ΠΈ Π² случаС коэффициСнта коррСляции ΠŸΠΈΡ€ΡΠΎΠ½Π°, коэффициСнт ΠΌΠΎΠΆΠ½ΠΎ Ρ€Π°ΡΡΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ ΠΏΠΎΠΏΠ°Ρ€Π½ΠΎ для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ Π² Π½Π°Π±ΠΎΡ€Π΅ Π΄Π°Π½Π½Ρ‹Ρ…, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρƒ коррСляции для ΠΎΠ±Π·ΠΎΡ€Π°.

Ρ€Π°ΡΡˆΠΈΡ€Π΅Π½ΠΈΡ

Π’ этом Ρ€Π°Π·Π΄Π΅Π»Π΅ пСрСчислСны Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΈΠ΄Π΅ΠΈ ΠΏΠΎ Ρ€Π°ΡΡˆΠΈΡ€Π΅Π½ΠΈΡŽ ΡƒΡ‡Π΅Π±Π½ΠΈΠΊΠ°, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π²Ρ‹, Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ, Π·Π°Ρ…ΠΎΡ‚ΠΈΡ‚Π΅ ΠΈΠ·ΡƒΡ‡ΠΈΡ‚ΡŒ.

Если Π²Ρ‹ исслСдуСтС ΠΊΠ°ΠΊΠΎΠ΅-Π»ΠΈΠ±ΠΎ ΠΈΠ· этих Ρ€Π°ΡΡˆΠΈΡ€Π΅Π½ΠΈΠΉ, я Ρ…ΠΎΡ‚Π΅Π» Π±Ρ‹ Π·Π½Π°Ρ‚ΡŒ.

Π”Π°Π»ΡŒΠ½Π΅ΠΉΡˆΠ΅Π΅ Ρ‡Ρ‚Π΅Π½ΠΈΠ΅

Π­Ρ‚ΠΎΡ‚ Ρ€Π°Π·Π΄Π΅Π» прСдоставляСт большС рСсурсов ΠΏΠΎ Ρ‚Π΅ΠΌΠ΅, Ссли Π²Ρ‹ Ρ…ΠΎΡ‚ΠΈΡ‚Π΅ ΡƒΠ³Π»ΡƒΠ±ΠΈΡ‚ΡŒΡΡ.

Π‘ΠΎΠΎΠ±Ρ‰Π΅Π½ΠΈΠΉ

ΡΡ‚Π°Ρ‚ΡŒΠΈ

РСзюмС

Π’ частности, Π²Ρ‹ ΡƒΠ·Π½Π°Π»ΠΈ:

Π£ вас Π΅ΡΡ‚ΡŒ вопросы?
Π—Π°Π΄Π°ΠΉΡ‚Π΅ свои вопросы Π² коммСнтариях Π½ΠΈΠΆΠ΅, ΠΈ я сдСлаю всС Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΠ΅, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΎΡ‚Π²Π΅Ρ‚ΠΈΡ‚ΡŒ.

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ

Π”ΠΎΠ±Π°Π²ΠΈΡ‚ΡŒ ΠΊΠΎΠΌΠΌΠ΅Π½Ρ‚Π°Ρ€ΠΈΠΉ

Π’Π°Ρˆ адрСс email Π½Π΅ Π±ΡƒΠ΄Π΅Ρ‚ ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½. ΠžΠ±ΡΠ·Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ поля ΠΏΠΎΠΌΠ΅Ρ‡Π΅Π½Ρ‹ *