ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ

Π’Ρ‹Π±ΠΎΡ€ΠΊΠ°

ΠœΠ°Ρ‚Π΅Ρ€ΠΈΠ°Π» ΠΈΠ· MachineLearning.

Π‘ΠΎΠ΄Π΅Ρ€ΠΆΠ°Π½ΠΈΠ΅

Π’Ρ‹Π±ΠΎΡ€ΠΊΠ° (sample, set) β€” ΠΊΠΎΠ½Π΅Ρ‡Π½Ρ‹ΠΉ Π½Π°Π±ΠΎΡ€ ΠΏΡ€Π΅Ρ†Π΅Π΄Π΅Π½Ρ‚ΠΎΠ² (ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², случаСв, событий, испытуСмых, ΠΎΠ±Ρ€Π°Π·Ρ†ΠΎΠ², ΠΈ Ρ‚.ΠΏ.), Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ способом Π²Ρ‹Π±Ρ€Π°Π½Π½Ρ‹Ρ… ΠΈΠ· мноТСства всСх Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹Ρ… ΠΏΡ€Π΅Ρ†Π΅Π΄Π΅Π½Ρ‚ΠΎΠ², Π½Π°Π·Ρ‹Π²Π°Π΅ΠΌΠΎΠ³ΠΎ Π³Π΅Π½Π΅Ρ€Π°Π»ΡŒΠ½ΠΎΠΉ ΡΠΎΠ²ΠΎΠΊΡƒΠΏΠ½ΠΎΡΡ‚ΡŒΡŽ.

Если ΠΈΡΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒ Π½Π΅ ΠΈΠΌΠ΅Π΅Ρ‚ возмоТности ΡƒΠΏΡ€Π°Π²Π»ΡΡ‚ΡŒ Π²Ρ‹Π±ΠΎΡ€ΠΎΠΌ ΠΏΡ€Π΅Ρ†Π΅Π΄Π΅Π½Ρ‚ΠΎΠ², Ρ‚ΠΎ ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ прСдполагаСтся, Ρ‡Ρ‚ΠΎ Π²Ρ‹Π±ΠΎΡ€ ΠΏΡ€Π΅Ρ†Π΅Π΄Π΅Π½Ρ‚ΠΎΠ² случаСн. Если ΠΆΠ΅ Π²Ρ‹Π±ΠΎΡ€ΠΎΠΌ ΠΏΡ€Π΅Ρ†Π΅Π΄Π΅Π½Ρ‚ΠΎΠ² ΠΌΠΎΠΆΠ½ΠΎ ΡƒΠΏΡ€Π°Π²Π»ΡΡ‚ΡŒ, Ρ‚ΠΎ Π²ΠΎΠ·Π½ΠΈΠΊΠ°ΡŽΡ‚ Π·Π°Π΄Π°Ρ‡ΠΈ ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ формирования Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ, см. Ρ‚Π°ΠΊΠΆΠ΅ Π°ΠΊΡ‚ΠΈΠ²Π½ΠΎΠ΅ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅, ΠΏΠ»Π°Π½ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ экспСримСнтов, Π²Ρ‹Π±ΠΎΡ€ΠΎΡ‡Π½ΠΎΠ΅ обслСдованиС.

По ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ ΠΏΡ€Π΅Ρ†Π΅Π΄Π΅Π½Ρ‚Ρƒ ΡΠΎΠ±ΠΈΡ€Π°ΡŽΡ‚ΡΡ (ΠΈΠ·ΠΌΠ΅Ρ€ΡΡŽΡ‚ΡΡ) Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ (data), ΠΎΠ±Ρ€Π°Π·ΡƒΡŽΡ‰ΠΈΠ΅ описаниС ΠΏΡ€Π΅Ρ†Π΅Π΄Π΅Π½Ρ‚Π°. Π‘ΠΎΠ²ΠΎΠΊΡƒΠΏΠ½ΠΎΡΡ‚ΡŒ описаний всСх ΠΏΡ€Π΅Ρ†Π΅Π΄Π΅Π½Ρ‚ΠΎΠ² Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ являСтся Π²Ρ…ΠΎΠ΄Π½ΠΎΠΉ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠ΅ΠΉ для статистичСского Π°Π½Π°Π»ΠΈΠ·Π° Π΄Π°Π½Π½Ρ‹Ρ…, ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ Π°Π½Π°Π»ΠΈΠ·Π° Π΄Π°Π½Π½Ρ‹Ρ…, машинного обучСния.

Π’Π΅Ρ€ΠΌΠΈΠ½Ρ‹ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° (sample, set) ΠΈ Π΄Π°Π½Π½Ρ‹Π΅ (data) взаимозамСняСмы; ΠΈΠ½ΠΎΠ³Π΄Π° ΠΎΠ½ΠΈ ΡƒΠΏΠΎΡ‚Ρ€Π΅Π±Π»ΡΡŽΡ‚ΡΡ вмСстС ΠΊΠ°ΠΊ ΠΎΠ΄ΠΈΠ½ Ρ‚Π΅Ρ€ΠΌΠΈΠ½ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π΄Π°Π½Π½Ρ‹Ρ… (data set). ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ Π°Π½Π°Π»ΠΈΠ· Π΄Π°Π½Π½Ρ‹Ρ… ΠΌΠΎΠΆΠ½ΠΎ ΠΏΠΎΠ½ΠΈΠΌΠ°Ρ‚ΡŒ Ρ‚Π°ΠΊΠΆΠ΅ ΠΊΠ°ΠΊ Π°Π½Π°Π»ΠΈΠ· ΠΊΠΎΠ½Π΅Ρ‡Π½Ρ‹Ρ… Π²Ρ‹Π±ΠΎΡ€ΠΎΠΊ. ΠžΡΠ½ΠΎΠ²Π½Ρ‹Π΅ Ρ†Π΅Π»ΠΈ Π°Π½Π°Π»ΠΈΠ·Π° Π΄Π°Π½Π½Ρ‹Ρ…:

ВСроятностная модСль пороТдСния Π΄Π°Π½Π½Ρ‹Ρ…

Блучайная Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°

ВСроятностная модСль пороТдСния Π΄Π°Π½Π½Ρ‹Ρ… ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° ΠΈΠ· Π³Π΅Π½Π΅Ρ€Π°Π»ΡŒΠ½ΠΎΠΉ совокупности формируСтся случайным ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ. ΠžΠ±ΡŠΡ‘ΠΌ (Π΄Π»ΠΈΠ½Π°) Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ считаСтся ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ»ΡŒΠ½ΠΎΠΉ, Π½ΠΎ фиксированной, нСслучайной Π²Π΅Π»ΠΈΡ‡ΠΈΠ½ΠΎΠΉ.

ΠžΠ΄Π½ΠΎΡ€ΠΎΠ΄Π½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°

НСзависимая Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°

ΠŸΡ€ΠΎΡΡ‚Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°

ΠŸΡ€ΠΎΡΡ‚Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° β€” это случайная, однородная, нСзависимая Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° (i.i.d. β€” independent, identically distributed).

Π­ΠΊΠ²ΠΈΠ²Π°Π»Π΅Π½Ρ‚Π½ΠΎΠ΅ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅: Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° простая, Ссли значСния ΡΠ²Π»ΡΡŽΡ‚ΡΡ рСализациями нСзависимых ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²ΠΎ распрСдСлённых случайных Π²Π΅Π»ΠΈΡ‡ΠΈΠ½.

ΠŸΡ€ΠΎΡΡ‚Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° являСтся матСматичСской модСлью сСрии нСзависимых ΠΎΠΏΡ‹Ρ‚ΠΎΠ². На Π³ΠΈΠΏΠΎΡ‚Π΅Π·Ρƒ простой Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ сущСствСнно ΠΎΠΏΠΈΡ€Π°ΡŽΡ‚ΡΡ ΠΌΠ½ΠΎΠ³ΠΈΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ статистичСского Π°Π½Π°Π»ΠΈΠ·Π° Π΄Π°Π½Π½Ρ‹Ρ… ΠΈ машинного обучСния, Π² частности, Π±ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²ΠΎ статистичСских тСстов, Π° Ρ‚Π°ΠΊΠΆΠ΅ ΠΎΡ†Π΅Π½ΠΊΠΈ ΠΎΠ±ΠΎΠ±Ρ‰Π°ΡŽΡ‰Π΅ΠΉ способности Π² Ρ‚Π΅ΠΎΡ€ΠΈΠΈ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ³ΠΎ обучСния.

Π’Π°ΠΊΠΆΠ΅ сущСствуСт мноТСство ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ², Π½Π΅ ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°ΡŽΡ‰ΠΈΡ… ΠΎΠ΄Π½ΠΎΡ€ΠΎΠ΄Π½ΠΎΡΡ‚ΡŒ ΠΈ/ΠΈΠ»ΠΈ Π½Π΅Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΡŒ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ, Π² частности, Π² Ρ‚Π΅ΠΎΡ€ΠΈΠΈ случайных процСссов, Π² ΠΏΡ€ΠΎΠ³Π½ΠΎΠ·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠΈ Π²Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ… рядов. ΠœΠ΅Ρ‚ΠΎΠ΄ максимума правдоподобия позволяСт ΠΎΡ†Π΅Π½ΠΈΠ²Π°Ρ‚ΡŒ значСния ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΠΎ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅, Π² ΠΎΠ±Ρ‰Π΅ΠΌ случаС Π½Π΅ трСбуя, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π±Ρ‹Π»Π° ΠΎΠ΄Π½ΠΎΡ€ΠΎΠ΄Π½ΠΎΠΉ ΠΈ нСзависимой. Однако Π² случаС простых Π²Ρ‹Π±ΠΎΡ€ΠΎΠΊ ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Π° сущСствСнно упрощаСтся.

ΠžΠ±ΡƒΡ‡Π°ΡŽΡ‰Π°Ρ ΠΈ тСстовая Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°

ΠžΠ±ΡƒΡ‡Π°ΡŽΡ‰Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° (training sample) β€” Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°, ΠΏΠΎ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ производится настройка (оптимизация ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ²) ΠΌΠΎΠ΄Π΅Π»ΠΈ зависимости.

ВСстовая (ΠΈΠ»ΠΈ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ) Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° (test sample) β€” Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°, ΠΏΠΎ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ оцСниваСтся качСство построСнной ΠΌΠΎΠ΄Π΅Π»ΠΈ. Если ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π°Ρ ΠΈ тСстовая Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ нСзависимы, Ρ‚ΠΎ ΠΎΡ†Π΅Π½ΠΊΠ°, сдСланная ΠΏΠΎ тСстовой Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅, являСтся нСсмСщённой.

ΠžΡ†Π΅Π½ΠΊΡƒ качСства, ΡΠ΄Π΅Π»Π°Π½Π½ΡƒΡŽ ΠΏΠΎ тСстовой Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅, ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΡ‚ΡŒ для Π²Ρ‹Π±ΠΎΡ€Π° Π½Π°ΠΈΠ»ΡƒΡ‡ΡˆΠ΅ΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ. Однако Ρ‚ΠΎΠ³Π΄Π° ΠΎΠ½Π° снова окаТСтся оптимистичСски смСщённой. Для получСния нСмсСщённой ΠΎΡ†Π΅Π½ΠΊΠΈ Π²Ρ‹Π±Ρ€Π°Π½Π½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ приходится Π²Ρ‹Π΄Π΅Π»ΡΡ‚ΡŒ Ρ‚Ρ€Π΅Ρ‚ΡŒΡŽ Π²Ρ‹Π±ΠΎΡ€ΠΊΡƒ.

ΠŸΡ€ΠΎΠ²Π΅Ρ€ΠΎΡ‡Π½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° (validation sample) β€” Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°, ΠΏΠΎ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ осущСствляСтся Π²Ρ‹Π±ΠΎΡ€ Π½Π°ΠΈΠ»ΡƒΡ‡ΡˆΠ΅ΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ· мноТСства ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, построСнных ΠΏΠΎ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅.

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ

Π’Ρ‹Π±ΠΎΡ€ΠΊΠ°

ΠœΠ°Ρ‚Π΅Ρ€ΠΈΠ°Π» ΠΈΠ· MachineLearning.

Π‘ΠΎΠ΄Π΅Ρ€ΠΆΠ°Π½ΠΈΠ΅

Π’Ρ‹Π±ΠΎΡ€ΠΊΠ° (sample, set) β€” ΠΊΠΎΠ½Π΅Ρ‡Π½Ρ‹ΠΉ Π½Π°Π±ΠΎΡ€ ΠΏΡ€Π΅Ρ†Π΅Π΄Π΅Π½Ρ‚ΠΎΠ² (ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², случаСв, событий, испытуСмых, ΠΎΠ±Ρ€Π°Π·Ρ†ΠΎΠ², ΠΈ Ρ‚.ΠΏ.), Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ способом Π²Ρ‹Π±Ρ€Π°Π½Π½Ρ‹Ρ… ΠΈΠ· мноТСства всСх Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹Ρ… ΠΏΡ€Π΅Ρ†Π΅Π΄Π΅Π½Ρ‚ΠΎΠ², Π½Π°Π·Ρ‹Π²Π°Π΅ΠΌΠΎΠ³ΠΎ Π³Π΅Π½Π΅Ρ€Π°Π»ΡŒΠ½ΠΎΠΉ ΡΠΎΠ²ΠΎΠΊΡƒΠΏΠ½ΠΎΡΡ‚ΡŒΡŽ.

Если ΠΈΡΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒ Π½Π΅ ΠΈΠΌΠ΅Π΅Ρ‚ возмоТности ΡƒΠΏΡ€Π°Π²Π»ΡΡ‚ΡŒ Π²Ρ‹Π±ΠΎΡ€ΠΎΠΌ ΠΏΡ€Π΅Ρ†Π΅Π΄Π΅Π½Ρ‚ΠΎΠ², Ρ‚ΠΎ ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ прСдполагаСтся, Ρ‡Ρ‚ΠΎ Π²Ρ‹Π±ΠΎΡ€ ΠΏΡ€Π΅Ρ†Π΅Π΄Π΅Π½Ρ‚ΠΎΠ² случаСн. Если ΠΆΠ΅ Π²Ρ‹Π±ΠΎΡ€ΠΎΠΌ ΠΏΡ€Π΅Ρ†Π΅Π΄Π΅Π½Ρ‚ΠΎΠ² ΠΌΠΎΠΆΠ½ΠΎ ΡƒΠΏΡ€Π°Π²Π»ΡΡ‚ΡŒ, Ρ‚ΠΎ Π²ΠΎΠ·Π½ΠΈΠΊΠ°ΡŽΡ‚ Π·Π°Π΄Π°Ρ‡ΠΈ ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ формирования Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ, см. Ρ‚Π°ΠΊΠΆΠ΅ Π°ΠΊΡ‚ΠΈΠ²Π½ΠΎΠ΅ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅, ΠΏΠ»Π°Π½ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ экспСримСнтов, Π²Ρ‹Π±ΠΎΡ€ΠΎΡ‡Π½ΠΎΠ΅ обслСдованиС.

По ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ ΠΏΡ€Π΅Ρ†Π΅Π΄Π΅Π½Ρ‚Ρƒ ΡΠΎΠ±ΠΈΡ€Π°ΡŽΡ‚ΡΡ (ΠΈΠ·ΠΌΠ΅Ρ€ΡΡŽΡ‚ΡΡ) Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ (data), ΠΎΠ±Ρ€Π°Π·ΡƒΡŽΡ‰ΠΈΠ΅ описаниС ΠΏΡ€Π΅Ρ†Π΅Π΄Π΅Π½Ρ‚Π°. Π‘ΠΎΠ²ΠΎΠΊΡƒΠΏΠ½ΠΎΡΡ‚ΡŒ описаний всСх ΠΏΡ€Π΅Ρ†Π΅Π΄Π΅Π½Ρ‚ΠΎΠ² Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ являСтся Π²Ρ…ΠΎΠ΄Π½ΠΎΠΉ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠ΅ΠΉ для статистичСского Π°Π½Π°Π»ΠΈΠ·Π° Π΄Π°Π½Π½Ρ‹Ρ…, ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ Π°Π½Π°Π»ΠΈΠ·Π° Π΄Π°Π½Π½Ρ‹Ρ…, машинного обучСния.

Π’Π΅Ρ€ΠΌΠΈΠ½Ρ‹ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° (sample, set) ΠΈ Π΄Π°Π½Π½Ρ‹Π΅ (data) взаимозамСняСмы; ΠΈΠ½ΠΎΠ³Π΄Π° ΠΎΠ½ΠΈ ΡƒΠΏΠΎΡ‚Ρ€Π΅Π±Π»ΡΡŽΡ‚ΡΡ вмСстС ΠΊΠ°ΠΊ ΠΎΠ΄ΠΈΠ½ Ρ‚Π΅Ρ€ΠΌΠΈΠ½ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π΄Π°Π½Π½Ρ‹Ρ… (data set). ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ Π°Π½Π°Π»ΠΈΠ· Π΄Π°Π½Π½Ρ‹Ρ… ΠΌΠΎΠΆΠ½ΠΎ ΠΏΠΎΠ½ΠΈΠΌΠ°Ρ‚ΡŒ Ρ‚Π°ΠΊΠΆΠ΅ ΠΊΠ°ΠΊ Π°Π½Π°Π»ΠΈΠ· ΠΊΠΎΠ½Π΅Ρ‡Π½Ρ‹Ρ… Π²Ρ‹Π±ΠΎΡ€ΠΎΠΊ. ΠžΡΠ½ΠΎΠ²Π½Ρ‹Π΅ Ρ†Π΅Π»ΠΈ Π°Π½Π°Π»ΠΈΠ·Π° Π΄Π°Π½Π½Ρ‹Ρ…:

ВСроятностная модСль пороТдСния Π΄Π°Π½Π½Ρ‹Ρ…

Блучайная Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°

ВСроятностная модСль пороТдСния Π΄Π°Π½Π½Ρ‹Ρ… ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° ΠΈΠ· Π³Π΅Π½Π΅Ρ€Π°Π»ΡŒΠ½ΠΎΠΉ совокупности формируСтся случайным ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ. ΠžΠ±ΡŠΡ‘ΠΌ (Π΄Π»ΠΈΠ½Π°) Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ считаСтся ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ»ΡŒΠ½ΠΎΠΉ, Π½ΠΎ фиксированной, нСслучайной Π²Π΅Π»ΠΈΡ‡ΠΈΠ½ΠΎΠΉ.

ΠžΠ΄Π½ΠΎΡ€ΠΎΠ΄Π½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°

НСзависимая Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°

ΠŸΡ€ΠΎΡΡ‚Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°

ΠŸΡ€ΠΎΡΡ‚Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° β€” это случайная, однородная, нСзависимая Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° (i.i.d. β€” independent, identically distributed).

Π­ΠΊΠ²ΠΈΠ²Π°Π»Π΅Π½Ρ‚Π½ΠΎΠ΅ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅: Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° простая, Ссли значСния ΡΠ²Π»ΡΡŽΡ‚ΡΡ рСализациями нСзависимых ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²ΠΎ распрСдСлённых случайных Π²Π΅Π»ΠΈΡ‡ΠΈΠ½.

ΠŸΡ€ΠΎΡΡ‚Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° являСтся матСматичСской модСлью сСрии нСзависимых ΠΎΠΏΡ‹Ρ‚ΠΎΠ². На Π³ΠΈΠΏΠΎΡ‚Π΅Π·Ρƒ простой Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ сущСствСнно ΠΎΠΏΠΈΡ€Π°ΡŽΡ‚ΡΡ ΠΌΠ½ΠΎΠ³ΠΈΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ статистичСского Π°Π½Π°Π»ΠΈΠ·Π° Π΄Π°Π½Π½Ρ‹Ρ… ΠΈ машинного обучСния, Π² частности, Π±ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²ΠΎ статистичСских тСстов, Π° Ρ‚Π°ΠΊΠΆΠ΅ ΠΎΡ†Π΅Π½ΠΊΠΈ ΠΎΠ±ΠΎΠ±Ρ‰Π°ΡŽΡ‰Π΅ΠΉ способности Π² Ρ‚Π΅ΠΎΡ€ΠΈΠΈ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ³ΠΎ обучСния.

Π’Π°ΠΊΠΆΠ΅ сущСствуСт мноТСство ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ², Π½Π΅ ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°ΡŽΡ‰ΠΈΡ… ΠΎΠ΄Π½ΠΎΡ€ΠΎΠ΄Π½ΠΎΡΡ‚ΡŒ ΠΈ/ΠΈΠ»ΠΈ Π½Π΅Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΡŒ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ, Π² частности, Π² Ρ‚Π΅ΠΎΡ€ΠΈΠΈ случайных процСссов, Π² ΠΏΡ€ΠΎΠ³Π½ΠΎΠ·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠΈ Π²Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ… рядов. ΠœΠ΅Ρ‚ΠΎΠ΄ максимума правдоподобия позволяСт ΠΎΡ†Π΅Π½ΠΈΠ²Π°Ρ‚ΡŒ значСния ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΠΎ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅, Π² ΠΎΠ±Ρ‰Π΅ΠΌ случаС Π½Π΅ трСбуя, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π±Ρ‹Π»Π° ΠΎΠ΄Π½ΠΎΡ€ΠΎΠ΄Π½ΠΎΠΉ ΠΈ нСзависимой. Однако Π² случаС простых Π²Ρ‹Π±ΠΎΡ€ΠΎΠΊ ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Π° сущСствСнно упрощаСтся.

ΠžΠ±ΡƒΡ‡Π°ΡŽΡ‰Π°Ρ ΠΈ тСстовая Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°

ΠžΠ±ΡƒΡ‡Π°ΡŽΡ‰Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° (training sample) β€” Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°, ΠΏΠΎ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ производится настройка (оптимизация ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ²) ΠΌΠΎΠ΄Π΅Π»ΠΈ зависимости.

ВСстовая (ΠΈΠ»ΠΈ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ) Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° (test sample) β€” Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°, ΠΏΠΎ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ оцСниваСтся качСство построСнной ΠΌΠΎΠ΄Π΅Π»ΠΈ. Если ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π°Ρ ΠΈ тСстовая Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ нСзависимы, Ρ‚ΠΎ ΠΎΡ†Π΅Π½ΠΊΠ°, сдСланная ΠΏΠΎ тСстовой Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅, являСтся нСсмСщённой.

ΠžΡ†Π΅Π½ΠΊΡƒ качСства, ΡΠ΄Π΅Π»Π°Π½Π½ΡƒΡŽ ΠΏΠΎ тСстовой Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅, ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΡ‚ΡŒ для Π²Ρ‹Π±ΠΎΡ€Π° Π½Π°ΠΈΠ»ΡƒΡ‡ΡˆΠ΅ΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ. Однако Ρ‚ΠΎΠ³Π΄Π° ΠΎΠ½Π° снова окаТСтся оптимистичСски смСщённой. Для получСния нСмсСщённой ΠΎΡ†Π΅Π½ΠΊΠΈ Π²Ρ‹Π±Ρ€Π°Π½Π½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ приходится Π²Ρ‹Π΄Π΅Π»ΡΡ‚ΡŒ Ρ‚Ρ€Π΅Ρ‚ΡŒΡŽ Π²Ρ‹Π±ΠΎΡ€ΠΊΡƒ.

ΠŸΡ€ΠΎΠ²Π΅Ρ€ΠΎΡ‡Π½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° (validation sample) β€” Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°, ΠΏΠΎ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ осущСствляСтся Π²Ρ‹Π±ΠΎΡ€ Π½Π°ΠΈΠ»ΡƒΡ‡ΡˆΠ΅ΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ· мноТСства ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, построСнных ΠΏΠΎ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅.

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ

Π’Ρ‹Π±ΠΎΡ€ΠΊΠ°

ΠœΠ°Ρ‚Π΅Ρ€ΠΈΠ°Π» ΠΈΠ· MachineLearning.

Π‘ΠΎΠ΄Π΅Ρ€ΠΆΠ°Π½ΠΈΠ΅

Π’Ρ‹Π±ΠΎΡ€ΠΊΠ° (sample, set) β€” ΠΊΠΎΠ½Π΅Ρ‡Π½Ρ‹ΠΉ Π½Π°Π±ΠΎΡ€ ΠΏΡ€Π΅Ρ†Π΅Π΄Π΅Π½Ρ‚ΠΎΠ² (ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², случаСв, событий, испытуСмых, ΠΎΠ±Ρ€Π°Π·Ρ†ΠΎΠ², ΠΈ Ρ‚.ΠΏ.), Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ способом Π²Ρ‹Π±Ρ€Π°Π½Π½Ρ‹Ρ… ΠΈΠ· мноТСства всСх Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹Ρ… ΠΏΡ€Π΅Ρ†Π΅Π΄Π΅Π½Ρ‚ΠΎΠ², Π½Π°Π·Ρ‹Π²Π°Π΅ΠΌΠΎΠ³ΠΎ Π³Π΅Π½Π΅Ρ€Π°Π»ΡŒΠ½ΠΎΠΉ ΡΠΎΠ²ΠΎΠΊΡƒΠΏΠ½ΠΎΡΡ‚ΡŒΡŽ.

Если ΠΈΡΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒ Π½Π΅ ΠΈΠΌΠ΅Π΅Ρ‚ возмоТности ΡƒΠΏΡ€Π°Π²Π»ΡΡ‚ΡŒ Π²Ρ‹Π±ΠΎΡ€ΠΎΠΌ ΠΏΡ€Π΅Ρ†Π΅Π΄Π΅Π½Ρ‚ΠΎΠ², Ρ‚ΠΎ ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ прСдполагаСтся, Ρ‡Ρ‚ΠΎ Π²Ρ‹Π±ΠΎΡ€ ΠΏΡ€Π΅Ρ†Π΅Π΄Π΅Π½Ρ‚ΠΎΠ² случаСн. Если ΠΆΠ΅ Π²Ρ‹Π±ΠΎΡ€ΠΎΠΌ ΠΏΡ€Π΅Ρ†Π΅Π΄Π΅Π½Ρ‚ΠΎΠ² ΠΌΠΎΠΆΠ½ΠΎ ΡƒΠΏΡ€Π°Π²Π»ΡΡ‚ΡŒ, Ρ‚ΠΎ Π²ΠΎΠ·Π½ΠΈΠΊΠ°ΡŽΡ‚ Π·Π°Π΄Π°Ρ‡ΠΈ ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ формирования Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ, см. Ρ‚Π°ΠΊΠΆΠ΅ Π°ΠΊΡ‚ΠΈΠ²Π½ΠΎΠ΅ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅, ΠΏΠ»Π°Π½ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ экспСримСнтов, Π²Ρ‹Π±ΠΎΡ€ΠΎΡ‡Π½ΠΎΠ΅ обслСдованиС.

По ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ ΠΏΡ€Π΅Ρ†Π΅Π΄Π΅Π½Ρ‚Ρƒ ΡΠΎΠ±ΠΈΡ€Π°ΡŽΡ‚ΡΡ (ΠΈΠ·ΠΌΠ΅Ρ€ΡΡŽΡ‚ΡΡ) Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ (data), ΠΎΠ±Ρ€Π°Π·ΡƒΡŽΡ‰ΠΈΠ΅ описаниС ΠΏΡ€Π΅Ρ†Π΅Π΄Π΅Π½Ρ‚Π°. Π‘ΠΎΠ²ΠΎΠΊΡƒΠΏΠ½ΠΎΡΡ‚ΡŒ описаний всСх ΠΏΡ€Π΅Ρ†Π΅Π΄Π΅Π½Ρ‚ΠΎΠ² Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ являСтся Π²Ρ…ΠΎΠ΄Π½ΠΎΠΉ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠ΅ΠΉ для статистичСского Π°Π½Π°Π»ΠΈΠ·Π° Π΄Π°Π½Π½Ρ‹Ρ…, ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ Π°Π½Π°Π»ΠΈΠ·Π° Π΄Π°Π½Π½Ρ‹Ρ…, машинного обучСния.

Π’Π΅Ρ€ΠΌΠΈΠ½Ρ‹ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° (sample, set) ΠΈ Π΄Π°Π½Π½Ρ‹Π΅ (data) взаимозамСняСмы; ΠΈΠ½ΠΎΠ³Π΄Π° ΠΎΠ½ΠΈ ΡƒΠΏΠΎΡ‚Ρ€Π΅Π±Π»ΡΡŽΡ‚ΡΡ вмСстС ΠΊΠ°ΠΊ ΠΎΠ΄ΠΈΠ½ Ρ‚Π΅Ρ€ΠΌΠΈΠ½ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π΄Π°Π½Π½Ρ‹Ρ… (data set). ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ Π°Π½Π°Π»ΠΈΠ· Π΄Π°Π½Π½Ρ‹Ρ… ΠΌΠΎΠΆΠ½ΠΎ ΠΏΠΎΠ½ΠΈΠΌΠ°Ρ‚ΡŒ Ρ‚Π°ΠΊΠΆΠ΅ ΠΊΠ°ΠΊ Π°Π½Π°Π»ΠΈΠ· ΠΊΠΎΠ½Π΅Ρ‡Π½Ρ‹Ρ… Π²Ρ‹Π±ΠΎΡ€ΠΎΠΊ. ΠžΡΠ½ΠΎΠ²Π½Ρ‹Π΅ Ρ†Π΅Π»ΠΈ Π°Π½Π°Π»ΠΈΠ·Π° Π΄Π°Π½Π½Ρ‹Ρ…:

ВСроятностная модСль пороТдСния Π΄Π°Π½Π½Ρ‹Ρ…

Блучайная Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°

ВСроятностная модСль пороТдСния Π΄Π°Π½Π½Ρ‹Ρ… ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° ΠΈΠ· Π³Π΅Π½Π΅Ρ€Π°Π»ΡŒΠ½ΠΎΠΉ совокупности формируСтся случайным ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ. ΠžΠ±ΡŠΡ‘ΠΌ (Π΄Π»ΠΈΠ½Π°) Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ считаСтся ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ»ΡŒΠ½ΠΎΠΉ, Π½ΠΎ фиксированной, нСслучайной Π²Π΅Π»ΠΈΡ‡ΠΈΠ½ΠΎΠΉ.

ΠžΠ΄Π½ΠΎΡ€ΠΎΠ΄Π½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°

НСзависимая Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°

ΠŸΡ€ΠΎΡΡ‚Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°

ΠŸΡ€ΠΎΡΡ‚Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° β€” это случайная, однородная, нСзависимая Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° (i.i.d. β€” independent, identically distributed).

Π­ΠΊΠ²ΠΈΠ²Π°Π»Π΅Π½Ρ‚Π½ΠΎΠ΅ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅: Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° простая, Ссли значСния ΡΠ²Π»ΡΡŽΡ‚ΡΡ рСализациями нСзависимых ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²ΠΎ распрСдСлённых случайных Π²Π΅Π»ΠΈΡ‡ΠΈΠ½.

ΠŸΡ€ΠΎΡΡ‚Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° являСтся матСматичСской модСлью сСрии нСзависимых ΠΎΠΏΡ‹Ρ‚ΠΎΠ². На Π³ΠΈΠΏΠΎΡ‚Π΅Π·Ρƒ простой Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ сущСствСнно ΠΎΠΏΠΈΡ€Π°ΡŽΡ‚ΡΡ ΠΌΠ½ΠΎΠ³ΠΈΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ статистичСского Π°Π½Π°Π»ΠΈΠ·Π° Π΄Π°Π½Π½Ρ‹Ρ… ΠΈ машинного обучСния, Π² частности, Π±ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²ΠΎ статистичСских тСстов, Π° Ρ‚Π°ΠΊΠΆΠ΅ ΠΎΡ†Π΅Π½ΠΊΠΈ ΠΎΠ±ΠΎΠ±Ρ‰Π°ΡŽΡ‰Π΅ΠΉ способности Π² Ρ‚Π΅ΠΎΡ€ΠΈΠΈ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ³ΠΎ обучСния.

Π’Π°ΠΊΠΆΠ΅ сущСствуСт мноТСство ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ², Π½Π΅ ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°ΡŽΡ‰ΠΈΡ… ΠΎΠ΄Π½ΠΎΡ€ΠΎΠ΄Π½ΠΎΡΡ‚ΡŒ ΠΈ/ΠΈΠ»ΠΈ Π½Π΅Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΡŒ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ, Π² частности, Π² Ρ‚Π΅ΠΎΡ€ΠΈΠΈ случайных процСссов, Π² ΠΏΡ€ΠΎΠ³Π½ΠΎΠ·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠΈ Π²Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ… рядов. ΠœΠ΅Ρ‚ΠΎΠ΄ максимума правдоподобия позволяСт ΠΎΡ†Π΅Π½ΠΈΠ²Π°Ρ‚ΡŒ значСния ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΠΎ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅, Π² ΠΎΠ±Ρ‰Π΅ΠΌ случаС Π½Π΅ трСбуя, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π±Ρ‹Π»Π° ΠΎΠ΄Π½ΠΎΡ€ΠΎΠ΄Π½ΠΎΠΉ ΠΈ нСзависимой. Однако Π² случаС простых Π²Ρ‹Π±ΠΎΡ€ΠΎΠΊ ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Π° сущСствСнно упрощаСтся.

ΠžΠ±ΡƒΡ‡Π°ΡŽΡ‰Π°Ρ ΠΈ тСстовая Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°

ΠžΠ±ΡƒΡ‡Π°ΡŽΡ‰Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° (training sample) β€” Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°, ΠΏΠΎ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ производится настройка (оптимизация ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ²) ΠΌΠΎΠ΄Π΅Π»ΠΈ зависимости.

ВСстовая (ΠΈΠ»ΠΈ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ) Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° (test sample) β€” Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°, ΠΏΠΎ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ оцСниваСтся качСство построСнной ΠΌΠΎΠ΄Π΅Π»ΠΈ. Если ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π°Ρ ΠΈ тСстовая Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ нСзависимы, Ρ‚ΠΎ ΠΎΡ†Π΅Π½ΠΊΠ°, сдСланная ΠΏΠΎ тСстовой Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅, являСтся нСсмСщённой.

ΠžΡ†Π΅Π½ΠΊΡƒ качСства, ΡΠ΄Π΅Π»Π°Π½Π½ΡƒΡŽ ΠΏΠΎ тСстовой Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅, ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΡ‚ΡŒ для Π²Ρ‹Π±ΠΎΡ€Π° Π½Π°ΠΈΠ»ΡƒΡ‡ΡˆΠ΅ΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ. Однако Ρ‚ΠΎΠ³Π΄Π° ΠΎΠ½Π° снова окаТСтся оптимистичСски смСщённой. Для получСния нСмсСщённой ΠΎΡ†Π΅Π½ΠΊΠΈ Π²Ρ‹Π±Ρ€Π°Π½Π½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ приходится Π²Ρ‹Π΄Π΅Π»ΡΡ‚ΡŒ Ρ‚Ρ€Π΅Ρ‚ΡŒΡŽ Π²Ρ‹Π±ΠΎΡ€ΠΊΡƒ.

ΠŸΡ€ΠΎΠ²Π΅Ρ€ΠΎΡ‡Π½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° (validation sample) β€” Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°, ΠΏΠΎ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ осущСствляСтся Π²Ρ‹Π±ΠΎΡ€ Π½Π°ΠΈΠ»ΡƒΡ‡ΡˆΠ΅ΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ· мноТСства ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, построСнных ΠΏΠΎ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅.

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ

Big Data. Machine Learning. Data Science.

Π‘Π»ΠΎΠ³ ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ Π”Π°Ρ‚Π°Π»ΠΈΡ‚ΠΈΠΊΠ°. Π˜Π½Ρ‚Π΅Ρ€Π΅ΡΠ½ΠΎΠ΅ ΠΎΠ± искусствСнном ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚Π΅, машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ, Π±ΠΎΠ»ΡŒΡˆΠΈΡ… Π΄Π°Π½Π½Ρ‹Ρ… ΠΈ ИВ-консалтингС

ΠŸΠΎΠ΄Π³ΠΎΡ‚ΠΎΠ²ΠΊΠ° Π΄Π°Π½Π½Ρ‹Ρ… для Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² машинного обучСния

ОписаниС стСка ΠΈ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π²Π²ΠΎΠ΄Π½Ρ‹Π΅

ΠŸΠ΅Ρ€Π²Ρ‹ΠΉ взгляд Π½Π° датасСт ΠΈ ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ Π΅Π³ΠΎ спСцифики

Π’Ρ€ΡƒΠ΄Π½ΠΎ Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ с Π΄Π°Π½Π½Ρ‹ΠΌΠΈ, Π½Π΅ понимая, Ρ‡Ρ‚ΠΎ ΠΎΠ½ΠΈ ΠΈΠ· сСбя ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²Π»ΡΡŽΡ‚, поэтому Π΄Π°Π²Π°ΠΉΡ‚Π΅ ΠΈΡ… Π·Π°Π³Ρ€ΡƒΠ·ΠΈΠΌ ΠΈ Π²Ρ‹Π²Π΅Π΄Π΅ΠΌ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ статистики.

Π­Ρ‚ΠΎ даст Π½Π°ΠΌ ΠΏΠ΅Ρ€Π²ΠΎΠ΅ прСдставлСниС ΠΎ Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ наши Π΄Π°Π½Π½Ρ‹Π΅. Π”Π°Π»Π΅Π΅ посмотрим Π½Π° Ρ€Π°Π·ΠΌΠ΅Ρ€Ρ‹ Π½Π°ΡˆΠΈΡ… Ρ‚Π°Π±Π»ΠΈΡ‡Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ…. Π’Ρ‹ΠΏΠΎΠ»Π½ΠΈΠ² построчно ΠΊΠΎΠ΄ Π½ΠΈΠΆΠ΅

Π’Π°ΠΊΠΆΠ΅ Π±Ρ‹Π»ΠΎ Π±Ρ‹ Π½Π΅ΠΏΠ»ΠΎΡ…ΠΎ ΡƒΠ²ΠΈΠ΄Π΅Ρ‚ΡŒ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ ΠΎ количСствС ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΡƒΠ½ΠΈΠΊΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ значСния для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ столбца Π² Π½Π°Π±ΠΎΡ€Π΅ Π΄Π°Π½Π½Ρ‹Ρ…:

Π‘ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²ΠΎ столбцов выглядят Ρ…ΠΎΡ€ΠΎΡˆΠΎ, Π½ΠΎ Π΅ΡΡ‚ΡŒ нСсколько Π½ΡƒΠΆΠ΄Π°ΡŽΡ‰ΠΈΡ…ΡΡ Π² очисткС. ΠŸΡ€ΠΈΠΌΠ΅Ρ€Ρ‹ Π½Π΅ΠΊΠΎΡ€Ρ€Π΅ΠΊΡ‚Π½Ρ‹Ρ… Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ Π΄Π°Π½Π½Ρ‹Ρ… Π½ΠΈΠΆΠ΅.

Π Π°Π·Π΄Π΅Π»Π΅Π½ΠΈΠ΅ Π½Π° ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΡƒΡŽ Π²Ρ‹Π±ΠΎΡ€ΠΊΡƒ ΠΈ Ρ†Π΅Π»Π΅Π²ΡƒΡŽ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½ΡƒΡŽ

ΠžΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ° пропусков Π² Π΄Π°Π½Π½Ρ‹Ρ…

idweathertemperaturehumidityplay tennis?
1cloudy60NaNyes
2rainy7580%NaN
3cloudyNaN50%no
4sunny6540%yes

Если Π±Ρ‹ ΠΌΡ‹ ΡƒΠ΄Π°Π»ΠΈΠ»ΠΈ всС строки с ΠΎΡ‚ΡΡƒΡ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠΌΠΈ значСниями, ΠΎΡΡ‚Π°Π»Π°ΡΡŒ Π±Ρ‹ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΠ΄Π½Π° строка, ΠΈ наш ΠΏΡ€Π΅Π΄ΠΈΠΊΡ‚ΠΎΡ€ всСгда Π±Ρ‹ ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°Π», Ρ‡Ρ‚ΠΎ я Π΄ΠΎΠ»ΠΆΠ΅Π½ ΠΈΠ³Ρ€Π°Ρ‚ΡŒ Π² тСннис, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ Π΄Ρ€ΡƒΠ³ΠΈΡ… Π²Π°Ρ€ΠΈΠ°Π½Ρ‚ΠΎΠ², ΠΏΠΎ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ ΠΎΠ½ Π±ΡƒΠ΄Π΅Ρ‚ ΡƒΡ‡ΠΈΡ‚ΡŒΡΡ, ΠΏΡ€ΠΎ Π½Π΅ Π±ΡƒΠ΄Π΅Ρ‚. ΠŸΡ€Π΅Π΄ΠΏΠΎΠ»ΠΎΠΆΠΈΠΌ, ΠΌΡ‹ вмСсто этого Ρ€Π΅ΡˆΠΈΠ»ΠΈ Π·Π°ΠΌΠ΅Π½ΠΈΡ‚ΡŒ Π½ΡƒΠ»Π΅Π²ΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Ρ‚Π΅ΠΌΠΏΠ΅Ρ€Π°Ρ‚ΡƒΡ€Ρ‹ Π² строкС 3 срСдним. Π’ этом случаС Ρ‚Π΅ΠΌΠΏΠ΅Ρ€Π°Ρ‚ΡƒΡ€Π° строки 3 искусствСнно ΡΠΎΠΎΠ±Ρ‰Π°Π»Π°ΡΡŒ Π±Ρ‹ Ρ€Π°Π²Π½ΠΎΠΉ 65. И это ΡƒΠΆΠ΅ ΠΏΠΎΠ·Π²ΠΎΠ»ΠΈΡ‚ ΠΏΡ€ΠΈ ΠΊΠ°ΠΊΠΈΡ…-Ρ‚ΠΎ Π²Ρ…ΠΎΠ΄Π½Ρ‹Ρ… ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°Ρ… ΠΏΠΎΠ»ΡƒΡ‡Π°Ρ‚ΡŒ ΠΎΡ‚ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚.

Scikit-learn прСдоставляСт Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ для ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ пропусков

Поиск нСявных Π΄ΡƒΠ±Π»ΠΈΠΊΠ°Ρ‚ΠΎΠ²

Если Π±Ρ‹ Ρ‚Ρ€Π΅Π±ΠΎΠ²Π°Π»ΠΎΡΡŒ ΡΠΎΠ·Π΄Π°Ρ‚ΡŒ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌ ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΌΠΎΠ³ Π±Ρ‹ ΠΎΡ‡ΠΈΡ‰Π°Ρ‚ΡŒ входящиС Π΄Π°Π½Π½Ρ‹Π΅, Ρ‚Ρ€Π΅Π±ΠΎΠ²Π°Π»ΠΎΡΡŒ Π±Ρ‹ Π²ΠΎΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒΡΡ Π±ΠΎΠ»Π΅Π΅ ΡƒΠΌΠ½Ρ‹ΠΌ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΎΠΌ. Но Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ наша Π·Π°Π΄Π°Ρ‡Π° β€” это Ρ€Π°Π±ΠΎΡ‚Π° с ΡƒΠΆΠ΅ ΠΈΠΌΠ΅ΡŽΡ‰Π΅ΠΌΡΡ датасСтом, Ρ‚ΠΎ ΠΌΡ‹ просто ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌ этот ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ с Π·Π°ΠΌΠ΅Π½ΠΎΠΉ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½Ρ‹Ρ… Ρ‚ΠΈΠΏΠΎΠ².

ΠžΠ±Π½Π°Ρ€ΡƒΠΆΠ΅Π½ΠΈΠ΅ выбросов

Как ΡƒΠΆΠ΅ ΡƒΠΏΠΎΠΌΠΈΠ½Π°Π»ΠΎΡΡŒ Ρ€Π°Π½Π΅Π΅, оказалось, Ρ‡Ρ‚ΠΎ для Age ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‚ значСния, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ каТутся ΠΎΡˆΠΈΠ±ΠΎΡ‡Π½Ρ‹ΠΌΠΈ. Π’Π°ΠΊΠΈΠ΅ ΠΊΠ°ΠΊ ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ возраст ΠΈΠ»ΠΈ Ρ‡Ρ€Π΅Π·Π²Ρ‹Ρ‡Π°ΠΉΠ½ΠΎ большиС Ρ†Π΅Π»Ρ‹Π΅ числа, ΠΌΠΎΠ³ΡƒΡ‚ Π½Π΅Π³Π°Ρ‚ΠΈΠ²Π½ΠΎ ΠΏΠΎΠ²Π»ΠΈΡΡ‚ΡŒ Π½Π° Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ Ρ€Π°Π±ΠΎΡ‚Ρ‹ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° машинного обучСния, ΠΈ Π½Π°ΠΌ Π½ΡƒΠΆΠ½ΠΎ Π±ΡƒΠ΄Π΅Ρ‚ ΠΈΡ… ΡƒΡΡ‚Ρ€Π°Π½ΠΈΡ‚ΡŒ.
Для этого возьмСм Π½Π°ΡˆΡƒ ΡΠ²Ρ€ΠΈΡΡ‚ΠΈΡ‡Π΅ΡΠΊΡƒΡŽ ΠΎΡ†Π΅Π½ΠΊΡƒ, Π² ΠΊΠ°ΠΊΠΎΠΌ возрастС ΠΌΠΎΠ³ΡƒΡ‚ Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ люди: ΠΎΡ‚ 14 Π΄ΠΎ 100 Π»Π΅Ρ‚. И всС Π²Π΅Π»ΠΈΡ‡ΠΈΠ½Ρ‹, Π½Π΅ ΠΏΠΎΠΏΠ°Π΄Π°ΡŽΡ‰ΠΈΠ΅ Π² этот Π΄ΠΈΠ°ΠΏΠ°Π·ΠΎΠ½, ΠΏΡ€Π΅ΠΎΠ±Ρ€Π°Π·ΡƒΠ΅ΠΌ Π² Ρ„ΠΎΡ€ΠΌΠ°Ρ‚ Not-a-Number.

Π­Ρ‚ΠΈ Π½ΡƒΠ»Π΅Π²Ρ‹Π΅ значСния Π·Π°Ρ‚Π΅ΠΌ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚Π°Π½Ρ‹ с использованиСм описанного Π²Ρ‹ΡˆΠ΅ sklearn Imputer.
ПослС опрСдСлСния Π΄ΠΈΠ°ΠΏΠ°Π·ΠΎΠ½Π° для Ρ€Π°Π±ΠΎΡ‚Π°ΡŽΡ‰Π΅Π³ΠΎ Ρ‡Π΅Π»ΠΎΠ²Π΅ΠΊΠ°, Π²ΠΈΠ·ΡƒΠ°Π»ΠΈΠ·ΠΈΡ€ΡƒΠ΅ΠΌ распрСдСлСниС возраста, ΠΏΡ€ΠΈΡΡƒΡ‚ΡΡ‚Π²ΡƒΡŽΡ‰Π΅Π³ΠΎ Π² этом Π½Π°Π±ΠΎΡ€Π΅ Π΄Π°Π½Π½Ρ‹Ρ….

ΠšΠΎΠ΄ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ Π΄Π°Π½Π½Ρ‹Ρ…

МногиС Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ машинного обучСния ΠΎΠΆΠΈΠ΄Π°ΡŽΡ‚ числовыС Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅, поэтому Π½Π°ΠΌ Π½ΡƒΠΆΠ½ΠΎ Π²Ρ‹ΡΡΠ½ΠΈΡ‚ΡŒ способ прСдставлСния Π½Π°ΡˆΠΈΡ… ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠ°Π»ΡŒΠ½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ… числСнным ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ.

Одним ΠΈΠ· Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ этого Π±Ρ‹Π»ΠΎ Π±Ρ‹ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ»ΡŒΠ½ΠΎΠ΅ присвоСниС числового значСния для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ ΠΈ ΠΎΡ‚ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅ Π½Π°Π±ΠΎΡ€Π° Π΄Π°Π½Π½Ρ‹Ρ… ΠΈΠ· исходных ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΉ Π² ΠΊΠ°ΠΆΠ΄ΠΎΠ΅ ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰Π΅Π΅ число. НапримСр, Π΄Π°Π²Π°ΠΉΡ‚Π΅ посмотрим Π½Π° столбСц Β«leaveΒ» (ΠΊΠ°ΠΊ Π»Π΅Π³ΠΊΠΎ Π²Π°ΠΌ Π²Π·ΡΡ‚ΡŒ отпуск ΠΏΠΎ Π±ΠΎΠ»Π΅Π·Π½ΠΈ для состояния психичСского Π·Π΄ΠΎΡ€ΠΎΠ²ΡŒΡ?) Π’ нашСм Π½Π°Π±ΠΎΡ€Π΅ Π΄Π°Π½Π½Ρ‹Ρ…

ΠšΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ Π²ΠΎΠ·Π²Ρ€Π°Ρ‰Π°Π΅Ρ‚ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠ΅ значСния

Для кодирования этих Π΄Π°Π½Π½Ρ‹Ρ…, сопоставим ΠΊΠ°ΠΆΠ΄ΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ с числом.

Π­Ρ‚ΠΎΡ‚ процСсс извСстСн ΠΊΠ°ΠΊ Label Encoding ΠΈ sklearn ΠΌΠΎΠΆΠ΅Ρ‚ ΡΠ΄Π΅Π»Π°Ρ‚ΡŒ это Π·Π° нас.

ΠŸΡ€ΠΎΠ±Π»Π΅ΠΌΠ° с этим ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΎΠΌ Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ Π²Ρ‹ Π²Π²ΠΎΠ΄ΠΈΡ‚Π΅ порядок, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΎΡ‚ΡΡƒΡ‚ΡΡ‚Π²ΠΎΠ²Π°Ρ‚ΡŒ Π² исходных Π΄Π°Π½Π½Ρ‹Ρ…. Π’ нашСм случаС ΠΌΠΎΠΆΠ½ΠΎ ΡƒΡ‚Π²Π΅Ρ€ΠΆΠ΄Π°Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ Π΄Π°Π½Π½Ρ‹Π΅ ΡΠ²Π»ΡΡŽΡ‚ΡΡ Ρ€Π°Π½ΠΆΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΌΠΈ (Β«Very difficultΒ» мСньшС Β«Somewhat difficultΒ», ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ мСньшС Β«Very easyΒ», ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ мСньшС Β«Somewhat easyΒ»), Π½ΠΎ Π² Π±ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²Π΅ своСм ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠ°Π»ΡŒΠ½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ Π½Π΅ ΠΈΠΌΠ΅ΡŽΡ‚ порядка. НапримСр, Ссли Ρƒ вас Π΅ΡΡ‚ΡŒ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊ ΠΎΠ±ΠΎΠ·Π½Π°Ρ‡Π°ΡŽΡ‰ΠΈΠΉ Π²ΠΈΠ΄ ΠΆΠΈΠ²ΠΎΡ‚Π½ΠΎΠ³ΠΎ, Π·Π°Ρ‡Π°ΡΡ‚ΡƒΡŽ высказываниС кошка большС собаки Π½Π΅ ΠΈΠΌΠ΅Π΅Ρ‚ смысла. ΠžΠΏΠ°ΡΠ½ΠΎΡΡ‚ΡŒ кодирования ΠΌΠ΅Ρ‚ΠΎΠΊ Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ ваш Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ ΠΌΠΎΠΆΠ΅Ρ‚ Π½Π°ΡƒΡ‡ΠΈΡ‚ΡŒΡΡ ΠΎΡ‚Π΄Π°Π²Π°Ρ‚ΡŒ ΠΏΡ€Π΅Π΄ΠΏΠΎΡ‡Ρ‚Π΅Π½ΠΈΠ΅ собак, кошкам ΠΈΠ·-Π·Π° искусствСнных порядковых Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ, Π²Π²Π΅Π΄Π΅Π½Π½Ρ‹Ρ… Π²Π°ΠΌΠΈ Π²ΠΎ врСмя кодирования.

ΠžΠ±Ρ‰ΠΈΠΌ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ΠΌ для кодирования Π½ΠΎΠΌΠΈΠ½Π°Π»ΡŒΠ½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ… являСтся one-hot-encoding.

ВмСсто Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π·Π°ΠΌΠ΅Π½ΡΡ‚ΡŒ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠ°Π»ΡŒΠ½ΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Π½Π° числовоС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ (ΠΊΠΎΠ΄ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΌΠ΅Ρ‚ΠΎΠΊ), ΠΊΠ°ΠΊ ΠΏΠΎΠΊΠ°Π·Π°Π½ΠΎ Π½ΠΈΠΆΠ΅

idtypenumerical
1cat1
2dog2
3snake3
4cat1
5dog2
6turtle4
7dog2

ВмСсто этого ΠΌΡ‹ создаСм столбСц для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ значСния ΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌ 1 ΠΈ 0 для обозначСния выраТСния ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ значСния. Π­Ρ‚ΠΈ Π½ΠΎΠ²Ρ‹Π΅ столбцы часто Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ΡΡ Ρ„ΠΈΠΊΡ‚ΠΈΠ²Π½Ρ‹ΠΌΠΈ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹ΠΌΠΈ.

idtypeis_catis_dogis_snakeis_turtle
1cat1000
2dog0100
3snake0010
4cat1000
5dog0100
6turle0001
7dog0100

Π’Ρ‹ ΠΌΠΎΠΆΠ΅Ρ‚Π΅ Π²Ρ‹ΠΏΠΎΠ»Π½ΠΈΡ‚ΡŒ one-hot-encoding нСпосрСдствСнно Π² Pandas ΠΈΠ»ΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ sklearn, хотя sklearn Π½Π΅ΠΌΠ½ΠΎΠ³ΠΎ Π±ΠΎΠ»Π΅Π΅ ΠΏΡ€ΠΎΠ·Ρ€Π°Ρ‡Π΅Π½, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ one-hot-encoding ΠΈΠ· Π½Π΅Π³ΠΎ Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ для Ρ†Π΅Π»Ρ‹Ρ… Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ. Π’ нашСм ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅ (Π³Π΄Π΅ Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²Π»ΡΡŽΡ‚ собой строки) Π½Π°ΠΌ Π½ΡƒΠΆΠ½ΠΎ сначала Π²Ρ‹ΠΏΠΎΠ»Π½ΠΈΡ‚ΡŒ ΠΊΠΎΠ΄ΠΈΡ€ΠΎΠ²ΠΊΡƒ ΠΌΠ΅Ρ‚ΠΎΠΊ, Π° Π·Π°Ρ‚Π΅ΠΌ one-hot-encoding.

Нормализация Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΎΡ‡Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ…

На этом этапС ΠΌΡ‹ ΡƒΡΠΏΠ΅ΡˆΠ½ΠΎ очистили наши Π΄Π°Π½Π½Ρ‹Π΅ ΠΈ ΠΏΡ€Π΅Π²Ρ€Π°Ρ‚ΠΈΠ»ΠΈ ΠΈΡ… Π² Ρ„ΠΎΡ€ΠΌΡƒ, которая ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΈΡ‚ для Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² машинного обучСния. Однако Π½Π° Π΄Π°Π½Π½ΠΎΠΌ этапС ΠΌΡ‹ Π΄ΠΎΠ»ΠΆΠ½Ρ‹ Ρ€Π°ΡΡΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ вопрос ΠΎ Ρ‚ΠΎΠΌ, ΠΏΠΎΠ»Π΅Π·Π΅Π½ Π»ΠΈ ΠΊΠ°ΠΊΠΎΠΉ-Π»ΠΈΠ±ΠΎ ΠΌΠ΅Ρ‚ΠΎΠ΄ Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ Π΄Π°Π½Π½Ρ‹Ρ… для нашСго Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°. Π­Ρ‚ΠΎ зависит ΠΎΡ‚ Π΄Π°Π½Π½Ρ‹Ρ… ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΌΡ‹ ΠΏΠ»Π°Π½ΠΈΡ€ΡƒΠ΅ΠΌ Ρ€Π΅Π°Π»ΠΈΠ·ΠΎΠ²Π°Ρ‚ΡŒ.

ML Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Ρ‚Ρ€Π΅Π±ΡƒΡŽΡ‚ Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ Π΄Π°Π½Π½Ρ‹Ρ…:

ΠŸΡ€ΠΈΠΌΠ΅Ρ‡Π°Π½ΠΈΠ΅: ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Π½Π½Ρ‹Π΅ Π²Ρ‹ΡˆΠ΅ списки Π½ΠΈ Π² ΠΊΠΎΠ΅ΠΌ случаС Π½Π΅ ΡΠ²Π»ΡΡŽΡ‚ΡΡ ΠΈΡΡ‡Π΅Ρ€ΠΏΡ‹Π²Π°ΡŽΡ‰ΠΈΠΌΠΈ, Π° просто слуТат ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠΌ.

ΠŸΡ€Π΅Π΄ΠΏΠΎΠ»ΠΎΠΆΠΈΠΌ, Ρƒ вас Π΅ΡΡ‚ΡŒ Π½Π°Π±ΠΎΡ€ Π΄Π°Π½Π½Ρ‹Ρ… с Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹ΠΌΠΈ Π΅Π΄ΠΈΠ½ΠΈΡ†Π°ΠΌΠΈ: Ρ‚Π΅ΠΌΠΏΠ΅Ρ€Π°Ρ‚ΡƒΡ€Π° Π² КСльвинС, ΠΎΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½Π°Ρ Π²Π»Π°ΠΆΠ½ΠΎΡΡ‚ΡŒ ΠΈ дСнь Π³ΠΎΠ΄Π°. ΠœΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ ΡƒΠ²ΠΈΠ΄Π΅Ρ‚ΡŒ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠ΅ Π΄ΠΈΠ°ΠΏΠ°Π·ΠΎΠ½Ρ‹ для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ.

Когда Π²Ρ‹ смотритС Π½Π° эти значСния, Π²Ρ‹ ΠΈΠ½Ρ‚ΡƒΠΈΡ‚ΠΈΠ²Π½ΠΎ Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·ΡƒΠ΅Ρ‚Π΅ значСния. НапримСр, Π²Ρ‹ Π·Π½Π°Π΅Ρ‚Π΅, Ρ‡Ρ‚ΠΎ ΡƒΠ²Π΅Π»ΠΈΡ‡Π΅Π½ΠΈΠ΅ Π½Π° 0,5 (=50%) для влаТности Π½Π°ΠΌΠ½ΠΎΠ³ΠΎ Π±ΠΎΠ»Π΅Π΅ Π·Π½Π°Ρ‡ΠΈΠΌΠΎ, Ρ‡Π΅ΠΌ ΡƒΠ²Π΅Π»ΠΈΡ‡Π΅Π½ΠΈΠ΅ Π½Π° 0,5 для Ρ‚Π΅ΠΌΠΏΠ΅Ρ€Π°Ρ‚ΡƒΡ€Ρ‹. И Ссли ΠΌΡ‹ Π½Π΅ Π±ΡƒΠ΄Π΅ΠΌ Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·ΠΎΠ²Π°Ρ‚ΡŒ эти Π΄Π°Π½Π½Ρ‹Π΅, наш Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ ΠΌΠΎΠΆΠ΅Ρ‚ Π½Π°ΡƒΡ‡ΠΈΡ‚ΡŒΡΡ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ Ρ‚Π΅ΠΌΠΏΠ΅Ρ€Π°Ρ‚ΡƒΡ€Ρƒ Π² качСствС основного ΠΏΡ€Π΅Π΄ΠΈΠΊΡ‚ΠΎΡ€Π° просто ΠΏΠΎΡ‚ΠΎΠΌΡƒ, Ρ‡Ρ‚ΠΎ ΠΌΠ°ΡΡˆΡ‚Π°Π± являСтся наибольшим (ΠΈ, ΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ, измСнСния Π² значСниях Ρ‚Π΅ΠΌΠΏΠ΅Ρ€Π°Ρ‚ΡƒΡ€Ρ‹ Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ для Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°). Нормализация Π΄Π°Π½Π½Ρ‹Ρ… позволяСт всСм ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ°ΠΌ Π²Π½ΠΎΡΠΈΡ‚ΡŒ ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²Ρ‹ΠΉ Π²ΠΊΠ»Π°Π΄ (ΠΈΠ»ΠΈ, Ρ‡Ρ‚ΠΎ Π±ΠΎΠ»Π΅Π΅ Ρ‚ΠΎΡ‡Π½ΠΎ, позволяСт Π΄ΠΎΠ±Π°Π²Π»ΡΡ‚ΡŒ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ Π² зависимости ΠΎΡ‚ ΠΈΡ… ваТности, Π° Π½Π΅ ΠΈΡ… ΠΌΠ°ΡΡˆΡ‚Π°Π±Π°).

Алгоритм Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ

Если Π²Ρ‹ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚Π΅ Ρ‚Π°ΠΊΠΎΠΉ инструмСнт, ΠΊΠ°ΠΊ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½Ρ‹ΠΉ спуск, для ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°, нормализация Π΄Π°Π½Π½Ρ‹Ρ… позволяСт ΠΏΡ€ΠΎΠ²ΠΎΠ΄ΠΈΡ‚ΡŒ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΠ΅ ΠΎΠ±Π½ΠΎΠ²Π»Π΅Π½ΠΈΠ΅ вСсов Π²ΠΎ всСх измСрСниях.

ΠŸΠ΅Ρ€Π²ΠΎΠ΅ ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅ прСдставляСт Π΄Π²Π΅ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ с Ρ€Π°Π·Π½Ρ‹ΠΌΠΈ шкалами, Π² Ρ‚ΠΎ врСмя ΠΊΠ°ΠΊ послСдняя прСдставляСт собой Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·ΠΎΠ²Π°Π½Π½ΠΎΠ΅ пространство ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ². ΠžΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΡ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½Ρ‹ΠΌ спуском Π² ΠΏΠ΅Ρ€Π²ΠΎΠΌ случаС ΠΌΠΎΠΆΠ΅Ρ‚ Π·Π°Π½ΡΡ‚ΡŒ большСС количСство Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ ΠΈ Π² ΠΊΠΎΠ½Π΅Ρ‡Π½ΠΎΠΌ ΠΈΡ‚ΠΎΠ³Π΅ Π½Π΅ ΠΏΡ€ΠΈΠΉΡ‚ΠΈ ΠΊ ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌΡƒ.

ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π€ΠΎΡ‚ΠΎ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π€ΠΎΡ‚ΠΎ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ

БущСствуСт нСсколько Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ Π΄Π°Π½Π½Ρ‹Ρ…, самыС популярныС ΠΈΠ· Π½ΠΈΡ…:

Нормализация Min-max устанавливаСт наимСньшСС наблюдаСмоС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Ρ€Π°Π²Π½Ρ‹ΠΌ 0, Π° наибольшСС наблюдаСмоС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ β€” 1.

ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π€ΠΎΡ‚ΠΎ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ

ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π€ΠΎΡ‚ΠΎ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ

Для выполнСния Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΌΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ Π² sklearn.

НСсколько Π·Π°ΠΌΠ΅Ρ‡Π°Π½ΠΈΠΉ ΠΏΠΎ этой Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ:
На ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊΠ΅ Π²Ρ‹ ΠΌΠΎΠΆΠ΅Ρ‚Π΅ Π²Ρ‹Π±Ρ€Π°Ρ‚ΡŒ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½Ρ‹Π΅ столбцы. НапримСр, Π²Π°ΠΌ Π½Π΅ Π½ΡƒΠΆΠ½ΠΎ Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·ΠΎΠ²Π°Ρ‚ΡŒ Ρ„ΠΈΠΊΡ‚ΠΈΠ²Π½Ρ‹Π΅ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Π΅ ΠΈΠ· one-hot-encoding.

Π Π°Π·Π΄Π΅Π»Π΅Π½ΠΈΠ΅ Π΄Π°Π½Π½Ρ‹Ρ… для обучСния ΠΈ тСстирования

Π Π°Π·Π΄Π΅Π»Π΅Π½ΠΈΠ΅ Π΄Π°Π½Π½Ρ‹Ρ… Π½Π° Π΄Π²Π΅ ΠΏΠΎΠ΄Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ

Одной ΠΈΠ· послСдних Π²Π΅Ρ‰Π΅ΠΉ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π½Π°ΠΌ Π½ΡƒΠΆΠ½ΠΎ Π±ΡƒΠ΄Π΅Ρ‚ ΡΠ΄Π΅Π»Π°Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΏΠΎΠ΄Π³ΠΎΡ‚ΠΎΠ²ΠΈΡ‚ΡŒ Π΄Π°Π½Π½Ρ‹Π΅ для обучСния, являСтся Ρ€Π°Π·Π΄Π΅Π»Π΅Π½ΠΈΠ΅ Π΄Π°Π½Π½Ρ‹Ρ… Π½Π° ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΡƒΡŽ ΠΈ Ρ‚Π΅ΡΡ‚ΠΎΠ²ΡƒΡŽ Π²Ρ‹Π±ΠΎΡ€ΠΊΡƒ. Π’Ρ‹Π΄Π΅Π»Π΅Π½ΠΈΠ΅ тСстовой Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ для понимания Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎ ΠΌΡ‹ ΠΎΠ±ΡƒΡ‡ΠΈΠ»ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ Π² достаточной стСпСни (Π½Π΅ ΠΏΡ€ΠΎΠΈΠ·ΠΎΡˆΠ»ΠΎ ΠΏΠ΅Ρ€Π΅ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ ΠΈΠ»ΠΈ Π½Π΅Π΄ΠΎΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅)

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ

ΠšΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ

ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π€ΠΎΡ‚ΠΎ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ

НаблюдСния Π² ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅ (training set) содСрТат ΠΎΠΏΡ‹Ρ‚, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ для обучСния. Π’ Π·Π°Π΄Π°Ρ‡Π°Ρ… обучСния с ΡƒΡ‡ΠΈΡ‚Π΅Π»Π΅ΠΌ ΠΊΠ°ΠΆΠ΄ΠΎΠ΅ наблюдСниС состоит ΠΈΠ· наблюдаСмой (зависимой) ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ ΠΈ ΠΎΠ΄Π½ΠΎΠΉ ΠΈΠ»ΠΈ Π½Π΅ΡΠΊΠΎΠ»ΡŒΠΊΠΈΡ… нСзависимых ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ….

ВСстовоС мноТСство, ΠΈΠ»ΠΈ тСстовая Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°, прСдставляСт ΠΈΠ· сСбя Π°Π½Π°Π»ΠΎΠ³ΠΈΡ‡Π½Ρ‹ΠΉ Π½Π°Π±ΠΎΡ€ наблюдСний, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ для ΠΎΡ†Π΅Π½ΠΊΠΈ качСства ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΏΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»ΠΈ.

Π’Π°ΠΆΠ½ΠΎ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π½ΠΈΠΊΠ°ΠΊΠΈΠ΅ наблюдСния ΠΈΠ· ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ Π½Π΅ Π±Ρ‹Π»ΠΈ Π²ΠΊΠ»ΡŽΡ‡Π΅Π½Ρ‹ Π² Ρ‚Π΅ΡΡ‚ΠΎΠ²ΡƒΡŽ Π²Ρ‹Π±ΠΎΡ€ΠΊΡƒ. Если тСстовыС Π΄Π°Π½Π½Ρ‹Π΅ Π΄Π΅ΠΉΡΡ‚Π²ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ содСрТат ΠΏΡ€ΠΈΠΌΠ΅Ρ€Ρ‹ ΠΈΠ· ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ, Ρ‚ΠΎ Π±ΡƒΠ΄Π΅Ρ‚ Ρ‚Ρ€ΡƒΠ΄Π½ΠΎ ΠΎΡ†Π΅Π½ΠΈΡ‚ΡŒ, научился Π»ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ ΠΎΠ±ΠΎΠ±Ρ‰Π°Ρ‚ΡŒ, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΡƒΡŽ Π²Ρ‹Π±ΠΎΡ€ΠΊΡƒ ΠΈΠ»ΠΈ ΠΆΠ΅ просто Π·Π°ΠΏΠΎΠΌΠ½ΠΈΠ» Π΄Π°Π½Π½Ρ‹Π΅. ΠŸΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ°, которая Ρ…ΠΎΡ€ΠΎΡˆΠΎ ΠΎΠ±ΠΎΠ±Ρ‰Π°Π΅Ρ‚, Π±ΡƒΠ΄Π΅Ρ‚ Π² состоянии эффСктивно Π²Ρ‹ΠΏΠΎΠ»Π½ΡΡ‚ΡŒ Π·Π°Π΄Π°Ρ‡ΠΈ с Π½ΠΎΠ²Ρ‹ΠΌΠΈ Π΄Π°Π½Π½Ρ‹ΠΌΠΈ. И Π½Π°ΠΎΠ±ΠΎΡ€ΠΎΡ‚, ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ°, которая Π·Π°ΠΏΠΎΠΌΠΈΠ½ΠΈΡ‚ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΠ΅ Π΄Π°Π½Π½Ρ‹Π΅, создав Ρ‡Ρ€Π΅Π·ΠΌΠ΅Ρ€Π½ΠΎ ΡΠ»ΠΎΠΆΠ½ΡƒΡŽ модСль, ΠΌΠΎΠΆΠ΅Ρ‚ Ρ‚ΠΎΡ‡Π½ΠΎ ΠΏΡ€Π΅Π΄ΡΠΊΠ°Π·Ρ‹Π²Π°Ρ‚ΡŒ значСния зависимой ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ для ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π³ΠΎ мноТСства, Π½ΠΎ Π½Π΅ смоТСт ΠΏΡ€Π΅Π΄ΡΠΊΠ°Π·Π°Ρ‚ΡŒ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ зависимой ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ для Π½ΠΎΠ²Ρ‹Ρ… ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ².

ΠŸΠ΅Ρ€Π΅ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

Π—Π°ΠΏΠΎΠΌΠΈΠ½Π°Π½ΠΈΠ΅ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ называСтся ΠΏΠ΅Ρ€Π΅ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ΠΌ (overfitting). ΠŸΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ°, которая Π·Π°ΠΏΠΎΠΌΠ½ΠΈΡ‚ свои наблюдСния Π½Π΅ смоТСт Π²Ρ‹ΠΏΠΎΠ»Π½ΠΈΡ‚ΡŒ ΠΏΠΎΡΡ‚Π°Π²Π»Π΅Π½Π½ΡƒΡŽ Π·Π°Π΄Π°Ρ‡Ρƒ ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎ, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ ΠΎΠ½Π° Π·Π°ΠΏΠΎΠΌΠ½ΠΈΡ‚ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡ ΠΈ структуры Π² Π΄Π°Π½Π½Ρ‹Ρ…, ΡΠ²Π»ΡΡŽΡ‰ΠΈΠ΅ΡΡ ΡˆΡƒΠΌΠΎΠΌ ΠΈΠ»ΠΈ простым совпадСниСм. Балансировка ΠΌΠ΅ΠΆΠ΄Ρƒ Π·Π°ΠΏΠΎΠΌΠΈΠ½Π°Π½ΠΈΠ΅ΠΌ ΠΈ ΠΎΠ±ΠΎΠ±Ρ‰Π΅Π½ΠΈΠ΅ΠΌ, ΠΈΠ»ΠΈ ΠΏΠ΅Ρ€Π΅ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ΠΌ ΠΈ Π½Π΅Π΄ΠΎΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ΠΌ (underfitting), являСтся ΠΎΠ±Ρ‰Π΅ΠΉ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠΎΠΉ для ΠΌΠ½ΠΎΠ³ΠΈΡ… Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² машинного обучСния. Одним ΠΈΠ· способов ΠΈΠ·Π±Π΅ΠΆΠ°Ρ‚ΡŒ ΠΏΠ΅Ρ€Π΅ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ для ΠΌΠ½ΠΎΠ³ΠΈΡ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ являСтся ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ рСгуляризации.

ΠŸΡ€ΠΎΠ²Π΅Ρ€ΠΎΡ‡Π½ΠΎΠ΅ мноТСство

Π’ Π΄ΠΎΠΏΠΎΠ»Π½Π΅Π½ΠΈΠ΅ ΠΊ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ ΠΈ тСстовой Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°ΠΌ ΠΈΠ½ΠΎΠ³Π΄Π° трСбуСтся Ρ‚Ρ€Π΅Ρ‚ΠΈΠΉ Π½Π°Π±ΠΎΡ€ наблюдСний, Π½Π°Π·Ρ‹Π²Π°Π΅ΠΌΡ‹ΠΉ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΎΡ‡Π½Ρ‹ΠΌ (validation) мноТСством. ΠŸΡ€ΠΎΠ²Π΅Ρ€ΠΎΡ‡Π½ΠΎΠ΅ мноТСство ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ для настройки ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ…, Π½Π°Π·Ρ‹Π²Π°Π΅ΠΌΡ‹Ρ… Π³ΠΈΠΏΠ΅Ρ€ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°ΠΌΠΈ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΠΈΡ€ΡƒΡŽΡ‚, ΠΊΠ°ΠΊ модСль обучаСтся. ΠŸΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ° ΠΏΠΎ-ΠΏΡ€Π΅ΠΆΠ½Π΅ΠΌΡƒ оцСниваСтся Π½Π° тСстовом мноТСствС, для получСния ΠΎΡ†Π΅Π½ΠΊΠΈ Π΅Π΅ эффСктивности Π² Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠΌ ΠΌΠΈΡ€Π΅. ΠŸΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»ΠΈ эффСктивности Π½Π° ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΎΡ‡Π½ΠΎΠΌ мноТСствС Π½Π΅ Π΄ΠΎΠ»ΠΆΠ½Ρ‹ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒΡΡ Π² качСствС ΠΎΡ†Π΅Π½ΠΊΠΈ Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠΉ эффСктивности ΠΌΠΎΠ΄Π΅Π»ΠΈ, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ° Π±Ρ‹Π»Π° настроСна, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΎΡ‡Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅. Как ΠΏΡ€Π°Π²ΠΈΠ»ΠΎ, Сдиная Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° наблюдСний, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΡ‹Ρ… для обучСния, раздСляСтся Π½Π° ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π΅, тСстовоС ΠΈ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΎΡ‡Π½ΠΎΠ΅ мноТСства. НС сущСствуСт ΠΊΠ°ΠΊΠΈΡ…-Ρ‚ΠΎ особСнных Ρ‚Ρ€Π΅Π±ΠΎΠ²Π°Π½ΠΈΠΉ ΠΊ Ρ€Π°Π·ΠΌΠ΅Ρ€Π°ΠΌ Ρ‚Π°ΠΊΠΈΡ… мноТСств, ΠΈ ΠΎΠ½ΠΈ ΠΌΠΎΠ³ΡƒΡ‚ ΠΈΠ·ΠΌΠ΅Π½ΡΡ‚ΡŒΡΡ Π² соотвСтствии с количСством ΠΈΠΌΠ΅ΡŽΡ‰ΠΈΡ…ΡΡ Π΄Π°Π½Π½Ρ‹Ρ…. На ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊΠ΅ ΠΆΠ΅, для ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ ΡΠ»ΡƒΠ΄ΡƒΡŽΡ‰Π°Ρ схСма:

ΠšΠ°Ρ‡Π΅ΡΡ‚Π²ΠΎ Π΄Π°Π½Π½Ρ‹Ρ…

НСкоторыС ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΠ΅ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ ΠΌΠΎΠ³ΡƒΡ‚ ΡΠΎΠ΄Π΅Ρ€ΠΆΠ°Ρ‚ΡŒ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ нСсколько сотСн наблюдСний, Π΄Ρ€ΡƒΠ³ΠΈΠ΅ ΠΌΠΎΠ³ΡƒΡ‚ Π²ΠΊΠ»ΡŽΡ‡Π°Ρ‚ΡŒ Π² сСбя ΠΌΠΈΠ»Π»ΠΈΠΎΠ½Ρ‹ Ρ‚ΠΎΡ‡Π΅ΠΊ Π΄Π°Π½Π½Ρ‹Ρ…. НСдорогиС ΠΎΠ±Π»Π°Ρ‡Π½Ρ‹Π΅ Ρ…Ρ€Π°Π½ΠΈΠ»ΠΈΡ‰Π° Π΄Π°Π½Π½Ρ‹Ρ…, мноТСство встроСнных Π² смартфоны ΠΈ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ Π³Π°Π΄ΠΆΠ΅Ρ‚Ρ‹ Π΄Π°Ρ‚Ρ‡ΠΈΠΊΠΎΠ² внСсли свой Π²ΠΊΠ»Π°Π΄ Π² соврСмСнноС состояниС BigData. Π£ нас имССтся доступ ΠΊ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΠΌ мноТСствам с ΠΌΠΈΠ»Π»ΠΈΠΎΠ½Π°ΠΌΠΈ, ΠΈΠ»ΠΈ Π΄Π°ΠΆΠ΅ ΠΌΠΈΠ»Π»ΠΈΠ°Ρ€Π΄Π°ΠΌΠΈ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ². ΠŸΡ€Π΅Π΄ΡΠΊΠ°Π·Π°Ρ‚Π΅Π»ΡŒΠ½Π°Ρ сила ΠΌΠ½ΠΎΠ³ΠΈΡ… Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² машинного обучСния растСт ΠΏΡ€ΠΈ ΡƒΠ²Π΅Π»ΠΈΡ‡Π΅Π½ΠΈΠΈ Ρ€Π°Π·ΠΌΠ΅Ρ€Π° ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΡ… Π²Ρ‹Π±ΠΎΡ€ΠΎΠΊ Π΄Π°Π½Π½Ρ‹Ρ…. Π’Π΅ΠΌ Π½Π΅ ΠΌΠ΅Π½Π΅Π΅, Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ машинного обучСния, Ρ‚Π°ΠΊΠΆΠ΅ ΡΠ»Π΅Π΄ΡƒΡŽΡ‚ ΠΏΡ€ΠΈΠ½Ρ†ΠΈΠΏΡƒ «мусор Π½Π° Π²Ρ…ΠΎΠ΄Π΅ β€” мусор Π½Π° Π²Ρ‹Ρ…ΠΎΠ΄Π΅Β». Π‘Ρ‚ΡƒΠ΄Π΅Π½Ρ‚, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ готовится ΠΊ экзамСну, читая большой, Π·Π°ΠΏΡƒΡ‚Π°Π½Π½ΠΎΠΉ ΡƒΡ‡Π΅Π±Π½ΠΈΠΊ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ содСрТит ΠΌΠ½ΠΎΠ³ΠΎ ошибок, скорСС всСго, Π½Π΅ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ Π»ΡƒΡ‡ΡˆΡƒΡŽ ΠΎΡ†Π΅Π½ΠΊΡƒ, Ρ‡Π΅ΠΌ студСнт, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ Ρ‡ΠΈΡ‚Π°Π΅Ρ‚ нСбольшой, Π½ΠΎ Ρ…ΠΎΡ€ΠΎΡˆΠΎ написанный ΡƒΡ‡Π΅Π±Π½ΠΈΠΊ. Аналогично, Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΠΉΡΡ Π½Π° большой ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ Π·Π°ΡˆΡƒΠΌΠ»Π΅Π½Π½Ρ‹Ρ…, Π½Π΅ относящихся ΠΊ Π΄Π΅Π»Ρƒ, ΠΈΠ»ΠΈ Π½Π΅ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎ ΠΌΠ°Ρ€ΠΊΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ… Π½Π΅ Π±ΡƒΠ΄Π΅Ρ‚ Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ Π»ΡƒΡ‡ΡˆΠ΅, Ρ‡Π΅ΠΌ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΠΉΡΡ Π½Π° мСньшСм Π½Π°Π±ΠΎΡ€Π΅ Π΄Π°Π½Π½Ρ‹Ρ…, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π±ΠΎΠ»Π΅Π΅ Π°Π΄Π΅ΠΊΠ²Π°Ρ‚Π½Ρ‹ Π·Π°Π΄Π°Ρ‡Π°ΠΌ Π² Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠΌ ΠΌΠΈΡ€Π΅.

МногиС ΠΈΠ· ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΡ… мноТСств ΠΏΠΎΠ΄Π³ΠΎΡ‚Π°Π²Π»ΠΈΠ²Π°ΡŽΡ‚ΡΡ Π²Ρ€ΡƒΡ‡Π½ΡƒΡŽ, ΠΈΠ»ΠΈ ΠΆΠ΅ с использованиСм полуавтоматичСских процСссов. Π‘ΠΎΠ·Π΄Π°Π½ΠΈΠ΅ Π±ΠΎΠ»ΡŒΡˆΠΈΡ… ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΉ Π΄Π°Π½Π½Ρ‹Ρ… для обучСния ΠΏΠΎ ΠΏΡ€Π΅Ρ†Π΅Π΄Π΅Π½Ρ‚Π°ΠΌ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ достаточно Π·Π°Ρ‚Ρ€Π°Ρ‚Π½Ρ‹ΠΌ процСссом Π² Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… областях.

ΠšΡ€ΠΎΡΡ-валидация

ABCDE
ΠŸΠ΅Ρ€Π΅ΠΊΡ€Π΅ΡΡ‚Π½Π°Ρ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠ°, 1 итСрацияВСстовоС ΠΌΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎΠžΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π΅ ΠΌΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎΠžΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π΅ ΠΌΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎΠžΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π΅ ΠΌΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎΠžΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π΅ мноТСство
ΠŸΠ΅Ρ€Π΅ΠΊΡ€Π΅ΡΡ‚Π½Π°Ρ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠ°, 2 ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΡΠžΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π΅ мноТСствоВСстовоС ΠΌΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎΠžΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π΅ ΠΌΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎΠžΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π΅ ΠΌΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎΠžΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π΅ мноТСство
ΠŸΠ΅Ρ€Π΅ΠΊΡ€Π΅ΡΡ‚Π½Π°Ρ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠ°, 3 ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΡΠžΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π΅ ΠΌΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎΠžΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π΅ мноТСствоВСстовоС ΠΌΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎΠžΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π΅ ΠΌΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎΠžΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π΅ мноТСство
ΠŸΠ΅Ρ€Π΅ΠΊΡ€Π΅ΡΡ‚Π½Π°Ρ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠ°, 4 ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΡΠžΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π΅ ΠΌΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎΠžΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π΅ ΠΌΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎΠžΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π΅ мноТСствоВСстовоС ΠΌΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎΠžΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π΅ мноТСство
ΠŸΠ΅Ρ€Π΅ΠΊΡ€Π΅ΡΡ‚Π½Π°Ρ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠ°, 5 ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΡΠžΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π΅ ΠΌΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎΠžΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π΅ ΠΌΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎΠžΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π΅ ΠΌΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎΠžΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π΅ мноТСствоВСстовоС мноТСство

ΠžΡ€ΠΈΠ³ΠΈΠ½Π°Π»ΡŒΠ½Ρ‹ΠΉ Π½Π°Π±ΠΎΡ€ Π΄Π°Π½Π½Ρ‹Ρ… разбиваСтся Π½Π° ΠΏΡΡ‚ΡŒ подмноТСств ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²ΠΎΠ³ΠΎ Ρ€Π°Π·ΠΌΠ΅Ρ€Π°, ΠΎΠ±ΠΎΠ·Π½Π°Ρ‡Π΅Π½Π½Ρ‹Ρ… ΠΎΡ‚ A Π΄ΠΎ E. Π‘Π½Π°Ρ‡Π°Π»Π° модСль обучаСтся Π½Π° частях Π’-Π•, ΠΈ тСстируСтся Π½Π° части Π΄Π°Π½Π½Ρ‹Ρ… А. На ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅ΠΉ ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠΈ, модСль обучаСтся Π½Π° Ρ€Π°Π·Π΄Π΅Π»Π°Ρ… A, C, D ΠΈ Π• ΠΈ тСстируСтся Π½Π° Π΄Π°Π½Π½Ρ‹Ρ… части Π’. Части ΠΌΠ΅Π½ΡΡŽΡ‚ΡΡ Π΄ΠΎ Ρ‚Π΅Ρ… ΠΏΠΎΡ€, ΠΏΠΎΠΊΠ° модСль Π½Π΅ обучится ΠΈ протСстируСтся Π½Π° всСх частях. ΠšΡ€ΠΎΡΡ-валидация Π΄Π°Π΅Ρ‚ Π±ΠΎΠ»Π΅Π΅ Ρ‚ΠΎΡ‡Π½ΡƒΡŽ ΠΎΡ†Π΅Π½ΠΊΡƒ эффСктивности ΠΌΠΎΠ΄Π΅Π»ΠΈ, Ρ‡Π΅ΠΌ тСстированиС с использованиСм Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΠ΄Π½ΠΎΠΉ части Π΄Π°Π½Π½Ρ‹Ρ….

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ

Π”ΠΎΠ±Π°Π²ΠΈΡ‚ΡŒ ΠΊΠΎΠΌΠΌΠ΅Π½Ρ‚Π°Ρ€ΠΈΠΉ

Π’Π°Ρˆ адрСс email Π½Π΅ Π±ΡƒΠ΄Π΅Ρ‚ ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½. ΠžΠ±ΡΠ·Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ поля ΠΏΠΎΠΌΠ΅Ρ‡Π΅Π½Ρ‹ *