коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти

ΠœΠ΅Ρ‚ΠΎΠ΄Ρ‹ ускорСния обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ обучСния

коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти

Алгоритм ΠΎΠ±Ρ€Π°Ρ‚Π½ΠΎΠ³ΠΎ распространСния ошибки являСтся ΠΎΠ΄Π½ΠΈΠΌ ΠΈΠ· ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² обучСния многослойных Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹Ρ… сСтСй прямого распространСния. БСгодня Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹Π΅ сСти ΡƒΡΠΏΠ΅ΡˆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ ΠΏΡ€ΠΈ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΈ слоТных практичСских Π·Π°Π΄Π°Ρ‡.

Π’ классичСском Π²Π°Ρ€ΠΈΠ°Π½Ρ‚Π΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° ΠΎΠ±Ρ€Π°Ρ‚Π½ΠΎΠ³ΠΎ распространСния ошибки Ρ„ΠΎΡ€ΠΌΡƒΠ»Π° ΠΊΠΎΡ€Ρ€Π΅ΠΊΡ†ΠΈΠΈ вСсовых коэффициСнтов, выглядит ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ:

Π—Π΄Π΅ΡΡŒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти– константа. ΠŸΡ€ΠΈ ΠΎΡ‡Π΅Π½ΡŒ ΠΌΠ°Π»Π΅Π½ΡŒΠΊΠΈΡ… значСниях коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСтиобучСниС Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти Π±ΡƒΠ΄Π΅Ρ‚ ΠΏΡ€ΠΎΡ…ΠΎΠ΄ΠΈΡ‚ΡŒ ΠΌΠ΅Π΄Π»Π΅Π½Π½ΠΎ. ΠŸΡ€ΠΈ ΠΎΡ‡Π΅Π½ΡŒ Π±ΠΎΠ»ΡŒΡˆΠΈΡ… значСниях коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСтивозникаСт Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎ Π² ΠΌΠΎΠΌΠ΅Π½Ρ‚ достиТСния ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌΠ° Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ ошибки коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСтинСйронная ΡΠ΅Ρ‚ΡŒ Π½Π΅ смоТСт ΠΏΠΎΠΏΠ°ΡΡ‚ΡŒ Π² этот ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌ ΠΈ Π±ΡƒΠ΄Π΅Ρ‚ бСсконСчно Π΄ΠΎΠ»Π³ΠΎ Β«ΠΏΡ€Ρ‹Π³Π°Ρ‚ΡŒΒ» справа ΠΈ слСва ΠΎΡ‚ Π½Π΅Π³ΠΎ, производя пСрСрасчСты вСсовых коэффициСнтов.

коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти

Π’Ρ‹Π±ΠΎΡ€ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ срСднСго значСния коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСтидля всСго процСсса обучСния Π½Π΅ ΠΏΠΎΠ·Π²ΠΎΠ»ΠΈΡ‚ Π΄ΠΎΡΡ‚ΠΈΠ³Π½ΡƒΡ‚ΡŒ ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ мноТСства вСсовых коэффициСнтов Π·Π° минимальноС количСство шагов. Бтановится ΠΎΡ‡Π΅Π²ΠΈΠ΄Π½Ρ‹ΠΌ, Ρ‡Ρ‚ΠΎ динамичСскоС ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ Π²Π΅Π»ΠΈΡ‡ΠΈΠ½ΠΎΠΉ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСтимоТСт ΡΠ΅Ρ€ΡŒΠ΅Π·Π½ΠΎ ΠΏΠΎΠ²Ρ‹ΡΠΈΡ‚ΡŒ ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠΌ ΠΎΠ±Ρ€Π°Ρ‚Π½ΠΎΠ³ΠΎ распространСния ошибки.

ΠŸΡ€ΠΈΡΠ²ΠΎΠ΅Π½ΠΈΠ΅ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ ΡΠ΅Ρ‚ΠΈΠ±ΠΎΠ»ΡŒΡˆΠ΅Π³ΠΎ значСния Π² ΠΌΠΎΠΌΠ΅Π½Ρ‚ Π½Π°Ρ‡Π°Π»Π° обучСния ΠΏΠΎΠ·Π²ΠΎΠ»ΠΈΡ‚ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒ Π±ΠΎΠ»Π΅Π΅ быстроС ΠΏΡ€ΠΈΠ±Π»ΠΈΠΆΠ΅Π½ΠΈΠ΅ ΠΊ области, Π³Π΄Π΅ находится ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠ΅ мноТСство вСсовых коэффициСнтов. А для Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ нСйронная ΡΠ΅Ρ‚ΡŒ Π½Π΅ «проскочила» ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ ошибки коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСтинСобходимо Π² процСссС обучСния ΡƒΠΌΠ΅Π½ΡŒΡˆΠ°Ρ‚ΡŒ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. МоТно, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, ΠΏΠΎ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅ΠΉ простой Ρ„ΠΎΡ€ΠΌΡƒΠ»Π΅:

Π‘Ρ‚ΠΎΠΈΡ‚ ΠΎΡ‚ΠΌΠ΅Ρ‚ΠΈΡ‚ΡŒ, Ρ‡Ρ‚ΠΎ ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‚ Π±ΠΎΠ»Π΅Π΅ слоТныС ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΡ‹ ускорСния обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти, ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡŽΡ‰ΠΈΠ΅ ΠΈΠ·ΠΌΠ΅Π½ΡΡ‚ΡŒ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ обучСния ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎΠ³ΠΎ Π½Π΅ΠΉΡ€ΠΎΠ½Π°, исходя ΠΈΠ· Π²Π΅Π»ΠΈΡ‡ΠΈΠ½Ρ‹ Π΅Π³ΠΎ ошибки Π½Π° ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰Π΅ΠΉ ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠΈ.

ДинамичСскоС ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒΡŽ обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти Π² Π±ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²Π΅ случаСв позволяСт Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΏΠΎΠ²Ρ‹ΡΠΈΡ‚ΡŒ ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ Ρ€Π°Π±ΠΎΡ‚Ρ‹ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° ΠΎΠ±Ρ€Π°Ρ‚Π½ΠΎΠ³ΠΎ распространСния.

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ

Π§Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ коэффициСнт скорости обучСния ΠΈ ΠΊΠ°ΠΊ ΠΎΠ½ ΡƒΠ»ΡƒΡ‡ΡˆΠ°Π΅Ρ‚ характСристики Π³Π»ΡƒΠ±ΠΎΠΊΠΎΠ³ΠΎ обучСния?

Данная ΡΡ‚Π°Ρ‚ΡŒΡ прСдставляСт собой мою ΠΏΠΎΠΏΡ‹Ρ‚ΠΊΡƒ Π²Ρ‹Ρ€Π°Π·ΠΈΡ‚ΡŒ свой взгляд Π½Π° ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠ΅ аспСкты:

Π§Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ коэффициСнт скорости обучСния?

ΠšΠΎΡΡ„Ρ„ΠΈΡ†ΠΈΠ΅Π½Ρ‚ скорости обучСния – это Π³ΠΈΠΏΠ΅Ρ€ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€, ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΡΡŽΡ‰ΠΈΠΉ порядок Ρ‚ΠΎΠ³ΠΎ, ΠΊΠ°ΠΊ ΠΌΡ‹ Π±ΡƒΠ΄Π΅ΠΌ ΠΊΠΎΡ€Ρ€Π΅ΠΊΡ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ наши вСсы с ΡƒΡ‡Ρ‘Ρ‚ΠΎΠΌ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ ΠΏΠΎΡ‚Π΅Ρ€ΡŒ Π² Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠΌ спускС. Π§Π΅ΠΌ Π½ΠΈΠΆΠ΅ Π²Π΅Π»ΠΈΡ‡ΠΈΠ½Π°, Ρ‚Π΅ΠΌ ΠΌΠ΅Π΄Π»Π΅Π½Π½Π΅Π΅ ΠΌΡ‹ двиТСмся ΠΏΠΎ Π½Π°ΠΊΠ»ΠΎΠ½Π½ΠΎΠΉ. Π₯отя ΠΏΡ€ΠΈ использовании Π½ΠΈΠ·ΠΊΠΎΠ³ΠΎ коэффициСнта скорости обучСния ΠΌΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒ ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ эффСкт Π² Ρ‚ΠΎΠΌ смыслС, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π½Π΅ ΠΏΡ€ΠΎΠΏΡƒΡΡ‚ΠΈΡ‚ΡŒ Π½ΠΈ ΠΎΠ΄Π½ΠΎΠ³ΠΎ локального ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌΠ°, β€” это Ρ‚Π°ΠΊΠΆΠ΅ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΎΠ·Π½Π°Ρ‡Π°Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ Π½Π°ΠΌ придётся Π·Π°Ρ‚Ρ€Π°Ρ‚ΠΈΡ‚ΡŒ ΠΌΠ½ΠΎΠ³ΠΎ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ Π½Π° cΡ…ΠΎΠ΄ΠΈΠΌΠΎΡΡ‚ΡŒ, особСнно Ссли ΠΌΡ‹ ΠΏΠΎΠΏΠ°Π»ΠΈ Π² ΠΎΠ±Π»Π°ΡΡ‚ΡŒ ΠΏΠ»Π°Ρ‚ΠΎ.

ΠžΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠ΅ ΠΈΠ»Π»ΡŽΡΡ‚Ρ€ΠΈΡ€ΡƒΠ΅Ρ‚ΡΡ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅ΠΉ Ρ„ΠΎΡ€ΠΌΡƒΠ»ΠΎΠΉ

коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти

коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти
Π“Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½Ρ‹ΠΉ спуск с малСньким (Π²Π²Π΅Ρ€Ρ…Ρƒ) ΠΈ большим (Π²Π½ΠΈΠ·Ρƒ) коэффициСнтами скорости обучСния. Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ: Andrew Ng’s Machine Learning course on Coursera

Π§Π°Ρ‰Π΅ всСго коэффициСнт скорости обучСния устанавливаСтся ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Π΅ΠΌ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ»ΡŒΠ½ΠΎ. Π’ Π»ΡƒΡ‡ΡˆΠ΅ΠΌ случаС для ΠΈΠ½Ρ‚ΡƒΠΈΡ‚ΠΈΠ²Π½ΠΎΠ³ΠΎ понимания Ρ‚ΠΎΠ³ΠΎ, ΠΊΠ°ΠΊΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Π±ΠΎΠ»Π΅Π΅ всСго ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΈΡ‚ для установлСния коэффициСнта скорости обучСния, ΠΎΠ½ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΎΠΏΠΈΡ€Π°Ρ‚ΡŒΡΡ Π½Π° ΠΏΡ€ΠΎΠ²Π΅Π΄Ρ‘Π½Π½Ρ‹Π΅ Ρ€Π°Π½Π΅Π΅ экспСримСнты (ΠΈΠ»ΠΈ ΠΈΠ½ΠΎΠΉ Π²ΠΈΠ΄ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅Π³ΠΎ ΠΌΠ°Ρ‚Π΅Ρ€ΠΈΠ°Π»Π°).

По сущСству достаточно Ρ‚Ρ€ΡƒΠ΄Π½ΠΎ Π²Ρ‹Π±Ρ€Π°Ρ‚ΡŒ ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅. ΠŸΡ€ΠΈΠ²Π΅Π΄Ρ‘Π½Π½Π°Ρ Π½ΠΈΠΆΠ΅ Π΄ΠΈΠ°Π³Ρ€Π°ΠΌΠΌΠ° наглядно ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ сцСнарии, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΌΠΎΠ³ΡƒΡ‚ Π²ΠΎΠ·Π½ΠΈΠΊΠ½ΡƒΡ‚ΡŒ ΠΏΡ€ΠΈ ΡΠ°ΠΌΠΎΡΡ‚ΠΎΡΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ настройкС коэффициСнта скорости обучСния ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Π΅ΠΌ.

коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти
ВлияниС Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… коэффициСнтов скорости обучСния Π½Π° ΡΡ…ΠΎΠ΄ΠΈΠΌΠΎΡΡ‚ΡŒ. (Img Credit: cs231n)

Π”Π°Π»Π΅Π΅, коэффициСнт скорости обучСния воздСйствуСт Π½Π° Ρ‚ΠΎ, ΠΊΠ°ΠΊ быстро наша модСль достигнСт локального ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌΠ° (aka достигнСт Π½Π°ΠΈΠ»ΡƒΡ‡ΡˆΠ΅ΠΉ точности). Π’Π΅ΠΌ самым ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Ρ‹ΠΉ Π²Ρ‹Π±ΠΎΡ€ с самого Π½Π°Ρ‡Π°Π»Π° Π³Π°Ρ€Π°Π½Ρ‚ΠΈΡ€ΡƒΠ΅Ρ‚ ΠΌΠ΅Π½ΡŒΡˆΡƒΡŽ Ρ‚Ρ€Π°Ρ‚Ρƒ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ Π½Π° Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΡƒ ΠΌΠΎΠ΄Π΅Π»ΠΈ. Π§Π΅ΠΌ мСньшС Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΎΡ‡Π½ΠΎΠ³ΠΎ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ, Ρ‚Π΅ΠΌ мСньшС срСдств тратится Π½Π° Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ мощности GPU Π² ΠΎΠ±Π»Π°ΠΊΠ΅.

Π•ΡΡ‚ΡŒ Π»ΠΈ Π±ΠΎΠ»Π΅Π΅ ΡƒΠ΄ΠΎΠ±Π½Ρ‹ΠΉ способ опрСдСлСния коэффициСнт скорости обучСния?

Π’ ΠΏΠ°Ρ€Π°Π³Ρ€Π°Ρ„Π΅ 3.3. «ЦикличСских коэффициСнтов скорости обучСния для Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹Ρ… сСтСй» ЛСсли Π‘ΠΌΠΈΡ‚ отстаивал ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅Π΅ ΠΏΠΎΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅: ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ скорости обучСния ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ ΠΎΡ†Π΅Π½Π΅Π½Π° ΠΏΡƒΡ‚Ρ‘ΠΌ Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ с ΠΈΠ·Π½Π°Ρ‡Π°Π»ΡŒΠ½ΠΎ Π·Π°Π΄Π°Π½Π½ΠΎΠΉ Π½ΠΈΠ·ΠΊΠΎΠΉ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒΡŽ обучСния, которая Π·Π°Ρ‚Π΅ΠΌ ΠΏΠΎΠ²Ρ‹ΡˆΠ°Π΅Ρ‚ΡΡ (Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎ ΠΈΠ»ΠΈ ΠΏΠΎ экспонСнтС) Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠΈ.

коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти
ΠšΠΎΡΡ„Ρ„ΠΈΡ†ΠΈΠ΅Π½Ρ‚ скорости обучСния растёт послС ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΌΠΈΠ½ΠΈ-ΠΏΠ°ΠΊΠ΅Ρ‚Π°.

Ѐиксируя значСния ΠΏΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»Π΅ΠΉ Π½Π° ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠΈ, ΠΌΡ‹ ΡƒΠ²ΠΈΠ΄ΠΈΠΌ, Ρ‡Ρ‚ΠΎ ΠΏΠΎ ΠΌΠ΅Ρ€Π΅ ΠΏΠΎΠ²Ρ‹ΡˆΠ΅Π½ΠΈΡ скорости обучСния Π±ΡƒΠ΄Π΅Ρ‚ (достигнута) Ρ‚ΠΎΡ‡ΠΊΠ°, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ значСния Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ ΠΏΠΎΡ‚Π΅Ρ€ΡŒ пСрСстаёт ΡƒΠΌΠ΅Π½ΡŒΡˆΠ°Ρ‚ΡŒΡΡ ΠΈ Π½Π°Ρ‡ΠΈΠ½Π°Π΅Ρ‚ ΡƒΠ²Π΅Π»ΠΈΡ‡ΠΈΠ²Π°Ρ‚ΡŒΡΡ. На ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊΠ΅ наша ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ обучСния Π² идСальном Π²Π°Ρ€ΠΈΠ°Π½Ρ‚Π΅ Π΄ΠΎΠ»ΠΆΠ½Π° Π±Ρ‹Ρ‚ΡŒ Π³Π΄Π΅-Ρ‚ΠΎ слСва ΠΎΡ‚ Π½ΠΈΠΆΠ½Π΅ΠΉ Ρ‚ΠΎΡ‡ΠΊΠΈ Π½Π° Π³Ρ€Π°Ρ„ΠΈΠΊΠ΅ (ΠΊΠ°ΠΊ ΠΏΠΎΠΊΠ°Π·Π°Π½ΠΎ Π½Π° Π³Ρ€Π°Ρ„ΠΈΠΊΠ΅ Π½ΠΈΠΆΠ΅). Π’ этом случаС (Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Π±ΡƒΠ΄Π΅Ρ‚) ΠΎΡ‚ 0.001 Π΄ΠΎ 0.01.

коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти

ΠŸΡ€ΠΈΠ²Π΅Π΄Ρ‘Π½Π½ΠΎΠ΅ Π²Ρ‹ΡˆΠ΅ выглядит ΠΏΠΎΠ»Π΅Π·Π½Ρ‹ΠΌ. Как Π½Π°Ρ‡Π°Ρ‚ΡŒ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ это?

На Π΄Π°Π½Π½Ρ‹ΠΉ ΠΌΠΎΠΌΠ΅Π½Ρ‚ Π΅ΡΡ‚ΡŒ готовая функция Π² ΠΏΠ°ΠΊΠ΅Ρ‚Π΅ fast.ia, разработанная Π”ΠΆΠ΅Ρ€Π΅ΠΌΠΈ Π₯ΠΎΠ²Π°Ρ€Π΄ΠΎΠΌ, это своСго Ρ€ΠΎΠ΄Π° абстракция/надстройка ΠΏΠΎΠ²Π΅Ρ€Ρ… Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠΈ pytorch (Π½Π°ΠΏΠΎΠ΄ΠΎΠ±ΠΈΠ΅ Ρ‚ΠΎΠ³ΠΎ, ΠΊΠ°ΠΊ это сдСлано Π² случаС с Keras ΠΈ Tensorflow).

НСобходимо лишь ввСсти ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΡƒΡŽ ΠΊΠΎΠΌΠ°Π½Π΄Ρƒ для Ρ‚ΠΎΠ³ΠΎ Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π½Π°Ρ‡Π°Ρ‚ΡŒ поиск ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ коэффициСнта скорости обучСния, ΠΏΡ€Π΅ΠΆΠ΄Π΅ Π½Π΅ΠΆΠ΅Π»ΠΈ (Π½Π°Ρ‡Π°Ρ‚ΡŒ) Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΡƒΡŽ ΡΠ΅Ρ‚ΡŒ.

Π£Π»ΡƒΡ‡ΡˆΠ°Ρ модСль

Π˜Ρ‚Π°ΠΊ, ΠΌΡ‹ рассказали, Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ коэффициСнт скорости обучСния, ΠΊΠ°ΠΊΠΎΠ²ΠΎ Π΅Π³ΠΎ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ ΠΈ ΠΊΠ°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ ΠΌΠΎΠΆΠ½ΠΎ Π΄ΠΎΡΡ‚ΠΈΡ‡ΡŒ Π΅Π³ΠΎ ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ значСния ΠΏΡ€Π΅ΠΆΠ΄Π΅, Ρ‡Π΅ΠΌ Π½Π°Ρ‡Π°Ρ‚ΡŒ Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ саму модСль.
Π’Π΅ΠΏΠ΅Ρ€ΡŒ ΠΌΡ‹ остановимся Π½Π° Ρ‚ΠΎΠΌ, ΠΊΠ°ΠΊ коэффициСнт скорости обучСния ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ использован для Ρ‚ΡŽΠ½ΠΈΠ½Π³Π° ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ.

ΠšΠΎΠ½Π²Π΅Π½Ρ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½Π°Ρ ΠΌΡƒΠ΄Ρ€ΠΎΡΡ‚ΡŒ

ΠžΠ±Ρ‹Ρ‡Π½ΠΎ, ΠΊΠΎΠ³Π΄Π° ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒ устанавливаСт свой коэффициСнт скорости обучСния ΠΈ приступаСт ΠΊ Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ, Π΅ΠΌΡƒ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΠΏΠΎΠ΄ΠΎΠΆΠ΄Π°Ρ‚ΡŒ Π΄ΠΎ Ρ‚Π΅Ρ… ΠΏΠΎΡ€, ΠΏΠΎΠΊΠ° коэффициСнт скорости обучСния Π½Π΅ Π½Π°Ρ‡Π½Ρ‘Ρ‚ ΠΏΠ°Π΄Π°Ρ‚ΡŒ ΠΈ модСль Π½Π΅ достигнСт ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ значСния.

Однако с Ρ‚ΠΎΠ³ΠΎ ΠΌΠΎΠΌΠ΅Π½Ρ‚Π°, ΠΊΠ°ΠΊ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ достигнСт ΠΏΠ»Π°Ρ‚ΠΎ, ΡƒΠ»ΡƒΡ‡ΡˆΠΈΡ‚ΡŒ значСния Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ ΠΏΠΎΡ‚Π΅Ρ€ΡŒ ΠΏΡ€ΠΈ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ становится тяТСлСС. Π’ [3] Dauphin высказываСт Ρ‚ΠΎΡ‡ΠΊΡƒ зрСния ΠΎ Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ ΡΠ»ΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ Π² ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ ΠΏΠΎΡ‚Π΅Ρ€ΡŒ проистСкаСт ΠΎΡ‚ сСдловой Ρ‚ΠΎΡ‡ΠΊΠΈ, Π° Π½Π΅ ΠΎΡ‚ локального ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌΠ°.

коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти
БСдловая Ρ‚ΠΎΡ‡ΠΊΠ° Π½Π° повСрхности ошибок. БСдловая Ρ‚ΠΎΡ‡ΠΊΠ° – такая Ρ‚ΠΎΡ‡ΠΊΠ° ΠΈΠ· области опрСдСлСния Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ, которая являСтся стационарной для Π΄Π°Π½Π½ΠΎΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ, ΠΎΠ΄Π½Π°ΠΊΠΎ Π½Π΅ являСтся Π΅Ρ‘ Π»ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹ΠΌ экстрСмумом. (ImgCredit: safaribooksonline)

Π˜Ρ‚Π°ΠΊ, ΠΊΠ°ΠΊ ΠΆΠ΅ ΠΌΠΎΠΆΠ½ΠΎ ΠΈΠ·Π±Π΅ΠΆΠ°Ρ‚ΡŒ этого?

…вмСсто Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ Ρ„ΠΈΠΊΡΠΈΡ€ΠΎΠ²Π°Π½Π½ΡƒΡŽ Π²Π΅Π»ΠΈΡ‡ΠΈΠ½Ρƒ для коэффициСнта скорости обучСния ΠΈ ΡƒΠΌΠ΅Π½ΡŒΡˆΠ°Ρ‚ΡŒ Π΅Π³ΠΎ с Ρ‚Π΅Ρ‡Π΅Π½ΠΈΠ΅ΠΌ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ, Π² Ρ‚ΠΎΠΌ случаС Ссли Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΠ° большС Π½Π΅ сглаТиваСт Π½Π°ΡˆΡƒ ΠΏΠΎΡ‚Π΅Ρ€ΡŽ, ΠΌΡ‹ собираСмся ΠΌΠ΅Π½ΡΡ‚ΡŒ коэффициСнт скорости обучСния Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠΈ согласно Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ цикличСской Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ f. ΠšΠ°ΠΆΠ΄Ρ‹ΠΉ Ρ†ΠΈΠΊΠ» ΠΈΠΌΠ΅Π΅Ρ‚ – Π² вопросС числа ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠΉ – Ρ„ΠΈΠΊΡΠΈΡ€ΠΎΠ²Π°Π½Π½ΡƒΡŽ Π΄Π»ΠΈΠ½Ρƒ. Π”Π°Π½Π½Ρ‹ΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ позволяСт коэффициСнту скорости обучСния Π²Π°Ρ€ΡŒΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΌΠ΅ΠΆΠ΄Ρƒ Ρ€Π°Π·ΡƒΠΌΠ½Ρ‹ΠΌΠΈ Π³Ρ€Π°Π½ΠΈΡ‡Π½Ρ‹ΠΌΠΈ значСниями. Π­Ρ‚ΠΎ Ρ€Π΅Π°Π»ΡŒΠ½ΠΎ ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ‚, ΠΏΠΎΡ‚ΠΎΠΌΡƒ Ρ‡Ρ‚ΠΎ, увязнув Π² сСдловых Ρ‚ΠΎΡ‡ΠΊΠ°Ρ…, ΠΌΡ‹ ΠΏΡƒΡ‚Ρ‘ΠΌ увСличСния коэффициСнт скорости обучСния ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠΌ Π±ΠΎΠ»Π΅Π΅ быстроС пСрСсСчСниС ΠΏΠ»Π°Ρ‚ΠΎ сСдловых Ρ‚ΠΎΡ‡Π΅ΠΊ

Π’ [2] ЛСсли ΠΏΡ€Π΅Π΄Π»Π°Π³Π°Π΅Ρ‚ Β«ΠΌΠ΅Ρ‚ΠΎΠ΄ Ρ‚Ρ€Π΅ΡƒΠ³ΠΎΠ»ΡŒΠ½ΠΈΠΊΠΎΠ²Β», Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ коэффициСнт скорости обучСния пСрСсматриваСтся послС ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΈΠ· Π½Π΅ΡΠΊΠΎΠ»ΡŒΠΊΠΈΡ… ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠΉ.

коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти

коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти
Β«ΠœΠ΅Ρ‚ΠΎΠ΄ Ρ‚Ρ€Π΅ΡƒΠ³ΠΎΠ»ΡŒΠ½ΠΈΠΊΠΎΠ²Β» ΠΈ Β«ΠΌΠ΅Ρ‚ΠΎΠ΄ Ρ‚Ρ€Π΅ΡƒΠ³ΠΎΠ»ΡŒΠ½ΠΈΠΊΠΎΠ²-2Β» β€” ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ для цикличСского тСстирования коэффициСнтов скорости обучСния, ΠΏΡ€Π΅Π΄Π»ΠΎΠΆΠ΅Π½Π½Ρ‹Π΅ ЛСсли Н. Π‘ΠΌΠΈΡ‚ΠΎΠΌ. На Π²Π΅Ρ€Ρ…Π½Π΅ΠΌ Π³Ρ€Π°Ρ„ΠΈΠΊΠ΅ ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹ΠΉ ΠΈ ΠΌΠ°ΠΊΡΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹ΠΉ Ir ΡΠΎΡ…Ρ€Π°Π½ΡΡŽΡ‚ΡΡ Ρ€Π°Π²Π½Ρ‹ΠΌΠΈ.

Π”Ρ€ΡƒΠ³ΠΎΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄, ΠΎΠ±Π»Π°Π΄Π°ΡŽΡ‰ΠΈΠΉ Π½Π΅ мСньшСй ΠΏΠΎΠΏΡƒΠ»ΡΡ€Π½ΠΎΡΡ‚ΡŒΡŽ ΠΈ носящий Π½Π°Π·Π²Π°Π½ΠΈΠ΅ «БтохастичСский Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½Ρ‹ΠΉ спуск с Ρ‚Ρ‘ΠΏΠ»ΠΎΠΉ ΠΏΠ΅Ρ€Π΅Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠΎΠΉΒ», Π±Ρ‹Π» ΠΏΡ€Π΅Π΄Π»ΠΎΠΆΠ΅Π½ Lonchilov & Hutter [6]. Π”Π°Π½Π½Ρ‹ΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄, Π² основС ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ Π»Π΅ΠΆΠΈΡ‚ использованиС Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ косинуса ΠΊΠ°ΠΊ цикличСской, пСрСзапускаСт коэффициСнт скорости обучСния Π² Ρ‚ΠΎΡ‡ΠΊΠ΅ максимума Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΌ Ρ†ΠΈΠΊΠ»Π΅. ПоявлСниС «ГорячСго» Π±ΠΈΡ‚Π° связано с Ρ‚Π΅ΠΌ, Ρ‡Ρ‚ΠΎ ΠΏΡ€ΠΈ пСрСзапускС коэффициСнта скорости обучСния ΠΎΠ½ начинаСтся Π½Π΅ с Π½ΡƒΠ»Π΅Π²ΠΎΠ³ΠΎ уровня, Π° ΠΎΡ‚ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², Π΄ΠΎ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… модСль дошла Π·Π° ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰ΠΈΠΉ шаг.

ΠŸΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ Ρƒ Π΄Π°Π½Π½ΠΎΠ³ΠΎ ΠΌΠ΅Ρ‚ΠΎΠ΄Π° ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‚ Π²Π°Ρ€ΠΈΠ°Ρ†ΠΈΠΈ, ΠΏΡ€ΠΈΠ²Π΅Π΄Ρ‘Π½Π½Ρ‹ΠΉ Π½ΠΈΠΆΠ΅ Π³Ρ€Π°Ρ„ΠΈΠΊ дСмонстрируСт ΠΎΠ΄ΠΈΠ½ ΠΈΠ· способов Π΅Π³ΠΎ примСнСния, Π³Π΄Π΅ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ Ρ†ΠΈΠΊΠ» привязан ΠΊ ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²ΠΎΠΌΡƒ Π²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΌΡƒ ΠΎΡ‚Ρ€Π΅Π·ΠΊΡƒ.

коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти
SGDR –график, коэффициСнт скорости обучСния vs. ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠΉ

Π’Π΅ΠΌ самым ΠΌΡ‹ ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅ΠΌ способ ΡΠΎΠΊΡ€Π°Ρ‚ΠΈΡ‚ΡŒ ΠΏΡ€ΠΎΠ΄ΠΎΠ»ΠΆΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΠΈ, просто врСмя ΠΎΡ‚ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ пСрСпрыгивая Β«Π²Π΅Ρ€ΡˆΠΈΠ½Ρ‹Β» (ΠΊΠ°ΠΊ ΠΏΠΎΠΊΠ°Π·Π°Π½ΠΎ Π½ΠΈΠΆΠ΅).

коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти
Π‘Ρ€Π°Π²Π½Π΅Π½ΠΈΠ΅ фиксированного ΠΈ цикличСского коэффициСнтов скорости обучСния (img credit: arxiv.org/abs/1704.00109
Π”ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΊ экономии Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ Π΄Π°Π½Π½Ρ‹ΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄, согласно исслСдованиям, ΡƒΠ»ΡƒΡ‡ΡˆΠ°Π΅Ρ‚ Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ классификации Π±Π΅Π· Ρ‚ΡŽΠ½ΠΈΠ½Π³Π° ΠΈ Π·Π° мСньшСС число ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠΉ.

ΠšΠΎΡΡ„Ρ„ΠΈΡ†ΠΈΠ΅Π½Ρ‚ скорости обучСния Π² Transfer learning

Π’ курсС fast.ai Π°ΠΊΡ†Π΅Π½Ρ‚ сдСлан Π½Π° ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΎΠ±ΡƒΡ‡Π΅Π½Π½ΠΎΠΉ модСлью ΠΏΡ€ΠΈ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΈ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌ искусствСнного ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚Π°. НапримСр, ΠΏΡ€ΠΈ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΈ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌ классификации ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ студСнтов ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‚ пользованию Ρ‚Π°ΠΊΠΈΠΌΠΈ Π·Π°Ρ€Π°Π½Π΅Π΅ ΠΎΠ±ΡƒΡ‡Π΅Π½Π½Ρ‹ΠΌΠΈ модСлями ΠΊΠ°ΠΊ VGG ΠΈ Resnet50 ΠΈ ΡƒΠ²ΡΠ·Ρ‹Π²Π°Π½ΠΈΡŽ ΠΈΡ… ΠΊ Ρ‚ΠΎΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅ Π΄Π°Π½Π½Ρ‹Ρ… ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΠΏΡ€Π΅Π΄ΡΠΊΠ°Π·Π°Ρ‚ΡŒ.
Π§Ρ‚ΠΎΠ±Ρ‹ ΠΏΠΎΠ΄Ρ‹Ρ‚ΠΎΠΆΠΈΡ‚ΡŒ, ΠΊΠ°ΠΊ происходит построСниС ΠΌΠΎΠ΄Π΅Π»ΠΈ Π² ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ΅ fast.ai (Π½Π΅ слСдуСт ΠΏΡƒΡ‚Π°Ρ‚ΡŒ с fast. ai package – ΠΏΠ°ΠΊΠ΅Ρ‚ΠΎΠΌ ΠΈΠ· ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹), Π½ΠΈΠΆΠ΅ мною ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Π½Ρ‹ шаги, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΌΡ‹ Π±ΡƒΠ΄Π΅ΠΌ ΠΏΡ€Π΅Π΄ΠΏΡ€ΠΈΠ½ΠΈΠΌΠ°Ρ‚ΡŒ Π² ΠΎΠ±Ρ‹ΠΊΠ½ΠΎΠ²Π΅Π½Π½ΠΎΠΉ ситуации:

Π’ ΠΏΠΎΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅ΠΌ Π°Π±Π·Π°Ρ†Π΅ ΠΌΡ‹ рассказали, ΠΊΠ°ΠΊ ΠΏΡƒΡ‚Ρ‘ΠΌ использования SGDR ΠΌΠΎΠΆΠ½ΠΎ ΡΠΎΠΊΡ€Π°Ρ‚ΠΈΡ‚ΡŒ Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΎΡ‡Π½ΠΎΠ΅ врСмя, Π° благодаря пСриодичСскому пСрСзапуску коэффициСнта скорости обучСния – ΠΏΠΎΠ²Ρ‹ΡΠΈΡ‚ΡŒ Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ, с Ρ‚Π΅ΠΌ Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π² ΠΏΠΎΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅ΠΌ ΠΈΠ·Π±Π΅ΠΆΠ°Ρ‚ΡŒ областСй, Π³Π΄Π΅ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ Π±Π»ΠΈΠ·ΠΎΠΊ ΠΊ Π½ΡƒΠ»ΡŽ.
Π’ послСднСй сСкции ΠΌΡ‹ Π·Π°Ρ‚Ρ€ΠΎΠ½Π΅ΠΌ понятиС Π΄ΠΈΡ„Ρ„Π΅Ρ€Π΅Π½Ρ†ΠΈΡ€ΠΎΠ²Π°Π½Π½ΠΎΠ³ΠΎ обучСния ΠΈ поясним, ΠΊΠ°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ ΠΎΠ½ΠΎ примСняСтся для опрСдСлСния коэффициСнта скорости обучСния, ΠΊΠΎΠ³Π΄Π° обучаСмая модСль связываСтся с Π·Π°Ρ€Π°Π½Π΅Π΅ обучСнной…

Π§Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ Π΄ΠΈΡ„Ρ„Π΅Ρ€Π΅Π½Ρ†ΠΈΡ€ΠΎΠ²Π°Π½Π½ΠΎΠ΅ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

Π­Ρ‚ΠΎ ΠΌΠ΅Ρ‚ΠΎΠ΄, ΠΏΡ€ΠΈ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ Π²ΠΎ врСмя Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΠΈ Π² сСти ΡƒΡΡ‚Π°Π½Π°Π²Π»ΠΈΠ²Π°ΡŽΡ‚ΡΡ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ коэффициСнты скорости обучСния. Он прСдставляСт собой Π°Π»ΡŒΡ‚Π΅Ρ€Π½Π°Ρ‚ΠΈΠ²Ρƒ Ρ‚ΠΎΠΌΡƒ способу, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΠΈ ΠΎΠ±Ρ‹ΠΊΠ½ΠΎΠ²Π΅Π½Π½ΠΎ Π½Π°ΡΡ‚Ρ€Π°ΠΈΠ²Π°ΡŽΡ‚ коэффициСнты скорости обучСния – Π° ΠΈΠΌΠ΅Π½Π½ΠΎ использованию ΠΎΠ΄Π½ΠΎΠ³ΠΎ ΠΈ Ρ‚ΠΎΠ³ΠΎ ΠΆΠ΅ коэффициСнта скорости обучСния сквозь ΡΠ΅Ρ‚ΡŒ Π²ΠΎ врСмя Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΠΈ.

коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти
ΠŸΡ€ΠΈΡ‡ΠΈΠ½Π°, ΠΏΠΎ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ я люблю Π’Π²ΠΈΡ‚Ρ‚Π΅Ρ€, β€” прямой ΠΎΡ‚Π²Π΅Ρ‚ ΠΎΡ‚ самого Ρ‡Π΅Π»ΠΎΠ²Π΅ΠΊΠ°.
(Π’ΠΎ врСмя написания этого поста Π”ΠΆΠ΅Ρ€Π΅ΠΌΠΈ ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π» ΡΡ‚Π°Ρ‚ΡŒΡŽ с Π‘Π΅Π±Π°ΡΡ‚ΡŒΡΠ½ΠΎΠΌ Π ΡƒΠ΄Π΅Ρ€ΠΎΠΌ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ Π΅Ρ‰Ρ‘ Π³Π»ΡƒΠ±ΠΆΠ΅ погрузился Π² эту Ρ‚Π΅ΠΌΡƒ. Π’Π°ΠΊ Ρ‡Ρ‚ΠΎ, я полагаю, Π΄ΠΈΡ„Ρ„Π΅Ρ€Π΅Π½Ρ†ΠΈΠ°Π»ΡŒΠ½Ρ‹ΠΉ коэффициСнт скорости обучСния ΠΈΠΌΠ΅Π΅Ρ‚ Ρ‚Π΅ΠΏΠ΅Ρ€ΡŒ ΠΈ Π΄Ρ€ΡƒΠ³ΠΎΠ΅ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ – дискриминационный Ρ‚ΠΎΡ‡Π½Ρ‹ΠΉ Ρ‚ΡŽΠ½ΠΈΠ½Π³ πŸ™‚

Π§Ρ‚ΠΎΠ±Ρ‹ нагляднСС ΠΏΡ€ΠΎΠ΄Π΅ΠΌΠΎΠ½ΡΡ‚Ρ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΊΠΎΠ½Ρ†Π΅ΠΏΡ†ΠΈΡŽ, ΠΌΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ ΡΠΎΡΠ»Π°Ρ‚ΡŒΡΡ Π½Π° ΠΏΡ€ΠΈΠ²Π΅Π΄Ρ‘Π½Π½ΡƒΡŽ Π½ΠΈΠΆΠ΅ Π΄ΠΈΠ°Π³Ρ€Π°ΠΌΠΌΡƒ, Π½Π° ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ Π·Π°Ρ€Π°Π½Π΅Π΅ обучСнная модСль «расколота» Π½Π° 3 Π³Ρ€ΡƒΠΏΠΏΡ‹, Π³Π΄Π΅ каТдая настраиваСтся с Π²ΠΎΠ·Ρ€Π°ΡΡ‚Π°ΡŽΡ‰Π΅ΠΉ Π²Π΅Π»ΠΈΡ‡ΠΈΠ½ΠΎΠΉ коэффициСнта скорости обучСния.

коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти
ΠŸΡ€ΠΈΠΌΠ΅Ρ€ CNN с Π΄ΠΈΡ„Ρ„Π΅Ρ€Π΅Π½Ρ†ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΌ коэффициСнтом скорости обучСния. Image credit from [3]

Π—Π° этим ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠΌ ΠΊΠΎΠ½Ρ„ΠΈΠ³ΡƒΡ€Π°Ρ†ΠΈΠΈ стоит ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅Π΅ ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅: ΠΏΠ΅Ρ€Π²Ρ‹Π΅ нСсколько слоёв ΠΎΠ±Ρ‹ΠΊΠ½ΠΎΠ²Π΅Π½Π½ΠΎ содСрТат ΠΎΡ‡Π΅Π½ΡŒ ΠΌΠ΅Π»ΠΊΠΈΠ΅ Π΄Π΅Ρ‚Π°Π»ΠΈ Π΄Π°Π½Π½Ρ‹Ρ…, Ρ‚Π°ΠΊΠΈΠ΅ ΠΊΠ°ΠΊ Π»ΠΈΠ½ΠΈΠΈ ΠΈ ΡƒΠ³Π»Ρ‹ – ΠΈΠ· ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… ΠΌΡ‹ Π½Π΅ Π±ΡƒΠ΄Π΅ΠΌ ΠΏΡ‹Ρ‚Π°Ρ‚ΡŒΡΡ ΠΈΠ·ΠΌΠ΅Π½ΠΈΡ‚ΡŒ ΠΌΠ½ΠΎΠ³ΠΎ ΠΈ постараСмся ΡΠΎΡ…Ρ€Π°Π½ΠΈΡ‚ΡŒ ΠΈΠΌΠ΅ΡŽΡ‰ΡƒΡŽΡΡ Π² Π½ΠΈΡ… ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ. Π’ Ρ†Π΅Π»ΠΎΠΌ Π½Π΅Ρ‚ ΡΠ΅Ρ€ΡŒΡ‘Π·Π½ΠΎΠΉ нСобходимости ΠΌΠ΅Π½ΡΡ‚ΡŒ ΠΈΡ… вСса Π½Π° ΠΊΠ°ΠΊΠΎΠ΅-Π»ΠΈΠ±ΠΎ большо́С число.

Напротив, для ΠΏΠΎΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΡ… слоёв,- Ρ‚Π°ΠΊΠΈΡ… ΠΊΠ°ΠΊ Ρ‚Π΅, Ρ‡Ρ‚ΠΎ Π½Π° ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ΅ ΠΎΠΊΡ€Π°ΡˆΠ΅Π½Ρ‹ Π² Π·Π΅Π»Ρ‘Π½Ρ‹ΠΉ Ρ†Π²Π΅Ρ‚, Π³Π΄Π΅ ΠΌΡ‹ ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅ΠΌ Π΄Π΅Ρ‚Π°Π»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Π΅ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ Π΄Π°Π½Π½Ρ‹Ρ…, ΠΊΠ°ΠΊ Ρ‚ΠΎ: Π±Π΅Π»ΠΊΠΈ Π³Π»Π°Π·, ΠΈΠ»ΠΈ Ρ€ΠΎΡ‚, ΠΈΠ»ΠΈ нос – Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎΡΡ‚ΡŒ ΡΠΎΡ…Ρ€Π°Π½ΡΡ‚ΡŒ ΠΈΡ… исчСзаСт.

Как это соотносится с Π΄Ρ€ΡƒΠ³ΠΈΠΌΠΈ ΠΌΠ΅Ρ‚ΠΎΠ΄Π°ΠΌΠΈ Ρ‚ΠΎΡ‡Π½ΠΎΠΉ настройки?

Π’ [9] доказываСтся, Ρ‡Ρ‚ΠΎ точная настройка Ρ†Π΅Π»ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π±ΡƒΠ΄Π΅Ρ‚ чСрСсчур Π·Π°Ρ‚Ρ€Π°Ρ‚Π½ΠΎΠΉ, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΠΈ ΠΌΠΎΠ³ΡƒΡ‚ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒ ΡΠ²Ρ‹ΡˆΠ΅ 100 слоёв. Π§Π°Ρ‰Π΅ всСго люди ΠΏΡ€ΠΈΠ±Π΅Π³Π°ΡŽΡ‚ ΠΊ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π° ΠΎΠ΄ΠΈΠ½ слой Π·Π° Ρ€Π°Π·.

Однако, это являСтся ΠΏΡ€ΠΈΡ‡ΠΈΠ½ΠΎΠΉ ряда Ρ‚Ρ€Π΅Π±ΠΎΠ²Π°Π½ΠΈΠΉ, Ρ‚.Π½. ΠΌΠ΅ΡˆΠ°ΡŽΡ‰Π΅Π³ΠΎ ΠΏΠ°Ρ€Π°Π»Π»Π΅Π»ΠΈΠ·ΠΌΠ°, ΠΈ Ρ‚Ρ€Π΅Π±ΡƒΠ΅Ρ‚ мноТСствСнных Π²Ρ…ΠΎΠ΄ΠΎΠ² Ρ‡Π΅Ρ€Π΅Π· Π½Π°Π±ΠΎΡ€ Π΄Π°Π½Π½Ρ‹Ρ…, Ρ‡Ρ‚ΠΎ ΠΏΡ€ΠΈΠ²ΠΎΠ΄ΠΈΡ‚ ΠΊ Ρ‡Ρ€Π΅Π·ΠΌΠ΅Ρ€Π½ΠΎΠΌΡƒ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΡŽ ΠΌΠ°Π»Π΅Π½ΡŒΠΊΠΈΡ… Π½Π°Π±ΠΎΡ€ΠΎΠ².

Π’Π°ΠΊΠΆΠ΅ Π½Π°ΠΌΠΈ Π±Ρ‹Π»ΠΎ ΠΏΠΎΠΊΠ°Π·Π°Π½ΠΎ, Ρ‡Ρ‚ΠΎ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹, прСдставлСнныС Π² [9], способны ΠΊΠ°ΠΊ ΡƒΠ»ΡƒΡ‡ΡˆΠΈΡ‚ΡŒ Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ, Ρ‚Π°ΠΊ ΠΈ ΡΠΎΠΊΡ€Π°Ρ‚ΠΈΡ‚ΡŒ количСство ошибок Π² Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… заданиях, связанных с NRL классификациСй.

коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти
Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ взяты ΠΈΠ· источника [9]

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ

НСйронныС сСти для Π½Π°Ρ‡ΠΈΠ½Π°ΡŽΡ‰ΠΈΡ…. Π§Π°ΡΡ‚ΡŒ 2

коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти

Π”ΠΎΠ±Ρ€ΠΎ ΠΏΠΎΠΆΠ°Π»ΠΎΠ²Π°Ρ‚ΡŒ Π²ΠΎ Π²Ρ‚ΠΎΡ€ΡƒΡŽ Ρ‡Π°ΡΡ‚ΡŒ руководства ΠΏΠΎ Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹ΠΌ сСтям. Π‘Ρ€Π°Π·Ρƒ Ρ…ΠΎΡ‡Ρƒ принСсти извинСния всСм ΠΊΡ‚ΠΎ ΠΆΠ΄Π°Π» Π²Ρ‚ΠΎΡ€ΡƒΡŽ Ρ‡Π°ΡΡ‚ΡŒ Π½Π°ΠΌΠ½ΠΎΠ³ΠΎ Ρ€Π°Π½ΡŒΡˆΠ΅. По ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½Ρ‹ΠΌ ΠΏΡ€ΠΈΡ‡ΠΈΠ½Π°ΠΌ ΠΌΠ½Π΅ ΠΏΡ€ΠΈΡˆΠ»ΠΎΡΡŒ ΠΎΡ‚Π»ΠΎΠΆΠΈΡ‚ΡŒ Π΅Π΅ написаниС. На самом Π΄Π΅Π»Π΅ я Π½Π΅ ΠΎΠΆΠΈΠ΄Π°Π», Ρ‡Ρ‚ΠΎ Ρƒ ΠΏΠ΅Ρ€Π²ΠΎΠΉ ΡΡ‚Π°Ρ‚ΡŒΠΈ Π±ΡƒΠ΄Π΅Ρ‚ Ρ‚Π°ΠΊΠΎΠΉ спрос ΠΈ Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊ ΠΌΠ½ΠΎΠ³ΠΎ людСй заинтСрСсуСт данная Ρ‚Π΅ΠΌΠ°. Взяв Π²ΠΎ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ ваши ΠΊΠΎΠΌΠΌΠ΅Π½Ρ‚Π°Ρ€ΠΈΠΈ, я ΠΏΠΎΡΡ‚Π°Ρ€Π°ΡŽΡΡŒ ΠΏΡ€Π΅Π΄ΠΎΡΡ‚Π°Π²ΠΈΡ‚ΡŒ Π²Π°ΠΌ ΠΊΠ°ΠΊ ΠΌΠΎΠΆΠ½ΠΎ большС ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ ΠΈ Π² Ρ‚ΠΎ ΠΆΠ΅ врСмя ΡΠΎΡ…Ρ€Π°Π½ΠΈΡ‚ΡŒ максимально понятный способ Π΅Π΅ излоТСния. Π’ Π΄Π°Π½Π½ΠΎΠΉ ΡΡ‚Π°Ρ‚ΡŒΠ΅, я Π±ΡƒΠ΄Ρƒ Ρ€Π°ΡΡΠΊΠ°Π·Ρ‹Π²Π°Ρ‚ΡŒ ΠΎ способах обучСния/Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΠΈ нСйросСтСй (Π² частности ΠΌΠ΅Ρ‚ΠΎΠ΄ ΠΎΠ±Ρ€Π°Ρ‚Π½ΠΎΠ³ΠΎ распространСния) ΠΈ Ссли Π²Ρ‹, ΠΏΠΎ ΠΊΠ°ΠΊΠΈΠΌ-Π»ΠΈΠ±ΠΎ ΠΏΡ€ΠΈΡ‡ΠΈΠ½Π°ΠΌ, Π΅Ρ‰Π΅ Π½Π΅ ΠΏΡ€ΠΎΡ‡ΠΈΡ‚Π°Π»ΠΈ ΠΏΠ΅Ρ€Π²ΡƒΡŽ Ρ‡Π°ΡΡ‚ΡŒ, Π½Π°ΡΡ‚ΠΎΡΡ‚Π΅Π»ΡŒΠ½ΠΎ Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄ΡƒΡŽ Π½Π°Ρ‡Π°Ρ‚ΡŒ с Π½Π΅Π΅. Π’ процСссС написания этой ΡΡ‚Π°Ρ‚ΡŒΠΈ, я Ρ…ΠΎΡ‚Π΅Π» Ρ‚Π°ΠΊΠΆΠ΅ Ρ€Π°ΡΡΠΊΠ°Π·Π°Ρ‚ΡŒ ΠΎ Π΄Ρ€ΡƒΠ³ΠΈΡ… Π²ΠΈΠ΄Π°Ρ… нСйросСтСй ΠΈ ΠΌΠ΅Ρ‚ΠΎΠ΄Π°Ρ… Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΠΈ, ΠΎΠ΄Π½Π°ΠΊΠΎ, Π½Π°Ρ‡Π°Π² ΠΏΠΈΡΠ°Ρ‚ΡŒ ΠΏΡ€ΠΎ Π½ΠΈΡ…, я понял Ρ‡Ρ‚ΠΎ это ΠΏΠΎΠΉΠ΄Π΅Ρ‚ Π²Ρ€Π°Π·Ρ€Π΅Π· с ΠΌΠΎΠΈΠΌ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠΌ излоТСния. Π― понимаю, Ρ‡Ρ‚ΠΎ Π²Π°ΠΌ Π½Π΅ тСрпится ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒ ΠΊΠ°ΠΊ ΠΌΠΎΠΆΠ½ΠΎ большС ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ, ΠΎΠ΄Π½Π°ΠΊΠΎ эти Ρ‚Π΅ΠΌΡ‹ ΠΎΡ‡Π΅Π½ΡŒ ΠΎΠ±ΡˆΠΈΡ€Π½Ρ‹ ΠΈ Ρ‚Ρ€Π΅Π±ΡƒΡŽΡ‚ Π΄Π΅Ρ‚Π°Π»ΡŒΠ½ΠΎΠ³ΠΎ Π°Π½Π°Π»ΠΈΠ·Π°, Π° ΠΌΠΎΠ΅ΠΉ основной Π·Π°Π΄Π°Ρ‡Π΅ΠΉ являСтся Π½Π΅ Π½Π°ΠΏΠΈΡΠ°Ρ‚ΡŒ ΠΎΡ‡Π΅Ρ€Π΅Π΄Π½ΡƒΡŽ ΡΡ‚Π°Ρ‚ΡŒΡŽ с повСрхностным объяснСниСм, Π° донСсти Π΄ΠΎ вас ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ аспСкт Π·Π°Ρ‚Ρ€ΠΎΠ½ΡƒΡ‚ΠΎΠΉ Ρ‚Π΅ΠΌΡ‹ ΠΈ ΡΠ΄Π΅Π»Π°Ρ‚ΡŒ ΡΡ‚Π°Ρ‚ΡŒΡŽ максимально Π»Π΅Π³ΠΊΠΎΠΉ Π² освоСнии. Π‘ΠΏΠ΅ΡˆΡƒ Ρ€Π°ΡΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒ Π»ΡŽΠ±ΠΈΡ‚Π΅Π»Π΅ΠΉ β€œΠΏΠΎΠΊΠΎΠ΄ΠΈΡ‚ΡŒβ€, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ я всС Π΅Ρ‰Π΅ Π½Π΅ Π±ΡƒΠ΄Ρƒ ΠΏΡ€ΠΈΠ±Π΅Π³Π°Ρ‚ΡŒ ΠΊ использованию языка программирования ΠΈ Π±ΡƒΠ΄Ρƒ ΠΎΠ±ΡŠΡΡΠ½ΡΡ‚ΡŒ всС β€œΠ½Π° ΠΏΠ°Π»ΡŒΡ†Π°Ρ…β€. Достаточно вступлСния, Π΄Π°Π²Π°ΠΉΡ‚Π΅ Ρ‚Π΅ΠΏΠ΅Ρ€ΡŒ ΠΏΡ€ΠΎΠ΄ΠΎΠ»ΠΆΠΈΠΌ ΠΈΠ·ΡƒΡ‡Π΅Π½ΠΈΠ΅ нСйросСтСй.

Π§Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ Π½Π΅ΠΉΡ€ΠΎΠ½ смСщСния?

коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти

ΠŸΠ΅Ρ€Π΅Π΄ Ρ‚Π΅ΠΌ ΠΊΠ°ΠΊ Π½Π°Ρ‡Π°Ρ‚ΡŒ Π½Π°ΡˆΡƒ ΠΎΡΠ½ΠΎΠ²Π½ΡƒΡŽ Ρ‚Π΅ΠΌΡƒ, ΠΌΡ‹ Π΄ΠΎΠ»ΠΆΠ½Ρ‹ ввСсти понятиС Π΅Ρ‰Π΅ ΠΎΠ΄Π½ΠΎΠ³ΠΎ Π²ΠΈΠ΄Π° Π½Π΅ΠΉΡ€ΠΎΠ½ΠΎΠ² β€” Π½Π΅ΠΉΡ€ΠΎΠ½ смСщСния. НСйрон смСщСния ΠΈΠ»ΠΈ bias Π½Π΅ΠΉΡ€ΠΎΠ½ β€” это Ρ‚Ρ€Π΅Ρ‚ΠΈΠΉ Π²ΠΈΠ΄ Π½Π΅ΠΉΡ€ΠΎΠ½ΠΎΠ², ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΡ‹ΠΉ Π² Π±ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²Π΅ нСйросСтСй. ΠžΡΠΎΠ±Π΅Π½Π½ΠΎΡΡ‚ΡŒ этого Ρ‚ΠΈΠΏΠ° Π½Π΅ΠΉΡ€ΠΎΠ½ΠΎΠ² Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ Π΅Π³ΠΎ Π²Ρ…ΠΎΠ΄ ΠΈ Π²Ρ‹Ρ…ΠΎΠ΄ всСгда Ρ€Π°Π²Π½ΡΡŽΡ‚ΡΡ 1 ΠΈ ΠΎΠ½ΠΈ Π½ΠΈΠΊΠΎΠ³Π΄Π° Π½Π΅ ΠΈΠΌΠ΅ΡŽΡ‚ Π²Ρ…ΠΎΠ΄Π½Ρ‹Ρ… синапсов. НСйроны смСщСния ΠΌΠΎΠ³ΡƒΡ‚, Π»ΠΈΠ±ΠΎ ΠΏΡ€ΠΈΡΡƒΡ‚ΡΡ‚Π²ΠΎΠ²Π°Ρ‚ΡŒ Π² Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти ΠΏΠΎ ΠΎΠ΄Π½ΠΎΠΌΡƒ Π½Π° слоС, Π»ΠΈΠ±ΠΎ ΠΏΠΎΠ»Π½ΠΎΡΡ‚ΡŒΡŽ ΠΎΡ‚ΡΡƒΡ‚ΡΡ‚Π²ΠΎΠ²Π°Ρ‚ΡŒ, 50/50 Π±Ρ‹Ρ‚ΡŒ Π½Π΅ ΠΌΠΎΠΆΠ΅Ρ‚ (красным Π½Π° схСмС ΠΎΠ±ΠΎΠ·Π½Π°Ρ‡Π΅Π½Ρ‹ вСса ΠΈ Π½Π΅ΠΉΡ€ΠΎΠ½Ρ‹ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Ρ€Π°Π·ΠΌΠ΅Ρ‰Π°Ρ‚ΡŒ нСльзя). БоСдинСния Ρƒ Π½Π΅ΠΉΡ€ΠΎΠ½ΠΎΠ² смСщСния Ρ‚Π°ΠΊΠΈΠ΅ ΠΆΠ΅, ΠΊΠ°ΠΊ Ρƒ ΠΎΠ±Ρ‹Ρ‡Π½Ρ‹Ρ… Π½Π΅ΠΉΡ€ΠΎΠ½ΠΎΠ² β€” со всСми Π½Π΅ΠΉΡ€ΠΎΠ½Π°ΠΌΠΈ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅Π³ΠΎ уровня, Π·Π° ΠΈΡΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠ΅ΠΌ Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎ синапсов ΠΌΠ΅ΠΆΠ΄Ρƒ двумя bias Π½Π΅ΠΉΡ€ΠΎΠ½Π°ΠΌΠΈ Π±Ρ‹Ρ‚ΡŒ Π½Π΅ ΠΌΠΎΠΆΠ΅Ρ‚. Π‘Π»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ, ΠΈΡ… ΠΌΠΎΠΆΠ½ΠΎ Ρ€Π°Π·ΠΌΠ΅Ρ‰Π°Ρ‚ΡŒ Π½Π° Π²Ρ…ΠΎΠ΄Π½ΠΎΠΌ слоС ΠΈ всСх скрытых слоях, Π½ΠΎ Π½ΠΈΠΊΠ°ΠΊ Π½Π΅ Π½Π° Π²Ρ‹Ρ…ΠΎΠ΄Π½ΠΎΠΌ слоС, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ ΠΈΠΌ попросту Π½Π΅ с Ρ‡Π΅ΠΌ Π±ΡƒΠ΄Π΅Ρ‚ Ρ„ΠΎΡ€ΠΌΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ связь.

Для Ρ‡Π΅Π³ΠΎ Π½ΡƒΠΆΠ΅Π½ Π½Π΅ΠΉΡ€ΠΎΠ½ смСщСния?

коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти
НСйрон смСщСния Π½ΡƒΠΆΠ΅Π½ для Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΈΠΌΠ΅Ρ‚ΡŒ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ ΠΏΠΎΠ»ΡƒΡ‡Π°Ρ‚ΡŒ Π²Ρ‹Ρ…ΠΎΠ΄Π½ΠΎΠΉ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚, ΠΏΡƒΡ‚Π΅ΠΌ сдвига Π³Ρ€Π°Ρ„ΠΈΠΊΠ° Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΈ Π²ΠΏΡ€Π°Π²ΠΎ ΠΈΠ»ΠΈ Π²Π»Π΅Π²ΠΎ. Если это Π·Π²ΡƒΡ‡ΠΈΡ‚ Π·Π°ΠΏΡƒΡ‚Π°Π½Π½ΠΎ, Π΄Π°Π²Π°ΠΉΡ‚Π΅ рассмотрим простой ΠΏΡ€ΠΈΠΌΠ΅Ρ€, Π³Π΄Π΅ Π΅ΡΡ‚ΡŒ ΠΎΠ΄ΠΈΠ½ Π²Ρ…ΠΎΠ΄Π½ΠΎΠΉ Π½Π΅ΠΉΡ€ΠΎΠ½ ΠΈ ΠΎΠ΄ΠΈΠ½ Π²Ρ‹Ρ…ΠΎΠ΄Π½ΠΎΠΉ Π½Π΅ΠΉΡ€ΠΎΠ½. Π’ΠΎΠ³Π΄Π° ΠΌΠΎΠΆΠ½ΠΎ ΡƒΡΡ‚Π°Π½ΠΎΠ²ΠΈΡ‚ΡŒ, Ρ‡Ρ‚ΠΎ Π²Ρ‹Ρ…ΠΎΠ΄ O2 Π±ΡƒΠ΄Π΅Ρ‚ Ρ€Π°Π²Π΅Π½ Π²Ρ…ΠΎΠ΄Ρƒ H1, ΡƒΠΌΠ½ΠΎΠΆΠ΅Π½Π½ΠΎΠΌΡƒ Π½Π° Π΅Π³ΠΎ вСс, ΠΈ ΠΏΡ€ΠΎΠΏΡƒΡ‰Π΅Π½Π½ΠΎΠΌΡƒ Ρ‡Π΅Ρ€Π΅Π· Ρ„ΡƒΠ½ΠΊΡ†ΠΈΡŽ Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΈ (Ρ„ΠΎΡ€ΠΌΡƒΠ»Π° Π½Π° Ρ„ΠΎΡ‚ΠΎ слСва). Π’ нашСм ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΠΎΠΌ случаС, Π±ΡƒΠ΄Π΅ΠΌ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ сигмоид.

Из школьного курса ΠΌΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠΈ, ΠΌΡ‹ Π·Π½Π°Π΅ΠΌ, Ρ‡Ρ‚ΠΎ Ссли Π²Π·ΡΡ‚ΡŒ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΡŽ y = ax+b ΠΈ ΠΌΠ΅Π½ΡΡ‚ΡŒ Ρƒ Π½Π΅Π΅ значСния β€œΠ°β€, Ρ‚ΠΎ Π±ΡƒΠ΄Π΅Ρ‚ ΠΈΠ·ΠΌΠ΅Π½ΡΡ‚ΡŒΡΡ Π½Π°ΠΊΠ»ΠΎΠ½ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ (Ρ†Π²Π΅Ρ‚Π° Π»ΠΈΠ½ΠΈΠΉ Π½Π° Π³Ρ€Π°Ρ„ΠΈΠΊΠ΅ слСва), Π° Ссли ΠΌΠ΅Π½ΡΡ‚ΡŒ β€œb”, Ρ‚ΠΎ ΠΌΡ‹ Π±ΡƒΠ΄Π΅ΠΌ ΡΠΌΠ΅Ρ‰Π°Ρ‚ΡŒ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΡŽ Π²ΠΏΡ€Π°Π²ΠΎ ΠΈΠ»ΠΈ Π²Π»Π΅Π²ΠΎ (Ρ†Π²Π΅Ρ‚Π° Π»ΠΈΠ½ΠΈΠΉ Π½Π° Π³Ρ€Π°Ρ„ΠΈΠΊΠ΅ справа). Π’Π°ΠΊ Π²ΠΎΡ‚ β€œΠ°β€ β€” это вСс H1, Π° β€œb” β€” это вСс Π½Π΅ΠΉΡ€ΠΎΠ½Π° смСщСния B1. Π­Ρ‚ΠΎ Π³Ρ€ΡƒΠ±Ρ‹ΠΉ ΠΏΡ€ΠΈΠΌΠ΅Ρ€, Π½ΠΎ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π½ΠΎ Ρ‚Π°ΠΊ всС ΠΈ Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ (Ссли Π²Ρ‹ посмотритС Π½Π° Ρ„ΡƒΠ½ΠΊΡ†ΠΈΡŽ Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΈ справа Π½Π° ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΈ, Ρ‚ΠΎ Π·Π°ΠΌΠ΅Ρ‚ΠΈΡ‚Π΅ ΠΎΡ‡Π΅Π½ΡŒ сильноС сходство ΠΌΠ΅ΠΆΠ΄Ρƒ Ρ„ΠΎΡ€ΠΌΡƒΠ»Π°ΠΌΠΈ). Π’ΠΎ Π΅ΡΡ‚ΡŒ, ΠΊΠΎΠ³Π΄Π° Π² Ρ…ΠΎΠ΄Π΅ обучСния, ΠΌΡ‹ Ρ€Π΅Π³ΡƒΠ»ΠΈΡ€ΡƒΠ΅ΠΌ вСса скрытых ΠΈ Π²Ρ‹Ρ…ΠΎΠ΄Π½Ρ‹Ρ… Π½Π΅ΠΉΡ€ΠΎΠ½ΠΎΠ², ΠΌΡ‹ мСняСм Π½Π°ΠΊΠ»ΠΎΠ½ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΈ. Однако, Ρ€Π΅Π³ΡƒΠ»ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ вСса Π½Π΅ΠΉΡ€ΠΎΠ½ΠΎΠ² смСщСния ΠΌΠΎΠΆΠ΅Ρ‚ Π΄Π°Ρ‚ΡŒ Π½Π°ΠΌ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ ΡΠ΄Π²ΠΈΠ½ΡƒΡ‚ΡŒ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΡŽ Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΈ ΠΏΠΎ оси X ΠΈ Π·Π°Ρ…Π²Π°Ρ‚ΠΈΡ‚ΡŒ Π½ΠΎΠ²Ρ‹Π΅ участки. Π˜Π½Ρ‹ΠΌΠΈ словами, Ссли Ρ‚ΠΎΡ‡ΠΊΠ°, ΠΎΡ‚Π²Π΅Ρ‡Π°ΡŽΡ‰Π°Ρ Π·Π° вашС Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅, Π±ΡƒΠ΄Π΅Ρ‚ Π½Π°Ρ…ΠΎΠ΄ΠΈΡ‚ΡŒΡΡ, ΠΊΠ°ΠΊ ΠΏΠΎΠΊΠ°Π·Π°Π½ΠΎ Π½Π° Π³Ρ€Π°Ρ„ΠΈΠΊΠ΅ слСва, Ρ‚ΠΎ ваша НБ Π½ΠΈΠΊΠΎΠ³Π΄Π° Π½Π΅ смоТСт Ρ€Π΅ΡˆΠΈΡ‚ΡŒ Π·Π°Π΄Π°Ρ‡Ρƒ Π±Π΅Π· использования Π½Π΅ΠΉΡ€ΠΎΠ½ΠΎΠ² смСщСния. ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ, Π²Ρ‹ Ρ€Π΅Π΄ΠΊΠΎ встрСтитС Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹Π΅ сСти Π±Π΅Π· Π½Π΅ΠΉΡ€ΠΎΠ½ΠΎΠ² смСщСния.

Π’Π°ΠΊΠΆΠ΅ Π½Π΅ΠΉΡ€ΠΎΠ½Ρ‹ смСщСния ΠΏΠΎΠΌΠΎΠ³Π°ΡŽΡ‚ Π² Ρ‚ΠΎΠΌ случаС, ΠΊΠΎΠ³Π΄Π° всС Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π½Π΅ΠΉΡ€ΠΎΠ½Ρ‹ ΠΏΠΎΠ»ΡƒΡ‡Π°ΡŽΡ‚ Π½Π° Π²Ρ…ΠΎΠ΄ 0 ΠΈ нСзависимо ΠΎΡ‚ Ρ‚ΠΎΠ³ΠΎ ΠΊΠ°ΠΊΠΈΠ΅ Ρƒ Π½ΠΈΡ… вСса, ΠΎΠ½ΠΈ всС ΠΏΠ΅Ρ€Π΅Π΄Π°Π΄ΡƒΡ‚ Π½Π° ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΉ слой 0, Π½ΠΎ Π½Π΅ Π² случаС присутствия Π½Π΅ΠΉΡ€ΠΎΠ½Π° смСщСния. НаличиС ΠΈΠ»ΠΈ отсутствиС Π½Π΅ΠΉΡ€ΠΎΠ½ΠΎΠ² смСщСния β€” это Π³ΠΈΠΏΠ΅Ρ€ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ (ΠΎΠ± этом Ρ‡ΡƒΡ‚ΡŒ ΠΏΠΎΠ·ΠΆΠ΅). Одним словом, Π²Ρ‹ сами Π΄ΠΎΠ»ΠΆΠ½Ρ‹ Ρ€Π΅ΡˆΠΈΡ‚ΡŒ, Π½ΡƒΠΆΠ½ΠΎ Π»ΠΈ Π²Π°ΠΌ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ Π½Π΅ΠΉΡ€ΠΎΠ½Ρ‹ смСщСния ΠΈΠ»ΠΈ Π½Π΅Ρ‚, ΠΏΡ€ΠΎΠ³Π½Π°Π² НБ с Π½Π΅ΠΉΡ€ΠΎΠ½Π°ΠΌΠΈ смСшСния ΠΈ Π±Π΅Π· Π½ΠΈΡ… ΠΈ сравнив Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹.

Π’ΠΠ–ΠΠž Π·Π½Π°Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ ΠΈΠ½ΠΎΠ³Π΄Π° Π½Π° схСмах Π½Π΅ ΠΎΠ±ΠΎΠ·Π½Π°Ρ‡Π°ΡŽΡ‚ Π½Π΅ΠΉΡ€ΠΎΠ½Ρ‹ смСщСния, Π° просто ΡƒΡ‡ΠΈΡ‚Ρ‹Π²Π°ΡŽΡ‚ ΠΈΡ… вСса ΠΏΡ€ΠΈ вычислСнии Π²Ρ…ΠΎΠ΄Π½ΠΎΠ³ΠΎ значСния Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€:

input = H1*w1+H2*w2+b3
b3 = bias*w3

Π’Π°ΠΊ ΠΊΠ°ΠΊ Π΅Π³ΠΎ Π²Ρ‹Ρ…ΠΎΠ΄ всСгда Ρ€Π°Π²Π΅Π½ 1, Ρ‚ΠΎ ΠΌΠΎΠΆΠ½ΠΎ просто ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²ΠΈΡ‚ΡŒ Ρ‡Ρ‚ΠΎ Ρƒ нас Π΅ΡΡ‚ΡŒ Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ синапс с вСсом ΠΈ ΠΏΡ€ΠΈΠ±Π°Π²ΠΈΡ‚ΡŒ ΠΊ суммС этот вСс Π±Π΅Π· упоминания самого Π½Π΅ΠΉΡ€ΠΎΠ½Π°.

Как ΡΠ΄Π΅Π»Π°Ρ‚ΡŒ Ρ‡Ρ‚ΠΎΠ±Ρ‹ НБ Π΄Π°Π²Π°Π»Π° ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Ρ‹Π΅ ΠΎΡ‚Π²Π΅Ρ‚Ρ‹?

ΠžΡ‚Π²Π΅Ρ‚ прост β€” Π½ΡƒΠΆΠ½ΠΎ Π΅Π΅ ΠΎΠ±ΡƒΡ‡Π°Ρ‚ΡŒ. Однако, насколько Π±Ρ‹ прост Π½Π΅ Π±Ρ‹Π» ΠΎΡ‚Π²Π΅Ρ‚, Π΅Π³ΠΎ рСализация Π² ΠΏΠ»Π°Π½Π΅ простоты, оставляСт ΠΆΠ΅Π»Π°Ρ‚ΡŒ Π»ΡƒΡ‡ΡˆΠ΅Π³ΠΎ. БущСствуСт нСсколько ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² обучСния НБ ΠΈ я Π²Ρ‹Π΄Π΅Π»ΡŽ 3, Π½Π° ΠΌΠΎΠΉ взгляд, самых интСрСсных:

Π§Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½Ρ‹ΠΉ спуск?

Π­Ρ‚ΠΎ способ нахоТдСния локального ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌΠ° ΠΈΠ»ΠΈ максимума Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ двиТСния вдоль Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π°. Если Π²Ρ‹ ΠΏΠΎΠΉΠΌΠ΅Ρ‚Π΅ ΡΡƒΡ‚ΡŒ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска, Ρ‚ΠΎ Ρƒ вас Π½Π΅ Π΄ΠΎΠ»ΠΆΠ½ΠΎ Π²ΠΎΠ·Π½ΠΈΠΊΠ½ΡƒΡ‚ΡŒ Π½ΠΈΠΊΠ°ΠΊΠΈΡ… вопросов Π²ΠΎ врСмя использования ΠΌΠ΅Ρ‚ΠΎΠ΄Π° ΠΎΠ±Ρ€Π°Ρ‚Π½ΠΎΠ³ΠΎ распространСния. Для Π½Π°Ρ‡Π°Π»Π°, Π΄Π°Π²Π°ΠΉΡ‚Π΅ разбСрСмся, Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ ΠΈ Π³Π΄Π΅ ΠΎΠ½ присутствуСт Π² нашСй НБ. Π”Π°Π²Π°ΠΉΡ‚Π΅ построим Π³Ρ€Π°Ρ„ΠΈΠΊ, Π³Π΄Π΅ ΠΏΠΎ оси Ρ… Π±ΡƒΠ΄ΡƒΡ‚ значСния вСса Π½Π΅ΠΉΡ€ΠΎΠ½Π°(w) Π° ΠΏΠΎ оси Ρƒ β€” ошибка ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰Π°Ρ этому вСсу(e).

коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти

ΠŸΠΎΡΠΌΠΎΡ‚Ρ€Π΅Π² Π½Π° этот Π³Ρ€Π°Ρ„ΠΈΠΊ, ΠΌΡ‹ ΠΏΠΎΠΉΠΌΠ΅ΠΌ, Ρ‡Ρ‚ΠΎ Π³Ρ€Π°Ρ„ΠΈΠΊ функция f(w) являСтся Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΡŒΡŽ ошибки ΠΎΡ‚ Π²Ρ‹Π±Ρ€Π°Π½Π½ΠΎΠ³ΠΎ вСса. На этом Π³Ρ€Π°Ρ„ΠΈΠΊΠ΅ нас интСрСсуСт Π³Π»ΠΎΠ±Π°Π»ΡŒΠ½Ρ‹ΠΉ ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌ β€” Ρ‚ΠΎΡ‡ΠΊΠ° (w2,e2) ΠΈΠ»ΠΈ, ΠΈΠ½Ρ‹ΠΌΠΈ словами, Ρ‚ΠΎ мСсто Π³Π΄Π΅ Π³Ρ€Π°Ρ„ΠΈΠΊ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΈΡ‚ Π±Π»ΠΈΠΆΠ΅ всСго ΠΊ оси Ρ…. Π­Ρ‚Π° Ρ‚ΠΎΡ‡ΠΊΠ° Π±ΡƒΠ΄Π΅Ρ‚ ΠΎΠ·Π½Π°Ρ‡Π°Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ Π²Ρ‹Π±Ρ€Π°Π² вСс w2 ΠΌΡ‹ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠΌ ΡΠ°ΠΌΡƒΡŽ ΠΌΠ°Π»Π΅Π½ΡŒΠΊΡƒΡŽ ΠΎΡˆΠΈΠ±ΠΊΡƒ β€” e2 ΠΈ ΠΊΠ°ΠΊ слСдствиС, самый Π»ΡƒΡ‡ΡˆΠΈΠΉ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ ΠΈΠ· всСх Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹Ρ…. Найти ΠΆΠ΅ эту Ρ‚ΠΎΡ‡ΠΊΡƒ Π½Π°ΠΌ ΠΏΠΎΠΌΠΎΠΆΠ΅Ρ‚ ΠΌΠ΅Ρ‚ΠΎΠ΄ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска (ΠΆΠ΅Π»Ρ‚Ρ‹ΠΌ Π½Π° Π³Ρ€Π°Ρ„ΠΈΠΊΠ΅ ΠΎΠ±ΠΎΠ·Π½Π°Ρ‡Π΅Π½ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚). БоотвСтствСнно Ρƒ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ вСса Π² нСйросСти Π±ΡƒΠ΄Π΅Ρ‚ свой Π³Ρ€Π°Ρ„ΠΈΠΊ ΠΈ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ ΠΈ Ρƒ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Π½Π°Π΄ΠΎ Π½Π°ΠΉΡ‚ΠΈ Π³Π»ΠΎΠ±Π°Π»ΡŒΠ½Ρ‹ΠΉ ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌ.

Π’Π°ΠΊ Ρ‡Ρ‚ΠΎ ΠΆΠ΅ Ρ‚Π°ΠΊΠΎΠ΅, этот Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚? Π“Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ β€” это Π²Π΅ΠΊΡ‚ΠΎΡ€ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ опрСдСляСт ΠΊΡ€ΡƒΡ‚ΠΈΠ·Π½Ρƒ склона ΠΈ ΡƒΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ Π΅Π³ΠΎ Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ ΠΎΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΊΠ°ΠΊΠΎΠΉ Π»ΠΈΠ±ΠΎ ΠΈΠ· Ρ‚ΠΎΡ‡Π΅ΠΊ Π½Π° повСрхности ΠΈΠ»ΠΈ Π³Ρ€Π°Ρ„ΠΈΠΊΠ΅. Π§Ρ‚ΠΎΠ±Ρ‹ Π½Π°ΠΉΡ‚ΠΈ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ Π½ΡƒΠΆΠ½ΠΎ Π²Π·ΡΡ‚ΡŒ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄Π½ΡƒΡŽ ΠΎΡ‚ Π³Ρ€Π°Ρ„ΠΈΠΊΠ° ΠΏΠΎ Π΄Π°Π½Π½ΠΎΠΉ Ρ‚ΠΎΡ‡ΠΊΠ΅ (ΠΊΠ°ΠΊ это ΠΈ ΠΏΠΎΠΊΠ°Π·Π°Π½ΠΎ Π½Π° Π³Ρ€Π°Ρ„ΠΈΠΊΠ΅). Π”Π²ΠΈΠ³Π°ΡΡΡŒ ΠΏΠΎ Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΡŽ этого Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π° ΠΌΡ‹ Π±ΡƒΠ΄Π΅ΠΌ ΠΏΠ»Π°Π²Π½ΠΎ ΡΠΊΠ°Ρ‚Ρ‹Π²Π°Ρ‚ΡŒΡΡ Π² Π½ΠΈΠ·ΠΈΠ½Ρƒ. Π’Π΅ΠΏΠ΅Ρ€ΡŒ прСдставим Ρ‡Ρ‚ΠΎ ошибка β€” это Π»Ρ‹ΠΆΠ½ΠΈΠΊ, Π° Π³Ρ€Π°Ρ„ΠΈΠΊ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ β€” Π³ΠΎΡ€Π°. БоотвСтствСнно, Ссли ошибка Ρ€Π°Π²Π½Π° 100%, Ρ‚ΠΎ Π»Ρ‹ΠΆΠ½ΠΈΠΊ Π½Π°Ρ…ΠΎΠ΄ΠΈΡ‚ΡŒΡΡ Π½Π° самой Π²Π΅Ρ€ΡˆΠΈΠ½Π΅ Π³ΠΎΡ€Ρ‹ ΠΈ Ссли ошибка 0% Ρ‚ΠΎ Π² Π½ΠΈΠ·ΠΈΠ½Π΅. Как всС Π»Ρ‹ΠΆΠ½ΠΈΠΊΠΈ, ошибка стрСмится ΠΊΠ°ΠΊ ΠΌΠΎΠΆΠ½ΠΎ быстрСС ΡΠΏΡƒΡΡ‚ΠΈΡ‚ΡŒΡΡ Π²Π½ΠΈΠ· ΠΈ ΡƒΠΌΠ΅Π½ΡŒΡˆΠΈΡ‚ΡŒ своС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅. Π’ ΠΊΠΎΠ½Π΅Ρ‡Π½ΠΎΠΌ случаС Ρƒ нас Π΄ΠΎΠ»ΠΆΠ΅Π½ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒΡΡ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΉ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚:

коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти

ΠŸΡ€Π΅Π΄ΡΡ‚Π°Π²ΡŒΡ‚Π΅ Ρ‡Ρ‚ΠΎ Π»Ρ‹ΠΆΠ½ΠΈΠΊΠ° Π·Π°Π±Ρ€Π°ΡΡ‹Π²Π°ΡŽΡ‚, с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Π²Π΅Ρ€Ρ‚ΠΎΠ»Π΅Ρ‚Π°, Π½Π° Π³ΠΎΡ€Ρƒ. На сколько высоко ΠΈΠ»ΠΈ Π½ΠΈΠ·ΠΊΠΎ зависит ΠΎΡ‚ случая (Π°Π½Π°Π»ΠΎΠ³ΠΈΡ‡Π½ΠΎ Ρ‚ΠΎΠΌΡƒ, ΠΊΠ°ΠΊ Π² Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти ΠΏΡ€ΠΈ ΠΈΠ½ΠΈΡ†ΠΈΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ вСса Ρ€Π°ΡΡΡ‚Π°Π²Π»ΡΡŽΡ‚ΡΡ Π² случайном порядкС). Допустим ошибка Ρ€Π°Π²Π½Π° 90% ΠΈ это наша Ρ‚ΠΎΡ‡ΠΊΠ° отсчСта. Π’Π΅ΠΏΠ΅Ρ€ΡŒ Π»Ρ‹ΠΆΠ½ΠΈΠΊΡƒ Π½ΡƒΠΆΠ½ΠΎ ΡΠΏΡƒΡΡ‚ΠΈΡ‚ΡŒΡΡ Π²Π½ΠΈΠ·, с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π°. На ΠΏΡƒΡ‚ΠΈ Π²Π½ΠΈΠ·, Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΉ Ρ‚ΠΎΡ‡ΠΊΠ΅ ΠΌΡ‹ Π±ΡƒΠ΄Π΅ΠΌ Π²Ρ‹Ρ‡ΠΈΡΠ»ΡΡ‚ΡŒ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚, Ρ‡Ρ‚ΠΎ Π±ΡƒΠ΄Π΅Ρ‚ ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Ρ‚ΡŒ Π½Π°ΠΌ Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ спуска ΠΈ ΠΏΡ€ΠΈ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠΈ Π½Π°ΠΊΠ»ΠΎΠ½Π°, ΠΊΠΎΡ€Ρ€Π΅ΠΊΡ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Π΅Π³ΠΎ. Если склон Π±ΡƒΠ΄Π΅Ρ‚ прямым, Ρ‚ΠΎ послС n-ΠΎΠ³ΠΎ количСства Ρ‚Π°ΠΊΠΈΡ… дСйствий ΠΌΡ‹ добСрСмся Π΄ΠΎ Π½ΠΈΠ·ΠΈΠ½Ρ‹. Но Π² Π±ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²Π΅ случаСв склон (Π³Ρ€Π°Ρ„ΠΈΠΊ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ) Π±ΡƒΠ΄Π΅Ρ‚ волнистый ΠΈ наш Π»Ρ‹ΠΆΠ½ΠΈΠΊ столкнСтся с ΠΎΡ‡Π΅Π½ΡŒ ΡΠ΅Ρ€ΡŒΠ΅Π·Π½ΠΎΠΉ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠΎΠΉ β€” Π»ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹ΠΉ ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌ. Π― Π΄ΡƒΠΌΠ°ΡŽ всС Π·Π½Π°ΡŽΡ‚, Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ Π»ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹ΠΉ ΠΈ Π³Π»ΠΎΠ±Π°Π»ΡŒΠ½Ρ‹ΠΉ ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ, для освСТСния памяти Π²ΠΎΡ‚ ΠΏΡ€ΠΈΠΌΠ΅Ρ€. ПопаданиС Π² Π»ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹ΠΉ ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌ Ρ‡Ρ€Π΅Π²Π°Ρ‚ΠΎ Ρ‚Π΅ΠΌ, Ρ‡Ρ‚ΠΎ наш Π»Ρ‹ΠΆΠ½ΠΈΠΊ навсСгда останСтся Π² этой Π½ΠΈΠ·ΠΈΠ½Π΅ ΠΈ Π½ΠΈΠΊΠΎΠ³Π΄Π° Π½Π΅ ΡΠΊΠ°Ρ‚ΠΈΡ‚ΡŒΡΡ с Π³ΠΎΡ€Ρ‹, ΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ ΠΌΡ‹ Π½ΠΈΠΊΠΎΠ³Π΄Π° Π½Π΅ смоТСм ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒ ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Ρ‹ΠΉ ΠΎΡ‚Π²Π΅Ρ‚. Но ΠΌΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ ΠΈΠ·Π±Π΅ΠΆΠ°Ρ‚ΡŒ этого, снарядив нашСго Π»Ρ‹ΠΆΠ½ΠΈΠΊΠ° Ρ€Π΅Π°ΠΊΡ‚ΠΈΠ²Π½Ρ‹ΠΌ Ρ€Π°Π½Ρ†Π΅ΠΌ ΠΏΠΎΠ΄ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ΠΌ ΠΌΠΎΠΌΠ΅Π½Ρ‚ (momentum). Π’ΠΎΡ‚ краткая ΠΈΠ»Π»ΡŽΡΡ‚Ρ€Π°Ρ†ΠΈΡ ΠΌΠΎΠΌΠ΅Π½Ρ‚Π°:

коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти

Как Π²Ρ‹ ΡƒΠΆΠ΅ Π½Π°Π²Π΅Ρ€Π½ΠΎΠ΅ догадались, этот Ρ€Π°Π½Π΅Ρ† придаст Π»Ρ‹ΠΆΠ½ΠΈΠΊΡƒ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎΠ΅ ускорСниС Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΏΡ€Π΅ΠΎΠ΄ΠΎΠ»Π΅Ρ‚ΡŒ Ρ…ΠΎΠ»ΠΌ, ΡƒΠ΄Π΅Ρ€ΠΆΠΈΠ²Π°ΡŽΡ‰ΠΈΠΉ нас Π² локальном ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌΠ΅, ΠΎΠ΄Π½Π°ΠΊΠΎ здСсь Π΅ΡΡ‚ΡŒ ΠΎΠ΄Π½ΠΎ НО. ΠŸΡ€Π΅Π΄ΡΡ‚Π°Π²ΠΈΠΌ Ρ‡Ρ‚ΠΎ ΠΌΡ‹ установили ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½ΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρƒ ΠΌΠΎΠΌΠ΅Π½Ρ‚ ΠΈ Π±Π΅Π· Ρ‚Ρ€ΡƒΠ΄Π° смогли ΠΏΡ€Π΅ΠΎΠ΄ΠΎΠ»Π΅Ρ‚ΡŒ всС Π»ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹Π΅ ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌΡ‹, ΠΈ Π΄ΠΎΠ±Ρ€Π°Ρ‚ΡŒΡΡ Π΄ΠΎ глобального ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌΠ°. Π’Π°ΠΊ ΠΊΠ°ΠΊ ΠΌΡ‹ Π½Π΅ ΠΌΠΎΠΆΠ΅ΠΌ просто ΠΎΡ‚ΠΊΠ»ΡŽΡ‡ΠΈΡ‚ΡŒ Ρ€Π΅Π°ΠΊΡ‚ΠΈΠ²Π½Ρ‹ΠΉ Ρ€Π°Π½Π΅Ρ†, Ρ‚ΠΎ ΠΌΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ ΠΏΡ€ΠΎΡΠΊΠΎΡ‡ΠΈΡ‚ΡŒ Π³Π»ΠΎΠ±Π°Π»ΡŒΠ½Ρ‹ΠΉ ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌ, Ссли рядом с Π½ΠΈΠΌ Π΅ΡΡ‚ΡŒ Π΅Ρ‰Π΅ Π½ΠΈΠ·ΠΈΠ½Ρ‹. Π’ ΠΊΠΎΠ½Π΅Ρ‡Π½ΠΎΠΌ случаС это Π½Π΅ Ρ‚Π°ΠΊ Π²Π°ΠΆΠ½ΠΎ, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ Ρ€Π°Π½ΠΎ ΠΈΠ»ΠΈ ΠΏΠΎΠ·Π΄Π½ΠΎ ΠΌΡ‹ всС Ρ€Π°Π²Π½ΠΎ вСрнСмся ΠΎΠ±Ρ€Π°Ρ‚Π½ΠΎ Π² Π³Π»ΠΎΠ±Π°Π»ΡŒΠ½Ρ‹ΠΉ ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌ, Π½ΠΎ стоит ΠΏΠΎΠΌΠ½ΠΈΡ‚ΡŒ, Ρ‡Ρ‚ΠΎ Ρ‡Π΅ΠΌ большС ΠΌΠΎΠΌΠ΅Π½Ρ‚, Ρ‚Π΅ΠΌ большС Π±ΡƒΠ΄Π΅Ρ‚ Ρ€Π°Π·ΠΌΠ°Ρ… с ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ Π»Ρ‹ΠΆΠ½ΠΈΠΊ Π±ΡƒΠ΄Π΅Ρ‚ ΠΊΠ°Ρ‚Π°Ρ‚ΡŒΡΡ ΠΏΠΎ Π½ΠΈΠ·ΠΈΠ½Π°ΠΌ. ВмСстС с ΠΌΠΎΠΌΠ΅Π½Ρ‚ΠΎΠΌ Π² ΠΌΠ΅Ρ‚ΠΎΠ΄Π΅ ΠΎΠ±Ρ€Π°Ρ‚Π½ΠΎΠ³ΠΎ распространСния Ρ‚Π°ΠΊΠΆΠ΅ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ Ρ‚Π°ΠΊΠΎΠΉ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ ΠΊΠ°ΠΊ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ обучСния (learning rate). Как навСрняка ΠΌΠ½ΠΎΠ³ΠΈΠ΅ ΠΏΠΎΠ΄ΡƒΠΌΠ°ΡŽΡ‚, Ρ‡Π΅ΠΌ большС ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ обучСния, Ρ‚Π΅ΠΌ быстрСС ΠΌΡ‹ ΠΎΠ±ΡƒΡ‡ΠΈΠΌ Π½Π΅ΠΉΡ€ΠΎΡΠ΅Ρ‚ΡŒ. НСт. Π‘ΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ обучСния, Ρ‚Π°ΠΊΠΆΠ΅ ΠΊΠ°ΠΊ ΠΈ ΠΌΠΎΠΌΠ΅Π½Ρ‚, являСтся Π³ΠΈΠΏΠ΅Ρ€ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠΌ β€” Π²Π΅Π»ΠΈΡ‡ΠΈΠ½Π° которая подбираСтся ΠΏΡƒΡ‚Π΅ΠΌ ΠΏΡ€ΠΎΠ± ΠΈ ошибок. Π‘ΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ обучСния ΠΌΠΎΠΆΠ½ΠΎ Π½Π°ΠΏΡ€ΡΠΌΡƒΡŽ ΡΠ²ΡΠ·Π°Ρ‚ΡŒ со ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒΡŽ Π»Ρ‹ΠΆΠ½ΠΈΠΊΠ° ΠΈ ΠΌΠΎΠΆΠ½ΠΎ с ΡƒΠ²Π΅Ρ€Π΅Π½Π½ΠΎΡΡ‚ΡŒΡŽ ΡΠΊΠ°Π·Π°Ρ‚ΡŒ β€” Ρ‚ΠΈΡˆΠ΅ СдСшь дальшС Π±ΡƒΠ΄Π΅ΡˆΡŒ. Однако здСсь Ρ‚ΠΎΠΆΠ΅ Π΅ΡΡ‚ΡŒ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½Ρ‹Π΅ аспСкты, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ Ссли ΠΌΡ‹ совсСм Π½Π΅ Π΄Π°Π΄ΠΈΠΌ Π»Ρ‹ΠΆΠ½ΠΈΠΊΡƒ скорости Ρ‚ΠΎ ΠΎΠ½ Π²ΠΎΠΎΠ±Ρ‰Π΅ Π½ΠΈΠΊΡƒΠ΄Π° Π½Π΅ ΠΏΠΎΠ΅Π΄Π΅Ρ‚, Π° Ссли Π΄Π°Π΄ΠΈΠΌ ΠΌΠ°Π»Π΅Π½ΡŒΠΊΡƒΡŽ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ Ρ‚ΠΎ врСмя ΠΏΡƒΡ‚ΠΈ ΠΌΠΎΠΆΠ΅Ρ‚ Ρ€Π°ΡΡ‚ΡΠ½ΡƒΡ‚ΡŒΡΡ Π½Π° ΠΎΡ‡Π΅Π½ΡŒ ΠΈ ΠΎΡ‡Π΅Π½ΡŒ большой ΠΏΠ΅Ρ€ΠΈΠΎΠ΄ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ. Π§Ρ‚ΠΎ ΠΆΠ΅ Ρ‚ΠΎΠ³Π΄Π° ΠΏΡ€ΠΎΠΈΠ·ΠΎΠΉΠ΄Π΅Ρ‚ Ссли ΠΌΡ‹ Π΄Π°Π΄ΠΈΠΌ слишком Π±ΠΎΠ»ΡŒΡˆΡƒΡŽ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ?

коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти

Как Π²ΠΈΠ΄ΠΈΡ‚Π΅, Π½ΠΈΡ‡Π΅Π³ΠΎ Ρ…ΠΎΡ€ΠΎΡˆΠ΅Π³ΠΎ. Π›Ρ‹ΠΆΠ½ΠΈΠΊ Π½Π°Ρ‡Π½Π΅Ρ‚ ΡΠΊΠ°Ρ‚Ρ‹Π²Π°Ρ‚ΡŒΡΡ ΠΏΠΎ Π½Π΅ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎΠΌΡƒ ΠΏΡƒΡ‚ΠΈ ΠΈ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ Π΄Π°ΠΆΠ΅ Π² Π΄Ρ€ΡƒΠ³ΠΎΠΌ Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠΈ, Ρ‡Ρ‚ΠΎ ΠΊΠ°ΠΊ Π²Ρ‹ ΠΏΠΎΠ½ΠΈΠΌΠ°Π΅Ρ‚Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΡ‚Π΄Π°Π»ΠΈΡ‚ нас ΠΎΡ‚ нахоТдСния ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎΠ³ΠΎ ΠΎΡ‚Π²Π΅Ρ‚Π°. ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ Π²ΠΎ всСх этих ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°Ρ… Π½ΡƒΠΆΠ½ΠΎ Π½Π°Ρ…ΠΎΠ΄ΠΈΡ‚ΡŒ Π·ΠΎΠ»ΠΎΡ‚ΡƒΡŽ сСрСдину Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΈΠ·Π±Π΅ΠΆΠ°Ρ‚ΡŒ Π½Π΅ сходимости НБ (ΠΎΠ± этом Ρ‡ΡƒΡ‚ΡŒ ΠΏΠΎΠ·ΠΆΠ΅).

Π§Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ ΠœΠ΅Ρ‚ΠΎΠ΄ ΠžΠ±Ρ€Π°Ρ‚Π½ΠΎΠ³ΠΎ РаспространСния (МОР)?

коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти

А Ρ‚Π΅ΠΏΠ΅Ρ€ΡŒ Π΄Π°Π²Π°ΠΉΡ‚Π΅ ΠΏΠΎΠ΄Ρ€ΠΎΠ±Π½ΠΎ Ρ€Π°Π·Π±Π΅Ρ€Π΅ΠΌ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ этап. Если Π²Ρ‹ ΠΏΠΎΠΌΠ½ΠΈΡ‚Π΅ Ρ‚ΠΎ Π² ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰Π΅ΠΉ ΡΡ‚Π°Ρ‚ΡŒΠ΅ ΠΌΡ‹ считали Π²Ρ‹Ρ…ΠΎΠ΄ НБ. По Π΄Ρ€ΡƒΠ³ΠΎΠΌΡƒ это называСтся ΠΏΠ΅Ρ€Π΅Π΄Π°Ρ‡Π° Π²ΠΏΠ΅Ρ€Π΅Π΄ (Forward pass), Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ ΠΌΡ‹ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ ΠΏΠ΅Ρ€Π΅Π΄Π°Π΅ΠΌ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ ΠΎΡ‚ Π²Ρ…ΠΎΠ΄Π½Ρ‹Ρ… Π½Π΅ΠΉΡ€ΠΎΠ½ΠΎΠ² ΠΊ Π²Ρ‹Ρ…ΠΎΠ΄Π½Ρ‹ΠΌ. ПослС Ρ‡Π΅Π³ΠΎ ΠΌΡ‹ вычисляСм ΠΎΡˆΠΈΠ±ΠΊΡƒ ΠΈ ΠΎΡΠ½ΠΎΠ²Ρ‹Π²Π°ΡΡΡŒ Π½Π° Π½Π΅ΠΉ Π΄Π΅Π»Π°Π΅ΠΌ ΠΎΠ±Ρ€Π°Ρ‚Π½ΡƒΡŽ ΠΏΠ΅Ρ€Π΅Π΄Π°Ρ‡Ρƒ, которая Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ ΠΌΠ΅Π½ΡΡ‚ΡŒ вСса Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти, начиная с вСсов Π²Ρ‹Ρ…ΠΎΠ΄Π½ΠΎΠ³ΠΎ Π½Π΅ΠΉΡ€ΠΎΠ½Π°. Π—Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ вСсов Π±ΡƒΠ΄ΡƒΡ‚ ΠΌΠ΅Π½ΡΡ‚ΡŒΡΡ Π² Ρ‚Ρƒ сторону, которая даст Π½Π°ΠΌ Π½Π°ΠΈΠ»ΡƒΡ‡ΡˆΠΈΠΉ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚. Π’ ΠΌΠΎΠΈΡ… вычислСния я Π±ΡƒΠ΄Ρƒ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒΡΡ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠΌ нахоТдСния Π΄Π΅Π»ΡŒΡ‚Ρ‹, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ это Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ простой ΠΈ понятный способ. Π’Π°ΠΊΠΆΠ΅ я Π±ΡƒΠ΄Ρƒ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ стохастичСский ΠΌΠ΅Ρ‚ΠΎΠ΄ обновлСния вСсов (ΠΎΠ± этом Ρ‡ΡƒΡ‚ΡŒ ΠΏΠΎΠ·ΠΆΠ΅).

Π’Π΅ΠΏΠ΅Ρ€ΡŒ Π΄Π°Π²Π°ΠΉΡ‚Π΅ ΠΏΡ€ΠΎΠ΄ΠΎΠ»ΠΆΠΈΠΌ с Ρ‚ΠΎΠ³ΠΎ мСста, Π³Π΄Π΅ ΠΌΡ‹ Π·Π°ΠΊΠΎΠ½Ρ‡ΠΈΠ»ΠΈ вычислСния Π² ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰Π΅ΠΉ ΡΡ‚Π°Ρ‚ΡŒΠ΅.

коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти

H1input = 1*0.45+0*-0.12=0.45
H1output = sigmoid(0.45)=0.61

H2input = 1*0.78+0*0.13=0.78
H2output = sigmoid(0.78)=0.69

O1input = 0.61*1.5+0.69*-2.3=-0.672
O1output = sigmoid(-0.672)=0.33

Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ β€” 0.33, ошибка β€” 45%.

Π’Π°ΠΊ ΠΊΠ°ΠΊ ΠΌΡ‹ ΡƒΠΆΠ΅ подсчитали Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ НБ ΠΈ Π΅Π΅ ΠΎΡˆΠΈΠ±ΠΊΡƒ, Ρ‚ΠΎ ΠΌΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ сразу ΠΏΡ€ΠΈΡΡ‚ΡƒΠΏΠΈΡ‚ΡŒ ΠΊ ΠœΠžΠ Ρƒ. Как я ΡƒΠΆΠ΅ ΡƒΠΏΠΎΠΌΠΈΠ½Π°Π» Ρ€Π°Π½Π΅Π΅, Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ всСгда начинаСтся с Π²Ρ‹Ρ…ΠΎΠ΄Π½ΠΎΠ³ΠΎ Π½Π΅ΠΉΡ€ΠΎΠ½Π°. Π’ Ρ‚Π°ΠΊΠΎΠΌ случаС Π΄Π°Π²Π°ΠΉΡ‚Π΅ посчитаСм для Π½Π΅Π³ΠΎ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Ξ΄ (Π΄Π΅Π»ΡŒΡ‚Π°) ΠΏΠΎ Ρ„ΠΎΡ€ΠΌΡƒΠ»Π΅ 1.
коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСтиВак ΠΊΠ°ΠΊ Ρƒ Π²Ρ‹Ρ…ΠΎΠ΄Π½ΠΎΠ³ΠΎ Π½Π΅ΠΉΡ€ΠΎΠ½Π° Π½Π΅Ρ‚ исходящих синапсов, Ρ‚ΠΎ ΠΌΡ‹ Π±ΡƒΠ΄Π΅ΠΌ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒΡΡ ΠΏΠ΅Ρ€Π²ΠΎΠΉ Ρ„ΠΎΡ€ΠΌΡƒΠ»ΠΎΠΉ (Ξ΄ output), слСдствСнно для скрытых Π½Π΅ΠΉΡ€ΠΎΠ½ΠΎΠ² ΠΌΡ‹ ΡƒΠΆΠ΅ Π±ΡƒΠ΄Π΅ΠΌ Π±Ρ€Π°Ρ‚ΡŒ Π²Ρ‚ΠΎΡ€ΡƒΡŽ Ρ„ΠΎΡ€ΠΌΡƒΠ»Ρƒ (Ξ΄ hidden). Π’ΡƒΡ‚ всС достаточно просто: считаСм Ρ€Π°Π·Π½ΠΈΡ†Ρƒ ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΆΠ΅Π»Π°Π΅ΠΌΡ‹ΠΌ ΠΈ ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹ΠΌ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠΌ ΠΈ ΡƒΠΌΠ½ΠΎΠΆΠ°Π΅ΠΌ Π½Π° ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄Π½ΡƒΡŽ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΈ ΠΎΡ‚ Π²Ρ…ΠΎΠ΄Π½ΠΎΠ³ΠΎ значСния Π΄Π°Π½Π½ΠΎΠ³ΠΎ Π½Π΅ΠΉΡ€ΠΎΠ½Π°. ΠŸΡ€Π΅ΠΆΠ΄Π΅ Ρ‡Π΅ΠΌ ΠΏΡ€ΠΈΡΡ‚ΡƒΠΏΠΈΡ‚ΡŒ ΠΊ вычислСниям я Ρ…ΠΎΡ‡Ρƒ ΠΎΠ±Ρ€Π°Ρ‚ΠΈΡ‚ΡŒ вашС Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ Π½Π° ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄Π½ΡƒΡŽ. Π’ΠΎ ΠΏΠ΅Ρ€Π²Ρ‹Ρ… ΠΊΠ°ΠΊ это ΡƒΠΆΠ΅ Π½Π°Π²Π΅Ρ€Π½ΠΎΠ΅ стало понятно, с МОР Π½ΡƒΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Ρ‚Π΅ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΈ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ Π΄ΠΈΡ„Ρ„Π΅Ρ€Π΅Π½Ρ†ΠΈΡ€ΠΎΠ²Π°Π½Ρ‹. Π’ΠΎ Π²Ρ‚ΠΎΡ€Ρ‹Ρ… Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π½Π΅ Π΄Π΅Π»Π°Ρ‚ΡŒ Π»ΠΈΡˆΠ½ΠΈΡ… вычислСний, Ρ„ΠΎΡ€ΠΌΡƒΠ»Ρƒ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄Π½ΠΎΠΉ ΠΌΠΎΠΆΠ½ΠΎ Π·Π°ΠΌΠ΅Π½ΠΈΡ‚ΡŒ Π½Π° Π±ΠΎΠ»Π΅Π΅ Π΄Ρ€ΡƒΠΆΠ΅Π»ΡŽΠ±Π½ΡƒΡŽ ΠΈ ΠΏΡ€ΠΎΡΡ‚ΡƒΡŽ Ρ„ΠΎΡ€ΠΌΡƒΠ»Π° Π²ΠΈΠ΄Π°:
коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти
Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ наши вычислСния для Ρ‚ΠΎΡ‡ΠΊΠΈ O1 Π±ΡƒΠ΄ΡƒΡ‚ Π²Ρ‹Π³Π»ΡΠ΄Π΅Ρ‚ΡŒ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ.

O1output = 0.33
O1ideal = 1
Error = 0.45

Ξ΄O1 = (1 β€” 0.33) * ( (1 β€” 0.33) * 0.33 ) = 0.148

На этом вычислСния для Π½Π΅ΠΉΡ€ΠΎΠ½Π° O1 Π·Π°ΠΊΠΎΠ½Ρ‡Π΅Π½Ρ‹. Π—Π°ΠΏΠΎΠΌΠ½ΠΈΡ‚Π΅, Ρ‡Ρ‚ΠΎ послС подсчСта Π΄Π΅Π»ΡŒΡ‚Ρ‹ Π½Π΅ΠΉΡ€ΠΎΠ½Π° ΠΌΡ‹ обязаны сразу ΠΎΠ±Π½ΠΎΠ²ΠΈΡ‚ΡŒ вСса всСх исходящих синапсов этого Π½Π΅ΠΉΡ€ΠΎΠ½Π°. Π’Π°ΠΊ ΠΊΠ°ΠΊ Π² случаС с O1 ΠΈΡ… Π½Π΅Ρ‚, ΠΌΡ‹ ΠΏΠ΅Ρ€Π΅Ρ…ΠΎΠ΄ΠΈΠΌ ΠΊ Π½Π΅ΠΉΡ€ΠΎΠ½Π°ΠΌ скрытого уровня ΠΈ Π΄Π΅Π»Π°Π΅ΠΌ Ρ‚ΠΎΠΆΠ΅ самоС Π·Π° ΠΈΡΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠ΅ Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎ Ρ„ΠΎΡ€ΠΌΡƒΠ»Π° подсчСта Π΄Π΅Π»ΡŒΡ‚Ρ‹ Ρƒ нас Ρ‚Π΅ΠΏΠ΅Ρ€ΡŒ вторая ΠΈ Π΅Π΅ ΡΡƒΡ‚ΡŒ Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡƒΠΌΠ½ΠΎΠΆΠΈΡ‚ΡŒ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄Π½ΡƒΡŽ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΈ ΠΎΡ‚ Π²Ρ…ΠΎΠ΄Π½ΠΎΠ³ΠΎ значСния Π½Π° сумму ΠΏΡ€ΠΎΠΈΠ·Π²Π΅Π΄Π΅Π½ΠΈΠΉ всСх исходящих вСсов ΠΈ Π΄Π΅Π»ΡŒΡ‚Ρ‹ Π½Π΅ΠΉΡ€ΠΎΠ½Π° с ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ этот синапс связан. Но ΠΏΠΎΡ‡Π΅ΠΌΡƒ Ρ„ΠΎΡ€ΠΌΡƒΠ»Ρ‹ Ρ€Π°Π·Π½Ρ‹Π΅? Π”Π΅Π»ΠΎ Π² Ρ‚ΠΎΠΌ Ρ‡Ρ‚ΠΎ вся ΡΡƒΡ‚ΡŒ МОР Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² Ρ‚ΠΎΠΌ Ρ‡Ρ‚ΠΎΠ±Ρ‹ Ρ€Π°ΡΠΏΡ€ΠΎΡΡ‚Ρ€Π°Π½ΠΈΡ‚ΡŒ ΠΎΡˆΠΈΠ±ΠΊΡƒ Π²Ρ‹Ρ…ΠΎΠ΄Π½Ρ‹Ρ… Π½Π΅ΠΉΡ€ΠΎΠ½ΠΎΠ² Π½Π° всС вСса НБ. ΠžΡˆΠΈΠ±ΠΊΡƒ ΠΌΠΎΠΆΠ½ΠΎ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚ΡŒ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π½Π° Π²Ρ‹Ρ…ΠΎΠ΄Π½ΠΎΠΌ ΡƒΡ€ΠΎΠ²Π½Π΅, ΠΊΠ°ΠΊ ΠΌΡ‹ это ΡƒΠΆΠ΅ сдСлали, Ρ‚Π°ΠΊΠΆΠ΅ ΠΌΡ‹ вычислили Π΄Π΅Π»ΡŒΡ‚Ρƒ Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΡƒΠΆΠ΅ Π΅ΡΡ‚ΡŒ эта ошибка. БлСдствСнно Ρ‚Π΅ΠΏΠ΅Ρ€ΡŒ ΠΌΡ‹ Π±ΡƒΠ΄Π΅ΠΌ вмСсто ошибки ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ Π΄Π΅Π»ΡŒΡ‚Ρƒ которая Π±ΡƒΠ΄Π΅Ρ‚ ΠΏΠ΅Ρ€Π΅Π΄Π°Π²Π°Ρ‚ΡŒΡΡ ΠΎΡ‚ Π½Π΅ΠΉΡ€ΠΎΠ½Π° ΠΊ Π½Π΅ΠΉΡ€ΠΎΠ½Ρƒ. Π’ Ρ‚Π°ΠΊΠΎΠΌ случаС Π΄Π°Π²Π°ΠΉΡ‚Π΅ Π½Π°ΠΉΠ΄Π΅ΠΌ Π΄Π΅Π»ΡŒΡ‚Ρƒ для H1:

H1output = 0.61
w5 = 1.5
Ξ΄O1 = 0.148

Ξ΄H1 = ( (1 β€” 0.61) * 0.61 ) * ( 1.5 * 0.148 ) = 0.053

Π’Π΅ΠΏΠ΅Ρ€ΡŒ Π½Π°ΠΌ Π½ΡƒΠΆΠ½ΠΎ Π½Π°ΠΉΡ‚ΠΈ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ исходящСго синапса. Π—Π΄Π΅ΡΡŒ ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ Π²ΡΡ‚Π°Π²Π»ΡΡŽΡ‚ 3 ΡΡ‚Π°ΠΆΠ½ΡƒΡŽ Π΄Ρ€ΠΎΠ±ΡŒ с ΠΊΡƒΡ‡Π΅ΠΉ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄Π½Ρ‹Ρ… ΠΈ ΠΏΡ€ΠΎΡ‡ΠΈΠΌ матСматичСским Π°Π΄ΠΎΠΌ, Π½ΠΎ Π² этом ΠΈ вся ΠΏΡ€Π΅Π»Π΅ΡΡ‚ΡŒ использования ΠΌΠ΅Ρ‚ΠΎΠ΄Π° подсчСта Π΄Π΅Π»ΡŒΡ‚, ΠΏΠΎΡ‚ΠΎΠΌΡƒ Ρ‡Ρ‚ΠΎ Π² ΠΊΠΎΠ½Π΅Ρ‡Π½ΠΎΠΌ счСтС ваша Ρ„ΠΎΡ€ΠΌΡƒΠ»Π° нахоТдСния Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π° Π±ΡƒΠ΄Π΅Ρ‚ Π²Ρ‹Π³Π»ΡΠ΄Π΅Ρ‚ΡŒ Π²ΠΎΡ‚ Ρ‚Π°ΠΊ:
коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти
Π—Π΄Π΅ΡΡŒ Ρ‚ΠΎΡ‡ΠΊΠ° A это Ρ‚ΠΎΡ‡ΠΊΠ° Π² Π½Π°Ρ‡Π°Π»Π΅ синапса, Π° Ρ‚ΠΎΡ‡ΠΊΠ° B Π½Π° ΠΊΠΎΠ½Ρ†Π΅ синапса. Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ ΠΌΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ ΠΏΠΎΠ΄ΡΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ w5 ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ:

H1output = 0.61
Ξ΄O1 = 0.148

GRADw5 = 0.61 * 0.148 = 0.09

БСйчас Ρƒ нас Π΅ΡΡ‚ΡŒ всС Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΡ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΎΠ±Π½ΠΎΠ²ΠΈΡ‚ΡŒ вСс w5 ΠΈ ΠΌΡ‹ сдСлаСм это благодаря Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ МОР которая рассчитываСт Π²Π΅Π»ΠΈΡ‡ΠΈΠ½Ρƒ Π½Π° ΠΊΠΎΡ‚ΠΎΡ€ΡƒΡŽ Π½ΡƒΠΆΠ½ΠΎ ΠΈΠ·ΠΌΠ΅Π½ΠΈΡ‚ΡŒ Ρ‚ΠΎΡ‚ ΠΈΠ»ΠΈ ΠΈΠ½ΠΎΠΉ вСс ΠΈ выглядит ΠΎΠ½Π° ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ:
коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти
ΠΠ°ΡΡ‚ΠΎΡΡ‚Π΅Π»ΡŒΠ½ΠΎ Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄ΡƒΡŽ Π²Π°ΠΌ Π½Π΅ ΠΈΠ³Π½ΠΎΡ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Π²Ρ‚ΠΎΡ€ΡƒΡŽ Ρ‡Π°ΡΡ‚ΡŒ выраТСния ΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΌΠΎΠΌΠ΅Π½Ρ‚ Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ это Π²Π°ΠΌ ΠΏΠΎΠ·Π²ΠΎΠ»ΠΈΡ‚ ΠΈΠ·Π±Π΅ΠΆΠ°Ρ‚ΡŒ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌ с Π»ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹ΠΌ ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌΠΎΠΌ.

Π—Π΄Π΅ΡΡŒ ΠΌΡ‹ Π²ΠΈΠ΄ΠΈΠΌ 2 константы ΠΎ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… ΠΌΡ‹ ΡƒΠΆΠ΅ Π³ΠΎΠ²ΠΎΡ€ΠΈΠ»ΠΈ, ΠΊΠΎΠ³Π΄Π° рассматривали Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½ΠΎΠ³ΠΎ спуска: E (эпсилон) β€” ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ обучСния, Ξ± (Π°Π»ΡŒΡ„Π°) β€” ΠΌΠΎΠΌΠ΅Π½Ρ‚. ΠŸΠ΅Ρ€Π΅Π²ΠΎΠ΄Ρ Ρ„ΠΎΡ€ΠΌΡƒΠ»Ρƒ Π² слова ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠΌ: ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ вСса синапса Ρ€Π°Π²Π½ΠΎ коэффициСнту скорости обучСния, ΡƒΠΌΠ½ΠΎΠΆΠ΅Π½Π½ΠΎΠΌΡƒ Π½Π° Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ этого вСса, ΠΏΡ€ΠΈΠ±Π°Π²ΠΈΡ‚ΡŒ ΠΌΠΎΠΌΠ΅Π½Ρ‚ ΡƒΠΌΠ½ΠΎΠΆΠ΅Π½Π½Ρ‹ΠΉ Π½Π° ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰Π΅Π΅ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ этого вСса (Π½Π° 1-ΠΎΠΉ ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠΈ Ρ€Π°Π²Π½ΠΎ 0). Π’ Ρ‚Π°ΠΊΠΎΠΌ случаС Π΄Π°Π²Π°ΠΉΡ‚Π΅ посчитаСм ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ вСса w5 ΠΈ ΠΎΠ±Π½ΠΎΠ²ΠΈΠΌ Π΅Π³ΠΎ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ ΠΏΡ€ΠΈΠ±Π°Π²ΠΈΠ² ΠΊ Π½Π΅ΠΌΡƒ Ξ”w5.

E = 0.7
Ξ‘ = 0.3
w5 = 1.5
GRADw5 = 0.09
Ξ”w5(i-1) = 0

Ξ”w5 = 0.7 * 0.09 + 0 * 0.3 = 0.063
w5 = w5 + Ξ”w5 = 1.563

Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ послС примСнСния Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° наш вСс увСличился Π½Π° 0.063. Π’Π΅ΠΏΠ΅Ρ€ΡŒ ΠΏΡ€Π΅Π΄Π»Π°Π³Π°ΡŽ ΡΠ΄Π΅Π»Π°Ρ‚ΡŒ Π²Π°ΠΌ Ρ‚ΠΎΠΆΠ΅ самоС для H2.

GRADw6 = 0.69 * 0.148 = 0.1

Ξ”w6 = 0.7 * 0.1 + 0 * 0.3 = 0.07

И ΠΊΠΎΠ½Π΅Ρ‡Π½ΠΎ Π½Π΅ Π·Π°Π±Ρ‹Π²Π°Π΅ΠΌ ΠΏΡ€ΠΎ I1 ΠΈ I2, вСдь Ρƒ Π½ΠΈΡ… Ρ‚ΠΎΠΆΠ΅ Π΅ΡΡ‚ΡŒ синапсы вСса ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Π½Π°ΠΌ Ρ‚ΠΎΠΆΠ΅ Π½ΡƒΠΆΠ½ΠΎ ΠΎΠ±Π½ΠΎΠ²ΠΈΡ‚ΡŒ. Однако ΠΏΠΎΠΌΠ½ΠΈΠΌ, Ρ‡Ρ‚ΠΎ Π½Π°ΠΌ Π½Π΅ Π½ΡƒΠΆΠ½ΠΎ Π½Π°Ρ…ΠΎΠ΄ΠΈΡ‚ΡŒ Π΄Π΅Π»ΡŒΡ‚Ρ‹ для Π²Ρ…ΠΎΠ΄Π½Ρ‹Ρ… Π½Π΅ΠΉΡ€ΠΎΠ½ΠΎΠ² Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ Ρƒ Π½ΠΈΡ… Π½Π΅Ρ‚ Π²Ρ…ΠΎΠ΄Π½Ρ‹Ρ… синапсов.

Π’Π΅ΠΏΠ΅Ρ€ΡŒ Π΄Π°Π²Π°ΠΉΡ‚Π΅ убСдимся Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ ΠΌΡ‹ всС сдСлали ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎ ΠΈ снова посчитаСм Π²Ρ‹Ρ…ΠΎΠ΄ НБ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΡƒΠΆΠ΅ с ΠΎΠ±Π½ΠΎΠ²Π»Π΅Π½Π½Ρ‹ΠΌΠΈ вСсами.

H2input = 1 * 0.73 + 0 * 0.124 = 0.73
H2output = sigmoid(0.73) = 0.675

Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ β€” 0.37, ошибка β€” 39%.

Как ΠΌΡ‹ Π²ΠΈΠ΄ΠΈΠΌ послС ΠΎΠ΄Π½ΠΎΠΉ ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠΈ МОР, Π½Π°ΠΌ ΡƒΠ΄Π°Π»ΠΎΡΡŒ ΡƒΠΌΠ΅Π½ΡŒΡˆΠΈΡ‚ΡŒ ΠΎΡˆΠΈΠ±ΠΊΡƒ Π½Π° 0.04 (6%). Π’Π΅ΠΏΠ΅Ρ€ΡŒ Π½ΡƒΠΆΠ½ΠΎ ΠΏΠΎΠ²Ρ‚ΠΎΡ€ΡΡ‚ΡŒ это снова ΠΈ снова, ΠΏΠΎΠΊΠ° ваша ошибка Π½Π΅ станСт достаточно ΠΌΠ°Π»Π°.

Π§Ρ‚ΠΎ Π΅Ρ‰Π΅ Π½ΡƒΠΆΠ½ΠΎ Π·Π½Π°Ρ‚ΡŒ ΠΎ процСссС обучСния?

ΠΠ΅ΠΉΡ€ΠΎΡΠ΅Ρ‚ΡŒ ΠΌΠΎΠΆΠ½ΠΎ ΠΎΠ±ΡƒΡ‡Π°Ρ‚ΡŒ с ΡƒΡ‡ΠΈΡ‚Π΅Π»Π΅ΠΌ ΠΈ Π±Π΅Π· (supervised, unsupervised learning).

ΠžΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ с ΡƒΡ‡ΠΈΡ‚Π΅Π»Π΅ΠΌ β€” это Ρ‚ΠΈΠΏ Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΎΠΊ присущий Ρ‚Π°ΠΊΠΈΠΌ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ°ΠΌ ΠΊΠ°ΠΊ рСгрСссия ΠΈ классификация (ΠΈΠΌ ΠΌΡ‹ ΠΈ воспользовались Π² ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅ ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Π½Π½ΠΎΠΌ Π²Ρ‹ΡˆΠ΅). Π˜Π½Ρ‹ΠΌΠΈ словами здСсь Π²Ρ‹ выступаСтС Π² Ρ€ΠΎΠ»ΠΈ учитСля Π° НБ Π² Ρ€ΠΎΠ»ΠΈ ΡƒΡ‡Π΅Π½ΠΈΠΊΠ°. Π’Ρ‹ прСдоставляСтС Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ ΠΈ ΠΆΠ΅Π»Π°Π΅ΠΌΡ‹ΠΉ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚, Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ ΡƒΡ‡Π΅Π½ΠΈΠΊ посмотрСв Π½Π° Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ ΠΏΠΎΠΉΠΌΠ΅Ρ‚, Ρ‡Ρ‚ΠΎ Π½ΡƒΠΆΠ½ΠΎ ΡΡ‚Ρ€Π΅ΠΌΠΈΡ‚ΡŒΡΡ ΠΊ Ρ‚ΠΎΠΌΡƒ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρƒ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ Π²Ρ‹ Π΅ΠΌΡƒ прСдоставили.

ΠžΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ Π±Π΅Π· учитСля β€” этот Ρ‚ΠΈΠΏ обучСния встрСчаСтся Π½Π΅ Ρ‚Π°ΠΊ часто. Π—Π΄Π΅ΡΡŒ Π½Π΅Ρ‚ учитСля, поэтому ΡΠ΅Ρ‚ΡŒ Π½Π΅ ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅Ρ‚ ΠΆΠ΅Π»Π°Π΅ΠΌΡ‹ΠΉ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ ΠΈΠ»ΠΈ ΠΆΠ΅ ΠΈΡ… количСство ΠΎΡ‡Π΅Π½ΡŒ ΠΌΠ°Π»ΠΎ. Π’ основном Ρ‚Π°ΠΊΠΎΠΉ Π²ΠΈΠ΄ Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΎΠΊ присущ НБ Ρƒ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Π·Π°Π΄Π°Ρ‡Π° состоит Π² Π³Ρ€ΡƒΠΏΠΏΠΈΡ€ΠΎΠ²ΠΊΠ΅ Π΄Π°Π½Π½Ρ‹Ρ… ΠΏΠΎ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½Ρ‹ΠΌ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°ΠΌ. Допустим Π²Ρ‹ ΠΏΠΎΠ΄Π°Π΅Ρ‚Π΅ Π½Π° Π²Ρ…ΠΎΠ΄ 10000 статСй Π½Π° Ρ…Π°Π±Ρ€Π΅ ΠΈ послС Π°Π½Π°Π»ΠΈΠ·Π° всСх этих статСй НБ смоТСт Ρ€Π°ΡΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ ΠΈΡ… ΠΏΠΎ катСгориям ΠΎΡΠ½ΠΎΠ²Ρ‹Π²Π°ΡΡΡŒ, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, Π½Π° часто Π²ΡΡ‚Ρ€Π΅Ρ‡Π°ΡŽΡ‰ΠΈΡ…ΡΡ словах. Π‘Ρ‚Π°Ρ‚ΡŒΠΈ Π² ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… ΡƒΠΏΠΎΠΌΠΈΠ½Π°ΡŽΡ‚ΡΡ языки программирования, ΠΊ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠΈΡ€ΠΎΠ²Π°Π½ΠΈΡŽ, Π° Π³Π΄Π΅ Ρ‚Π°ΠΊΠΈΠ΅ слова ΠΊΠ°ΠΊ Photoshop, ΠΊ Π΄ΠΈΠ·Π°ΠΉΠ½Ρƒ.

БущСствуСт Π΅Ρ‰Π΅ Ρ‚Π°ΠΊΠΎΠΉ интСрСсный ΠΌΠ΅Ρ‚ΠΎΠ΄, ΠΊΠ°ΠΊ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ с ΠΏΠΎΠ΄ΠΊΡ€Π΅ΠΏΠ»Π΅Π½ΠΈΠ΅ΠΌ (reinforcement learning). Π­Ρ‚ΠΎΡ‚ ΠΌΠ΅Ρ‚ΠΎΠ΄ заслуТиваСт ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎΠΉ ΡΡ‚Π°Ρ‚ΡŒΠΈ, Π½ΠΎ я ΠΏΠΎΠΏΡ‹Ρ‚Π°ΡŽΡΡŒ Π²ΠΊΡ€Π°Ρ‚Ρ†Π΅ ΠΎΠΏΠΈΡΠ°Ρ‚ΡŒ Π΅Π³ΠΎ ΡΡƒΡ‚ΡŒ. Π’Π°ΠΊΠΎΠΉ способ ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΠΌ Ρ‚ΠΎΠ³Π΄Π°, ΠΊΠΎΠ³Π΄Π° ΠΌΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ ΠΎΡΠ½ΠΎΠ²Ρ‹Π²Π°ΡΡΡŒ Π½Π° Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π°Ρ… ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹Ρ… ΠΎΡ‚ НБ, Π΄Π°Ρ‚ΡŒ Π΅ΠΉ ΠΎΡ†Π΅Π½ΠΊΡƒ. НапримСр ΠΌΡ‹ Ρ…ΠΎΡ‚ΠΈΠΌ Π½Π°ΡƒΡ‡ΠΈΡ‚ΡŒ НБ ΠΈΠ³Ρ€Π°Ρ‚ΡŒ Π² PAC-MAN, Ρ‚ΠΎΠ³Π΄Π° ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ Ρ€Π°Π· ΠΊΠΎΠ³Π΄Π° НБ Π±ΡƒΠ΄Π΅Ρ‚ Π½Π°Π±ΠΈΡ€Π°Ρ‚ΡŒ ΠΌΠ½ΠΎΠ³ΠΎ ΠΎΡ‡ΠΊΠΎΠ² ΠΌΡ‹ Π±ΡƒΠ΄Π΅ΠΌ Π΅Π΅ ΠΏΠΎΠΎΡ‰Ρ€ΡΡ‚ΡŒ. Π˜Π½Ρ‹ΠΌΠΈ словами ΠΌΡ‹ прСдоставляСм НБ ΠΏΡ€Π°Π²ΠΎ Π½Π°ΠΉΡ‚ΠΈ любой способ достиТСния Ρ†Π΅Π»ΠΈ, Π΄ΠΎ Ρ‚Π΅Ρ… ΠΏΠΎΡ€ ΠΏΠΎΠΊΠ° ΠΎΠ½ Π±ΡƒΠ΄Π΅Ρ‚ Π΄Π°Π²Π°Ρ‚ΡŒ Ρ…ΠΎΡ€ΠΎΡˆΠΈΠΉ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚. Π’Π°ΠΊΠΈΠΌ способом, ΡΠ΅Ρ‚ΡŒ Π½Π°Ρ‡Π½Π΅Ρ‚ ΠΏΠΎΠ½ΠΈΠΌΠ°Ρ‚ΡŒ Ρ‡Π΅Π³ΠΎ ΠΎΡ‚ Π½Π΅Π΅ хотят Π΄ΠΎΠ±ΠΈΡ‚ΡŒΡΡ ΠΈ пытаСтся Π½Π°ΠΉΡ‚ΠΈ Π½Π°ΠΈΠ»ΡƒΡ‡ΡˆΠΈΠΉ способ достиТСния этой Ρ†Π΅Π»ΠΈ Π±Π΅Π· постоянного прСдоставлСния Π΄Π°Π½Π½Ρ‹Ρ… β€œΡƒΡ‡ΠΈΡ‚Π΅Π»Π΅ΠΌβ€.

Π’Π°ΠΊΠΆΠ΅ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚ΡŒ трСмя ΠΌΠ΅Ρ‚ΠΎΠ΄Π°ΠΌΠΈ: стохастичСский ΠΌΠ΅Ρ‚ΠΎΠ΄ (stochastic), ΠΏΠ°ΠΊΠ΅Ρ‚Π½Ρ‹ΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ (batch) ΠΈ ΠΌΠΈΠ½ΠΈ-ΠΏΠ°ΠΊΠ΅Ρ‚Π½Ρ‹ΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ (mini-batch). БущСствуСт ΠΎΡ‡Π΅Π½ΡŒ ΠΌΠ½ΠΎΠ³ΠΎ статСй ΠΈ исслСдований Π½Π° Ρ‚Π΅ΠΌΡƒ Ρ‚ΠΎΠ³ΠΎ, ΠΊΠ°ΠΊΠΎΠΉ ΠΈΠ· ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² Π»ΡƒΡ‡ΡˆΠ΅ ΠΈ Π½ΠΈΠΊΡ‚ΠΎ Π½Π΅ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΏΡ€ΠΈΠΉΡ‚ΠΈ ΠΊ ΠΎΠ±Ρ‰Π΅ΠΌΡƒ ΠΎΡ‚Π²Π΅Ρ‚Ρƒ. Π― ΠΆΠ΅ сторонник стохастичСского ΠΌΠ΅Ρ‚ΠΎΠ΄Π°, ΠΎΠ΄Π½Π°ΠΊΠΎ я Π½Π΅ ΠΎΡ‚Ρ€ΠΈΡ†Π°ΡŽ Ρ‚ΠΎΡ‚ Ρ„Π°ΠΊΡ‚, Ρ‡Ρ‚ΠΎ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ ΠΈΠΌΠ΅Π΅Ρ‚ свои ΠΏΠ»ΡŽΡΡ‹ ΠΈ минусы.

Π’ΠΊΡ€Π°Ρ‚Ρ†Π΅ ΠΎ ΠΊΠ°ΠΆΠ΄ΠΎΠΌ ΠΌΠ΅Ρ‚ΠΎΠ΄Π΅:

БтохастичСский (Π΅Π³ΠΎ Π΅Ρ‰Π΅ ΠΈΠ½ΠΎΠ³Π΄Π° Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ ΠΎΠ½Π»Π°ΠΉΠ½) ΠΌΠ΅Ρ‚ΠΎΠ΄ Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ ΠΏΠΎ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅ΠΌΡƒ ΠΏΡ€ΠΈΠ½Ρ†ΠΈΠΏΡƒ β€” нашСл Ξ”w, сразу ΠΎΠ±Π½ΠΎΠ²ΠΈ ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠΉ вСс.

ΠŸΠ°ΠΊΠ΅Ρ‚Π½Ρ‹ΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ ΠΆΠ΅ Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ ΠΏΠΎ Π΄Ρ€ΡƒΠ³ΠΎΠΌΡƒ. ΠœΡ‹ суммируСм Ξ”w всСх вСсов Π½Π° Ρ‚Π΅ΠΊΡƒΡ‰Π΅ΠΉ ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠΈ ΠΈ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΏΠΎΡ‚ΠΎΠΌ обновляСм всС вСса ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ эту сумму. Один ΠΈΠ· самых Π²Π°ΠΆΠ½Ρ‹Ρ… плюсов Ρ‚Π°ΠΊΠΎΠ³ΠΎ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Π° β€” это Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½Π°Ρ экономия Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ Π½Π° вычислСниС, Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ ΠΆΠ΅ Π² Ρ‚Π°ΠΊΠΎΠΌ случаС ΠΌΠΎΠΆΠ΅Ρ‚ сильно ΠΏΠΎΡΡ‚Ρ€Π°Π΄Π°Ρ‚ΡŒ.

Мини-ΠΏΠ°ΠΊΠ΅Ρ‚Π½Ρ‹ΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ являСтся Π·ΠΎΠ»ΠΎΡ‚ΠΎΠΉ сСрСдиной ΠΈ пытаСтся ΡΠΎΠ²ΠΌΠ΅ΡΡ‚ΠΈΡ‚ΡŒ Π² сСбС ΠΏΠ»ΡŽΡΡ‹ ΠΎΠ±ΠΎΠΈΡ… ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ². Π—Π΄Π΅ΡΡŒ ΠΏΡ€ΠΈΠ½Ρ†ΠΈΠΏ Ρ‚Π°ΠΊΠΎΠ²: ΠΌΡ‹ Π² свободном порядкС распрСдСляСм вСса ΠΏΠΎ Π³Ρ€ΡƒΠΏΠΏΠ°ΠΌ ΠΈ мСняСм ΠΈΡ… вСса Π½Π° сумму Ξ”w всСх вСсов Π² Ρ‚ΠΎΠΉ ΠΈΠ»ΠΈ ΠΈΠ½ΠΎΠΉ Π³Ρ€ΡƒΠΏΠΏΠ΅.

Π§Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ Π³ΠΈΠΏΠ΅Ρ€ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹?

Π“ΠΈΠΏΠ΅Ρ€ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ β€” это значСния, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π½ΡƒΠΆΠ½ΠΎ ΠΏΠΎΠ΄Π±ΠΈΡ€Π°Ρ‚ΡŒ Π²Ρ€ΡƒΡ‡Π½ΡƒΡŽ ΠΈ Π·Π°Ρ‡Π°ΡΡ‚ΡƒΡŽ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠΌ ΠΏΡ€ΠΎΠ± ΠΈ ошибок. Π‘Ρ€Π΅Π΄ΠΈ Ρ‚Π°ΠΊΠΈΡ… Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ ΠΌΠΎΠΆΠ½ΠΎ Π²Ρ‹Π΄Π΅Π»ΠΈΡ‚ΡŒ:

Π§Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ ΡΡ…ΠΎΠ΄ΠΈΠΌΠΎΡΡ‚ΡŒ?

коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти
Π‘Ρ…ΠΎΠ΄ΠΈΠΌΠΎΡΡ‚ΡŒ Π³ΠΎΠ²ΠΎΡ€ΠΈΡ‚ ΠΎ Ρ‚ΠΎΠΌ, ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Π°Ρ Π»ΠΈ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π° НБ ΠΈ ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎ Π»ΠΈ Π±Ρ‹Π»ΠΈ ΠΏΠΎΠ΄ΠΎΠ±Ρ€Π°Π½Ρ‹ Π³ΠΈΠΏΠ΅Ρ€ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ Π² соотвСтствии с поставлСнной Π·Π°Π΄Π°Ρ‡Π΅ΠΉ. Допустим наша ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ° Π²Ρ‹Π²ΠΎΠ΄ΠΈΡ‚ ΠΎΡˆΠΈΠ±ΠΊΡƒ НБ Π½Π° ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠΈ Π² Π»ΠΎΠ³. Если с ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠ΅ΠΉ ошибка Π±ΡƒΠ΄Π΅Ρ‚ ΡƒΠΌΠ΅Π½ΡŒΡˆΠ°Ρ‚ΡŒΡΡ, Ρ‚ΠΎ ΠΌΡ‹ Π½Π° Π²Π΅Ρ€Π½ΠΎΠΌ ΠΏΡƒΡ‚ΠΈ ΠΈ наша НБ сходится. Если ΠΆΠ΅ ошибка Π±ΡƒΠ΄Π΅Ρ‚ ΠΏΡ€Ρ‹Π³Π°Ρ‚ΡŒ Π²Π²Π΅Ρ€Ρ… β€” Π²Π½ΠΈΠ· ΠΈΠ»ΠΈ застынСт Π½Π° ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½ΠΎΠΌ ΡƒΡ€ΠΎΠ²Π½Π΅, Ρ‚ΠΎ НБ Π½Π΅ сходится. Π’ 99% случаСв это Ρ€Π΅ΡˆΠ°Π΅Ρ‚ΡΡ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ΠΌ Π³ΠΈΠΏΠ΅Ρ€ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ². ΠžΡΡ‚Π°Π²ΡˆΠΈΠΉΡΡ 1% Π±ΡƒΠ΄Π΅Ρ‚ ΠΎΠ·Π½Π°Ρ‡Π°Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ Ρƒ вас ошибка Π² Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π΅ НБ. Π’Π°ΠΊΠΆΠ΅ Π±Ρ‹Π²Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ Π½Π° ΡΡ…ΠΎΠ΄ΠΈΠΌΠΎΡΡ‚ΡŒ влияСт ΠΏΠ΅Ρ€Π΅ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ НБ.

Π§Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ ΠΏΠ΅Ρ€Π΅ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅?

ΠŸΠ΅Ρ€Π΅ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅, ΠΊΠ°ΠΊ слСдуСт ΠΈΠ· названия, это состояниС нСйросСти, ΠΊΠΎΠ³Π΄Π° ΠΎΠ½Π° пСрСнасыщСна Π΄Π°Π½Π½Ρ‹ΠΌΠΈ. Π­Ρ‚ΠΎ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ° Π²ΠΎΠ·Π½ΠΈΠΊΠ°Π΅Ρ‚, Ссли слишком Π΄ΠΎΠ»Π³ΠΎ ΠΎΠ±ΡƒΡ‡Π°Ρ‚ΡŒ ΡΠ΅Ρ‚ΡŒ Π½Π° ΠΎΠ΄Π½ΠΈΡ… ΠΈ Ρ‚Π΅Ρ… ΠΆΠ΅ Π΄Π°Π½Π½Ρ‹Ρ…. Π˜Π½Ρ‹ΠΌΠΈ словами, ΡΠ΅Ρ‚ΡŒ Π½Π°Ρ‡Π½Π΅Ρ‚ Π½Π΅ ΡƒΡ‡ΠΈΡ‚ΡŒΡΡ Π½Π° Π΄Π°Π½Π½Ρ‹Ρ…, Π° Π·Π°ΠΏΠΎΠΌΠΈΠ½Π°Ρ‚ΡŒ ΠΈ β€œΠ·ΡƒΠ±Ρ€ΠΈΡ‚ΡŒβ€ ΠΈΡ…. БоотвСтствСнно, ΠΊΠΎΠ³Π΄Π° Π²Ρ‹ ΡƒΠΆΠ΅ Π±ΡƒΠ΄Π΅Ρ‚Π΅ ΠΏΠΎΠ΄Π°Π²Π°Ρ‚ΡŒ Π½Π° Π²Ρ…ΠΎΠ΄ этой НБ Π½ΠΎΠ²Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅, Ρ‚ΠΎ Π² ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ… ΠΌΠΎΠΆΠ΅Ρ‚ ΠΏΠΎΡΠ²ΠΈΡ‚ΡŒΡΡ ΡˆΡƒΠΌ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ Π±ΡƒΠ΄Π΅Ρ‚ Π²Π»ΠΈΡΡ‚ΡŒ Π½Π° Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π°. НапримСр, Ссли ΠΌΡ‹ Π±ΡƒΠ΄Π΅ΠΌ ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Ρ‚ΡŒ НБ Ρ€Π°Π·Π½Ρ‹Π΅ Ρ„ΠΎΡ‚ΠΎΠ³Ρ€Π°Ρ„ΠΈΠΈ яблок (Ρ‚ΠΎΠ»ΡŒΠΊΠΎ красныС) ΠΈ Π³ΠΎΠ²ΠΎΡ€ΠΈΡ‚ΡŒ Ρ‡Ρ‚ΠΎ это яблоко. Π’ΠΎΠ³Π΄Π°, ΠΊΠΎΠ³Π΄Π° НБ ΡƒΠ²ΠΈΠ΄ΠΈΡ‚ ΠΆΠ΅Π»Ρ‚ΠΎΠ΅ ΠΈΠ»ΠΈ Π·Π΅Π»Π΅Π½ΠΎΠ΅ яблоко, ΠΎΠ½ΠΎ Π½Π΅ смоТСт ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ, Ρ‡Ρ‚ΠΎ это яблоко, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ ΠΎΠ½Π° Π·Π°ΠΏΠΎΠΌΠ½ΠΈΠ»Π°, Ρ‡Ρ‚ΠΎ всС яблоки Π΄ΠΎΠ»ΠΆΠ½Ρ‹ Π±Ρ‹Ρ‚ΡŒ красными. И Π½Π°ΠΎΠ±ΠΎΡ€ΠΎΡ‚, ΠΊΠΎΠ³Π΄Π° НБ ΡƒΠ²ΠΈΠ΄ΠΈΡ‚ Ρ‡Ρ‚ΠΎ-Ρ‚ΠΎ красноС ΠΈ ΠΏΠΎ Ρ„ΠΎΡ€ΠΌΠ΅ ΡΠΎΠ²ΠΏΠ°Π΄Π°ΡŽΡ‰Π΅Π΅ с яблоком, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€ пСрсик, ΠΎΠ½Π° скаТСт, Ρ‡Ρ‚ΠΎ это яблоко. Π­Ρ‚ΠΎ ΠΈ Π΅ΡΡ‚ΡŒ ΡˆΡƒΠΌ. На Π³Ρ€Π°Ρ„ΠΈΠΊΠ΅ ΡˆΡƒΠΌ Π±ΡƒΠ΄Π΅Ρ‚ Π²Ρ‹Π³Π»ΡΠ΄Π΅Ρ‚ΡŒ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ.

коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Ρ„ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π‘ΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. ΠšΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ° ΠΏΡ€ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти. Π€ΠΎΡ‚ΠΎ коэффициСнт скорости обучСния Π½Π΅ΠΉΡ€ΠΎΠ½Π½ΠΎΠΉ сСти

Π’ΠΈΠ΄Π½ΠΎ, Ρ‡Ρ‚ΠΎ Π³Ρ€Π°Ρ„ΠΈΠΊ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ сильно колСблСтся ΠΎΡ‚ Ρ‚ΠΎΡ‡ΠΊΠΈ ΠΊ Ρ‚ΠΎΡ‡ΠΊΠ΅, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΡΠ²Π»ΡΡŽΡ‚ΡΡ Π²Ρ‹Ρ…ΠΎΠ΄Π½Ρ‹ΠΌΠΈ Π΄Π°Π½Π½Ρ‹ΠΌΠΈ (Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠΌ) нашСй НБ. Π’ ΠΈΠ΄Π΅Π°Π»Π΅, этот Π³Ρ€Π°Ρ„ΠΈΠΊ Π΄ΠΎΠ»ΠΆΠ΅Π½ Π±Ρ‹Ρ‚ΡŒ ΠΌΠ΅Π½Π΅Π΅ волнистый ΠΈ прямой. Π§Ρ‚ΠΎΠ±Ρ‹ ΠΈΠ·Π±Π΅ΠΆΠ°Ρ‚ΡŒ пСрСобучСния, Π½Π΅ стоит Π΄ΠΎΠ»Π³ΠΎ Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ НБ Π½Π° ΠΎΠ΄Π½ΠΈΡ… ΠΈ Ρ‚Π΅Ρ… ΠΆΠ΅ ΠΈΠ»ΠΈ ΠΎΡ‡Π΅Π½ΡŒ ΠΏΠΎΡ…ΠΎΠΆΠΈΡ… Π΄Π°Π½Π½Ρ‹Ρ…. Π’Π°ΠΊΠΆΠ΅, ΠΏΠ΅Ρ€Π΅ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ Π²Ρ‹Π·Π²Π°Π½ΠΎ большим количСством ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π²Ρ‹ ΠΏΠΎΠ΄Π°Π΅Ρ‚Π΅ Π½Π° Π²Ρ…ΠΎΠ΄ НБ ΠΈΠ»ΠΈ слишком слоТной Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€ΠΎΠΉ. Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, ΠΊΠΎΠ³Π΄Π° Π²Ρ‹ Π·Π°ΠΌΠ΅Ρ‡Π°Π΅Ρ‚Π΅ ошибки (ΡˆΡƒΠΌ) Π² Π²Ρ‹Ρ…ΠΎΠ΄Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ… послС этапа обучСния, Ρ‚ΠΎ Π²Π°ΠΌ стоит ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΎΠ΄ΠΈΠ½ ΠΈΠ· ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² рСгуляризации, Π½ΠΎ Π² Π±ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²Π΅ случаСв это Π½Π΅ ΠΏΠΎΠ½Π°Π΄ΠΎΠ±ΠΈΡ‚ΡŒΡΡ.

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ

Π”ΠΎΠ±Π°Π²ΠΈΡ‚ΡŒ ΠΊΠΎΠΌΠΌΠ΅Π½Ρ‚Π°Ρ€ΠΈΠΉ

Π’Π°Ρˆ адрСс email Π½Π΅ Π±ΡƒΠ΄Π΅Ρ‚ ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½. ΠžΠ±ΡΠ·Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ поля ΠΏΠΎΠΌΠ΅Ρ‡Π΅Π½Ρ‹ *