к какой математической задаче сводятся задачи поиска в машинном обучении
Роль математики в машинном обучении
«Так ли необходимо разбираться в математике, лежащей в основе алгоритмов машинного обучения? В Python ведь уже есть масса широко доступных библиотек, которые можно без труда использовать для построения моделей!»
Я слышал это от дата-сайентистов любителей не один раз. Это заблуждение распространено куда больше, чем хотелось бы, и продолжает порождать наивные фантазии среди начинающих профессионалов в области обработки данных.
Итак, как же нам этому научиться? Что ж, именно об этом я и хочу поговорить с вами сегодня. В этой статье приведены различные аспекты математики, которые вам нужно знать, чтобы в полной мере освоить машинное обучение, включая линейную алгебру, теорию вероятности и многое другое.
На каком уровне нужно разбираться в математике чтобы быть компетентным в машинном обучении?
(Важность математических дисциплин в машинном обучении:
Разница между математическими концепциями, лежащими в основе машинного обучения и Data Science
Хотя Data Science и машинное обучение имеют много общего, все же существуют небольшие различия в их мат-аппаратах. Разница показана на приведенной ниже лепестковой диаграмме:
Да, Data Science и машинное обучение во многом пересекаются, но их основная направленность существенно различается.
Это набор способов выявления скрытых фактов в данных, которые могут быть упущены с первого взгляда. В результате, для сравнения и проверки гипотез, мы должны в большей степени полагаться на концепции статистики и вероятности.
С другой стороны, машинное обучение больше фокусируется на концепциях линейной алгебры, поскольку она служит плацдармом для всех сложных процессов (помимо аспекта эффективности). А также на многомерном исчислении, которое имеет дело с аспектом численной оптимизации, которая является движущей силой большинства алгоритмов машинного обучения.
Тактика сближения с бывшим противником
Если вы будете повторять то же самое, что делали в прошлом, вы получите те же результаты, что и раньше. Я перефразировал знаменитую цитату Альберта Эйнштейна, но я уверен, что вы уловили суть! Многие начинающие энтузиасты машинного обучения совершают эту ошибку, используя тот же подход, что они использовали в прошлом.
Итак, как же вам следует подойти к изучению математики, стоящей за алгоритмами машинного обучения?
Математика в Data Science и машинном обучении связана не с операциями над числами, а с тем, что происходит, почему это происходит и как мы можем поэкспериментировать с разными вещами, чтобы получить желаемые результаты.
Давайте посмотрим на график, показанный ниже, и попробуем вычислить его градиент.
Нам следует уделять больше внимания геометрической интерпретации любого подобного выражения. Это помогает нам интерпретировать значение этих замысловатых выражений. Вся кропотливая работа по ручному решению таких задач не является существенной и не требует навыков. Использование вычислительных библиотек, таких как NumPy, имеет гораздо больший смысл, чем проверка вашей выносливости.
Теперь давайте немного сместим наше внимание, чтобы понять, почему нам нужно изучать эти различные математические методы и что послужило бы хорошим источником для быстрого их изучения.
Линейная алгебра для машинного обучения
Некоторые люди считают линейную алгебру математикой 21 века. Причина в том, что линейная алгебра является основой машинного обучения и Data Science, которые в ближайшие годы совершат революцию во всех остальных отраслях.
Но почему именно линейная алгебра?
Линейная алгебра дает нам систематизированный базис для представления систем линейных уравнений.
Давайте решим это уравнение относительно x и y:
В результате переменная x исключается, а y получается равным 9. При обратной подстановке мы получаем значение x равное 0.
Проблема здесь в том, что для работы этого алгоритма требуется человеческая интуиция. Наши машины не способны имитировать ту же интуицию. Они могут понимать данные только в определенном представлении, а правила в заданном формате.
Наборы данных часто содержат сотни и тысячи наблюдений (даже миллионы). Как вы думаете, сможем ли мы работать с такими наборами данных и вручную находить оптимальные значения x и y?
Конечно нет! Мы определенно предпочли бы автоматизировать эту задачу. И здесь в игру вступает линейная алгебра. В широком смысле:
Это алгебраическое представление задачи, которую мы решили выше. Используя матричные операции, мы можем найти значения x и y в мгновение ока. Это основная причина, по которой линейная алгебра необходима в Data Science и машинном обучении.
Многомерное исчисление для машинного обучения
Какова роль многомерного исчисления в машинном обучении?
Многомерное исчисление, или частная производная, если быть точнее, используются для математической оптимизации заданной функции.
Рассмотрим случай градиентного спуска. Мы знаем, что функция стоимости градиентного спуска задается таким образом:
И мы вычисляем производные по наклону (m) и точке пересечения (c) таким образом:
Но почему только частная производная? Мы могли бы вычислить интеграл или совершить другую операцию. Это связано с тем, что производная показывает нам скорость изменения функции стоимости по отношению к стоимости 丁 по отношению к m и c по отдельности.
Эти отдельные частные производные могут быть представлены в векторной форме.
Это алгебраическое векторное представление частных производных.—=-
Это представление называется Якобианом.
Теория вероятности для машинного обучения
Мы вычисляем ответы, подставляя числа. Но что на самом деле говорит нам теорема Байеса, что именно означает апостериорная вероятность? Почему мы вообще ее рассчитываем?
Давайте рассмотрим пример (Успокойтесь! На это раз без математики!):
Это наш друг Боб. Как его одноклассник, мы думаем, что он интроверт, который зачастую замкнут. Мы считаем, что он не любит заводить друзей.
Итак, P(A) называется априорной вероятностью. В данном случае это будет нашим предположением, что Боб редко любит заводить новых друзей.
Теперь, Боб встречает Эрика в своем колледже.
Их дружба представляет собой P (B|A):
Теперь, глядя на правую часть и на приведенный выше пример, числитель представляет вероятность того, что Боб был дружелюбен P(A) и стал другом Эрика P (B|A). И все эти значения вычисляются по отношению к результату в левой части, а именно:
Однако что это новое значение представляет?
Если бы я извлек весь сок из этого примера, это выглядело бы примерно так:
Мы сделали предположение о Бобе, и обнаруженные нами сведения заключались в том, что он действительно завел нового друга!
Наивный Байесовский алгоритм работает по схожему принципу, с простым предположением, что все входные функции независимы. Чтобы пронаблюдать это явление, нам нужно погрузиться в байесовские сети или вероятностные графические модели.
Статистика для машинного обучения
Статистика составляет основу машинного обучения. Когда мы говорим о статистике, нам в голову приходят несколько знакомых концепций:
Проверка гипотез и т. д.
Большинство из этого играет важную роль в производительности наших моделей машинного обучения, таких как линейная и логистическая регрессия.
Заключение:
Машинное обучение столкнулось с нерешенной математической проблемой
Салют, хабровчане! В преддверии запуска новых потоков по продвинутому и базовому курсам «Математика для Data Science» хотим поделиться с вами достаточно интересным переводом. В этой статье не будет практики, но материал интересен для общего развития и обсуждения.
Группа исследователей столкнулась с открытой математической проблемой, связанной с рядом логических парадоксов, которые были открыты знаменитым австрийским математиком Куртом Гёделем еще в 1930-х годах.
Математики, работавшие над проблемами машинного обучения, доказали, что возможность «обучаемости», то есть то, может ли алгоритм извлечь паттерн из ограниченных данных, тесно связана с парадоксом, известным как гипотеза континуума. Гедель говорил о том, что с помощью стандартных возможностей математического языка гипотезу нельзя ни подтвердить, ни опровергнуть. Последние результаты исследований на эту тему были опубликованы в Nature Machine Intelligence от 7 января.
«Для нас это было неожиданностью», — сказал Амир Иегудаев из Technion – Израильского Института Технологий в Хаифе, который был соавтором исследования. Он говорил о том, что несмотря на ряд технических вопросов, которые также известны как «неразрешимые», он не ожидал, что это явление встретится в, казалось бы, простой задаче машинного обучения.
Джон Такер, специалист по computer science Университета Суонси, Великобритания, говорит, что эта работа представляет из себя «весомый результат на границе наших знаний», с основополагающими последствиями как для математики, так и для машинного обучения.
Не все наборы одинаковы
Исследователи часто определяют обучаемость с точки зрения того, может ли алгоритм обобщать свои знания. Алгоритм дает ответ «да» или «нет», например, на вопрос «Есть ли на изображении кошка?» для ограниченного числа объектов, а затем он должен сделать прогноз для новых, ранее неизвестных ему, объектов.
Иегудаев и его коллеги получили результаты, исследуя связь между обучаемостью и «сжатием», которое включает в себя поиск способа отображения характерных признаков большого набора данных на меньший набор. Авторы обнаружили, что способность информации эффективно сжиматься сводится к вопросу теории множеств – математических совокупностей объектов, таких как множества в диаграммах Венна. В частности, это относится к множествам различного размера, содержащим бесконечно большое количество объектов.
Георг Кантор, основатель теории множеств, в 1870-х годах доказал, что не все бесконечные множества равны между собой: так, например, множество целых чисел «меньше», чем множество всех действительных чисел, также известное как континуум. (Поскольку действительные числа включают в себя иррациональные, а также рациональные и целые числа.) Кантор также предположил, что не существует множеств промежуточного размера, то есть большего, чем множество целых чисел, но меньшего, чем континуум. Но он не смог доказать эту гипотезу континуума, как и многие математики и логики – его последователи.
Их усилия оказались напрасны. В 1940 году Гедель провел исследование (которое было завершено только в 1960-х годах американском математиком Полом Коэном), в котором с помощью аксиом доказал, что гипотеза континуума не может быть ни истинной, ни ложной.
Работа Геделя и Коэна над гипотезой континуума допускает, что могут существовать параллельные математические вселенные, отвечающие законам стандартной математики: одна — в которой гипотеза континуума становится общепринятой аксиомой, то есть объявляется истинной, а вторая – в которой она же объявлена ложной.
Лимб обучаемости
В своей последней работе Иегудаев и его коллеги определяют обучаемость как способность делать прогнозы относительного большого набора данных путем выборки небольшого числа точек данных. Связь с проблемой Кантора заключается в том, что существует бесконечно много способов выбора меньшего множества, но размер этой бесконечности неизвестен.
Далее авторы показывают, что если гипотеза континуума верна, то для экстраполяции достаточно небольшой выборки. Но если же она ложна, то не может существовать конечной выборки, которая была бы достаточной. Таким образом, они полагают, что проблема обучаемости фактически эквивалентна гипотезе континуума. Как итог, проблема обучаемости также находится в состоянии неопределенности, которое может быть решено только путем выбора аксиоматической вселенной.
«Результат исследования также помогает сформировать более широкое понимание обучаемости», говорит Иегудаев. «Эта связь между сжатием и обобщением действительно фундаментальна в вопросе понимания процесса обучения.»
«Исследователи обнаружили ряд подобных «неразрешимых» проблем», говорит Питер О’Хирн, специалист по computer science из Университетского Колледжа в Лондоне. В частности, по результатам работ Геделя, Алан Тьюринг – один из основателей теории алгоритмов – обнаружил класс вопросов, на которые ни одна компьютерная программа не может гарантированно ответить за любое конечное число шагов.
«Однако неразрешимость, полученная в ходе последних исследований очень редка и гораздо более удивительна», добавляет О’Хирн: она указывает на то, что Гедель обнаружил внутреннюю неполноту любого рода математического языка. Полученные результаты, вероятно, окажутся важны для теории машинного обучения, однако вряд ли это окажет большое практическое влияние.
Пишите в комментарии, что думаете по поводу данного материала, а мы приглашаем вас на бесплатный вебинар, в рамках которого поговорим о методах регрессионного анализа в Data Science.
Введение в машинное обучение
1.1 Введение
Благодаря машинному обучению программист не обязан писать инструкции, учитывающие все возможные проблемы и содержащие все решения. Вместо этого в компьютер (или отдельную программу) закладывают алгоритм самостоятельного нахождения решений путём комплексного использования статистических данных, из которых выводятся закономерности и на основе которых делаются прогнозы.
Технология машинного обучения на основе анализа данных берёт начало в 1950 году, когда начали разрабатывать первые программы для игры в шашки. За прошедшие десятилетий общий принцип не изменился. Зато благодаря взрывному росту вычислительных мощностей компьютеров многократно усложнились закономерности и прогнозы, создаваемые ими, и расширился круг проблем и задач, решаемых с использованием машинного обучения.
Чтобы запустить процесс машинного обучение, для начала необходимо загрузить в компьютер Датасет(некоторое количество исходных данных), на которых алгоритм будет учиться обрабатывать запросы. Например, могут быть фотографии собак и котов, на которых уже есть метки, обозначающие к кому они относятся. После процесса обучения, программа уже сама сможет распознавать собак и котов на новых изображениях без содержания меток. Процесс обучения продолжается и после выданных прогнозов, чем больше данных мы проанализировали программой, тем более точно она распознает нужные изображения.
Благодаря машинному обучению компьютеры учатся распознавать на фотографиях и рисунках не только лица, но и пейзажи, предметы, текст и цифры. Что касается текста, то и здесь не обойтись без машинного обучения: функция проверки грамматики сейчас присутствует в любом текстовом редакторе и даже в телефонах. Причем учитывается не только написание слов, но и контекст, оттенки смысла и другие тонкие лингвистические аспекты. Более того, уже существует программное обеспечение, способное без участия человека писать новостные статьи (на тему экономики и, к примеру, спорта).
1.2 Типы задач машинного обучения
Все задачи, решаемые с помощью ML, относятся к одной из следующих категорий.
1)Задача регрессии – прогноз на основе выборки объектов с различными признаками. На выходе должно получиться вещественное число (2, 35, 76.454 и др.), к примеру цена квартиры, стоимость ценной бумаги по прошествии полугода, ожидаемый доход магазина на следующий месяц, качество вина при слепом тестировании.
2)Задача классификации – получение категориального ответа на основе набора признаков. Имеет конечное количество ответов (как правило, в формате «да» или «нет»): есть ли на фотографии кот, является ли изображение человеческим лицом, болен ли пациент раком.
3)Задача кластеризации – распределение данных на группы: разделение всех клиентов мобильного оператора по уровню платёжеспособности, отнесение космических объектов к той или иной категории (планета, звёзда, чёрная дыра и т. п.).
4)Задача уменьшения размерности – сведение большого числа признаков к меньшему (обычно 2–3) для удобства их последующей визуализации (например, сжатие данных).
5)Задача выявления аномалий – отделение аномалий от стандартных случаев. На первый взгляд она совпадает с задачей классификации, но есть одно существенное отличие: аномалии – явление редкое, и обучающих примеров, на которых можно натаскать машинно обучающуюся модель на выявление таких объектов, либо исчезающе мало, либо просто нет, поэтому методы классификации здесь не работают. На практике такой задачей является, например, выявление мошеннических действий с банковскими картами.
1.3 Основные виды машинного обучения
Основная масса задач, решаемых при помощи методов машинного обучения, относится к двум разным видам: обучение с учителем (supervised learning) либо без него (unsupervised learning). Однако этим учителем вовсе не обязательно является сам программист, который стоит над компьютером и контролирует каждое действие в программе. «Учитель» в терминах машинного обучения – это само вмешательство человека в процесс обработки информации. В обоих видах обучения машине предоставляются исходные данные, которые ей предстоит проанализировать и найти закономерности. Различие лишь в том, что при обучении с учителем есть ряд гипотез, которые необходимо опровергнуть или подтвердить. Эту разницу легко понять на примерах.
Машинное обучение с учителем
Предположим, в нашем распоряжении оказались сведения о десяти тысячах московских квартир: площадь, этаж, район, наличие или отсутствие парковки у дома, расстояние от метро, цена квартиры и т. п. Нам необходимо создать модель, предсказывающую рыночную стоимость квартиры по её параметрам. Это идеальный пример машинного обучения с учителем: у нас есть исходные данные (количество квартир и их свойства, которые называются признаками) и готовый ответ по каждой из квартир – её стоимость. Программе предстоит решить задачу регрессии.
Ещё пример из практики: подтвердить или опровергнуть наличие рака у пациента, зная все его медицинские показатели. Выяснить, является ли входящее письмо спамом, проанализировав его текст. Это всё задачи на классификацию.
Машинное обучение без учителя
В случае обучения без учителя, когда готовых «правильных ответов» системе не предоставлено, всё обстоит ещё интереснее. Например, у нас есть информация о весе и росте какого-то количества людей, и эти данные нужно распределить по трём группам, для каждой из которых предстоит пошить рубашки подходящих размеров. Это задача кластеризации. В этом случае предстоит разделить все данные на 3 кластера (но, как правило, такого строгого и единственно возможного деления нет).
Если взять другую ситуацию, когда каждый из объектов в выборке обладает сотней различных признаков, то основной трудностью будет графическое отображение такой выборки. Поэтому количество признаков уменьшают до двух или трёх, и становится возможным визуализировать их на плоскости или в 3D. Это – задача уменьшения размерности.
1.4 Основные алгоритмы моделей машинного обучения
1. Дерево принятия решений
Это метод поддержки принятия решений, основанный на использовании древовидного графа: модели принятия решений, которая учитывает их потенциальные последствия (с расчётом вероятности наступления того или иного события), эффективность, ресурсозатратность.
Для бизнес-процессов это дерево складывается из минимального числа вопросов, предполагающих однозначный ответ — «да» или «нет». Последовательно дав ответы на все эти вопросы, мы приходим к правильному выбору. Методологические преимущества дерева принятия решений – в том, что оно структурирует и систематизирует проблему, а итоговое решение принимается на основе логических выводов.
2. Наивная байесовская классификация
Наивные байесовские классификаторы относятся к семейству простых вероятностных классификаторов и берут начало из теоремы Байеса, которая применительно к данному случаю рассматривает функции как независимые (это называется строгим, или наивным, предположением). На практике используется в следующих областях машинного обучения:
Всем, кто хоть немного изучал статистику, знакомо понятие линейной регрессии. К вариантам её реализации относятся и наименьшие квадраты. Обычно с помощью линейной регрессии решают задачи по подгонке прямой, которая проходит через множество точек. Вот как это делается с помощью метода наименьших квадратов: провести прямую, измерить расстояние от неё до каждой из точек (точки и линию соединяют вертикальными отрезками), получившуюся сумму перенести наверх. В результате та кривая, в которой сумма расстояний будет наименьшей, и есть искомая (эта линия пройдёт через точки с нормально распределённым отклонением от истинного значения).
Линейная функция обычно используется при подборе данных для машинного обучения, а метод наименьших квадратов – для сведения к минимуму погрешностей путем создания метрики ошибок.
4. Логистическая регрессия
Логистическая регрессия – это способ определения зависимости между переменными, одна из которых категориально зависима, а другие независимы. Для этого применяется логистическая функция (аккумулятивное логистическое распределение). Практическое значение логистической регрессии заключается в том, что она является мощным статистическим методом предсказания событий, который включает в себя одну или несколько независимых переменных. Это востребовано в следующих ситуациях:
Это целый набор алгоритмов, необходимых для решения задач на классификацию и регрессионный анализ. Исходя из того что объект, находящийся в N-мерном пространстве, относится к одному из двух классов, метод опорных векторов строит гиперплоскость с мерностью (N – 1), чтобы все объекты оказались в одной из двух групп. На бумаге это можно изобразить так: есть точки двух разных видов, и их можно линейно разделить. Кроме сепарации точек, данный метод генерирует гиперплоскость таким образом, чтобы она была максимально удалена от самой близкой точки каждой группы.
SVM и его модификации помогают решать такие сложные задачи машинного обучения, как сплайсинг ДНК, определение пола человека по фотографии, вывод рекламных баннеров на сайты.
Он базируется на алгоритмах машинного обучения, генерирующих множество классификаторов и разделяющих все объекты из вновь поступающих данных на основе их усреднения или итогов голосования. Изначально метод ансамблей был частным случаем байесовского усреднения, но затем усложнился и оброс дополнительными алгоритмами:
Кластеризация заключается в распределении множества объектов по категориям так, чтобы в каждой категории – кластере – оказались наиболее схожие между собой элементы.
Кластеризировать объекты можно по разным алгоритмам. Чаще всего используют следующие:
8. Метод главных компонент (PCA)
Метод главных компонент, или PCA, представляет собой статистическую операцию по ортогональному преобразованию, которая имеет своей целью перевод наблюдений за переменными, которые могут быть как-то взаимосвязаны между собой, в набор главных компонент – значений, которые линейно не коррелированы.
Практические задачи, в которых применяется PCA, – визуализация и большинство процедур сжатия, упрощения, минимизации данных для того, чтобы облегчить процесс обучения. Однако метод главных компонент не годится для ситуаций, когда исходные данные слабо упорядочены (то есть все компоненты метода характеризуются высокой дисперсией). Так что его применимость определяется тем, насколько хорошо изучена и описана предметная область.
9. Сингулярное разложение
В линейной алгебре сингулярное разложение, или SVD, определяется как разложение прямоугольной матрицы, состоящей из комплексных или вещественных чисел. Так, матрицу M размерностью [m*n] можно разложить таким образом, что M = UΣV, где U и V будут унитарными матрицами, а Σ – диагональной.
Одним из частных случаев сингулярного разложения является метод главных компонент. Самые первые технологии компьютерного зрения разрабатывались на основе SVD и PCA и работали следующим образом: вначале лица (или другие паттерны, которые предстояло найти) представляли в виде суммы базисных компонент, затем уменьшали их размерность, после чего производили их сопоставление с изображениями из выборки. Современные алгоритмы сингулярного разложения в машинном обучении, конечно, значительно сложнее и изощрённее, чем их предшественники, но суть их в целом нем изменилась.
10. Анализ независимых компонент (ICA)
Это один из статистических методов, который выявляет скрытые факторы, оказывающие влияние на случайные величины, сигналы и пр. ICA формирует порождающую модель для баз многофакторных данных. Переменные в модели содержат некоторые скрытые переменные, причем нет никакой информации о правилах их смешивания. Эти скрытые переменные являются независимыми компонентами выборки и считаются негауссовскими сигналами.
В отличие от анализа главных компонент, который связан с данным методом, анализ независимых компонент более эффективен, особенно в тех случаях, когда классические подходы оказываются бессильны. Он обнаруживает скрытые причины явлений и благодаря этому нашёл широкое применение в самых различных областях – от астрономии и медицины до распознавания речи, автоматического тестирования и анализа динамики финансовых показателей.
1.5 Примеры применения в реальной жизни
Пример 1. Диагностика заболеваний
Пациенты в данном случае являются объектами, а признаками – все наблюдающиеся у них симптомы, анамнез, результаты анализов, уже предпринятые лечебные меры (фактически вся история болезни, формализованная и разбитая на отдельные критерии). Некоторые признаки – пол, наличие или отсутствие головной боли, кашля, сыпи и иные – рассматриваются как бинарные. Оценка тяжести состояния (крайне тяжёлое, средней тяжести и др.) является порядковым признаком, а многие другие – количественными: объём лекарственного препарата, уровень гемоглобина в крови, показатели артериального давления и пульса, возраст, вес. Собрав информацию о состоянии пациента, содержащую много таких признаков, можно загрузить её в компьютер и с помощью программы, способной к машинному обучению, решить следующие задачи:
Пример 2. Поиск мест залегания полезных ископаемых
В роли признаков здесь выступают сведения, добытые при помощи геологической разведки: наличие на территории местности каких-либо пород (и это будет признаком бинарного типа), их физические и химические свойства (которые раскладываются на ряд количественных и качественных признаков).
Для обучающей выборки берутся 2 вида прецедентов: районы, где точно присутствуют месторождения полезных ископаемых, и районы с похожими характеристиками, где эти ископаемые не были обнаружены. Но добыча редких полезных ископаемых имеет свою специфику: во многих случаях количество признаков значительно превышает число объектов, и методы традиционной статистики плохо подходят для таких ситуаций. Поэтому при машинном обучении акцент делается на обнаружение закономерностей в уже собранном массиве данных. Для этого определяются небольшие и наиболее информативные совокупности признаков, которые максимально показательны для ответа на вопрос исследования – есть в указанной местности то или иное ископаемое или нет. Можно провести аналогию с медициной: у месторождений тоже можно выявить свои синдромы. Ценность применения машинного обучения в этой области заключается в том, что полученные результаты не только носят практический характер, но и представляют серьёзный научный интерес для геологов и геофизиков.
Пример 3. Оценка надёжности и платёжеспособности кандидатов на получение кредитов
С этой задачей ежедневно сталкиваются все банки, занимающиеся выдачей кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт.
Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (пол, наличие телефонного номера), другие — к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес).
Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших».
Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.