как выбрать модель машинного обучения

Как выбрать модель машинного обучения

как выбрать модель машинного обучения. Смотреть фото как выбрать модель машинного обучения. Смотреть картинку как выбрать модель машинного обучения. Картинка про как выбрать модель машинного обучения. Фото как выбрать модель машинного обучения

Для начала рассмотрим некоторые руководящие принципы, которые используются при создании моделей:

как выбрать модель машинного обучения. Смотреть фото как выбрать модель машинного обучения. Смотреть картинку как выбрать модель машинного обучения. Картинка про как выбрать модель машинного обучения. Фото как выбрать модель машинного обучения

Задачи машинного обучения подразделяются на обучение с учителем, без учителя, с частичным привлечением учителя и с подкреплением.

В процессе обучения с частичным привлечением учителя используются немаркированные данные для улучшения понимания структуры в целом. Другими словами, мы изучаем особенности только на основе небольшого набора для обучения, потому что он маркирован! Мы не используем преимущества тестового набора, содержащего множество ценной информации, из-за отсутствия маркировки. В результате нам необходимо найти способ обучения на основе большого количества немаркированных данных.

Обучение с подкреплением — это принятие подходящих мер для максимизации выгоды в определенной ситуации. Машина или робот обучаются, пробуя все возможные пути, а затем выбирают тот, который дает наибольшую выгоду с наименьшими трудностями.

Подходы

Ниже приведены подходы к выбору модели для решения задач машинного обучения/глубокого обучения:

Обработку несбалансированных данных можно осуществить с помощью ресамплинга — использования выборки данных для повышения точности и подсчета погрешностей параметра совокупности. Методы ресамплинга используют технику вложенного ресамплинга.

Мы разделяем исходные данные на наборы для обучения и тестирования. После нахождения подходящих коэффициентов для модели с помощью первого набора мы применяем эту модель ко второму набору, чтобы обнаружить точность модели. Эта финальная точность, полученная перед применением ее к неизвестным данным, также называется набором для проверки и обеспечивает возможность получения более точных результатов.

Однако при дополнительном разделении набора для обучения на поднаборы и расчете их финальной точности, а затем многократного повторения этого процесса для множества поднаборов, можно добиться максимальной точности! Ресамплинг выполняется для повышения точности модели и разделяется на несколько способов, таких как начальная загрузка, перекрестная проверка, многократная перекрестная проверка и т. д.

2. Мы можем создавать новые функции с помощью метода главных компонент.

Этот метод также известен как PCA и помогает уменьшить размерность. Методы кластеризации очень распространены при обучении без учителя.

3. Мы можем предотвратить переобучение, недостаточное обучение, выбросы и шум с помощью методов регуляризации.

4. Нам необходимо устранить проблему «черного ящика».

Для решения этой проблемы стоит рассмотреть стратегии для построения интерпретируемых моделей. Системы ИИ «черного ящика» для автоматического принятия решений в большинстве случаев основаны на машинном обучении на больших данных, отображающих функции пользователя в класс, который предсказывает поведенческие черты личности без объяснения причин.

Проблема заключается не только в отсутствии прозрачности, но и в возможном возникновении погрешностей, унаследованных алгоритмами от человеческих предрассудков, и сборе артефактов, скрытых в данных обучения, которые могут привести к неправильным решениям и неправильному анализу.

5. Понимание алгоритмов, не восприимчивых к выбросам.

Чтобы преодолеть отклонение от нормы, можно использовать произвольность в моделях или случайные леса.

Модели машинного обучения

Для мультикласса нужно разбить данные на несколько задач бинарной классификации. Случайные леса отлично подходят для работы с несколькими числовыми и категориальными признаками, даже если они обладают различными масштабами. Это означает, что вы можете работать с исходными данными. SVM максимизируют отступ и основываются на концепции расстояния между различными точками. Остается только решить, действительно ли расстояние имеет значение!

В результате для категориальных признаков необходимо использовать единый код. Кроме того, в качестве предварительной обработки рекомендуется применять min-max или другое масштабирование. Для наиболее распространенных задач классификации случайные леса предоставляют вероятность принадлежности к этому классу, в то время как SVM предоставляют расстояние до границы, которую все же нужно преобразовать при необходимости в вероятность. SVM предоставляют опорные вектора — точки в каждом ближайшем к границе классе.

4. Деревья решений просты в использовании и понимании. Они реализуются с помощью таких моделей, как случайные леса или градиентный бустинг.

5. Для соревнований Kaggle предпочтительны случайный лес и XGBoost!

Модели глубокого обучения

Глубокое обучение — это функция ИИ, которая имитирует работу человеческого мозга при обработке данных и создании шаблонов для использования в принятии решений.

как выбрать модель машинного обучения. Смотреть фото как выбрать модель машинного обучения. Смотреть картинку как выбрать модель машинного обучения. Картинка про как выбрать модель машинного обучения. Фото как выбрать модель машинного обучения

Мы можем использовать многослойные персептроны, чтобы сосредоточиться на сложных в определении признаках, которые содержат большое количество маркированных данных!

Многослойный персептрон (MLP) — это искусственная нейронная сеть с прямой связью, которая генерирует набор выходных данных из набора входных. MLP характеризуется несколькими слоями входных узлов, связанных как ориентированный граф между входным и выходным слоями.

Для машинного обучения на основе зрения, такого как классификация изображений, обнаружение объектов, сегментация или распознавание изображений, используется сверточная нейронная сеть (CNN). CNN используются в распознавании и обработке изображений, которые предназначены для обработки пиксельных данных.

Для задач моделирования последовательности, таких как языковой перевод или классификация текста, предпочтительны рекуррентные нейронные сети (RNN).

RNN созданы для моделей, которые нуждаются в контексте, чтобы предоставить выходные данные на основе входных. В некоторых случаях контекст играет решающую роль для предсказания наиболее подходящего результата. В других нейронных сетях все входные данные независимы друг от друга.

Источник

Выбор модели машинного обучения

Дата публикации Sep 23, 2019

Часть искусства, часть науки выбора идеальной модели машинного обучения.

как выбрать модель машинного обучения. Смотреть фото как выбрать модель машинного обучения. Смотреть картинку как выбрать модель машинного обучения. Картинка про как выбрать модель машинного обучения. Фото как выбрать модель машинного обучения

Количество блестящих моделей может быть огромным, что означает, что люди часто обращаются к тем, кому доверяют больше всего, и используют их для решения всех новых задач. Это может привести к неоптимальным результатам.

Сегодня мы узнаем, как быстро и эффективно сузить пространство доступных моделей, чтобы найти те из них, которые с наибольшей вероятностью будут наиболее эффективны для вашего типа проблемы. Мы также увидим, как мы можем отслеживать производительность наших моделей с использованием весов и уклонов и сравнивать их.

Вы можете найти сопроводительный кодВот,

Что мы покроем

В отличие от Властелина колец, в машинном обучении нет ни одного кольца (модели), чтобы управлять ими всеми. Различные классы моделей хороши для моделирования базовых шаблонов различных типов наборов данных. Например, деревья решений хорошо работают в тех случаях, когда ваши данные имеют сложную форму:

как выбрать модель машинного обучения. Смотреть фото как выбрать модель машинного обучения. Смотреть картинку как выбрать модель машинного обучения. Картинка про как выбрать модель машинного обучения. Фото как выбрать модель машинного обучения

В то время как линейные модели работают лучше всего, когда набор данных линейно разделим:

как выбрать модель машинного обучения. Смотреть фото как выбрать модель машинного обучения. Смотреть картинку как выбрать модель машинного обучения. Картинка про как выбрать модель машинного обучения. Фото как выбрать модель машинного обучения

Прежде чем мы начнем, давайте немного углубимся в несоответствие между выбором моделей в реальном мире и конкурентной наукой о данных.

Выбор модели в конкурентной науке о данных против реального мира

Как сказал Вильям Форхиес в своемСообщение блога«Соревнования Kaggle подобны гонкам формулы для науки о данных. Победители вытесняют конкурентов с четвертого знака после запятой и, как и гоночные машины Формулы 1, не многие из нас приняли бы их за ежедневных гонщиков. Количество выделенного времени и иногда экстремальные методы не подходят для среды производства данных ».

Соревнования Kaggle и реальный мир оптимизируются под самые разные вещи, с некоторыми ключевыми отличиями:

Определение проблемы

Реальный мир позволяет вам определить вашу проблему и выбрать показатель, который определяет успех вашей модели. Это позволяет оптимизировать более сложную функцию полезности, чем просто единичную метрику, где соревнования Kaggle идут с одной заранее определенной метрикой и не позволяют эффективно определять проблему.

метрика

Интерпретируемость

Точно так же в реальном мире мы предпочитаем более простые модели, которые легче объяснить заинтересованным сторонам, тогда как в Kaggle мы не обращаем внимания на сложность модели. Интерпретируемость модели важна, потому что она позволяет нам предпринимать конкретные действия для решения основной проблемы. Например, в реальном мире, глядя на нашу модель и видя корреляцию между особенностью (например, выбоины на улице) и проблемой (например, вероятность автомобильной аварии на улице), более полезна, чем повышение прогноза точность на 0,005%.

Качество данных

Наконец, в соревнованиях Kaggle наш набор данных собирается и спорется за нас. Любой, кто занимался наукой о данных, знает, что в реальной жизни это почти никогда не происходит. Но способность собирать и структурировать наши данные также дает нам больший контроль над процессом обработки данных.

стимулы

Все это стимулирует огромное количество времени, затрачиваемое на настройку наших гиперпараметров для извлечения последних падений производительности из нашей модели и, иногда, изощренных методологий инженера функций. Несмотря на то, что соревнования Kaggle являются отличным способом обучения науке данных и проектированию функций, они не учитывают реальные проблемы, такие как объяснение модели, определение проблемы или ограничения развертывания.

Королевский гул моделей

Пришло время начать выбор моделей!

Выбирая наш начальный набор моделей для тестирования, мы хотим помнить о нескольких вещах:

Выберите разнообразный набор начальных моделей

Различные классы моделей хороши для моделирования различных типов базовых шаблонов в данных Поэтому хорошим первым шагом является быстрое тестирование нескольких различных классов моделей, чтобы узнать, какие из них наиболее эффективно отражают базовую структуру вашего набора данных! В рамках нашего типа проблемы (регрессия, классификация, кластеризация) мы хотим попробовать сочетание моделей на основе дерева, экземпляра и ядра. Выберите модель из каждого класса, чтобы проверить. Мы расскажем больше о различных типах моделей в разделе «модели для тестирования» ниже.

Попробуйте несколько разных параметров для каждой модели

Хотя мы не хотим тратить слишком много времени на поиск оптимального набора гиперпараметров, мы хотим попробовать несколько различных комбинаций гиперпараметров, чтобы у каждого класса моделей была возможность работать хорошо.

Выберите сильнейших соперников

Мы можем использовать самые эффективные модели этого этапа, чтобы дать нам представление о том, в какой класс моделей мы хотим углубиться. Панель инструментов «Веса и уклоны» покажет вам класс моделей, которые лучше всего подходят для вашей задачи.

Погрузитесь глубже в модели в лучших классах моделей.

Затем мы выбираем больше моделей, относящихся к лучшим классам моделей, которые мы включили в шорт-лист выше! Например, если кажется, что линейная регрессия работает лучше всего, было бы неплохо также попробовать регрессию лассо или гребня.

Исследуйте гиперпараметрическое пространство более подробно.

На этом этапе я бы посоветовал вам потратить некоторое время на настройку гиперпараметров для ваших моделей-кандидатов. (В следующем посте этой серии мы углубимся в интуицию о выборе лучших гиперпараметров для ваших моделей.) В конце этого этапа у вас должны быть самые эффективные версии всех ваших самых сильных моделей.

Выберите окончательные представления от разных моделей.В идеале мы хотим выбрать лучшие модели из более чем одного класса моделей. Это потому, что если вы сделаете свой выбор только из одного класса моделей, а он окажется неправильным, все ваши представления будут работать плохо. Соревнования Kaggle обычно позволяют вам выбрать более одной заявки для финального представления. Я бы порекомендовал выбирать прогнозы, сделанные вашими самыми сильными моделями из разных классов, чтобы добавить некоторую избыточность в ваши представления.

Ресурсные ограничения.Разные модели используют разные типы ресурсов, и знание правильности развертывания моделей на IoT / мобильном устройстве с небольшим жестким диском и процессором или в облаке может иметь решающее значение.

Время тренировки против времени прогноза против точности.Знание того, какие показатели вы оптимизируете, также важно для выбора правильной модели. Например, автомобили с самостоятельным вождением нуждаются в молниеносном прогнозировании, а системы обнаружения мошенничества должны быстро обновлять свои модели, чтобы быть в курсе последних фишинговых атак. Для других случаев, таких как медицинская диагностика, мы заботимся о точности (или площади под кривой ROC) гораздо больше, чем время обучения.

Сложность против объяснимости Компромисс.Более сложные модели могут использовать на порядок больше функций для обучения, а для прогнозирования требуется больше вычислений, но при правильном обучении можно получить действительно интересные шаблоны в наборе данных. Это также делает их запутанными и труднее объяснить, хотя. Знание того, как важно легко объяснить модель заинтересованным сторонам, а не просто захватить некоторые действительно интересные тенденции, в то время как отказ от объяснения является ключом к выбору модели.

Масштабируемость.Знание того, насколько быстро и насколько велика ваша модель для масштабирования, может помочь вам сузить выбор.

Размер обучающих данных.Для действительно больших наборов данных или тех, которые имеют много функций, нейронные сети или расширенные деревья могут быть отличным выбором. Принимая во внимание, что меньшие наборы данных могут лучше обслуживаться логистической регрессией, наивным байесовским или KNN.

Количество параметров.Модели с большим количеством параметров дают вам большую гибкость для получения действительно высокой производительности. Однако могут быть случаи, когда у вас нет времени, необходимого, например, для обучения параметров нейронной сети с нуля. Модель, которая хорошо работает из коробки, была бы подходящим вариантом в этом случае!

Сравнение моделей

Веса и уклоныпозволяет отслеживать и сравнивать производительность ваших моделей с одной строкой кода.

После того, как вы выбрали модели, которые хотели бы попробовать, обучите их и просто добавьтеwandb.log (<‘Score’: cv_score>)для регистрации вашего модельного состояния. После того, как вы закончили обучение, вы можете сравнить свои модели в одной простой панели!

Вы можете найти код, чтобы сделать это эффективноВот, Я призываю вас раскошелитьсяэто ядрои играть с кодом!

Вот и все, теперь у вас есть все инструменты, необходимые для выбора подходящих моделей для вашей задачи!

Выбор модели может быть очень сложным, но я надеюсь, что это руководство проливает свет и дает вам хорошую основу для выбора моделей.

Во второй части, «Вихревой тур по моделям машинного обучения», мы углубимся в модели ML, когда вы должны их использовать!

Если у вас есть какие-либо вопросы или пожелания, не стесняйтесьчирикать мне!

Источник

Введение в машинное обучение

1.1 Введение

Благодаря машинному обучению программист не обязан писать инструкции, учитывающие все возможные проблемы и содержащие все решения. Вместо этого в компьютер (или отдельную программу) закладывают алгоритм самостоятельного нахождения решений путём комплексного использования статистических данных, из которых выводятся закономерности и на основе которых делаются прогнозы.

Технология машинного обучения на основе анализа данных берёт начало в 1950 году, когда начали разрабатывать первые программы для игры в шашки. За прошедшие десятилетий общий принцип не изменился. Зато благодаря взрывному росту вычислительных мощностей компьютеров многократно усложнились закономерности и прогнозы, создаваемые ими, и расширился круг проблем и задач, решаемых с использованием машинного обучения.

Чтобы запустить процесс машинного обучение, для начала необходимо загрузить в компьютер Датасет(некоторое количество исходных данных), на которых алгоритм будет учиться обрабатывать запросы. Например, могут быть фотографии собак и котов, на которых уже есть метки, обозначающие к кому они относятся. После процесса обучения, программа уже сама сможет распознавать собак и котов на новых изображениях без содержания меток. Процесс обучения продолжается и после выданных прогнозов, чем больше данных мы проанализировали программой, тем более точно она распознает нужные изображения.

Благодаря машинному обучению компьютеры учатся распознавать на фотографиях и рисунках не только лица, но и пейзажи, предметы, текст и цифры. Что касается текста, то и здесь не обойтись без машинного обучения: функция проверки грамматики сейчас присутствует в любом текстовом редакторе и даже в телефонах. Причем учитывается не только написание слов, но и контекст, оттенки смысла и другие тонкие лингвистические аспекты. Более того, уже существует программное обеспечение, способное без участия человека писать новостные статьи (на тему экономики и, к примеру, спорта).

1.2 Типы задач машинного обучения

Все задачи, решаемые с помощью ML, относятся к одной из следующих категорий.

1)Задача регрессии – прогноз на основе выборки объектов с различными признаками. На выходе должно получиться вещественное число (2, 35, 76.454 и др.), к примеру цена квартиры, стоимость ценной бумаги по прошествии полугода, ожидаемый доход магазина на следующий месяц, качество вина при слепом тестировании.

2)Задача классификации – получение категориального ответа на основе набора признаков. Имеет конечное количество ответов (как правило, в формате «да» или «нет»): есть ли на фотографии кот, является ли изображение человеческим лицом, болен ли пациент раком.

3)Задача кластеризации – распределение данных на группы: разделение всех клиентов мобильного оператора по уровню платёжеспособности, отнесение космических объектов к той или иной категории (планета, звёзда, чёрная дыра и т. п.).

4)Задача уменьшения размерности – сведение большого числа признаков к меньшему (обычно 2–3) для удобства их последующей визуализации (например, сжатие данных).

5)Задача выявления аномалий – отделение аномалий от стандартных случаев. На первый взгляд она совпадает с задачей классификации, но есть одно существенное отличие: аномалии – явление редкое, и обучающих примеров, на которых можно натаскать машинно обучающуюся модель на выявление таких объектов, либо исчезающе мало, либо просто нет, поэтому методы классификации здесь не работают. На практике такой задачей является, например, выявление мошеннических действий с банковскими картами.

1.3 Основные виды машинного обучения

Основная масса задач, решаемых при помощи методов машинного обучения, относится к двум разным видам: обучение с учителем (supervised learning) либо без него (unsupervised learning). Однако этим учителем вовсе не обязательно является сам программист, который стоит над компьютером и контролирует каждое действие в программе. «Учитель» в терминах машинного обучения – это само вмешательство человека в процесс обработки информации. В обоих видах обучения машине предоставляются исходные данные, которые ей предстоит проанализировать и найти закономерности. Различие лишь в том, что при обучении с учителем есть ряд гипотез, которые необходимо опровергнуть или подтвердить. Эту разницу легко понять на примерах.

Машинное обучение с учителем

Предположим, в нашем распоряжении оказались сведения о десяти тысячах московских квартир: площадь, этаж, район, наличие или отсутствие парковки у дома, расстояние от метро, цена квартиры и т. п. Нам необходимо создать модель, предсказывающую рыночную стоимость квартиры по её параметрам. Это идеальный пример машинного обучения с учителем: у нас есть исходные данные (количество квартир и их свойства, которые называются признаками) и готовый ответ по каждой из квартир – её стоимость. Программе предстоит решить задачу регрессии.

Ещё пример из практики: подтвердить или опровергнуть наличие рака у пациента, зная все его медицинские показатели. Выяснить, является ли входящее письмо спамом, проанализировав его текст. Это всё задачи на классификацию.

Машинное обучение без учителя

В случае обучения без учителя, когда готовых «правильных ответов» системе не предоставлено, всё обстоит ещё интереснее. Например, у нас есть информация о весе и росте какого-то количества людей, и эти данные нужно распределить по трём группам, для каждой из которых предстоит пошить рубашки подходящих размеров. Это задача кластеризации. В этом случае предстоит разделить все данные на 3 кластера (но, как правило, такого строгого и единственно возможного деления нет).

Если взять другую ситуацию, когда каждый из объектов в выборке обладает сотней различных признаков, то основной трудностью будет графическое отображение такой выборки. Поэтому количество признаков уменьшают до двух или трёх, и становится возможным визуализировать их на плоскости или в 3D. Это – задача уменьшения размерности.

1.4 Основные алгоритмы моделей машинного обучения

1. Дерево принятия решений

Это метод поддержки принятия решений, основанный на использовании древовидного графа: модели принятия решений, которая учитывает их потенциальные последствия (с расчётом вероятности наступления того или иного события), эффективность, ресурсозатратность.

Для бизнес-процессов это дерево складывается из минимального числа вопросов, предполагающих однозначный ответ — «да» или «нет». Последовательно дав ответы на все эти вопросы, мы приходим к правильному выбору. Методологические преимущества дерева принятия решений – в том, что оно структурирует и систематизирует проблему, а итоговое решение принимается на основе логических выводов.

2. Наивная байесовская классификация

Наивные байесовские классификаторы относятся к семейству простых вероятностных классификаторов и берут начало из теоремы Байеса, которая применительно к данному случаю рассматривает функции как независимые (это называется строгим, или наивным, предположением). На практике используется в следующих областях машинного обучения:

Всем, кто хоть немного изучал статистику, знакомо понятие линейной регрессии. К вариантам её реализации относятся и наименьшие квадраты. Обычно с помощью линейной регрессии решают задачи по подгонке прямой, которая проходит через множество точек. Вот как это делается с помощью метода наименьших квадратов: провести прямую, измерить расстояние от неё до каждой из точек (точки и линию соединяют вертикальными отрезками), получившуюся сумму перенести наверх. В результате та кривая, в которой сумма расстояний будет наименьшей, и есть искомая (эта линия пройдёт через точки с нормально распределённым отклонением от истинного значения).

Линейная функция обычно используется при подборе данных для машинного обучения, а метод наименьших квадратов – для сведения к минимуму погрешностей путем создания метрики ошибок.

4. Логистическая регрессия

Логистическая регрессия – это способ определения зависимости между переменными, одна из которых категориально зависима, а другие независимы. Для этого применяется логистическая функция (аккумулятивное логистическое распределение). Практическое значение логистической регрессии заключается в том, что она является мощным статистическим методом предсказания событий, который включает в себя одну или несколько независимых переменных. Это востребовано в следующих ситуациях:

Это целый набор алгоритмов, необходимых для решения задач на классификацию и регрессионный анализ. Исходя из того что объект, находящийся в N-мерном пространстве, относится к одному из двух классов, метод опорных векторов строит гиперплоскость с мерностью (N – 1), чтобы все объекты оказались в одной из двух групп. На бумаге это можно изобразить так: есть точки двух разных видов, и их можно линейно разделить. Кроме сепарации точек, данный метод генерирует гиперплоскость таким образом, чтобы она была максимально удалена от самой близкой точки каждой группы.

SVM и его модификации помогают решать такие сложные задачи машинного обучения, как сплайсинг ДНК, определение пола человека по фотографии, вывод рекламных баннеров на сайты.

Он базируется на алгоритмах машинного обучения, генерирующих множество классификаторов и разделяющих все объекты из вновь поступающих данных на основе их усреднения или итогов голосования. Изначально метод ансамблей был частным случаем байесовского усреднения, но затем усложнился и оброс дополнительными алгоритмами:

Кластеризация заключается в распределении множества объектов по категориям так, чтобы в каждой категории – кластере – оказались наиболее схожие между собой элементы.

Кластеризировать объекты можно по разным алгоритмам. Чаще всего используют следующие:

8. Метод главных компонент (PCA)

Метод главных компонент, или PCA, представляет собой статистическую операцию по ортогональному преобразованию, которая имеет своей целью перевод наблюдений за переменными, которые могут быть как-то взаимосвязаны между собой, в набор главных компонент – значений, которые линейно не коррелированы.

Практические задачи, в которых применяется PCA, – визуализация и большинство процедур сжатия, упрощения, минимизации данных для того, чтобы облегчить процесс обучения. Однако метод главных компонент не годится для ситуаций, когда исходные данные слабо упорядочены (то есть все компоненты метода характеризуются высокой дисперсией). Так что его применимость определяется тем, насколько хорошо изучена и описана предметная область.

9. Сингулярное разложение

В линейной алгебре сингулярное разложение, или SVD, определяется как разложение прямоугольной матрицы, состоящей из комплексных или вещественных чисел. Так, матрицу M размерностью [m*n] можно разложить таким образом, что M = UΣV, где U и V будут унитарными матрицами, а Σ – диагональной.

Одним из частных случаев сингулярного разложения является метод главных компонент. Самые первые технологии компьютерного зрения разрабатывались на основе SVD и PCA и работали следующим образом: вначале лица (или другие паттерны, которые предстояло найти) представляли в виде суммы базисных компонент, затем уменьшали их размерность, после чего производили их сопоставление с изображениями из выборки. Современные алгоритмы сингулярного разложения в машинном обучении, конечно, значительно сложнее и изощрённее, чем их предшественники, но суть их в целом нем изменилась.

10. Анализ независимых компонент (ICA)

Это один из статистических методов, который выявляет скрытые факторы, оказывающие влияние на случайные величины, сигналы и пр. ICA формирует порождающую модель для баз многофакторных данных. Переменные в модели содержат некоторые скрытые переменные, причем нет никакой информации о правилах их смешивания. Эти скрытые переменные являются независимыми компонентами выборки и считаются негауссовскими сигналами.

В отличие от анализа главных компонент, который связан с данным методом, анализ независимых компонент более эффективен, особенно в тех случаях, когда классические подходы оказываются бессильны. Он обнаруживает скрытые причины явлений и благодаря этому нашёл широкое применение в самых различных областях – от астрономии и медицины до распознавания речи, автоматического тестирования и анализа динамики финансовых показателей.

1.5 Примеры применения в реальной жизни

Пример 1. Диагностика заболеваний

Пациенты в данном случае являются объектами, а признаками – все наблюдающиеся у них симптомы, анамнез, результаты анализов, уже предпринятые лечебные меры (фактически вся история болезни, формализованная и разбитая на отдельные критерии). Некоторые признаки – пол, наличие или отсутствие головной боли, кашля, сыпи и иные – рассматриваются как бинарные. Оценка тяжести состояния (крайне тяжёлое, средней тяжести и др.) является порядковым признаком, а многие другие – количественными: объём лекарственного препарата, уровень гемоглобина в крови, показатели артериального давления и пульса, возраст, вес. Собрав информацию о состоянии пациента, содержащую много таких признаков, можно загрузить её в компьютер и с помощью программы, способной к машинному обучению, решить следующие задачи:

Пример 2. Поиск мест залегания полезных ископаемых

В роли признаков здесь выступают сведения, добытые при помощи геологической разведки: наличие на территории местности каких-либо пород (и это будет признаком бинарного типа), их физические и химические свойства (которые раскладываются на ряд количественных и качественных признаков).

Для обучающей выборки берутся 2 вида прецедентов: районы, где точно присутствуют месторождения полезных ископаемых, и районы с похожими характеристиками, где эти ископаемые не были обнаружены. Но добыча редких полезных ископаемых имеет свою специфику: во многих случаях количество признаков значительно превышает число объектов, и методы традиционной статистики плохо подходят для таких ситуаций. Поэтому при машинном обучении акцент делается на обнаружение закономерностей в уже собранном массиве данных. Для этого определяются небольшие и наиболее информативные совокупности признаков, которые максимально показательны для ответа на вопрос исследования – есть в указанной местности то или иное ископаемое или нет. Можно провести аналогию с медициной: у месторождений тоже можно выявить свои синдромы. Ценность применения машинного обучения в этой области заключается в том, что полученные результаты не только носят практический характер, но и представляют серьёзный научный интерес для геологов и геофизиков.

Пример 3. Оценка надёжности и платёжеспособности кандидатов на получение кредитов

С этой задачей ежедневно сталкиваются все банки, занимающиеся выдачей кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт.

Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (пол, наличие телефонного номера), другие — к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес).

Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших».

Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *