индекс джини машинное обучение

Анализ малых данных

КвазиНаучный блог Александра Дьяконова

Знакомьтесь, Джини

Многие путаются в коэффициентах Джини, не понимают, что они бывают разные и для разных задач (и названия у них разные — просто в русском переводе, как всегда, многое схлопывается в один термин).

Есть коэффициент/индекс Джини (Gini coefficient), который используют при оценке качества классификации и регрессии. На русской странице Wiki не очень информативно, но вот на английской всё подробно: изначально это был статистический показатель степени расслоения общества данной страны или региона по отношению к какому-либо изучаемому признаку. Вычисляется как отношение площади фигуры, образованной кривой Лоренца и кривой равенства, к площади треугольника, образованного кривыми равенства и неравенства. Сейчас поясню.

Допустим, в компании работают 4 человека с суммарным доходом 8000$. Равномерное распределение дохода — это 2000$+2000$+2000$+2000$, неравномерное — 0$+0$+0$+8000$. А как оценить неравномерность, скажем, для случая 1000$+1000$+2000$+4000$? Упорядочим сотрудников по возрастанию дохода. Построим кривую (Лоренца) в координатах [процент населения, процент дохода этого населения] — идём по всем сотрудникам и откладывает точки. Для первого — [25%, 12.5%] — это сколько он составляет процентов от всего штата и сколько процентов составляет его доход, для первого и второго — [50%, 25%] — это сколько они составляют процентов и сколько процентов их доход, для первых трёх — [75%, 50%], для всех — [100%, 100%].

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучениеРис. 1. Вычисление gini с помощью кривой Лоренца

На. Рис. 1. построенная кривая Лоренца показана красным цветом. Кривая Лоренца, которая соответствует равномерному распределению дохода, — синяя диагональ (т.н. кривая равенства). Кривая Лоренца, которая соответствует неравномерному распределению, — зелёная (т.н. кривая неравенства). Вот площадь A, делённая на A+B=0.5, и есть коэффициент Gini.

При оценке качества классификации GINI = 2*AUCROC-1. Про AUCROC я уже как-то писал. Почему это они так связаны нигде подробно не описано. Я нашёл упоминание в работе Supervised Classification and AUC. Там всё логично: если в задаче классификации на два класса 0 и 1 интерпретировать эти числа как доходы. Но чтобы связь была именно GINI = 2*AUCROC-1, должно быть что-то типа рис. 2 (но ROC-кривая и кривая Лоренца это не одно и то же), кстати в презентации Credit Scoring and the Optimization concerning Area under the curve такая же картинка.

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучениеРис.2. Связь AUCROC и GINI.

Есть ещё коэффициент/индекс Джини (Gini impurity), который используется в решающих деревьях при выборе расщепления. Я дал ссылку на английскую Wiki, поскольку русского аналога нет. Он тоже измеряет «равномерность», если p_i — частоты представителей разных классов в листе дерева, то коэффициент Джини для него равен

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение

Только вот это другая равномерность, никак не связанная с рассмотренной ранее. Для первой нужно два показателя — доход и численность населения с таким доходом, а тут только проценты (частоты). В английской версии на странице Gini coefficient написано «не путать с Gini impurity» и наоборот.

Я не знаю, как лучше переводить impurity, скажем, С.П.Чистяков переводит как «загрязненность» (на мой взгляд, не очень звучит…).

Коррадо Джини (Corrado Gini, 1884), который всё это придумал был итальянским статистиком. Но кроме этого, он известный идеолог фашизмa, написал книгу «Научные основы фашизма». Прожил, кстати, довольно много — 80 лет, видимо, после войны не преследовался. Вот так бывает…

Источник

Коэффициент Джини. Из экономики в машинное обучение

Комментарии 17

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение

Прочитав статью понял, что как и те комментаторы, которые отвечали, что формула (2) для них очевидна, я находился в заблуждении о том, что кривая Лоренца, в известном смысле эквивалентна ROC кривой. А вот Lift кривая эквивалентна кривой CAP en.wikipedia.org/wiki/Cumulative_accuracy_profile
(хотя с многозначностью термина Lift, тоже все плохо). Вы убедительно показали, что, как раз, кривая Лоенца, эквивалентна кривой CAP, а не ROC.

Проблема в том, что в той сфере, в которой индекс Джини активно используется на практике (сравнительный анализ моделей банковского скоринга) под индексом Джини (те кто об этом задумываются) понимают именно нормализованный индекс Джини. И, действительно, вычисляют его на основании ROC AUC по формуле (2), а не на основании CAP AUC.

Вопрос для меня не праздный, сталкиваюсь с ним ежедневно. Мы даже, нашу компанию, назвали GiniMachine.

Статья, конечно, помогла развеять мифы, как Вы и надеялись, но, боюсь, как в известной миниатюре xkcd про стандарты, ситуацию это, скорее, усугубило. ( xkcd.ru/927 )

С другой стороны, 30 лет назад невозможно было представить, что заблуждение по поводу именования мото-любителей и меломанов когда-нибудь удастся преодолеть…

P.S. обстоятельная статья 15 летней давности, на тему ROC и CAP, от Бундесбанка. Раньше я не понимал почему авторы избегают упоминания индекса Джини, теперь мне кажется, это не случайность. www.bundesbank.de/Redaktion/EN/Downloads/Publications/Discussion_Paper_2/2003/2003_10_01_dkp_01.pdf?__blob=publicationFile

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение

На практике, с тем, чтобы наши клиенты для «не нормализованного» индекса Джини использовали отдельный термин Accuracy Rate — сталкиваться не доводилось. Хотя, в литературе, с этим термином в таком смысле я сталкивался, но не придавал значения разнице в определении. Вот тут например: journal.fsv.cuni.cz/storage/1228_rezac.pdf
Любопытно, что в этой статье даже явно пишут о том, что Lorenz Curve путают с Receiver Operating Characteristic. Но, при этом, если я не запутался в их нотации, определяют её именно как зеркальную (по диагонали) ROC кривую, противопоставляя ей CAP кривую, которую называют также Lift кривой.

Вот с чем не редко приходится сталкиваться на практике, так это с тем, что представители бизнеса (не специалисты-рисковики) могут интерпретировать индекс Gini именно как accuracy модели для задачи бинарной классификации. Т.е. индекс Джини в 0.8 интерпретируют как 20 ошибок первого или второго рода из 100 случаев.
Когда приводишь «контр-пример», мол, если всего 10 процентов займов не погашаются вовремя, то даже если мы будем одобрять всем, то достигнем accuracy в 90%, тогда начинается содержательный разговор. И, нужно отметить, что представители бизнеса, на моей памяти, всегда очень радовались, уделив время и разобравшись. Вот прям, не побоюсь этого слова, именно — радовались.

Источник

Коэффициент Джини — индекс концентрации доходов, справедливости и неравенства

Здравствуйте, уважаемые читатели проекта Тюлягин! В данной статье мы поговорим о таком понятии и показателе как коэффициент (индекс) Джини. В статье вы узнаете что такое индекс Джини и что измеряет и показывает коэффициент. Также вы узнаете как отображается коэффициент Джини на графике и как связан с кривой Лоренца. Кроме этого в статье приведены данные по коэффициенту Джини для стран мира, а также перечислены основные недостатки индекса.

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение

Содержание статьи:

Что такое коэффициент / индекс Джини?

Индекс Джини, или коэффициент Джини, представляет собой меру распределения доходов среди населения, разработанный итальянским статистиком Коррадо Джини в 1912 году. Он часто используется в качестве индикатора экономического неравенства, измерения распределения доходов или, реже, распределения богатства. среди населения. Коэффициент варьируется от 0 (или 0%) до 1 (или 100%), где 0 означает полное равенство, а 1 — полное неравенство. Значения больше 1 теоретически возможны из-за отрицательного дохода или богатства.

Суть коэффициента Джини

В стране, в которой каждый житель имеет одинаковый доход, коэффициент Джини дохода будет равен 0. Страна, в которой один резидент получил весь доход, а все остальные ничего не заработал, будет иметь коэффициент Джини дохода, равный 1.

Тот же анализ может быть применен к распределению богатства («коэффициент Джини богатства»), но поскольку богатство труднее измерить, чем доход, коэффициенты Джини обычно относятся к доходу и выглядят просто как «коэффициент Джини» или «индекс Джини», без указания того, что они относятся к доходу. Коэффициенты богатства Джини, как правило, намного выше, чем для дохода.

Коэффициент Джини — важный инструмент для анализа распределения доходов или богатства в стране или регионе, но его не следует принимать за абсолютное измерение дохода или богатства. По данным ОЭСР, в стране с высоким и низким уровнем доходов может быть один и тот же коэффициент Джини, если доходы распределяются одинаково внутри каждой из них: в Турции и США в 2016 году коэффициенты Джини по доходам составляли около 0,39-0,40. Однако, ВВП Турции на душу населения был менее половины ВВП США (в долларовом выражении 2010 года).

Графическое представление индекса Джини

Индекс Джини часто представляется графически через кривую Лоренца, которая показывает распределение доходов (или богатства) путем нанесения процентиля населения по доходу на горизонтальную ось и совокупного дохода на вертикальной оси. Коэффициент Джини равен площади под линией полного равенства (0,5 по определению) за вычетом площади под кривой Лоренца, деленной на площадь под линией полного равенства. Другими словами, это вдвое больше площади между кривой Лоренца и линией полного равенства.

На приведенном ниже графике 47-й процентиль соответствует 10,46% в Гаити и 17,42% в Боливии, что означает, что нижние 47% гаитян получают 10,46% от общего дохода своей страны, а нижние 47% боливийцев получают 17,42% их дохода. Прямая линия представляет гипотетически равноправное по доходам общество: нижние 47% граждан получают 47% национального дохода.

Чтобы оценить коэффициент Джини дохода для Гаити в 2012 году, мы найдем площадь под кривой Лоренца: около 0,2. Вычитая это число из 0,5 (площадь под линией равенства), мы получаем 0,3, которое затем делим на 0,5. Это дает приблизительный коэффициент Джини 0,6 или 60%. Данные Всемирного Банка дают фактический коэффициент Джини для Гаити в 2012 году как 60,8%. Эта цифра представляет собой чрезвычайно высокое неравенство. По данным ЦРУ, только Микронезия, Центральноафриканская Республика (ЦАР), Южная Африка и Лесото имеют еще большее неравенство.

Другой способ восприятия коэффициента Джини — это показатель отклонения от идеального равенства. Чем дальше кривая Лоренца отклоняется от идеально равной прямой линии (которая представляет собой коэффициент Джини, равный 0), тем выше коэффициент Джини и тем меньше равноправия в обществе. В приведенном выше примере Гаити более неравное, чем Боливия.

Коэффициент Джини в мире

Глобальный Джини

По оценкам Кристофа Лакнера из Всемирного банка и Бранко Милановича из Городского университета Нью-Йорка, коэффициент Джини для глобального дохода составлял 0,705 в 2008 году по сравнению с 0,722 в 1988 году. Однако цифры значительно различаются. По оценкам экономистов DELTA Франсуа Бургиньон и Кристиан Морриссон, этот показатель составлял 0,657 как в 1980, так и в 1992 году. Работа Бургиньона и Морриссона показывает устойчивый рост неравенства с 1820 года, когда глобальный коэффициент Джини составлял 0,500. Книга Лакнера и Милановича показывает снижение неравенства примерно в начале 21 века, как и книга Бургиньона 2015 года:

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучениеИсточник: Всемирный банк.

Экономический рост в Латинской Америке, Азии и Восточной Европе во многом стал причиной недавнего снижения неравенства доходов. В то время как неравенство между странами в последние десятилетия снизилось, неравенство внутри стран возросло.

Коэффициент Джини для стран мира

Ниже приведены коэффициенты Джини дохода для каждой страны, данные по которой представлены Всемирным Банком:

Некоторые из беднейших стран мира (Центральноафриканская Республика) имеют одни из самых высоких в мире коэффициентов Джини (61,3), в то время как многие из самых богатых (Дания) имеют одни из самых низких (28,8). Однако взаимосвязь между неравенством доходов и ВВП на душу населения не является идеальной отрицательной корреляцией, и эта взаимосвязь менялась с течением времени.

Михаил Моатсос из Утрехтского университета и Джоэри Батен из Тюбингенского университета показывают, что с 1820 по 1929 год неравенство несколько увеличивалось, а затем постепенно уменьшалось по мере увеличения ВВП на душу населения. С 1950 по 1970 год неравенство имело тенденцию к снижению, поскольку ВВП на душу населения превышал определенный порог. С 1980 по 2000 год неравенство снизилось с ростом ВВП на душу населения, а затем резко сократилось.

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучениеТри графика, показывающие поведение ВВП в три разных момента времени.
Корреляция между коэффициентами Джини и ВВП на душу населения за три периода времени. Источник: Моатсос и Батен.

Недостатки коэффициента Джини

Хотя коэффициент Джини полезен для анализа экономического неравенства, он имеет некоторые недостатки. Точность показателя зависит от достоверных данных о ВВП и доходах. Теневая экономика и неформальная экономическая деятельность присутствуют в каждой стране. Неформальная экономическая деятельность, как правило, составляет большую часть реального экономического производства в развивающихся странах и находится на нижнем уровне распределения доходов внутри стран. В обоих случаях это означает, что индекс измеренных доходов Джини будет завышать истинное неравенство доходов. Получить точные данные о богатстве еще труднее из-за популярности налоговых убежищ (офшорных зон).

Другой недостаток заключается в том, что очень разные распределения доходов могут привести к одинаковым коэффициентам Джини. Поскольку индекс Джини пытается разделить двумерную область (разрыв между кривой Лоренца и линией равенства) до одного числа, он скрывает информацию о «форме» неравенства. В повседневных терминах это было бы похоже на описание содержимого фотографии только по ее длине вдоль одного края или простому среднему значению яркости пикселей.

Хотя использование кривой Лоренца в качестве дополнения может предоставить больше информации в этом отношении, она также не показывает демографические различия между подгруппами внутри распределения, например распределение доходов по возрасту, расе или социальным группам. В этом ключе понимание демографии может быть важным для понимания того, что представляет данный коэффициент Джини. Например, большая часть пенсионеров повышает индекс Джини.

Резюме

А на этом сегодня все про коэффициент (индекс) Джини. Надеюсь статья оказалась для вас полезной. Делитесь статьей в социальных сетях и мессенджерах и добавляйте сайт в закладки. Успехов и до новых встреч на страницах проекта Тюлягин!

Источник

Understanding the Gini Index and Information Gain in Decision Trees

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение

Beginning with Data mining, a newly refined one-size-fits approach to be adopted successfully in data prediction, it is a propitious method used for data analysis to discover trends and connections in data that might cast genuine interference.

The decision tree is the most notorious and powerful tool that is easy to understand and quick to implement for knowledge discovery from huge and complex data sets.

Introduction

The number of theoreticians and practitioners are regularly re-polishing techniques in order to make the process more rigorous, adequate and cost-effective.

Here, I would recommend reading my previous article to dwell and sharpen your knowledge pool in terms of decision trees.

The essence of decision trees prevails in dividing the data sets into its sections which indirectly emerging a decision tree (inverted) having roots nodes at top. The stratified model of the decision tree leads to the end result through the pass over nodes of the trees.

Here, each node comprises an attribute (feature) that becomes the root cause of further splitting in the downward direction.

There are some fundamental splitting parameters to address the considerable issues discussed above. And yes, in the realm of this article, we will cover the Entropy, Gini Index, Information Gain and their role in the execution of the Decision Trees technique.

During the process of decision making, multiple features participate and it becomes essential to concern the relevance and consequences of each feature thus assigning the appropriate feature at the root node and traversing the splitting of nodes downward.

Moving towards the down direction leads to decreases in the level of impurity and uncertainty and yields in better classification or elite split at each node.

To resolve the same, splitting measures are used like Entropy, Information Gain, Gini Index, etc.

Defining Entropy

“What is entropy?” In the Lyman words, it is nothing just the measure of disorder, or measure of purity. Basically, it is the measurement of the impurity or randomness in the data points.

A high order of disorder means a low level of impurity, let me simplify it. Entropy is calculated between 0 and 1, although depending upon the number of groups or classes present in the data set it could be larger than 1 but it signifies the same meaning, i.e. higher level of disorder.

For the sake of simple interpretation, let us confine the value of entropy between 0 and 1.

In the below image, an inverted “U” shape depicts the variation of entropy on the graph, the x-axis presents data points and the y-axis shows the value of entropy. Entropy is the lowest (no disorder) at extremes (both end) and maximum (high disorder) in the middle of the graph.

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение

“Entropy is a degree of randomness or uncertainty, in turn, satisfies the target of Data Scientists and ML models to reduce uncertainty.”

What is Information Gain?

The concept of entropy plays an important role in calculating Information Gain.

Information Gain is applied to quantify which feature provides maximal information about the classification based on the notion of entropy, i.e. by quantifying the size of uncertainty, disorder or impurity, in general, with the intention of decreasing the amount of entropy initiating from the top (root node) to bottom(leaves nodes).

The information gain takes the product of probabilities of the class with a log having base 2 of that class probability, the formula for Entropy is given below:

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение

Here “p” denotes the probability that it is a function of entropy.

Gini Index in Action

Gini Index, also known as Gini impurity, calculates the amount of probability of a specific feature that is classified incorrectly when selected randomly. If all the elements are linked with a single class then it can be called pure.

While designing the decision tree, the features possessing the least value of the Gini Index would get preferred. You can learn another tree-based algorithm(Random Forest).

The Gini Index is determined by deducting the sum of squared of probabilities of each class from one, mathematically, Gini Index can be expressed as:

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение

Where Pi denotes the probability of an element being classified for a distinct class.

Classification and Regression Tree (CART) algorithm deploys the method of the Gini Index to originate binary splits.

In addition, decision tree algorithms exploit Information Gain to divide a node and Gini Index or Entropy is the passageway to weigh the Information Gain.

Gini Index vs Information Gain

Take a look below for the getting discrepancy between Gini Index and Information Gain,

Conclusion

Gini index and Information Gain are used for the analysis of the real-time scenario, and data is real that is captured from the real-time analysis. In numerous definitions, it has also been mentioned as “impurity of data” or “ how data is distributed. So we can calculate which data is taking less or more part in decision making.

Today I end up with our top reads:

Oh great, you have made it to the end of this blog! Thank you for reading.

Источник

Валидация моделей машинного обучения

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение

На связи команда Advanced Analytics GlowByte и сегодня мы разберем валидацию моделей.
Иногда термин «валидация» ассоциируется с вычислением одной точечной статистической метрики (например, ROC AUC) на отложенной выборке данных. Однако такой подход может привести к ряду ошибок.

В статье разберем, о каких ошибках идет речь, подробнее рассмотрим процесс валидации и дадим ответы на вопросы:

Расширяем понятие валидации

Что не так с валидацией как вычислением одной точечной статистической метрики на отложенной выборке данных?

Аргумент против № 1: одна метрика не может учесть все аспекты качества модели. Качество модели измеряется не только предсказательной способностью, но и, например, стабильностью во времени.

Аргумент против № 2: количественные оценки не всегда согласуются с бизнес-метриками и поэтому вводятся дополнительные. Например, мы можем разработать модель с хорошей интегральной оценкой, но при попытке интерпретации модели в разрезе отдельных факторов может выясниться, что фактор, который по бизнес-логике при увеличении значения должен снижать прогнозный показатель, в разработанной модели, наоборот, его повышает.

Аргумент против № 3: точечная оценка может варьировать в зависимости от состава валидационной выборки, особенно это касается не сбалансированных выборок (с соотношением классов 1:50 или более значимым перекосом). Поэтому стоит дополнительно делать интервальные оценки.

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение

Аргумент против № 4: актуальные данные могут отличаться от исторических, на которых была построена модель, поэтому валидацию стоит делать и на актуальном срезе данных.

Аргумент против № 5: реальные проекты обычно представляют собой набор неоднородных (по сложности и перечню используемых технологий) скриптов, в которых могут быть неточности или неучтенные варианты поведения. Поэтому для корректной работы всего проекта необходимо проводить дополнительную проверку реализации модели, подготавливаемой к развертыванию, причем стоит учитывать не только зависимости между скриптами в проекте, но и порядок их запуска: при несоблюдении порядка они могут отработать без ошибок, но сформировать абсолютно не верный результат.

Валидация и жизненный цикл модели

Валидация — комплексный процесс, который осуществляется на протяжении всего жизненного цикла модели. Ее можно декомпозировать на составные части в соответствии с этапами жизненного цикла. На схеме ниже обозначено:

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение

Профилирование (аудит витрины) осуществляется на этапе подготовки данных. Здесь проверяется соответствие собранных данных поставленной задаче, а также с помощью простых метрик (например, число пропусков в данных, диапазон значений в разрезе отдельных атрибутов) определяется качество витрины.

Когда модель построена, выполняется первичная валидация, чтобы доказать работоспособность и оценить целесообразность внедрения разработанной модели.

На этапе внедрения проводится два вида проверок.

Тут может появиться вопрос, чем валидация отличается от мониторинга. Если коротко, то мониторинг — более легковесный процесс, проводимый с большей частотой.

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение

Методика валидации

Все используемые при валидации тесты можно разделить на две группы: количественные и качественные.

В качестве артефакта по результатам валидации предоставляется отчет:

Рассмотрим детальнее список тестов для моделей бинарной классификации на примере модели прогноза вероятности дефолта (PD-модели) по кредитному договору (подробнее о PD-моделях см. [1]).

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение

Количественная оценка

К группе относятся расчеты метрик и статистические тесты, которые оценивают качество модели на разных этапах и разных уровнях (перечисляем не все, возможны и другие).

1. Дискриминационная способность модели

После разработки модели первый вопрос, который интересует бизнес-заказчика: а насколько хорошо модель справляется со своей задачей? Если мы построили PD-модель, то этот вопрос звучит так: насколько хорошо модель отделяет клиентов, которые уйдут в дефолт, от тех, кто в дефолт не уйдет, и насколько лучше эта модель, чем случайное угадывание?

Чтобы ответить на это вопрос, проводим тесты:

В случае бинарного целевого события коэффициент Джини рассчитывается как отношение площадей двух фигур:

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение

Альтернативный способ определения метрики — пузырьковая сортировка (подробнее см. [2]). Пусть имеется список значений целевого события, порядок в котором совпадает с порядком значений вероятности, прогнозируемых моделью. Тогда показатель Swaps будет обозначать количество перестановок соседних элементов для приведения списка целевых событий к отсортированному виду без инверсий.

На примере ниже число таких перестановок Swaps = 2.

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение

где: индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение– число перестановок для валидируемой модели, индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение– для случайной модели.

Однако, как видно из такой интерпретации, рост коэффициента Джини не всегда означает повышение пользы модели для бизнеса, поскольку не подразумевает изменения в ранжировании в сегменте пользователей, который интересен с точки зрения бизнеса. Ведь при подсчете перестановок не учитываются позиции элементов: на рисунке ниже отображены две возможные модели, которые улучшают базовую на одну перестановку: до порога отсечки и после. Обе модели одинаково улучшат значение метрики Джини, но с точки зрения бизнес-постановки задачи первая модель лучше, так как улучшает ранжирование после порога, среди клиентов, которым будет выдан кредит. Поэтому наравне с Джини нужны другие метрики — о них дальше.

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение

О расчете коэффициента Джини для небинарных целевых событий см. в статье из цикла про риск-моделирование ([3]).

Если выборки не сбалансированы, то используется интервальная оценка с помощью техники бутстрэп. На основе исходной выборки генерируется B (

1000 и более) подвыборок, для каждой из которых рассчитывается коэффициент Джини. Затем проверяется, что заданный заранее перцентиль полученного распределения не пересекает фиксированный порог (например, если 2.5% перцентиль распределения коэффициентов Джини меньше 30%, то по тесту может быть выставлена оценка в виде красного сигнала).

Однако формирование подвыборок с помощью бутстрэпа – вычислительно сложная задача, которая может занять длительное время. С целью ее ускорения используется пуассоновский бутстрэп.

Извлечение с повторением элементов выборки размера n с фиксированной вероятностью индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучениеможно заменить на сэмплирование с помощью биномиального распределения индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучениечастот появления каждого элемента выборки. При условии достаточно большого размера выборки выполняется следующий переход от биномиального распределения к пуассоновскому [4]:

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение

2. Оценка стабильности

Мы разработали модель, проверили ее дискриминационную способность, задеплоили, но спустя несколько месяцев показатели нашей модели ухудшились. После выяснения причин оказалось, что для обучения были отобраны нерепрезентативные данные. Вернемся назад во времени, попробуем предотвратить такую ситуацию и добавим еще один блок в отчет о валидации: стабильность.

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение

где: индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение— доля наблюдений с i-м значением фактора; индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение— количество наблюдений, соответствующих i-му значению фактора; индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение— общее количество наблюдений в выборке ( индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение— валидационная выборка, индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение— выборка для разработки). (Если вы хотите почитать, в каких случаях еще используется PSI, см. например, статью про моделирование компоненты LGD из цикла про риск-моделирование [3].)

Один из способов интерпретации PSI – через дивергенцию Кульбака–Лейблера [5], меру удаленности двух распределений P и Q:

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение

Мера несимметрична (индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение) и из двух срезов данных мы не можем выбрать априорное распределение, с которым будет проводиться сравнение, поэтому для симметричности оценки можно использовать сумму двух мер от P до Q и от Q до P:

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение

Когда мы убедились в стабильности модели, надо проверить, что уверенность модели в сформированных прогнозах соответствует моделируемым значениям целевого события. Для этого применяется калибровка. Здесь мы кратко остановимся на том, как она работает, подробности будут описаны в статье, которая выйдет чуть позже (stay tuned).

Модель считается хорошо откалиброванной, если фактический уровень целевого события (доля наблюдений с фактическим целевым событием = 1) близок к средней прогнозируемой моделью вероятности. Для оценки качества калибровки модели можно проверять попадание наблюдаемого уровня целевого события в доверительный интервал предсказанных моделью вероятностей целевого события: в целом по модели или в рамках бакетов предсказанной вероятности.

Примеры тестов и метрик:

Для проведения биномиального теста диапазон всех вероятностей целевого события разбивается на бакеты по принятой в финансовой организации шкале (мастер-шкале) или по перцентилям. Для каждого бакета рассчитывается доверительный интервал по предсказаниям модели и определяется, попадает ли фактический уровень дефолта в доверительный интервал.

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение

Для формирования итогового решения о стратегии взаимодействия с клиентом может возникнуть необходимость определять разряд по заранее заданной шкале на основе значения вероятности дефолта, спрогнозированного моделью. В таком случае стоит проверить, что в распределении наблюдений по разрядам рейтинговой шкалы отсутствует перекос. Иными словами, чтобы предотвратить попадание большинства всех наблюдений в один-два разряда из всего набора.

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение

Для проверки концентрации используется индекс Херфиндаля–Хиршмана как в целом по выборке, так и в разрезе отдельных сегментов.

Рассчитывается по формуле:

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение

Подводя итог этого раздела, приведем пример пороговых значений метрик валидации моделей бинарной классификации и соответствующие им риск-зоны. В таблице для каждой метрики указаны пороговые значения риск-зон.

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение

Мы перечислили тесты, применимые к моделям в разных доменных областях. Но могут быть метрики, которые отражают специфику конкретного продукта. Например, при моделировании операционных рисков может быть установлено дополнительное ограничение, связанное с пропускной способностью подразделения, проводящего расследования по признанным моделью подозрительными наблюдениям. После того как модель присвоила скоры всем пользователям, топ 1% или 5% пользователей по скору передается для проверки такому подразделению, другие пользователи не будут проверяться. Поэтому необходимо, чтобы максимальное число клиентов с y_true=1 попали в топ 1% или топ 5%.

Также для отдельных моделей могут быть предусмотрены специфические тесты. Например, для LGD-моделей Loss Shortfall.

Loss Shortfall – метрика, указывающая, насколько потери от фактического дефолта оказались ниже, чем было предсказано моделью (методика расчета описана в [3]). По шкале выставления оценки для метрики Loss Shortfall видно (см. рисунок ниже), что оценка риска в данном случае производится консервативно, модель считается хорошей только в тех случаях, когда предсказанные потери выше, чем наблюдаемые.

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение

Качественные тесты

Не все аспекты качества модели можно оценить количественно, поэтому вместе с ними при валидации применяются качественные тесты. Что можно проверять с их помощью?

1. Качество документации модели. Для обеспечения воспроизводимости модели необходима хорошая документация.

Оценить качество документации можно, определив, насколько хорошо задокументированы:

2. Дополнительно можно проверить качество использованных при разработке данных:

Заказчик может дополнительно запросить интерпретацию модели: если это регрессионная модель, то коэффициенты факторов; если decision tree/decision list, то набор правил; если более сложные модели, то отчет интерпретаторов SHAP/LIME.

Эта информация поможет пройти приемку модели, поскольку наглядно показывает, что все важные фичи, на которых модель делает выводы, подкреплены бизнес-логикой.

Model performance predictor (MPP)

В определенных задачах бывает необходимо прогнозировать события, которые произойдут спустя месяцы. Например, клиент не выполнит свои обязательства по кредитному договору в течение года. Из-за этого лага возникает проблема: как понять, что модель стала хуже работать, до того как мы сможем увидеть это, до получения фактических значений целевого события?

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение

Для решения такой проблемы наряду с основной строится дополнительная модель — Model Performance Predictor (MPP) [6].

Схема обучения MPP-модели

индекс джини машинное обучение. Смотреть фото индекс джини машинное обучение. Смотреть картинку индекс джини машинное обучение. Картинка про индекс джини машинное обучение. Фото индекс джини машинное обучение

Для разработки MPP-модели используется тестовая выборка основной модели. Шаги по построению MPP-модели.

Заключение

В завершение сформулируем принципы, которые гарантируют, что валидация модели будет эффективна:

Бинарное целевое событие:

ТестБлокВиды тестирования по уровню «модель/фактор»Дополнительные уровни тестирования
Джини индекс: абсолютное значениеПредсказательная способностьНа уровне модели / факторовПо всей выборке / на уровне сегментов
Тест Колмогорова–СмирноваПредсказательная способностьНа уровне моделиПо всей выборке / на уровне сегментов
IVПредсказательная способностьНа уровне факторовПо всей выборке / на уровне сегментов
Тест хи-квадратКалибровкаНа уровне моделиПо всей выборке
Биномиальный тестКалибровкаНа уровне моделиПо всей выборке
Джини индекс: изменениеСтабильностьНа уровне моделиАбсолютное / относительное изменение относительно предыдущего среза
PSIСтабильностьНа уровне модели / факторовПо всей выборке / на уровне сегментов
Тест Колмогорова–СмирноваСтабильностьНа уровне факторовПо всей выборке / на уровне сегментов
Индекс Херфиндаля–ХиршманаКонцентрацияНа уровне моделиПо всей выборке / на уровне сегментов
VIFДополнительноНа уровне факторов для линейных моделейПо всей выборке
Парная корреляцияДополнительноНа уровне факторов для линейных моделейПо всей выборке
Значимость факторов (p-value)ДополнительноНа уровне факторов для линейных моделейПо всей выборке
ТестБлокВиды тестирования по уровню «модель/фактор»Дополнительные уровни тестирования
Джини индекс (Loss Capture Ratio): абсолютное значениеПредсказательная способностьНа уровне модели / факторовПо всей выборке / на уровне сегментов
Корреляция Спирмена: абсолютное значениеПредсказательная способностьНа уровне модели / факторовПо всей выборке / на уровне сегментов
MAEКалибровкаНа уровне моделиПо всей выборке
Тест Манна–УитниКалибровкаНа уровне моделиПо всей выборке
Джини индекс (Loss Capture Ratio): изменениеСтабильностьНа уровне моделиАбсолютное / относительное изменение относительно предыдущего среза
Корреляция Спирмена: изменениеСтабильностьНа уровне моделиАбсолютное / относительное изменение относительно предыдущего среза
PSIСтабильностьНа уровне модели / факторовПо всей выборке / на уровне сегментов
Тест Колмогорова–СмирноваСтабильностьНа уровне факторовПо всей выборке / на уровне сегментов
VIFДополнительноНа уровне факторов для линейных моделейПо всей выборке
Парная корреляцияДополнительноНа уровне факторов для линейных моделейПо всей выборке
Значимость факторов (p-value)ДополнительноНа уровне факторов для линейных моделейПо всей выборке

Материал подготовили: Илья Могильников (EienKotowaru), Александр Бородин (abv_gbc)

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *