в каком распределении случайной величины мода всегда равна медиане
5.2. Мода и медиана
Кроме математического ожидания и дисперсии в теории вероятностей применяется еще ряд числовых характеристик, в частности, мода и медиана случайной величины.
Модой 
Модой непрерывной случайной величины X называется такое ее значение 


На рис. 3 и 4 показана мода для дискретной и непрерывной случайной величины.
Если многоугольник распределения (кривая распределения) имеет два или несколько максимумов, то распределение называется Двухмодальным или многомодальным.
Иногда встречаются распределения, которые имеют минимум, но не имеют максимум. Такие распределения называются Антимодальными.
Медианой непрерывной случайной величины X (обозначение:





Геометрически вертикальная прямая 





Для дискретной случайной величины медиана обычно не определяется.
8.4. МОДА и МЕДИАНА (структурные средние)
Мода и медиана наиболее часто используемые в экономической практике структурные средние.
Мода – это величина признака (варианта), который наиболее часто встречается в данной совокупности, т.e. это варианта, имеющая наибольшую частоту.
В дискретном ряду мода определяется в соответствии с определением, т.е. это одна из вариант признака, которая в ряду распределения имеет наибольшую частоту.
Для интервального ряда моду находим по формуле (8.16), сначала по наибольшей частоте определив модальный интервал:
где х о – начальная (нижняя) граница модального интервала;
h – величина интервала;
fМо – частота модального интервала;
fМо-1 – частота интервала, предшествующая модальному;
fМо+1 – частота интервала следующая за модальным.
Медианой называется такое значение признака, которое приходится на середину ранжированного ряда, т.е. в ранжированном ряду распределения одна половина ряда имеет значение признака больше медианы, другая – меньше медианы.
В дискретном ряду медиана находится непосредственно по накопленной частоте, соответствующей номеру медианы.
В случае интервального вариационного ряда медиану определяют по формуле:

где хо – нижняя граница медианного интервала;
NМе – порядковый номер медианы (Σf/2);
S Me-1 – накопленная частота до медианного интервала;
fМе – частота медианного интервала.
Пример вычисления Моды.
Рассчитаем моду и медиану по данным табл. 8.4.
Таблица 8.4 – Распределение семей города N по размеру среднедушевого дохода в январе 2018 г. руб.(цифры условные)
| Группы семей по размеру дохода, руб. | Число | ||||
| До 5000 | 600 | 600 | 6 | ||
| 5000-6000 | 700 | 1300 (600+700) | 13 | ||
| 6000-7000 | 1700 (fМо-1) | 3000 (S Me-1 ) (хо) | 2500 (fМе) | 5500 (S Me) | 55 |
| 8000-9000 | 2200 (fМо+1) | 7700 | 77 | ||
| 9000-10000 | 1500 | 9200 | 92 | ||
| Свыше 10000 | 800 | 10000 | 100 | ||
| Итого | 10000 | – | – |
Пример вычисления Медианы интервального вариационного ряда. Рассчитаем медиану по формуле (8.17):
1) сначала находим порядковый номер медианы: NМе = Σfi/2= 5000.
2) по накопленным частотам в соответствии с номером медианы определяем, что 5000 находится в интервале (7000 – 8000), далее значение медианы определим по формуле (8.17):
Вывод: по моде – наиболее часто встречается среднедушевой доход в размере 7730 руб., по медиане – что половина семей города имеет среднедушевой доход ниже 7800 руб., остальные семьи – более 7800 руб.
Соотношение моды, медианы и средней арифметической указывает на характер распределения признака в совокупности, позволяет оценить его асимметрию.
Если М о о следует сделать вывод о левосторонней асимметрии ряда.
Распределения и моменты
Закон распределения случайной величины
Для характеристики вероятности появления различных значений случайной величины используют законы распределения вероятностей случайной величины. При этом используют два вида представления законов распределения: интегральный и дифференциальный.
Интегральный закон, или функция распределения вероятностей случайной величины X, называется функция, значение которой для любого x является вероятностью события, заключающегося в том, что случайная величина X принимает значения, меньшие x, то есть функция F(x)=P
Рассмотрим типичную задачу по вычислению математического ожидания на бинарных опционах. Допустим, брокер на выигрыш выплачивает 75% от размера ставки, а на проигрыш забирает всю ставку 100%. Найдем матожидание для метода прогнозирования, который дает 65% успешных сделок.
Собираем это всё в сумму по формуле математического ожидания для дискретного распределения и получаем.
Положительное математическое ожидание говорит о том, что данный метод прогнозирования можно использовать на бинарных опционах. Трейдер будет в прибыли при большом количестве сделанных ставок, теоретически при бесконечном числе ставок (и если у него хватит начального депозита на просадки в серии проигрышей).
А если метод прогнозирования трейдера дает только 65% прибыльных сделок?
В этом случае p=0.55, q=0.45. Подставляя эти данные в формулу математического ожидания для дискретного распределения, получаем μ=-0.0375.
Отрицательное матожидание говорит о том, что данный метод прогнозирования ни в коем случае нельзя применять. Если с таким методом прогнозирования трейдер получил прибыль на конечной серии ставок, то это простое случайное везение.
Формула математического ожидания позволяет найти пограничное значение доли прибыльных сделок, которое необходимо получить от метода прогнозирования, и вывести основную формулу бинарных опционов. Основная формула бинарных опционов соответствует нулевому математическому ожиданию.
На Форексе и на фондовой бирже всё вычисляется аналогично. С той лишь разницей, что там параметры α и ß определяются через положения ордеров TakeProfit и StopLoss. Суть параметров α и ß, это доли прибыли и убытка от размера собственных средств трейдера, участвующих в сделке.
Моменты распределения
Начальный момент k-го порядка вычисляется по следующим формулам.
Для дискретного распределения:
Для непрерывного распределения:
Нулевой начальный момент всегда равен единице, так как эти формулы при k=0 переходят в условия нормировки. А первый начальный момент (k=1), это как раз и есть математическое ожидание, о котором говорилось выше.
Центральный момент k-го порядка вычисляется по следующим формулам.
Для дискретного распределения:
Для непрерывного распределения:
Для центральных моментов также нулевой момент всегда равен единице. А первый центральный момент всегда равен нулю. Мы, как бы, делаем такой параллельный перенос, при котором точка математического ожидания переходит в точку ноль.
4.2. Медиана и мода случайной величины
Если многоугольник распределения или кривая распределения имеют более одного максимума, то распределение называют полимодальным. Если же многоугольник распределения или кривая распределения имеют ровно один максимум, то распределение называют унимодальным.
Например, распределение Коши с параметром μ унимодально, и мода равна μ-значению параметра.
В общем случае мода и математическое ожидание случайной величины не совпадают. В частном случае, когда распределение является симметричным, существуют мода и математическое ожидание, то они совпадают друг с другом и с центром симметрии распределения.
Например, у нормального распределения с параметрами m и σ мода равна математическому ожиданию и равна значению параметра m.
В случае симметричного унимодального распределения медиана совпадает с математическим ожиданием и модой.
4.3. Дисперсия и среднеквадратическое отклонение случайной величины
Дисперсия и среднеквадратическое отклонение относятся к характеристикам вариации. Характеристики вариации уточняют представление о распределении случайной величины, давая представление о степени рассеивания случайной величины относительно центра группирования.
Математическое ожидание и дисперсия случайной величины являются ее основными числовыми характеристиками.
Т.е. дисперсия равна математическому ожиданию квадрата отклонения случайной величины от своего математического ожидания.
Если случайная величина Х дискретна и известен ее ряд распределения <рk>, то дисперсию находят как
если же случайная величина Х непрерывна и известна ее плотность f(x), то дисперсию находят как
Вычислим дисперсию различных распределений.
Дисперсия случайной величины, имеющей распределение Бернулли с параметром р:
Дисперсия случайной величины, имеющей биномиальное распределение с параметрами n и р:
Дисперсия случайной величины, имеющей геометрическое распределение с параметром р:
Дисперсия случайной величины, имеющей распределение Пуассона с параметром λ:
Дисперсия случайной величины, имеющей равномерное распределение на отрезке [а,b]:
Дисперсия случайной величины, имеющей показательное распределение с параметром λ:
Е(λ), то
Дисперсия случайной величины, имеющей нормальное распределение с параметрами m и σ 2 :

Заменой 
Свойства дисперсии следуют из определения дисперсии и свойств математического ожидания.
Теорема (знак дисперсии):
Дисперсия любой случайной величины неотрицательна.
Все слагаемые в сумме неотрицательны, следовательно 
Теорема (дисперсия постоянной):
Дисперсия постоянной равна нулю.
Теорема (дисперсия произведения случайной и постоянной величин):
Дисперсия произведения случайной величины Х на постоянную C равна произведению дисперсии случайной величины Х на квадрат постоянной: D(CX) = С2DХ.
Теорема (дисперсия суммы случайной и постоянной величин):
Дисперсия случайной величины Х не изменится, если к случайной величине прибавить постоянную, т.е. D(C+X)=DX
Дисперсия случайной величины имеет размерность квадрата случайной величины, в то время как математическое ожидание имеет размерность самой случайной величины. Для наглядной характеристики рассеивания удобнее пользоваться величиной, размерность которой совпадаете размерностью случайной величины. Для этого из дисперсии извлекают квадратный корень. Полученную величину называют среднеквадратическим отклонением случайной величины X. Среднеквадратическое отклонение обозначают σ(Х).
Из свойств дисперсий вытекают соответствующие свойства среднеквадратического отклонения:
1) Среднеквадратическое отклонение любой случайной величины неотрицательно;
В математической модели случайная величина описывает те или иные параметры изучаемого случайного явления. Числовые значения исходных параметров зависят от выбора масштаба его измерения (например, рубли, тысячи рублей, миллионы рублей). При этом числовые характеристики случайной величины зависят от выбора масштаба измерения исходного параметра.
Для изучения свойств cлучайных величин, не зависящих от выбора масштаба измерения и положения центра группирования, исходную случайную величину приводят к некоторому стандартному, нормированному виду.
Если MX = 0 и DX = 1, то случайную величину Х называют нормированной. Для того, чтобы отнормировать случайную величину, из нее надо вычесть математическое ожидание и поделить на cреднеквадратическое отклонение:
Из свойств математического ожидания и среднеквадратического отклонения следует, что
т.е. случайная величина X * является нормированной.
Нормируя случайную величину, мы как бы меняем начало отсчета и масштаб измерения исходного периметра таким образом, что МХ * =0 и единицей измерения становится σ(Х) – среднеквадратическое отклонение случайной величины X. При этом сама случайная величина X* является безразмерной и не зависит от выбора масштаба измерения исходного параметра.
4. Мода. Медиана. Генеральная и выборочная средняя
Мода на экране, медиана в треугольнике, а средние – это температура по больнице и в палате. Продолжаем наш практический курс занимательной статистики (Занятие 1) изучением центральных характеристик статистической совокупности, названия которых вы видите в заголовке. И начнём мы с его конца, поскольку о средних величинах речь зашла практически с первых же абзацев темы. Для подготовленных читателей оглавление:
ну а «чайникам» лучше ознакомиться с материалом по порядку:
Итак, пусть исследуется некоторая генеральная совокупность объёма 

Генеральной средней называется среднее арифметическое всех значений этой совокупности:
Если среди чисел 

варианта 

варианта 

варианта 

…
варианта 

Живой пример вычисления генеральной средней встретился в Примере 2, но чтобы не занудничать, я даже не буду напоминать его содержание.
Далее. Как мы помним, обработка всей генеральной совокупности часто затруднена либо невозможна, и поэтому из неё организуют представительную выборку объема 
Выборочной средней называется среднее арифметическое всех значений выборки: 
и при наличии одинаковых вариант формула запишется компактнее:



Выборочная средняя 

Практику начнём, а точнее продолжим, с дискретного вариационного ряда и знакомого условия:
По результатам выборочного исследования 
Это числа из Примера 4 (см. по ссылке выше), но теперь нам требуется: вычислить выборочную среднюю, и, не отходя от станка, найти моду и медиану.
Как решать задачу? Если нам даны первичные данные (исходные необработанные значения), то их можно тупо просуммировать и разделить результат на объём выборки:

Но во многих задачах требуется составить вариационный ряд (см. Пример 4): 
– или же этот ряд предложен изначально (что бывает чаще). И тогда, мы, конечно, используем «цивилизованную» формулу:
Далее. Мода и медиана. Эти понятия тоже вводятся как для генеральной, так и для выборочной совокупности, и определения я сформулирую в общем виде.
Мода. Мода 


Иногда таковых значений несколько (с одинаковой максимальной частотой), и тогда модой считают каждое из них.
Если все или почти все варианты различны (что характерно для интервального ряда), то модальное значение определяется несколько другим способом, о котором во 2-й части урока.
Медиана. Медиана 
* не важно, дискретного или интервального, генеральной совокупности или выборочной.
Медиану можно отыскать несколькими способами.
Если даны первичные данные, то сортируем их по возрастанию либо убыванию (см. Задание 1) и находим середину ранжированного ряда: 

– если совокупность содержит нечётное количество чисел (наш случай), то делим её объём пополам: 
– если совокупность содержит чётное количество чисел, например, 20, то делаем то же самое: 

Напоминаю, что изложенная инструкция работает для упорядоченного (по возрастанию либо убыванию) ряда. Но есть и более быстрый путь, где ничего не нужно сортировать. Это использование стандартной функции Экселя:
– забиваем в любую свободную ячейку =МЕДИАНА(, выделяем мышью все числа, закрываем скобку ) и жмём Enter. Попробуйте самостоятельно. Этот способ удобен, когда вам дано много значений.
Следует отметить, что в Экселе существуют и отдельные функции для вычисления средней (=СРЗНАЧ), моды (=МОДА) и ещё много чего, но я против использования этих функций в учебном курсе, за исключением случаев, где это действительно целесообразно. …Почему против? Потому что они не помогают понять суть показателей и, более того, отупляют. Так, среднюю гораздо вразумительнее рассчитывать следующим образом:
=СУММ(выделяем мышью диапазон) / объем совокупности. Вычисления рекомендую опробовать лично (ссылка выше).
Ситуация вторая. Когда составлен либо изначально дан готовый дискретный ряд. Тут можно поступить «по любительски» – начать отсчитывать примерно равное количество чисел по краям ряда: 
после чего мысленно либо на черновике их отбрасывать, в данном случае отбросим по 8 штук сверху и снизу: 
откуда становится ясно, что медианное значение:
Второй способ более академичен, находим относительные накопленные частоты: 
и то значение «икса», у которого 



Запишем красивый ответ:
Полученные значения близки друг к другу, и это говорит о симметрии вариационного ряда относительно центра, что хорошо видно по полигону частот (см. чертёж выше). И с высокой вероятностью можно утверждать, что примерно так же распределена и вся генеральная совокупность (все рабочие цеха).
И тут возникает следующий закономерный вопрос: а зачем вообще нужна мода с медианой? – ведь есть средняя.
А дело в том, что в ряде случаев среднее значение неудовлетворительно характеризует центральную тенденцию статистической совокупности:
Известны результаты продаж пиджаков в универмаге города: 
где, 

…ну, а если вам не нравятся пиджаки, то представьте какие-нибудь шляпки с цветочками 🙂
Также обратим внимание, что в условии задачи ничего не сказано о том, генеральная ли это совокупность или выборочная, и в подобной ситуации я не рекомендую ничего додумывать – среднюю просто обозначаем через 
Вычислить среднюю – в экселевском файле уже забиты исходные данные и приведена краткая инструкция. Если под пальцами нет Экселя, то считаем на калькуляторе. Не ленимся! – заданий я предлагаю немного (у вас своих хватает :)), но прорешать их очень важно! Краткое решение для сверки в конце урока.
…какие мысли на счёт полученного значения 
И, конечно, важнейший показатель здесь мода: 

Ещё хуже (в содержательном плане) ситуация с медианой – продолжаем решать задачу в Экселе (ссылка выше) либо в тетради! Особо зоркие читатели медиану углядят и устно, и в конце урока я привёл способ, который просто бросился мне в глаза.
Теперь надеваем пиджаки / шляпы и возвращаемся на фабрику, где бухгалтер Петрова вычислила генеральную среднюю заработную плату рабочих: 
Что будет, если к совокупности добавить руководящий персонал и директора Петрова? Средняя зарплата немного увеличится: 
А вот если сюда добавить олигарха Петровского, то полученная средняя 
Поэтому, если в статистической совокупности есть «аномальные» отклонения в ту или иную сторону, то в качестве оценки центрального значения как нельзя лучше подходит медиана, которая в нашем условном примере будет равна, скажем, 
Как вычислить моду, медиану и среднюю интервального ряда?
Начнём опять с ситуации, когда нам даны первичные статические данные:
По результатам выборочного исследования цен на ботинки в магазинах города получены следующие данные (ден. ед.): 
– это в точности числа из Примера 6 статьи об интервальном вариационном ряде.
Но теперь нам нужно найти среднюю, моду и медиану.
Решение: чтобы найти среднюю по первичным данным, лучше всего просуммировать все варианты и разделить полученный результат на объём совокупности:

Эти подсчёты, кстати, займут не так много времени и при использовании оффлайн калькулятора. Но если есть Эксель, то, конечно, забиваем в любую свободную ячейку =СУММ(, выделяем мышкой все числа, закрываем скобку ), ставим знак деления /, вводим число 30 и жмём Enter. Готово.
Что касается моды, то её оценка по исходным данным, становится непригодна. Хоть мы и видим среди чисел одинаковые, но среди них запросто может найтись пять так шесть-семь вариант с одинаковой максимальной частотой, например, частотой 2. Кроме того, цены могут быть округлёнными. Поэтому модальное значение рассчитывается по сформированному интервальному ряду (о чём чуть позже).
Чего не скажешь о медиане: забиваем в Эксель =МЕДИАНА(, выделяем мышью все числа, закрываем скобку ) и жмём Enter: 
Но в Примере 6 была проведена сортировка по возрастанию (вспоминаем и сортируем – ссылка выше), и это хорошая возможность повторить формальный алгоритм отыскания медианы. Делим объём выборки пополам:


Ситуация вторая. Когда дан готовый интервальный ряд (типичная учебная задача).
Продолжаем анализировать тот же пример с ботинками, где по исходным данным был составлен ИВР. Для вычисления средней потребуются середины 

– чтобы воспользоваться знакомой формулой дискретного случая: 


По сути дела, здесь мы приблизили интервальный ряд дискретным, и это приближение оказалось весьма эффективным. Впрочем, особой выгоды тут нет, т.к. при современном программном обеспечении не составляет труда вычислить точное значение даже по очень большому массиву первичных данных. Но это при условии, что они нам известны 🙂
С другими центральными показателями всё занятнее.
Чтобы найти моду, нужно найти модальный интервал (с максимальной частотой) – в данной задаче это интервал 






Таким образом:


Не вдаваясь в геометрию формулы, просто приведу гистограмму относительных частот и отмечу 

откуда хорошо видно, что мода смещена относительно центра модального интервала в сторону левого интервала с бОльшей частотой. Логично.
Справочно разберу редкие случаи:
– если модальный интервал крайний, то 

– если обнаружатся 2 модальных интервала, которые находятся рядом, например, 


– если между модальными интервалами есть расстояние, то применяем формулу к каждому интервалу, получая тем самым 2 или бОльшее количество мод.
Вот такой вот депеш мод 🙂
И медиана. Если дан готовый интервальный ряд, то медиана рассчитывается чуть по менее страшной формуле, но сначала нудно (описка по Фрейду:)) найти медианный интервал – это интервал, содержащий варианту (либо 2 варианты), которая делит вариационный ряд на две равные части.
Выше я рассказал, как определить медиану, ориентируясь на относительные накопленные частоты 


Всем понятен смысл чисел в правом столбце? – это количество вариант, которые успели «накопиться» на всех «пройденных» интервалах, включая текущий.
Поскольку у нас чётное количество вариант (30 штук), то медианным будет тот интервал, который содержит 30/2 = 15-ю и 16-ю варианту. И ориентируясь по накопленным частотам, легко прийти к выводу, что эти варианты содержатся в интервале 
Формула медианы: 





Таким образом:


И справочно особые случаи:
– Если медианным является крайний левый интервал, то 
– Если вариационный ряд содержит чётное количество вариант и две средние варианты попали в разные интервалы, то объединяем эти интервалы, и по возможности удваиваем предыдущий интервал
Ответ: 
Здесь центральные показатели оказались заметно отличны друг от друга, и это говорит об асимметрии распределения, которая хорошо видна по гистограмме.
И задача для тренировки:
Для изучения затрат времени на изготовление одной детали рабочими завода проведена выборка, в результате которой получено следующее статистическое распределение: 
…да, тематичная у меня получилась статья 🙂
Найти среднюю, моду и медиану.
Это, кстати, уже каноничная «интервальная» задача, в которой исследуется непрерывная величина – время.
Решаем эту задачу в Экселе – все числа и инструкции уже там. Если нет Экселя, считаем на калькуляторе, что в данном случае может оказаться даже удобнее. Образец решения, как обычно, в конце урока.
Несмотря на разнообразия рассмотренных показателей, их всё равно бывает не достаточно. Существуют крайне неоднородные совокупности, у которых варианты «кучкуются» во многих местах, и по этой причине средняя, мода и медиана неудовлетворительно характеризуют центральную тенденцию.
В таких случаях вариационный ряд дробят с помощью квартилей, децилей, а в упоротых специализированных исследованиях – и с помощью перцентилей.
Квартили упорядоченного вариационного ряда – это варианты 

В тяжёлых случаях проводится разбиение на 10 частей – децилями 
И в очень тяжелых случаях в ход пускается 99 перцентилей 
И после разбиения вариационного ряда каждый участок исследуется по отдельности – рассчитываются локальные средние показатели, локальные показатели вариации и т.д.
В учебном курсе квартили, децили, перцентили встречаются редко, и посему я оставляю этот материал (их нахождение) для самостоятельного изучения.
Ну а сейчас мы перейдём к рассмотрению другой группы статистических показателей – как раз к показателям вариации.
Пример 9. Решение: заполним расчётную таблицу: 
Вычислим среднюю:

По правому столбцу определяем «иксовое» значение, которое делит совокупность на 2 равные части: 
Кроме того, медиану легко усмотреть и устно – поскольку половина совокупности равна 

Пример 11. Решение: поскольку длина внутренних интервалов равна 
Вычислим выборочную среднюю:

Моду вычислим по формуле 





Таким образом:

Анализируя накопленные частоты, приходим к выводу, что медианным является интервал 
Медиану вычислим по формуле 





Таким образом:

Ответ: среднее время изготовления детали характеризуется следующими центральными характеристиками:
Автор: Емелин Александр
(Переход на главную страницу)

































