09.01.2021

Элементы теории вероятностей и математической статистики


Теория вероятностей, как известно, — математическая наука, изучающая закономерности в случайных явлениях.

При исследовании и изучении количественных и качественных характеристик элементарных актов и подпроцессов в угольных шахтах повсеместно приходится сталкиваться с влиянием на них случайных факторов. Производственно-технологическим процессам горного предприятия в той или иной мере сопутствуют случайные явления, обусловливающие в значительной степени эти процессы как случайные. И поэтому для изучения и установления закономерностей случайных явлений, а также количественной оценки влияния случайных факторов на элементарные акты, подпроцессы и процессы на поведение элементов в системе необходимо знание методов теории вероятностей и математической статистики.

Основополагающими сведениями, понятиями и элементами теории вероятностей и математической статистики, позволяющими количественно и качественно изучить влияние случайных факторов в горном деле на производственно-технологические процессы, являются:

— формула полной вероятности;

— теорема гипотез (формула Бейеса);

— частная и общая теоремы о повторении опытов;

— случайные величины и законы их распределения;

— числовые характеристики функций случайных величин;

— предельные теоремы теории вероятностей;

— определение неизвестных параметров распределения и доверительных интервалов по статистическим данным;

— проверка правдоподобия гипотез;

— проблема связи.

Формула полной вероятности является следствием двух теорем теории вероятностей — теоремы сложения и теоремы умножения вероятностей. Формула полной вероятности записывается в виде

где Р(А) — вероятность события А;

Р(Нi) — вероятность i-й гипотезы;

n — число всех гипотез, образующих группу несовместных событий;

Р(А/Н1) — условная вероятность события А при условии, что произошла гипотеза Нi.

Пример. На шахте для оборудования и очередного пуска лавы, имеются три механизированных очистных комплекса. Коэффициент технической надежности первого — 0,90; второго — 0,86; третьего — 0,97. Наугад выбирается один из комплексов и производится опробование в лаве. Найти вероятность выхода из строя комплекса из-за технической ненадежности.

Так как имеются три равно возможные гипотезы — выбора одного из трех комплексов, то вероятности этих гипотез будут

Условные вероятности выхода из строя из-за технической ненадежности при этих гипотезах

Вероятность выхода из строя комплекса из-за технической ненадежности

Формула Бейеса — следствие теоремы умножения и формулы полной вероятности

Пример. Участок шахтного поля (например, этаж) обязательно имеет геологические нарушения — крупные и мелкие. Вероятность встречи крупных нарушений равна 0,3, а мелких — 0,7. При работе очистного комплекса за какое-то время t вероятность того, что при встрече крупного нарушения необходимо комплекс демонтировать, равна 0,9, а при встрече мелкого — 0,2. За время работы t комплекс не был демонтирован. Найти вероятность наличия мелких нарушений на участке.

В результате работы комплекса за время t имеется событие — комплекс не демонтирован. Условные вероятности этого события при гипотезах Н1 и Н2 — встречи крупного и мелкого нарушений

Вероятности этих гипотез до опыта

По формуле Бейеса вероятность гипотезы Н2 за время t равна

В математической статистике при повторении одних и тех же опытов различают вероятность появления события А как зависимого и независимого. В первом случае вероятность события А во всех опытах одна и та же, а во втором — она меняется от опыта к опыту. Первый случай определяет частная теорема о повторении опытов, а второй — общая теорема.

При n-независимых опытах, в каждом из которых событие А появляется с вероятностью р, вероятность появления ровно m раз события есть (частная теорема о повторении опытов)

Пример. Шахта имеет 4 одинаковых лавы, причем вероятность простоя каждой лавы qi =0,4, а вероятность безотказной работы рi =0,6. Найти вероятность того, что в одновременной работе будут участвовать три лавы.

Согласно частной теореме, это событие будет

При общей теореме о повторении опытов вероятность того, что событие А в n-независимых опытах появится ровно m раз, равна коэффициенту при zm в выражении производящей функции

где фn(z) — производящая функция;

z — произвольный параметр;

рi — вероятность появления события А в i-м опыте;

Пример. Шахта имеет 4 лавы, причем вероятности простоев каждой из лав р1=0,3; р2=0,4; р3=0,45; р4=0,6, а вероятности безотказной их работы соответственно q1=0,7; q2=0,6; q3=0,55; q4=0,4.

Найти вероятность того, что в произвольный момент времени будут простаивать две лавы.


Составляется производящая функция:

Согласно производящей функции (2.4), искомая вероятность — 0,3744.

Из этой же производящей функции нетрудно определить вероятности простоев: ни одной лавы — 0,0925, одной лавы — 0,3152, трех лав — 0,1855, четырех лав — 0,0324.

Чрезвычайно важным в теории вероятностей является понятие случайной величины, «которая в результате опыта может принять то или иное значение, неизвестное заранее — какое именно». В соответствии с этим очень важно понятие «закон распределения случайной величины» как соотношение, определяющее связь между возможными значениями случайной величины и соответствующими им вероятностями. Закон распределения выражается для дискретных величин в виде ряда распределения, для непрерывных — в виде функции распределения.

Функция распределения случайной величины X определяет вероятность события Х меньше х (где х — некоторая текущая переменная) и представляется в виде

Функцию распределения F(x) иногда называют интегральной функцией или интегральным законом распределения.

Иногда закон распределения непрерывной случайной величины удобнее представлять в виде функции плотности вероятности f(x). Вероятность Р(а меньше х меньше b) того, что значение, принятое случайной величиной X, попадет в промежуток (а, b), есть

Функция распределения величины X в промежутке (—00, +00) соответственно равна

В теории вероятностей и математической статистике рассматриваются различные законы распределения. Для непрерывных величин используются функции равномерного, нормального, логарифмически-нормального, Вейбулла, гамма, показательного, Бета, Стьюдента, Фишера и других распределений. Для дискретных величин используются законы распределения — биномиального, гипергеометрического, Пуассона, геометрического, отрицательного биномиального и т. д.

Хотя закон распределения в достаточной мере характеризует случайную величину, однако на практике удобнее пользоваться числовыми характеристиками функций случайных величин: математическим ожиданием, дисперсией, моментом высших порядков. Оперирование только числовыми характеристиками позволяет свести объем сбора и обработки опытных данных к минимуму, устанавливать законы распределения одних случайных величин косвенно на основании известных законов распределения других случайных величин.

Математическое ожидание случайной величины X определяется по формуле теории вероятностей

Дисперсия величины X определяется по формуле

Пример. Время отработки оконтуренного столба по падению пласта в сутки — величина случайная. Закон распределения этой величины при отработке аналогичных столбов нормальный:

где t — время как переменная случайная величина;

180 и 120 — параметры нормального закона распределения.

Плотность нормального закона распределения времени отработки столба

Математическое ожидание времени отработки столба

то МТст=180 суток, т. е. параметр нормального закона 180 выражает математическое ожидание времени отработки столба.

Аналогично параметр 120 определяет среднеквадратическое отклонение времени отработки столба.

В практических приложениях теории вероятностей очень важную роль играют предельные теоремы вероятностей, закон больших чисел и центральная предельная теорема.

Закон больших чисел формулируется следующим образом:

«При достаточно большом числе независимых опытов среднее арифметическое наблюдаемых значений случайной величины сходится по вероятности к ее математическому ожиданию».

В виде формулы эта теорема записывается следующим образом:

где n — число независимых опытов;

е и b — произвольно малые положительные числа. Обобщенная теорема Чебышева формулируется так.

Если Х1, Х2, ..., Хn — независимые случайные величины. с математическими ожиданиями МХ1, МХ2, .... МХn и дисперсиями DX1, DХ2, ..., DХn и если все дисперсии ограничены сверху одним и тем же числом Ln, то при возрастании п среднее арифметическое наблюдаемых значений величин x1, x2, ..., хn сходится по вероятности к среднему арифметическому их математических ожиданий.

Центральная предельная теорема формулируется следующим образом:

«Если X1, Х2, .... Хn — независимые случайные величины, имеющие один и тот же закон распределения с математическим ожиданием МХ и дисперсией DХ, то при неограниченном увеличении n закон распределения суммы Yn=EX неограниченно приближается к нормальному».

В виде формулы центральная предельная теорема может быть записана следующим образом:

где а и в — пределы участка случайной величины Y;

Ф* — нормальная функция распределения.

Пример. Ежегодно на шахте производится осмотр 200 раз выработок, закрепленных рамной металлической крепью. При каждом осмотре математическое ожидание числа деформированных рам равно 3, а среднее квадратическое отклонение этого числа — 2,5. Найти приближенно вероятность того, что за год по шахте будет обнаружено от 500 до 700 деформированных рам.

Общее число деформированных рам

где Xi — число обнаруженных деформированных рам при i-м осмотре.

Так как Хi имеет одинаковые законы распределения, то Условия центральной предельной теоремы соблюдены. Можно считать, что 200 осмотров вполне достаточно для применения центральной предельной теоремы.

Имеется

Следовательно, с вероятностью 0,9954 можно утверждать, что общее число обнаруженных деформированных рам не выйдет за пределы от 500 до 700.

В практических случаях чаще всего приходится имеет дело с ограниченным числом статистических опытных данных. Однако методы теории вероятностей и математической статистики с некоторой гарантией и уверенностью позволяют установить основные числовые характеристики случайных величин — математическое ожидание, дисперсию и моменты высших порядков — на основе обработки ограниченного числа данных, используя положения, сформулированные теоремами о законе больших чисел и центральной предельной.

Для системы n случайных величин х1, х2, .. ., хn математическое ожидание и дисперсия, полученные в результате воспроизведения n независимых опытов, приближенно равны:

Однако приближенные оценки числовых характеристик случайной величины, полученные на основании формулы (2.7), требуют, в свою очередь, установления точности и надежности из-за ограниченности количества выборок или опытов. Оценка точности и надежности производится с помощью известного в теории вероятностей метода доверительных интервалов и доверительных вероятностей.

При использовании метода доверительных интервалов и доверительных вероятностей для системы n независимых случайных величин (при n = 10—15) на основании центральной предельной теоремы обычно постулирует нормальный закон распределения.

Предположим, что известна величина дисперсии DХ. Определим такую величину ев, для которой

Величина в с учетом постулирования нормального закона

Ориентировочно значение ом можно принять

где аrg Ф*(1+в/2) — функция, обратная Ф*(х), т. е. такое

значение аргумента, при котором нормальная функция распределения равна х.

И тогда доверительный интервал для оценки Хср будет

Оценка среднеквадратического отклонения определяется по формуле

Доверительный интервал для оценки дисперсии

Пример. В шахте была, проведены хрономегражные наблюдения и измерения скорости движения электровоза с груженым составом с углем (м/сек). Всего было произведено 16 измерений:

Требуется найти оценку для математического ожидания (среднее), оценку для дисперсии, доверительные интервалы для них по известной доверительной вероятности 0,85.

Оценка математического ожидания скорости движения состава по формуле (2.7)

Оценка дисперсии скорости движения состава по формуле (2.7)

и среднеквадратического отклонения ом

Из специальной таблицы значение t для доверительной вероятности 0,85 равно 1,44.

И тогда доверительные границы для математического ожидания будут

Доверительный интервал для оценки математического ожидания

Оценка среднеквадратического отклонения по формуле (2.11)

Доверительный интервал оценки дисперсии, согласно формуле (2.12),

Очень часто на практике необходимо оценить неизвестную вероятность р события А по его частоте р* при n-независимых опытах или наблюдениях. В теории вероятностей значение р определяется по формуле

Пример. В лаве был произведен осмотр секций механизированной крепи, общее число которых равно 200. При этом была установлена частота события «полная исправность секций» р*, равная 0,9. Определить вероятность р при 95%-ном доверительном интервале (доверительный интервал этой вероятности при тех же условиях).

По специальной таблице tв при 95%-ном доверительном интервале равно 1,96. По формуле (2.13) вероятности р1 и р2 будут

Доверительный интервал значения р при 95%-ном доверительном интервале

Аналогично при ограниченности статистических данных также важным вопросом теории вероятности и математической статистики является согласованность теоретического и статистического распределения вероятностей. Практически между статистическим и теоретическим распределениями имеются более или менее существенные расхождения, которые требуется проверить с помощью «критерия согласия».

Критерии согласия устанавливают меру или степень расхождения теоретической вероятности рi и частоты рi* и могут быть определены по формуле

где Сi — «вес» разряда (обратно пропорциональный вероятностям разрядов pi);

k — число разрядов.

В математической статистике имеются различные методы оценки «критерия согласия» — x2-Пирсона, Колмогорова, Смирнова, Вилкоксона и др. Наиболее частое применение находит критерий х2-Пирсона.

К. Пирсон доказал, что если принять

то при больших n закон распределения величины U обладает свойством независимости от функции распределения, числа опытов n и определяется числом разрядов k. Критерий меры расхождения по Пирсону формулируется в виде

x2 зависит от числа «степеней свободы» r, равного числу разрядов k минус число независимых условий, наложенных на частоты р*.

Общая схема применения критерия такова:

— определяется мера расхождения по формуле (2.15);

— определяется число степеней свободы r;

— по r и x2 с помощью специальной таблицы определяется вероятность того, что величина, имеющая распределение x2 с r степенями свободы, превзойдет значение x2. При малой вероятности первоначально принятая гипотеза отвергается, при большой — считается непротиворечивой.

Пример. В лаве были, проведены хрономегражные статистические наблюдения непрерывного минутного грузопотока угля с общим числом наблюдений 200. Эти наблюдения соответственно разбиты на 8 разрядов:

mi — число наблюдений в i-м разряде или интервале.

По характеру случайных колебаний непрерывных грузопотоков можно судить о симметричности случайных отклонений в ту или иную сторону от среднего значения грузопотока. Исходя из этого можно принять нормальный закон распределения. Параметры этого закона — математическое ожидание и дисперсия — определяются следующим образом:

где хi — представитель i-го разряда.

Пользуясь теоретическим нормальным законом распределения с параметрами МХ=4,175 и o=0,95, находим вероятности попадания в разряды по формулам (2.6) и 2.13)

где хi, xi+1 — границы i-го разряда. Используя формулу Пирсона

определяем число степеней свободы как число разрядов за вычетом чисел наложенных связей, равное 3:

По специальной таблице находим для х2 (при r=5) соответствующие вероятности правдоподобия принятия гипотезы нормального закона: при х2x20,85 р=0,001.

Следовательно, искомая вероятность опровергает принятую гипотезу.

Проблемам связи и аппроксимации в математической статистике уделяется очень большое внимание. Издано много специальных математических и прикладных работ, посвященных вопросам корреляционного и регрессионного анализов. Ниже в специальном разделе будут рассмотрены вопросы, касающиеся основных элементов корреляционного и регрессионного анализов.

Группа методов математической статистики, применение которых позволяет установить связи и апцроксимацию отдельных опытно-статистических наблюдений и данных, характеризующих изучаемые реальные физические объекты, системы, процессы, подпроцессы, акты и т. д., известна как эмпирические методы корреляционного и регрессионного анализов.

Метод статистического анализа, применяющийся при обработке опытных данных и результатов наблюдений, случайных и выбранных из совокупности с распределенной по многомерному нормальному закону, называется корреляционным.

Метод статистического анализа, применяющийся при обработке опытных данных наблюдений совокупности и не подчиняющийся нормальному закону, для отыскания наилучшего аппроксимирующего приближения данных наблюдения, без учета флуктуации, называется регрессионным.

Различия между корреляционным и регрессионным анализами можно проиллюстрировать на следующих примерах.

Пример 1. В некоторой выработке, например в откаточном штреке, проводятся регулярно систематические ежесуточные наблюдения за смещением пород кровли, фиксируемые в одно и то же время суток. Задача состоит в выборе методов аппроксимации величины смещения кровли от времени.

Пример 2. В откаточном штреке совместно проводятся измерения смещения пород кровли и нагрузки на крепь. Необходимо установить характер связи между величинами смещения пород кровли и нагрузки на крепь, а также обосновать метод оценки этой связи.


Рассматриваемые примеры отличаются по характеру проведения наблюдения и природе наблюдаемых величин. В примере 1 одна из переменных — время — является не случайной величиной, а моменты замеров смещений устанавливаются не случайным образом самим наблюдателем. В примере 2 и смещения, и нагрузки при их одновременной выборке по наблюдениям — величины в одинаковой мере случайные. Причем в примере 2 характер распределения совокупности выборок может быть принят в первом приближении нормальным. Следовательно, в примере 1 правомерно использование метода регрессионного анализа, а в примере 2 — корреляционного.

На основании статистических данных методами корреляционного анализа можно установить корреляционную связь между двумя, тремя и более переменными. В математической статистике соответственно различают линейный и нелинейный двухфакторный, трехфакторный и многофакторный корреляционный анализы.

Установление линейной корреляционной зависимости двух случайных величин непосредственно опирается на предположение о совместности двухмерного нормального распределения. Вид распределения при двухмерной или парной корреляции определяется пятью параметрами — средними значениями и дисперсиями одномерных нормальных распределений корреляционных величин и коэффициентов корреляции.

Условные распределения корреляционных величин Х и Y

- для средних значений X и Y:

где Хср(Y) — условное распределение среднего значения Y при заданном X;

Yср(Х) — условное распределение среднего значения X при заданном Y;

r — коэффициент корреляции;

ox и oy — среднеквадратические отклонения;

- для дисперсий X и Y:

Коэффициент корреляции

где nb — число случайных выборок;

Хi, Yi — соответственно i-я случайная выборка величин X и Y.

Коэффициент корреляции характеризует степень тесноты линейной зависимости между случайными величинами.

В случае изменения X и Y средние значения условных распределений описывают прямые, которые называются прямыми регрессии.

Прямая регрессия Y по X

где вух — коэффициент регрессии Y относительно X. Прямая регрессия X по Y

где вху — коэффициент регрессии X относительно Y.

Коэффициенты регрессии определяются по формулам

Аналогично линейная корреляционная зависимость более чем двух переменных устанавливается в предположении существования многомерного нормального распределения совокупности случайных выборок. Соответственно могут быть определены параметры линейной многофакторной корреляционной модели — условные средние квадратические отклонения, частные коэффициенты корреляции и т. д.

Регрессионные методы анализа, использующиеся для наилучшей аппроксимации (как линейной, так и нелинейной) данных наблюдений, делятся на три категории — графические, «механические» и аналитические.

Наибольший интерес в математической статистике представляют аналитические методы, особенно метод наименьших квадратов.

При статистическом анализе зачастую приходится сталкиваться с задачей сглаживания случайных выборок опытных данных по некоторой заданной или известной аппроксимации. В этом случае такое сглаживание незакономерных случайных уклонений возможно методом наименьших квадратов. Этот метод при заданной форме аналитической зависимости позволяет выбрать ее числовые параметры так, чтобы эта зависимость наилучшим образом отображала бы опытно-статистические данные наблюдений или измерений. Этот метод основан на том, что сумма квадратов отклонений опытно-статистических данных от аппроксимирующей сглаживающей кривой обращается в минимум. Это условие можно представить в следующем виде:

где ф(Хi, а, b, с) — аппроксимирующая сглаживающая зависимость (линейная или нелинейная);

а, b, с — числовые коэффициенты или параметры сглаживающей зависимости.

Для подбора числовых параметров а, b, с, удовлетворяющих условию (2.20), необходимо продифференцировать уравнение (2.20) по а, b, с и приравнять частные производные нулю:


где (dф/da)i = ф'a(Xi, a, b, c, ...) — частные производные функции ф по параметру а в точке Xi;

(dф/db)i, (dф/dc)i — аналогично по параметру b, с в точке Хi.

Для любой зависимости вида Y=аХ+b параметры а и b отыскиваются по формулам

где MX, МY — соответственно математическое ожидание величин X и Y (используются эмпирические оценки Хср и Yср).

Для нелинейной зависимости параметры уравнений отыскиваются различными способами. Во многих случаях нелинейные зависимости удается привести к линейным, а затем определить соответствующие параметры приведенного линейного уравнения. Наибольший интерес представляют два способа приведения нелинейных зависимостей к линейному — непосредственная замена переменной и замена функции и переменной с помощью логарифмических преобразований.

Способ непосредственной замены переменной для приведения функции к линейной используется для следующих, практически часто встречающихся, зависимостей:


где а — заданная величина показателя степени.

В приведенных зависимостях возможна следующая замена в правой части уравнений:

И тогда после соответствующих подстановок нелинейные зависимости (2.23) преобразуются в линейные

Параметры а и b уравнения (2.24) определяются по формулам

где МХ' — математическое ожидание новой переменной X' (используется эмпирическая оценка Хcp).

Способ логарифмических преобразований приведения нелинейной функции к линейной можно использовать для следующих практически встречающихся зависимостей:

В отдельных случаях нелинейные зависимости нельзя привести к линейным формам. В этих случаях в математической статистике разработаны различные методы подбора параметров аппроксимирующих уравнений, использующие принцип сглаживания опытно-статистических данных методами наименьших квадратов. В частности, для параболы второго порядка, нередко использующейся на практике, подбор параметров уравнения производится следующим образом.

Уравнения параболы второго порядка в общем виде можно представить

Методом наименьших квадратов с использованием опытно-статистических данных параметры этого уравнения (2.27) определяются по формулам



Аналогично с использованием метода наименьших квадратов определяются параметры параболических уравнений третьего и более высшего порядков, а также полиномов некоторой степени.

Теснота связи при линейной аппроксимации устанавливается коэффициентом корреляции, а при нелинейной — корреляционным отношением.

Применяется метод наименьших квадратов при определении параметров уравнений множественной линейной корреляции или регрессии типа

Сложнее определение параметров множественной нелинейной корреляции или регрессии. В отдельных случаях без особого труда удается определить эти параметры. Например, когда нелинейное уравнение может быть сведено к линейному

После несложных логарифмических преобразований

Также нетрудно свести к линейному уравнение вида

Аналогично с помощью логарифмических преобразований уравнение (2.31) приводится к виду

Уравнение вида

можно преобразовать к линейному

Также возможны приведения уравнений нелинейной множественной корреляции к линейному виду способом замены некоторых или всех переменных.

Оценка надежности связи как линейной и нелинейной аппроксимации, так парной и множественной корреляции и регрессии может быть установлена с помощью известных методов математической статистики. Наиболее приемлемым в горном деле для числа выборочных данных, не превышающих 100—120, является метод Фишера.





Яндекс.Метрика