ИКТ: Глава 10. Математическая статистика

10.1. Случайные величины

Для моделирования различных физических, экономических и прочих эффектов широко распространены методы, называемые методами Монте-Карло. Их основная идея состоит в создании определенной последовательности случайных чисел, моделирующей тот или иной эффект, например, шум в физическом эксперименте, случайную динамику биржевых индексов и т. п. Для этих целей в Mathcad имеется ряд встроенных функций, реализующих различные типы генераторов псевдослучайных чисел.

Согласно определению, случайная величина принимает то или иное значение, но какое конкретно, зависит от случайных обстоятельств опыта и заранее точно предсказано быть не может. Можно лишь говорить о вероятности P(X^к) принятия случайной дискретной величиной того или иного значения хк, или о вероятности попадания непрерывной случайной величины в тот или иной числовой интервал (х,х+dх). Вероятность Р(Х^К) или P(X) (dх), соответственно, может принимать значения от о (такое значение случайной величины совершенно невероятно) до i (случайная величина заведомо примет значение от х до х+dх). Соотношение Р(Х_К) называют законом распределения случайной величины, а зависимость P(х) между возможными значениями непрерывной случайной величины и вероятностями попадания в их окрестность называется ее плотностью вероятности (probability density).

В Mathcad имеется ряд встроенных функций, задающих используемые в математической статистике законы распределения. Они вычисляют как значение плотности вероятности различных распределений по значению случайной величины х, так и некоторые сопутствующие функции. Все они, по сути, являются либо встроенными аналитическими зависимостями, либо специальными функциями. Большой интерес представляет наличие генераторов случайных чисел, создающих выборку псевдослучайных данных с соответствующим законом распределения. Рассмотрим подробно возможности Mathcad на нескольких наиболее популярных законах распределения, а затем приведем перечень всех распределений, встроенных в Mathcad.

10.1.1. Нормальное (Гауссово) распределение

В теории вероятности доказано, что сумма различных независимых случайных слагаемых (независимо от их закона распределения) оказывается случайной величиной, распределенной согласно нормальному закону (т. н. центральная предельная теорема). Поэтому нормальное распределение хорошо моделирует самый широкий круг явлений, для которых известно, что на них влияют несколько независимых случайных факторов.

Перечислим встроенные функции, имеющиеся в Mathcad для описания нормального распределения вероятностей:

dnorm(x,m,o) — плотность вероятности нормального распределения;
рпогт(х,m,о) —функция нормального распределения;
спогт(х) —функция нормального распределения для ц= о,o=i;
дпогт(P,m,о) — обратная функция нормального распределения;
гпогт(M,m,o) — вектор м независимых случайных чисел, каждое из которых имеет нормальное распределение;

х — значение случайной величины;
Р — значение вероятности;
m— математическое ожидание;
о — среднеквадратичное отклонение.

Математическое ожидание и дисперсия являются, по сути, параметрами распределения. Плотность распределения для трех пар значений параметров показана на рис. 14.1. Напомним, что плотность распределения dnorm задает вероятность попадания случайной величины х в малый интервал от х до х+dх. Таким образом, например, для первого графика (сплошная линия) вероятность того, что случайная величина х примет значение в окрестности нуля, приблизительно в три раза больше, чем вероятность того, что она примет значение в окрестности х=2. А значения случайной величины, большие 5 и меньшие -5, и вовсе маловероятны.

Рис. 14.1. Плотность вероятности нормальных распределений

Функция распределения F(X) (cumulative probability) — это вероятность того, что случайная величина примет значение меньшее или равное х. Как следует из математического смысла, она является интегралом от плотности вероятности в пределах от -x до х. Функции распределения для упомянутых нормальных законов изображены на рис. 14.2. Функция, обратная F(X) (inverse cumulative probability), называемая еще квантилем распределения, позволяет по заданному аргументу р определить значение х, причем случайная величина будет меньше или равна х с вероятностью р.

Здесь и далее графики различных статистических функций, показанные на рисунках, получены с помощью Mathcad без каких-либо дополнительных выражений в рабочей области.

Приведем несколько примеров, позволяющих почувствовать математический смысл рассмотренных функций на примере случайной величины х, распределенной по нормальному закону с m=0 и o=1 (листинги 14.1—14.5).

Рис. 14.2. Нормальные функции распределения

Листинг 14.1. Вероятность того, что х будет меньше 1.881

Листинг 14.2. 97%-ный квантиль нормального распределения

Листинг 14.3. Вероятность того, что х будет больше 2

Листинг 14.4. Вероятность того, что ж будет находиться в интервале (2,3)

Листинг 14.5. Вероятность того, что | х|<2

Обратите внимание, что задачи двух последних листингов решаются двумя разными способами. Второй из них связан с еще одной встроенной функцией erf, называемой функцией ошибок (или интегралом вероятности, или функцией Крампа).

erf (x) — функция ошибок;
erfc(x)=1-erf(x).

Математический смысл функции ошибок ясен из листинга 14.5. Интеграл вероятности имеет всего один аргумент, в отличии от функции нормального распределения. Исторически, последняя пересчитывалась через табулированный интеграл вероятности по формулам, приведенным в листинге 14.6 для произвольных значений параметров m и o (листинг 14.6).

Листинг 14.6. Вероятность того, чтохбудвтвинтврвалв (2,3)

Если Вы имеете дело с моделированием методами Монте-Карло, то в качестве генератора случайных чисел с нормальным законом распределения применяйте встроенную функцию топа. В листинге 14.7 ее действие показано на примере создания двух векторов по M=500 элементов в каждом с независимыми псевдослучайными числами xLi и х2i распределенными согласно нормальному закону. О характере распределения случайных элементов векторов можно судить по рис. 14.3. В дальнейшем мы будем часто сталкиваться с генерацией случайных чисел и расчетом их различных средних характеристик.

Рис. 14.3. Псевдослучайные числа с нормальным законом распределения (листинг 14.7)

Листинг 14.7. Генерация двух векторов с нормальным законом распределения

10.1.2. Равномерное распределение

Самое простое распределение случайной величины — это распределение с постоянной вероятностью. Вероятность p=const=1/ (b-a) при хе(а,b) и P=0, для х вне интервала (а,Ь). Эту плотность вероятности, наряду с прочими статистическими характеристиками, задают следующие встроенные функции:

dunif (x,a,b) — плотность вероятности равномерного распределения;
punif(x,a,b) — функция равномерного распределения;
qunif(p,a,b) — квантиль равномерного распределения;
runif (м,а,Ь) — вектор м независимых случайных чисел, каждое из которых имеет равномерное распределение;
rnd (x) — случайное число, имеющее равномерную плотность распределения на интервале (о, х);

х — значение случайной величины;
Р — значение вероятности;
(а,ы — интервал, на котором случайная величина распределена равномерно.

Рис. 14.4. Псевдослучайные числа с равномерным законом распределения

Чаще всего в несложных программах применяется последняя функция, которая приводит к генерации одного псевдослучайного числа. Наличие такой встроенной функции в Mathcad — дань традиции, применяемой в большинстве сред программирования. Пример использования генератора вектора из м случайных чисел показан на рис. 14.4, который получен заменой в двух последних строках листинга 14.7 генератора нормальных чисел на runif (м,о, 1). Плотность вероятности и функция равномерного распределения показаны на рис. 14.5.

Рис. 14.5. Плотность вероятности и функция равномерного распределения

10.1.3. Биномиальное распределение

Приведем встроенные функции, описывающие еще одно распределение случайной величины, которая, в отличие от двух предыдущих, является не непрерывной, а может принимать лишь дискретные значения. Биномиальное распределение описывает последовательность независимых испытаний, каждое из которых может приводить к генерации определенного события с постоянной вероятностью р.

dbinom(k,n,p) — плотность вероятности биномиального распределения (рис. 14.6);
pbinom(k,n,p) — функция биномиального распределения;
qbinom(P,n,p) — квантиль биномиального распределения;
rbinom(M,n,р) — вектор м независимых случайных чисел, каждое из которых имеет биномиальное распределение;

k — дискретное значение случайной величины;
Р — значение вероятности;
n— параметр распределения (количество независимых испытаний);
р — параметр распределения (вероятность единичного случайного события).

Примером биномиального распределения может служить n-кратное подбрасывание монеты. Вероятность выпадения орла или решки в каждом испытании равна р=0.5, а суммарное количество выпадений, например орла, задается биномиальной плотностью вероятности. Приведем простой пример: если монета подбрасывалась 50 раз, то наиболее вероятное количество выпадений орла, как видно по максимуму плотности вероятности на рис. 14.6, составляет 25. Вероятность того, что орел выпадет 25 раз, составляет dbinom(25, 50, 0.5) =0.112, а, скажем, вероятность того, что 15 раз dbinom(15,50,0.5)=0.002.

Рис. 14.6. Плотность вероятности биномиального распределения

10.1.4. Другие статистические распределения

Как легко заметить по рассмотренным трем распределениям, Mathcad имеет четыре основные категории встроенных функций. Они различаются написанием их первой литеры, а оставшаяся часть имени функций (ниже в списке функций она условно обозначена звездочкой) идентифицирует тот или иной тип распределения.

d*(x,par) —плотность вероятности;
р*(х,раг) — функция распределения;
q*(p,par) — квантиль распределения;
r* (м,раг) — вектор м независимых случайных чисел, каждое из которых имеет соответствующее распределение;

х — значение случайной величины (аргумент функции);
Р — значение вероятности;
par — список параметров распределения.

Чтобы получить функции, относящиеся, например, к равномерному распределению, вместо * надо поставить unif и ввести соответствующий список параметров par. Он будет состоять в данном случае из двух чисел а,ъ — интервала распределения случайной величины.

Перечислим все типы распределения, реализованные в Mathcad, вместе с их параметрами, на этот раз обозначив звездочкой * недостающую первую букву встроенных функций. Некоторые из плотностей вероятности показаны на рис. 14.7.

Рис. 14.7. Плотность вероятности некоторых распределений

*beta(x,s1,s2) — бета-распределение (si,s2>o — параметры, o<x<i).
*binom(k,n,p) — биномиальное распределение (n — целый параметр, 0<k<n и 0<р<1 — параметр, равный вероятности успеха единичного испытания).
*cauchy(x,l,s) — распределение Коши (l — параметр разложения, s>0 — параметр масштаба).
*chisq(x,d) — x² ("хи-квадрат") распределение (d>0 — число степеней свободы).
*ехр(х,r) — экспоненциальное распределение (r>0 — показатель экспоненты).
*F(x,d1,d2) — распределение Фишера (d1,d2>0 — числа степеней свободы).
*gamma(x,s) — гамма-распределение (s>0 — параметр формы).
*geom(k,p) — геометрическое распределение (0<р<1 — параметр, равный вероятности успеха единичного испытания).
*hypergeom(k,a,b,n) — гипергеометрическое распределение (а,b,n — целые параметры).
*lnоrm(х,m,o) — логарифмически нормальное распределение (m — натуральный логарифм математического ожидания, о>0 — натуральный логарифм среднеквадратичного отклонения).
*logis(x,l,s) — логистическое распределение (l — математическое ожидание, s>0 — параметр масштаба).
*nbinom(k,n,p) — отрицательное биномиальное распределение (n>0 — целый параметр, 0<р<1).
*nоrm(х,m,o) — нормальное распределение (m— среднее значение, o>0 —среднеквадратичное отклонение).
*pois(k,a) — распределение Пуассона (a>0 — параметр).
*t(x,d) — распределение Стьюдента (d>0 — число степеней свободы).
*unif(x,a,b) — равномерное распределение (а<b — границы интервала).
*weibuli(x,s) — распределение Вейбулла (s>0 — параметр).

Вставку рассмотренных статистических функций в программы удобно осуществлять с помощью диалогового окна Insert Function (Вставка функции). Для этого необходимо выполнить следующие действия:

Установите курсор на место вставки функции в документе.
Вызовите диалоговое окно Insert Function нажатием кнопки f(x) на стандартной панели инструментов или командой меню Insert / Function (Вставка / Функция), или нажатием клавиш <Ctrl>+<E>.

Рис. 14.8. Диалоговое окно Insert Function

В списке Function Category (Категория функции) (рис. 14.8) выберите одну из категорий статистических функций. Категория Probability Density (Плотность вероятности) содержит встроенные функции для плотности вероятности, Probability Distribution (Функция распределения) — для вставки функций или квантилей распределения, Random Numbers (Случайные числа) — для вставки функции генерации случайных чисел.
В списке Function Name (Имя функции) выберите функцию, в зависимости от требующегося закона распределения. При выборе того или иного элемента списка в текстовых полях в нижней части окна будет появляться информация о назначении выбранной функции.
Нажмите кнопку ОК для вставки функции в документ.

10.2. Статистические характеристики

В большинстве статистических расчетов Вы имеете дело либо со случайными данными, полученными в ходе какого-либо эксперимента (которые выводятся из файла или печатаются непосредственно в документе), либо с результатами генерации случайных чисел, рассмотренными в предыдущих разделах встроенными функциями, моделирующими то или иное явление методом Монте-Карло. Рассмотрим возможности Mathcad по оценке функций распределения и расчету числовых характеристик случайных данных.

10.2.1. Построение гистограмм

Гистограммой называется график, аппроксимирующий по случайным данным плотность их распределения. При построении гистограммы область значений случайной величины (а,b> разбивается на некоторое количество bin сегментов, а затем подсчитывается процент попадания данных в каждый сегмент. Для построения гистограмм в Mathcad имеется несколько встроенных функций. Рассмотрим их, начиная с самой сложной по применению, чтобы лучше разобраться в возможностях каждой из функций.

Гистограмма с произвольными сегментами разбиения

hist(intvis,x) — вектор частоты попадания данных в интервалы гистограммы;

intvis — вектор, элементы которого задают сегменты построения гистограммы в порядке возрастания a<intvis_i<b;
х — вектор случайных данных.

Если вектор intvis имеет bin элементов, то и результат hist имеет столько же элементов. Построение гистограммы иллюстрируется листингом 14.8 и рис. 14.9.

Листинг 14.8. Построение гистограммы

Для анализа взято N=1000 данных с нормальным законом распределения, созданных генератором случайных чисел (третья строка листинга). Далее определяются границы интервала (upper,lower), содержащего внутри себя все случайные значения, и осуществляется его разбиение на количество (bin) одинаковых сегментов, начальные точки которых записываются в вектор int (предпоследняя строка листинга).

В векторе int можно задать произвольные границы сегментов разбиения так, чтобы они имели разную ширину.

Рис. 14.9. Построение гистограммы (листинг 14.8)

Обратите внимание, что в последней строке листинга осуществлена нормировка значений гистограммы, с тем чтобы она правильно аппроксимировала плотность вероятности, также показанную на графике. Очень важно переопределение вектора int в самом верху рис. 14.9, которое необходимо для перехода от левой границы каждого элементарного сегмента к его центру.

Гистограмма с разбиением на равные сегменты

Если нет необходимости задавать сегменты гистограммы разной ширины, то удобнее воспользоваться упрощенным вариантом функции hist.

hist (bin, х) — вектор частоты попадания данных в интервалы гистограммы;

bin — количество сегментов построения гистограммы;
х — вектор случайных данных.

Для того чтобы использовать этот вариант функции hist вместо предыдущего, достаточно заменить первый из ее аргументов в листинге 14.8 следующим образом:

Недостаток упрощенной формы функции hist в том, что по-прежнему необходимо дополнительно определять вектор сегментов построения гистограммы. От этого недостатка свободна появившаяся в Mathcad 2001 функция histogram.

histogram (bin, х) — матрица гистограммы размера binx2, состоящая из столбца сегментов разбиения и столбца частоты попадания в них данных;

bin — количество сегментов построения гистограммы;
х — вектор случайных данных.

Примеры использования функции histogram приведены в листинге 14.9 и рис. 14.10. Сравнение с предыдущим листингом подчеркивает простоту построения гистограммы этим способом (стоит отметить, что в листинге 14.9, в отличие от предыдущего, мы не нормировали гистограмму).

Рис. 14.10. График и матрица гистограммы (листинг 14.9)

Создание графика гистограммы

Для того чтобы создать график в виде гистограммы:

Постройте двумерный график, задайте переменные по осям и пределы оси х (в примере из листинга 14.9 это числа lower и upper).
Войдите в диалоговое окно Formatting Currently Selected Graph (Форматирование) выбранного графика (например, двойным щелчком мыши) и перейдите на вкладку Traces (Графики).

Рис. 14.11. Установка типа графика для построения гистограммы

Установите для серии данных гистограммы в поле Туре (Тип) элемент списка bar (столбцы) или solidbar (гистограмма) (рис. 14.11).
Нажмите кнопку ОК.

На рис. 14.9 и 14.10 были применены установки графика bar (столбцы). В Mathcad 2001 появилась новая возможность построения гистограммы в более привычном виде — закрашенными столбиками (solidbar). Такой тип графика иллюстрируется рис. 14.11.

14.2.2. Среднее значение и дисперсия

В Mathcad 11 имеется ряд встроенных функций для расчетов числовых статистических характеристик рядов случайных данных.

mean(x) —выборочное среднее значение;
median (х) — выборочная медиана (median) — значение аргумента, которое делит гистограмму плотности вероятностей на две равные части;
var(x) — выборочная дисперсия (variance);
stdev(x) — среднеквадратичное (или "стандартное") отклонение (standard deviation);
max(x), mm (x) — максимальное и минимальное значения выборки;
mode(x) — наиболее часто встречающееся значение выборки;
var (x) ,stdev(x) — выборочная дисперсия и среднеквадратичное отклонение в другой нормировке;

х — вектор (или матрица) с выборкой случайных данных.

Пример использования первых четырех функций приведен в листинге 14.10.

Листинг 14.10. Расчет числовых характеристик случайного вектора

На рис. 14.12 приведена гистограмма выборки случайных чисел, распределенных согласно закону Вейбулла. Пунктирные вертикальные прямые, показанные на графике, рассчитаны в последней строке листинга и обозначают стандартное отклонение от среднего значения. Гистограмма получена с помощью листинга 14.8, рассмотренного в предыдущем разделе. Обратите внимание, что поскольку распределение Вейбулла, в отличие, например, от Гауссова, несимметричное, то медиана не совпадает со средним значением.

Рис. 14.12. Гистограмма распределения Вейбулла (листинг 14.10)

Определение статистических характеристик случайных величин приведено в листинге 14.11 на еще одном примере обработки выборки малого объема (по пяти данным). В том же листинге иллюстрируется применение еще двух функций, которые имеют смысл дисперсии и стандартного отклонения в несколько другой нормировке. Сравнивая различные выражения, Вы без труда освоите связь между встроенными функциями.

Осторожно относитесь к написанию первой литеры в этих функциях, особенно при обработке малых выборок (листинг 14.11).

Листинг 14.11. Копределению статических характеристик

10.2.3. Генерация коррелированных случайных чисел

До сих пор мы рассматривали наиболее простой случай применения генераторов независимых случайных чисел. В методах Монте-Карло часто требуется создавать случайные числа с определенной корреляцией. Приведем пример программы, создающей два вектора x1 и х2 одинакового размера и одним и тем же распределением, случайные элементы которых попарно коррелированы с коэффициентом корреляции R (листинг 14.12).

Листинг 14.12. Генерация попарно коррелированных случайных чисел

Результат действия программы для R=0.4 показан на рис. 14.13 (слева). Сравните полученную выборку с правым графиком, полученным для высокой корреляции (R=0.9) и с рис. 14.3 (см. разд. 14.1.1) для независимых данных, т. е. R=0.

Рис. 14.13. Псевдослучайные числа с корреляцией R=0.4 (листинг 14.12) и R=0.9

10.2.4. Ковариация и корреляция

Функции, устанавливающие связь между парами двух случайных векторов, называются ковариацией и корреляцией (или, по-другому, коэффициентом корреляции). Они различаются нормировкой, как следует из их определения (листинг 14.13).

согг(х) — коэффициент корреляции двух выборок;
cvar(x) — ковариация двух выборок;

x1, х2 — векторы (или матрицы) одинакового размера с выборками случайных данных.

Листинг 14.13. Расчет ковариации и корреляции (продолжение листинга 14.12)

10.2.5. Коэффициенты асимметрии и эксцесса

Коэффициент асимметрии задает степень асимметричности плотности вероятности относительно оси, проходящий через ее центр тяжести. Коэффициент асимметрии определяется третьим центральным моментом распределения. В любом симметричном распределении с нулевым математическим ожиданием, например нормальным, все нечетные моменты, в том числе и третий, равны нулю, поэтому коэффициент асимметрии тоже равен нулю.

Степень сглаженности плотности вероятности в окрестности главного максимума задается еще одной величиной — коэффициентом эксцесса. Он показывает, насколько острую вершину имеет плотность вероятности по сравнению с нормальным распределением. Если коэффициент эксцесса больше нуля, то распределение имеет более острую вершину, чем распределение Гаусса, если меньше нуля, то более плоскую.

Для расчета коэффициентов асимметрии и эксцесса в Mathcad имеются две встроенные функции.

kurt(x) — коэффициент эксцесса (kurtosis) выборки случайных данных х;
skew(x) — коэффициент асимметрии (skewness) выборки случайных данных X .

Примеры расчета коэффициентов асимметрии и эксцесса для распределения Вейбулла (см. рис. 14.10) приведены в листинге 14.14.

Листинг 14.14. Расчет выборочных коэффициентов асимметрии и экспресса

10.2.6. Другие статистические характеристики

В предыдущих разделах были рассмотрены встроенные функции, рассчитывающие наиболее часто используемые статистические характеристики выборок случайных данных. Иногда в статистике встречаются и иные функции, например, помимо арифметического среднего, применяются другие средние значения.

gmean(x) —геометрическое среднее выборки случайных чисел;
hmean(x) — гармоническое среднее выборки случайных чисел.

Математическое определение этих функций и пример их использования в Mathcad приведены в листинге 14.15.

Листинг 14.15. Вычисление различных средних значений

10.2.7. Действие статистических функций на матрицы

Все рассмотренные примеры работы статистических функций относились к векторам, элементы которых были случайными числами. Но точно так же все эти функции применяются и по отношению к выборкам случайных данных, сгруппированных в матрицы. При этом статистические характеристики рассчитываются для совокупности всех элементов матрицы, без разделения ее на строки и столбцы. Например, если матрица имеет размерность MXN, то и объем выборки будет равен M-N.

Соответствующий пример вычисления среднего значения приведен в листинге 14.16. В его первой строке определяется матрица данных х размера 4x2. Действие встроенной функции mean матричного аргумента (последняя строка листинга) иллюстрируется явным суммированием элементов матрицы х (предпоследняя строка). Действие прочих встроенных функций на матрицы совершенно аналогично действию их на векторы (листинг 14.17).

Листинг 14.16. Вычисление среднего значения элементов матрицы

Листинг 14.17. Действие различных статических функций на матрицу

Некоторые статистические функции (например, вычисления ковариации) имеют два аргумента. Они также могут быть матрицами, но, в соответствии со смыслом функции, должны иметь одинаковую размерность.

Большинству статистических функций позволяется иметь в качестве аргументов даже не одну матрицу, а любое количество матриц, векторов и скаляров. Числовые характеристики будут рассчитаны для всей совокупности значений аргументов функции. Соответствующий пример приведен в листинге 14.18.

Листинг 14.18. Статические функции нескольких аргументов

10.3. Случайные процессы

Встроенные функции для генерации случайных чисел создают выборку из случайных данных АХ. Часто требуется создать непрерывную или дискретную случайную функцию A(t) одной или нескольких переменных (случайный процесс или случайное поле), значения которой будут упорядочены относительно своих переменных Создать псевдослучайный процесс можно способом, представленным в листинге 14 19

Листинг 14.19. Генерация псевдослучайного процесса

В первой строке листинга 14 19 определено количество N независимых случайных чисел, которые будут впоследствии сгенерированы, и радиус временной корреляции т В следующих трех строках определяются моменты времени тэ, которым будут отвечать случайные значения A(t.,) Создание нормального случайного процесса сводится к генерации обычным способом вектора независимых случайных чисел х и построению интерполяционной зависимости в промежутках между ними В листинге 14 19 используется сплайн-интерполяция (см гл 15)

Рис. 14.14. Псевдослучайный процесс (листинг 14.19)

В результате получается случайный процесс A(t), радиус корреляции которого определяется расстоянием т между точками, для которых строится интерполяция. График случайного процесса A(t) вместе с исходными случайными числами показан на рис. 14.14. Случайное поле можно создать несколько более сложным способом с помощью многомерной интерполяции.

К случайным процессам, сгенерированным таким способом, как и к данным эксперимента, применяются любые статистические методы обработки, например корреляционный или спектральный анализ. Приведем в качестве примера листинг 14.20, показывающий, как организовать расчет корреляционной функции случайного процесса.

Листинг 14.20. Дискретизация случайного процесса и вычисление корреляционной функции (продолжение листинга 14.19)

Дискретизация интервала <0,Tmax) для случайного процесса A(t) произведена с различным элементарным интервалом А (первая строка листинга). В зависимости от значения А, получается различный объем п выборки случайных чисел YL являющихся значениями случайной функции A(t) в точках дискретизации. В последних четырех строках определяются различные характеристики случайной величины Y, являющиеся, по сути, характеристиками случайного процесса A(t). График рассчитанной в 2 M+1 точках корреляционной функции R(j) показан на рис. 14.15.

Внимательному читателю предлагается самостоятельно ответить на вопрос: почему при таком расчете корреляционной функции ее значение R(0) не равно 1, как должно быть по определению?

Рис. 14.15. Корреляционная функция (листинги 14.19—14.20)

10.4. Некоторые примеры

Приведем два характерных статистических примера, которые легко решаются с помощью Mathcad.

10.4.1. Интервальная оценка дисперсии

Требуется определить числовой интервал (L,U), внутри которого будет лежать с вероятностью 1-сс=75% дисперсия нормальной случайной величины, исходя из объема выборки в N чисел. Эта задача решается в статистике с помощью х2-распределения (листинг 14.21).

Листинг 14.21. Интервальное оценивание дисперсии 1

Указанный интервал называется (1-а)% доверительным интервалом. Обратите внимание на использование при решении данной задачи функции stdev (с прописной буквы) для расчета выборочного стандартного отклонения. В статистике часто встречаются выражения, которые более удобно записывать через функции в такой нормировке, именно для этого они и появились в Mathcad.

10.4.2. Проверка статистических гипотез

В статистике рассматривается огромное число задач, связанных с проверкой тех или иных гипотез н. Разберем пример простой гипотезы. Пусть имеется выборка N чисел с нормальным законом распределения и неизвестными дисперсией и математическим ожиданием. Требуется принять или отвергнуть гипотезу н о том, что математическое ожидание закона распределения равно некоторому числу m0=0.2.

Задачи проверки гипотез требуют задания уровня критерия проверки гипотезы а, который описывает вероятность ошибочного отклонения истинной н. Если взять а очень малым, то гипотеза, даже если она ложная, будет почти всегда приниматься; если, напротив, взять а близким к 1, то критерий будет очень строгим, и гипотеза, даже верная, скорее всего, будет отклонена. В нашем случае гипотеза состоит в том, что цо=о.2, а альтернатива — что m0=0.2. Оценка математического ожидания, как следует из курса классической статистики, решается с помощью распределения Стьюдента с параметром N-1 (этот параметр называется степенью свободы распределения).

Для проверки гипотезы (листинг 14.22) рассчитывается (а/2) — квантиль распределения Стьюдента т, который служит критическим значением для принятия или отклонения гипотезы. Если соответствующее выборочное значение t по модулю меньше т, то гипотеза принимается (считается верной). В противном случае гипотезу следует отвергнуть.

Листинг 14.22. Проверка гипотезы о математическом ожидании при неизвестной дисперсии

В последней строке листинга вычисляется истинность или ложность условия, выражающего решение задачи. Поскольку условие оказалось ложным (равным не 1, а 0), то гипотезу необходимо отвергнуть.

На рис. 14.16 показано распределение Стьюдента с N-1 степенью свободы вместе с критическими значениями, определяющими соответствующий интервал. Если t (оно тоже показано на графике) попадает в него, то гипотеза принимается; если не попадает (как произошло в данном случае) — отвергается. Если увеличить а, ужесточив критерий, то границы интервала будут сужаться, по сравнению с показанными на рисунке.

В листинге 14.23 приводится альтернативный способ проверки той же самой гипотезы, связанный с вычислением значения не квантиля, а самого распределения Стьюдента.

Рис. 14.16. К задаче проверки статистических гипотез (листинг 14.22)

Листинг 14.23. Другой вариант проверки гипотезы (продолжение листинга 14.22)

Мы разобрали только два характерных примера статистических вычислений. Однако с помощью Mathcad легко решаются самые разнообразные задачи математической статистики.

Большое количество задач разобрано в Ресурсах в рубрике Statistics (Статистика) справочной системы Mathcad 11.

Последнее изменение: четверг, 11 августа 2011, 12:32