Статистические распределения. Случайные события отражают результаты испы­таний только по альтернативному (качественному) признаку, с оценкой да—нет (годен—негоден). Случайные величины отражают количественные результаты испы­таний или измерений. При оценке качества используют следующие основные обозначения, понятия и формулы:

Р (х), р, Вер — вероятность;

Р (Л) = —- статистическая вероятность события А как устойчивая

частота т его появления из общего числа п произведенных опытов;

у — доверительная вероятность (обычно величина, близкая к единице); а — 1 — у — уровень значимости (обычно а < 1);

X — случайная (переменная) величина, которая в результате опытов может принять разные, заранее неизвестные значения х = xi в пределах определенного интервала;

/V — объем генеральной совокупности или партии величин х, объединенных каким-либо общим признаком;

п — объем выборки, взятой в заданном порядке из генеральной совокупности или партии N

_ — N

М (X) — тх = ая» X’, X—^Xipi — математическое ожидание (м. о.) случайной величины и формула для среднего в генеральной совокупности N дискретных величин;

4-Е xt — эмпирическое (выборочное) среднее ариф­метическое значение (хи или х*) по п опытам;

N

D (X) = Dx a D вв о2; о2 = — ^ [xt — Х)а — генеральная дисперсия;

N

D* = D = S2* — s2

= — — х}2 — эмпирическая дисперсия (для

п > 30);

эмпирическое (выборочное) квадратичное откло­нение — «исправленное» для п < 30;

zp, tp — квантили нормального распределения (г) и распределения Стьюдента (0. соответствующие вероятности р и измеряемые числом квадратичных отклоне­ний от х — 0 до х = z или х = (;

v= —; о*=———— коэффициенты вариации —генеральный и выборочный;

X х

г, D D* as

D~ — — «в— : о — = —р=г ~ —— — дисперсия и квадратичное отклонение

х п "

среднего арифметического;

F (х) — Вер [X < х]; F* (х) F (х) — теоретическая функция F (х) распре­деления вероятностей случайной величины и ее эмипирическое значение F* (х);

f (х) — F’ (х) f* (х) г» f (х) — плотность распределения (теоретическая и эмпирическая) вероятностей случайной величины;

f {*!У) f (У/х) — условные распределения для х при данном у (и наоборот); г = гку — коэффициент корреляции, характеризующий тесноту связи ве­личин X — Y;

syx = V1 — г2 — квадратичное отклонение значений от линии регрессии; Р, а — риски потребителя и поставщика;

у; = 1 — (а + Р) — условная достоверность выборочного контроля; хр> ха — вероятности недобраковки и перебраковки.

В приведенных обозначениях термин среднее квадратическое отклонение сокращен как квадратичное отклонение. Отдельные понятия обозначены одно­временно несколькими символами для удобства их написания в формулах и с уче­том облегчения использования специальной литературы. Если в совокупности случайных величин появление 1-х значений происходит с частотой m* > 1, то в формулах для х, а, а вводят множитель mt. Индекс х в обозначениях и формулах для ах, sx, тх и других, как правило, для краткости опускается.

Статистическим распределением называют зависимость между возможными значениями х « х* случайной величины X и вероятностями р (я) их появления (табл. 1).

Распределение прерывной случайной величины X изображают как ряд распределения, т. е. как таблицу, где перечислены возможные значения xt и соответствующие ИМ вероятности Pi.

Xj I xt »2 . . . xn

Pi I Pi P-2 • • • Pn ‘

Наглядным представлением ряда служит многоугольник распределения в ко­ординатах Pi — Х(.

Для непрерывных случайных величин модель распределения используют в интегральном и дифференциальном видах. Интегральный вид модели или функ­ция распределения F (х) — это зависимость вероятности события (X < х) от текущей переменной X.

Производную функции распределения / (х) = F’ (х) называют плотностью распределения или плотностью вероятности. Тогда

х

F (х) = Вер [X < х — | / (х) dx. (1)

В пределах от —со до+со интеграл, описывающий всю площадь под кривой f (х), равен единице:

+?

J l(x)dx— 1. (2)

——СО

Числовые характеристики. Законы распределения служат полной, исчерпы­вающей характеристикой случайных величин [7]. Но для практики часто нет необходимости описывать случайную величину полностью, исследуя функции F (х), f (х) или ряд распределения. Бывает вполне достаточно знать только суще­ственные черты — числовые характеристики распределения (какое-то среднее значение, степень разбросанности этих значений и т. д.).

Эти числовые характеристики могут быть двух родов: теоретические и эмпи­рические. Первые иногда называют параметрами распределений случайны» величин, а вторые — выборочными или статистическими оценками этих парамет­ров. Параметры распределений (обозначаемые крупными буквами) обычно детер­минированные величины, в то время как выборочные оценки — величины слу­чайные. Разница между параметром распределения и его оценкой тем меньше, чем больше число наблюдений п. Эмпирические значения обозначены малыми буквами (х, у) или отмечены звездочкой (*). Если нужно оттенить ту или иную величину, как оценку какого-либо параметра, то над ней ставят знак волны (-—<).

Характеристикой центра распределения служит математическое ожидание М (х). Его оценивают, определяя среднее значение X или эмпирическое среднее

арифметическое значение х. По результатам п измерений, в которых т* — число одинаковых г-х результатов, имеем

Как центр хМе упорядоченного вариационного ряда значений величины х находят медиану хМе. Она делит площадь под кривой плотности распределения

15 Под ред. Ю. Н. Зорина

Физические и статистические модели для анализа качества сварных соединений

пополам. Кроме х и хМе иногда используют моду хМо, которая соответствует на* ибольшей вероятности значений х.

Отклонение (рассеяние) единичных значений случайной величины относи­тельно центра распределения характеризуют дисперсией D (X) или средним квад­ратичным отклонением о = VD.

Для выборочного среднеквадратичного отклонения s при п <3 30 в знаменателе вместо п подставляют (п — 1). Характеристику о (или s) называют иногда стан­дартным отклонением или «стандартом». В приближенных расчетах (особенно при п<^ 12) вместо о и s используют легко вычислимую меру рассеяния — размах ш как разность между крайними значениями вариационного ряда. Как относитель­ную меру рассеяния применяют коэффициент вариации v — отношение квадра­тичного отклонения к средней арифметической.

Дисперсия D- среднего арифметического одинаково распределенных взаимно независимых п случайных величин в п раз ме ьше дисперсии каждой из этих величин. Квадратичное отклонение о — соответственно в Vп раз меньше, чем а.

Нормальное распределение. Распределение Гаусса занимает среди других распределений особое положение. Оно чаще встречается на практике и является предельным законом, к которому приближаются другие распределения. По теории вероятностей (теорема Ляпунова) сумма достаточно большого числа незави­симых или слабо зависимых случайных величин, подчиненных каким угодно зако­нам распределения, приближенно подчиняется нормальному закону. Нормальное распределение может быть общим и нормированным.

Интегральная функция общего нормального распределения F (х) с произволь­ными параметрами — математическим ожиданием тх х и дисперсией о2 имеет вид, указанный в табл. 1.

Нормированное и центрированное нормальное распределение Ри (х) с парамет­рами ш, = 0 и о = 1 получают при подстановке, т. е. при замене переменных

х х г*

F0 (х) = | ф (х) йх = |е 2 dz’ (4)

—-со —со

Для функции Fu, обозначаемой так же, какФ*, и для других форм интеграла вероятностей в литературе [1, 2, 7] имеются таблицы (см. также табл. 2).

Вероятность попадания в заданный интервал А, В нормальной случайной величины X определяют из выражения

в

Вер (А < X < В) = J / (х) с1х = Ф _ ф. (5)

д

Вероятность заданного отклонения, т. е. вероятность того, что отклонение случайной величины X по абсолютной величине меньше заданного положитель­ного числа б равносильна осуществлению неравенства

| X — а < б или — б < (X — а) < б.

Пользуясь формулой (5), получим

Вер |Х — а | <6 = 2Ф • (6)

Эмпирическое распределение случайных величин представляют обычно в виде полигона, гистограммы или кумулятивной диаграммы интервального ряда частот, Аппроксимирующая их кривая есть соответственно либо плотность вероятностей

15*

2. Таблица значений функции Лапласса » нормального распределения

X

Ф U)

X

Ф (х)

X

Ф (х)

0,00

0,0000

1,30

0,4032

2,60

0,4953

0,10

0,0398

1,40

0,4192

2,70

0,4965

0,20

0,0793

1,50

0,4332

2,80

0,4974

0,30

0,1179

1,60

0,4452

2,90

0,4981

0,40

0,1554

1,70

0,4554

3,00

0,49865

0,50

0,1915

1,80

0,4641

3,20

0,49931

0,60

0,2257

1,90

0,4713

3,40

0,49966

0,70

0,2580

2,00

0,4772

3,60

0,499841

0, so

0,2881

2,10

0,4821

3,80

0,499928

0,SQ

0,3159

2,20

0,4861

4,00

0,499968

1,00

0,3413

2,30

0,4893

4,50

0,499997

1,10

0,3643

2,40

0,4918

5,00

0,499997

1,20

0,3849

2,50

0,4938

Ф (х) =

гг

2 dz; Ф* (х) « Ф (х) — f 0,5

t (х), либо, для кумулятивной диаграммы накопленных частот, функция вероят­ностей F (х).

При построении диаграмм число интервалов ряда частот не должно быть слишком большим. Кроме того, частоты в мелких интервалах могут вызывать незакономерные значительные колебания (пилу). При завышенной величине интервалов свойства распределения отображаются слишком грубо. При большом числе наблюдений обычно принимают 10—20 интервалов.

Для неодинаковой длины интервалов, которые удобно делать более узкими в области наибольшей плотности распределения, вместо абсолютных частот т/

/П;

применяют относительные частоты или частости V, = ——.

п

Близость эмпирической кривой к тому или иному теоретическому закону распределения проверяют критериями согласия, а приближенно — также с по­мощью вероятностных бумаг.

Для проверки гипотезы о соответствии эмпирического распределения теорети­ческому закону наиболее часто применяют критерий Пирсона или как его иначе называют хи — квадрат (х2)- Его имеет смысл применять, когда число интервалов k и опытов в них mt достаточно велико, например т( :> 5—10 [2].

Для проверки гипотезы о равенстве двух выборочных дисперсий при нор­мальном распределении используют критерий Фишера. Он равен отношению двух независимых оценок дисперсий s‘f и s|, имеющих степени свободы v’j и v2.

Критерий Кохрена используют для проверки гипотезы о равенстве несколь­ких выборочных дисперсий при одинаковом объеме выборок.

в Для проверки гипотезы о равенстве двух выборочных средних значений слу­чайной величины, имеющей нормальный закон распределения, используют критерий Стъюдента.

Во всех случаях, если гипотеза о согласии не подтверждается, то следует либо повторить (уточнить) эксперимент, либо искать закон распределения, более под­ходящий для описания данных эксперимента. Подробнее о критериях согласия см. [1, 2, 7 и др.].

Вероятностные бумаги (или сетки) позволяют существенно упростить обра­ботку статистических данных. Например, изменив соответствующим образом масштаб по оси ординат, можно получить из S-образной интегральной кривой
прямую линию. Такие графики можно использовать для распределений нормаль­ного, экспоненциального, Вейбулла и др.

Откладывая накопленные относительные частоты па оси ординат, а значения Хі признака по интервалам — на оси абсцисс, получают серию точек. Если эти точки оказываются примерно на одной прямой, то подтверждается совпадение эксперимента с выбранным теоретическим законом его описания. В работе [5} даны примеры расчета средних значений х и квадратичных отклонений s по вероят­ностным бумагам нормального закона и распределения Вейбулла. Порядок подоб­ных вычислений изложен в соответствующих ГОСТах по прикладной статистике (ГОСТ 11.001—73, ГОСТ 11.002—73, ГОСТ 11.003—73, 11.004—74,

ГОСТ 11.005—74, ГОСТ 11.006—74, ГОСТ 11.007—75, ГОСТ 11.008—75).

Доверительные вероятности. При контроле процессов или при оценке каче­ства продукции выводы относительно генеральной совокупности принимают на основе выборочного метода. Выборочные характеристики по которым делают статистические выводы, называют оценками генеральных характеристик. Если контролируемый параметр имеет нормальное распределение, то иногда бывает достаточно анализировать только две характеристики выборки: х и sa, которые являются оценками генеральных параметров М (X) и а2. Эти оценки называют точечными. Они в значительной мере случайны и при малых выборках могут привести к существенным ошибкам.

Интервальной называют оценку, которая определяется двумя числами — концами интервала. Эго позволяет установить точность и доверительную вероят­ность оценок, т. е. их достоверность.

Точность оценки по’ количественному признаку характеризуют величиной интервала 6, который «покрывает» неизвестный параметр с заданной доверитель­ной вероятностью у (которую иногда называют надежностью).

Пр актически можно принять, что количественный признак X генеральной совокупности распределен нормально, причем среднее квадратичное отклонение а этого распределения известно. Требуется оценить неизвестное математическое ожидание М (X) — а по выборочной средней х.

Если случайная величина X распределена нормально, то выборочная средняя х, найденная по независимым наблюдениям, также распределена нормально [1,2] с параметрами

X М (х) — а; о (х) — -^=..

V п

При оценке необходимо, чтобы выполнялось соотношение

Вер (| ~х а | < 6) = у.

3. Значения t распределения Стьюдента = / tY« «)

п

Доверительная вероятность у

п

Доверительная вероятность у

0,95

0,99

0,999

0,95

0,99

0,999

5

2,78

4,60

8,61

20

2,093

2,861

3,883

6

2,57

4,03

6,86

25

2,064

2,797

3,745

7

2,45

3,71

5,96

30

2,045

2,756

3,659

8

2,37

3,50

5,41

35

2,032

2,729

3,600

9

2,31

2,36

5,04

40

2,023

2,708

3,558

10

2,26

3,25

4,78

45

2,016

2,692

3,527

11

2,23

3,17

4,59

50

2,009

2,679

3,502

12

2,20

3,11

4,44

60

2,001

2,662

3,464

13

2,18

3,06

4,32

70

1,996

2,649

3,439

14

2,16

3,01

4,22

80

1,001

2,640

3,418

15

2,15

2,98

4,14

90

1,987

2,633

3,403

16

2,13

2,95

4,07

100

1,984

2,627

3,392

17

2,12

2,92

4,02

120

1,980

2,617

3,374

18

2,11

2,90

3,97

СО

1,960

2,576

3,291

19

2,10

2,88

3,92

Примечание. Y — вероятность того, что t отличается от нулевого среднего в любую сторону не более чем на = ta при объеме выборки п.

Смысл полученного выражения таков: с доверительной вероятностью или с надеж­ностью у можно утверждать, что доверительный интервал х—6 покрывает неиз­вестный параметр тх. Квантиль г определяют из равенства 2Ф (г) — у илиФ (г) —

= задаваясь у по таблице функции Лапласа (см. табл. 2).

Если среднее квадратичное отклонение а неизвестно, ю вместо а используют его выборочную «исправленную» оценку s, но функцию Лапласа заменяют распре­делением Стьюдента. Тогда

8=Ч-г^. (II)

V п

Здесь вместо а записывают s, а вместо квантиля гу — квантиль Стьюдента (у, определяемый по табл. 3. (В отличие от гу здесь требуется знать объем выборки п, так как ty — ty< „)-

Корреляция и регрессия. Принято различать функциональные и вероятност­ные (стохасшческие) связи между различными величинами. Традиционно приме­няемой в технике служит функциональная зависимость переменных х — у, когда каждому возможному значению х однозначно соответствует определенное у (например, законы Ома и Гука).

В отличие от функциональной зависимости при вероятностной связи между двумя (или более) величинами каждой паре (или более) значений х, у соответствует вполне определенная вероятность. Степень связи между двумя величинами назы­вают корреляцией. Корреляционную зависимость характеризуют формой и тесно­той связи. Форму корреляционной связи принято описывать функцией или кри­вой регрессии—линейной, квадратной, показательной и т. д.

Тесноту корреляционной связи измеряют теоретическим или эмпирическим корреляционным отношением. Когда связь между случайными переменными X и У линейна, частным случаем корреляционного отношения служит коэффициент корреляции г, который может принимать значения от —1 до — fl. При г = 1 или г — —1 наблюдается функциональная связь между X и У, а в случае г = О величины X и У независимы.

Коэффициент корреляции г оценивают по его выборочному значению г*:

г _ Г* 21 (X — X) (у — у) (12)

ПО хО у

В частном случае стохастическую связь называют статистической связью, когда условное математическое ожидание М (У X) одной случайной переменной Является функцией другой случайной переменной. Обычно при ограниченном объеме выборок идут на упрощение и от математического ожидания переходят К условному среднему значению у (х). Зависимость между одной случайной пере­менной и условным средним значением другой случайной переменной называют корреляционной.

Кривой регрессии Y по X называют условное среднее значение случайной переменной У, рассматриваемой как функция от х, т. е. у (х)= f (де).

При изучении двухмерной корреляции по выборочным данным можно изобра­зить пару случайных величин как поле корреляции или построить по этим же данным корреляционную таблицу. Этой таблицей удобно пользоваться при вычис­лении коэффициентов корреляции и параметров уравнения регрессии [1, 2].

Обычно линейная регрессия имеет вид

— Sy

У=*У {х) — а—Ьх — а— г —~х,

Sjc

где а и b — коэффициенты (параметры) регрессии.

Параметры в уравнении регрессии определяют по способу наименьших квад — ■* ратов. При этом ищут такую прямую линию, сумма квадратов отклонений изме­ренных значений у( от которой была бы минимальной.

Регрессионный анализ заключается в оценке распределения одной из случай­ных величин, например У, при заданных значениях другой величины X (или нескольких величин Хц, Хг, …. Xft). Его используют для установления связи между двумя величинами в экспериментах, где одну из величин рассматривают как неслучайную и ее значения задают заранее при планировании экспериментов. Примером такого эксперимента служит установление связи между величиной дефектности X и прочностью изделий У. Дефектность здесь рассматриваем как неслучайную величину. Исследуемая прочность есть случайная величина, а зави­симость у — х представляет регрессию.

Опуская промежуточные рассуждения и формулы, приведем программу (алгоритм для ЭВМ) расчета характеристик корреляционных связей и параметров Линейной регрессии.

^1» ^2* • • • > Х[

* * хп

Исходные данные:

1. Вычисляют

2*> Цу* Нх %ху,

— 2 *. — 2 у

2. Определяют

коэффициент корреляции

Гху=*Г

КХу

SxSy
среднеквадратичные отклонения (или sy):

К**-

1

п— 1

Syx ~ SyV I — ra.

По результатам расчета строим прямую регрессии, определяем границы ьуХ, наносим точки х, у и делаем вывод о виде и силе связи Y (X).