Энциклопедия пожаробезопасности

Оценка неизвестных параметров свойства статистических оценок. Статистическое оценивание. Пример решения задачи

статистическая оценка распределение выборка

Оценка - это приближение значений искомой величины, полученное на основании результатов выборочного наблюдения. Оценки являются случайными величинами. Они обеспечивают возможность формирования обоснованного суждения о неизвестных параметрах генеральной совокупности. Примером оценки генеральной средней является выборочная средняя генеральной дисперсии - выборочная дисперсия и т.д.

Для того чтобы оценить насколько «хорошо» оценка отвечает соответствующей генеральной характеристике разработаны 4 критерия: состоятельность, несмещенность, эффективность и достаточность. Этот подход основывается на том, что качество оценки определяется не по ее отдельным значениям, а по характеристикам ее распределения как случайной величины.

Основываясь на положениях теории вероятностей, можно доказать, что из таких выборочных характеристик, как средняя арифметическая, мода и медиана, только средняя арифметическая представляет собой состоятельную, несмещенную, эффективную и достаточную оценку генеральной средней. Этим и обуславливается предпочтение, отдаваемое средней арифметической в ряду остальных выборочных характеристик.

Несмещенность оценки проявляется в том, что ее математическое ожидание при любом объеме выборки равно значению оцениваемого параметра в генеральной совокупности. Если это требование не выполняется, то оценка является смещенной .

Условие несмещенности оценки направлено на устранение систематических ошибок оценивания.

При решении задач оценивания применяют также асимптотически несмещенные оценки , для которых при увеличении объема выборки математическое ожидание стремится к оцениваемому параметру генеральной совокупности.

Состоятельность статистических оценок проявляется в том, что с увеличением объема выборки оценка все больше и больше приближается к истинному значению оцениваемого параметра или, как говорят, оценка сходится по вероятности к искомому параметру, или стремится к своему математическому ожиданию. Лишь состоятельные оценки имеют практическую значимость.

Это такая оценка несмещенного параметра, которая обладает наименьшей дисперсией при данном объеме выборки. На практике дисперсия оценки обычно отождествляется с ошибкой оценки.

В качестве меры эффективности оценки принимают отношение минимально возможной дисперсии к дисперсии другой оценки.

Оценка, обеспечивающая полноту использования всей содержащейся в выборке информации о неизвестной характеристике генеральной совокупности, называется достаточной (исчерпывающей).

Соблюдение рассмотренных выше свойств статистических оценок дает возможность считать выборочные характеристики для оценки параметров генеральной совокупности лучшими из возможных.

Важнейшая задача математической статистики состоит в том, чтобы по выборочным данным получить наиболее рациональные, «правдивые» статистические оценки искомых параметров генеральной совокупности. Различают два вида статистических выводов: статистическая оценка; проверка статистических гипотез.

Основная задача получения статистических оценок заключается в выборе и обосновании наилучших оценок, обеспечивающих возможность содержательной оценки неизвестных параметров генеральной совокупности.

Задача оценки неизвестных параметров может быть решена двумя способами:

  • 1. неизвестный параметр характеризуется одним числом (точкой) - используется метод точечной оценки;
  • 2. интервальная оценка, то есть определяется интервал, в котором с некоторой вероятностью может находиться искомый параметр.

Точечная оценка неизвестного параметра заключается в том, что конкретное числовое значение выборочной оценки принимается за наилучшее приближение к истинному параметру генеральной совокупности, то есть неизвестный параметр генеральной совокупности оценивается одним числом (точкой), определенным по выборке. При таком подходе всегда существует риск совершить ошибку, поэтому точечная оценка должна дополняться показателем возможной ошибки при определенном уровне вероятности.

В качестве средней ошибки оценки принимается ее среднее квадратическое отклонение.

Тогда точечная оценка генеральной средней может быть представлена в виде интервала

где - выборочная средняя арифметическая.

При точечной оценке применяют несколько методов получения оценок по выборочным данным:

  • 1. метод моментов, при котором моменты генеральной совокупности заменяются моментами выборочной совокупности;
  • 2. метод наименьших квадратов;
  • 3. метод максимального правдоподобия.

Во многих задачах требуется найти не только числовую оценку параметра генеральной совокупности, но и оценить ее точность и надежность. Особенно это важно для выборок относительно малого объема. Обобщением точечной оценки статистического параметра является его интервальная оценка - нахождение числового интервала, содержащего с определенной вероятностью оцениваемый параметр.

В связи с тем, что при определении генеральных характеристик по выборочным данным всегда присутствует некоторая ошибка, практичнее определить интервал с центром в найденной точечной оценке, внутри которого с некоторой заданной вероятностью находится истинное искомое значение оцениваемого параметра генеральной характеристики. Такой интервал называют доверительным.

Доверительный интервал - это числовой интервал, который с заданной вероятностью г накрывает оцениваемый параметр генеральной совокупности. Такую вероятность называют доверительной. Доверительная вероятность г - это вероятность, которую можно признать достаточной в рамках решаемой задачи для суждения о достоверности характеристик, полученных на основе выборочных наблюдений. Величину

вероятности допустить ошибку называют уровнем значимости .

Для выборочной (точечной) оценки И * (тета) параметра И генеральной совокупности с точностью (предельной ошибкой ) Д и доверительной вероятностью г доверительный интервал определяется равенством:

Доверительная вероятность г дает возможность установить доверительные границы случайного колебания изучаемого параметра И для данной выборки.

В качестве доверительной вероятности принимают зачастую следующие значения и соответствующие им уровни значимости

Таблица 1. - Наиболее употребительные доверительные вероятности и уровни значимости

Например, 5-процентный уровень значимости означает следующее: в 5-ти случаях из 100 существует риск совершить ошибку при выявлении характеристик генеральной совокупности по выборочным данным. Или, другими словами, в 95 случаях из 100 генеральная характеристика, выявленная на основе выборки будет лежать в пределах доверительного интервала.

Статистические оценки параметров генеральной совокупности. Статистические гипотезы

ЛЕКЦИЯ 16

Пусть требуется изучить количественный признак генеральной совокупности. Допустим, что из теоретических соображений удалось установить, какое именно распределение имеет признак. Отсюда возникает задача оценки параметров, которыми определяется это распределение. Например, если известно, что изучаемый признак распределён в генеральной совокупности по нормальному закону, то необходимо оценить (приближённо найти) математическое ожидание и среднеквадратическое отклонение, так как эти два параметра полностью определяют нормальное распределение. Если же имеются основания считать, что признак имеет распределение Пуассона, то необходимо оценить параметр , которым это распределение определяется.

Обычно в распределении исследователь имеет лишь данные выборки, например, значения количественного признака , полученные в результате наблюдений (здесь и далее наблюдения предполагаются независимыми). Через эти данные и выражают оцениваемый параметр.

Рассматривая как значения независимых случайных величин , можно сказать, что найти статистическую оценку неизвестного параметра теоретического распределения означает найти функцию от наблюдаемых случайных величин, которая и даёт приближённое значение оцениваемого параметра. Например, как будет показано далее, для оценки математического ожидания нормального распределения служит функция (среднее арифметическое наблюдаемых значений признака):

.

Итак, статистической оценкой неизвестного параметра теоретического распределения называют функцию от наблюдаемых случайных величин. Статистическая оценка неизвестного параметра генеральной совокупности, записанная одним числом, называется точечной . Рассмотрим следующие точечные оценки: смещенные и несмещённые, эффективные и состоятельные.

Для того, чтобы статистические оценки давали «хорошие» приближения оцениваемых параметров, они должны удовлетворять определённым требованиям. Укажем эти требования.

Пусть есть статистическая оценка неизвестного параметра теоретического распределения. Допустим, что при выборке объёма найдена оценка . Повторим опыт, то есть извлечём из генеральной совокупности другую выборку того же объёма и по её данным найдём оценку и т.д. Повторяя опыт многократно, получим числа , которые, вообще говоря, будут различаться между собой. Таким образом, оценку можно рассматривать как случайную величину, а числа – как возможные её значения.

Ясно, что если оценка даёт приближённое значение с избытком, то каждое найденное по данным выборок число будет больше истинного значения . Следовательно, что в этом случае и математическое (среднее значение) случайной величины будет больше, чем , то есть . Очевидно, что если даёт приближённое значение с недостатком, то .


Поэтому, использование статистической оценки, математическое ожидание которой не равно оцениваемому параметру, приводит к систематическим (одного знака) ошибкам. По этой причине естественно потребовать, чтобы математическое ожидание оценки было равно оцениваемому параметру. Хотя соблюдение этого требования, в общем, не устранит ошибок (одни значения больше, а другие меньше чем ), ошибки разных знаков будут встречаться одинакова часто. Однако соблюдение требования гарантирует невозможность получения систематических ошибок, то есть устраняет систематические ошибки.

Несмещённой называют статистическую оценку (ошибку) , математическое ожидание которой равно оцениваемому параметру при любом объёме выборки, то есть .

Смещённой называют статистическую оценку , математическое ожидание которой не равно оцениваемому параметру при любом объёме выборки, то есть .

Однако было бы ошибочным считать, что несмещённая оценка всегда даёт хорошее приближение оцениваемого параметра. Действительно, возможные значения могут быть сильно рассеяны вокруг своего среднего значения, то есть дисперсия может быть значительной. В этом случае, найденная по данным одной выборки оценка, например , может оказаться весьма удалённой от среднего значения , а значит, и от самого оцениваемого параметра . Таким образом, приняв в качестве приближённого значения , мы допустим большую ошибку. Если же потребовать, чтобы дисперсия была малой, то возможность допустить большую ошибку будет исключена. По этой причине к статистической оценке предъявляется требование эффективности.

Эффективной называют статистическую оценку, которая (при заданном объёме выборки ) имеет наименьшую возможную дисперсию.

Состоятельной называют статистическую оценку, которая при стремится по вероятности к оцениваемому параметру, то есть, справедливо равенство:

.

Например, если дисперсия несмещённой оценки при стремится к нулю, то такая оценка оказывается также состоятельной.

Рассмотрим вопрос о том, какие выборочные характеристики лучше всего в смысле несмещённости, эффективности и состоятельности оценивают генеральную среднюю и дисперсию.

Пусть изучается дискретная генеральная совокупность относительно некоторого количественного признака .

Генеральной средней называется среднее арифметическое значений признака генеральной совокупности. Она вычисляется по формуле:

§ – если все значения признака генеральной совокупности объёма различны;

§ – если значения признака генеральной совокупности имеют соответственно частоты , причём . То есть генеральная средняя есть средняя взвешенная значений признака с весами, равными соответствующим частотам.

Замечание : пусть генеральная совокупность объёма содержит объекты с различными значениями признака . Представим себе, что из этой совокупности наудачу извлекается один объект. Вероятность того, что будет извлечён объект со значением признака, например , очевидно, равна . С этой же вероятностью может быть извлечён и любой другой объект. Таким образом, величину признака можно рассматривать как случайную величину, возможные значения которой имеют одинаковые вероятности, равные . Нетрудно, в этом случае, найти математическое ожидание :

Итак, если рассматривать обследуемый признак генеральной совокупности как случайную величину, то математическое ожидание признака равно генеральной средней этого признака: . Этот вывод мы получили, считая, что все объекты генеральной совокупности имеют различные значения признака. Такой же итог будет получен, если допустить, что генеральная совокупность содержит по несколько объектов с одинаковым значением признака.

Обобщая полученный результат на генеральную совокупность с непрерывным распределением признака , определим генеральную среднюю как математическое ожидание признака: .

Пусть для изучения генеральной совокупности относительно количественного признака извлечена выборка объёма .

Выборочной средней называют среднее арифметическое значений признака выборочной совокупности. Она вычисляется по формуле:

§ – если все значения признака выборочной совокупности объёма различны;

§ – если значения признака выборочной совокупности имеют соответственно частоты , причём . То есть выборочная средняя есть средняя взвешенная значений признака с весами, равными соответствующим частотам.

Замечание : выборочная средняя, найденная по данным одной выборки есть, очевидно, определённое число. Если же извлекать другие выборки того же объёма из той же генеральной совокупности, то выборочная средняя будет изменяться от выборки к выборке. Таким образом, выборочную среднюю можно рассматривать как случайную величину, а следовательно, можно говорить о распределениях (теоретическом и эмпирическом) выборочной средней и о числовых характеристиках этого распределения, в частности, о математическом ожидании и дисперсии выборочного распределения.

Далее, если генеральная средняя неизвестна и требуется оценить её по данным выборки, то в качестве оценки генеральной средней принимают выборочную среднюю, которая является несмещённой и состоятельной оценкой (предлагаем это утверждение доказать самостоятельно). Из сказанного следует, что если по нескольким выборкам достаточно большого объёма из одной и той же генеральной совокупности будут найдены выборочные средние, то они будут приближённо равны между собой. В этом состоит свойство устойчивости выборочных средних .

Отметим, что если дисперсии двух совокупностей одинаковы, то близость выборочных средних к генеральным не зависит от отношения объёма выборки к объёму генеральной совокупности. Она зависит от объёма выборки: чем объём выборки больше, тем меньше выборочная средняя отличается от генеральной. Например, если из одной совокупности отобран 1% объектов, а из другой совокупности отобрано 4% объектов, причём объём первой выборки оказался большим, чем второй, то первая выборочная средняя будет меньше отличаться от соответствующей генеральной средней, чем вторая.

План лекции:

    Понятие оценки

    Свойства статистических оценок

    Методы нахождения точечных оценок

    Интервальное оценивание параметров

    Доверительный интервал для математического ожидании при известной дисперсии нормально распределённой генеральной совокупности.

    Распределение хи-квадрат и распределение Стьюдента.

    Доверительный интервал для математического ожидании случайные величины, имеющей нормальное распределение при неизвестной дисперсии.

    Доверительный интервал для среднего квадратического отклонения нормального распределения.

Список литературы:

    Вентцель, Е.С. Теория вероятностей [Текст] / Е.С. Вентцель. – М.: Высшая школа, 2006. – 575 с.

    Гмурман, В.Е. Теория вероятностей и математическая статистика [Текст] / В.Е. Гмурман. - М.: Высшая школа, 2007. - 480 с.

    Кремер, Н.Ш. Теория вероятностей и математическая статистика [Текст] / Н.Ш. Кремер - М: ЮНИТИ, 2002. – 543 с.

П.1. Понятие оценки

Такие распределения, как биномиальное, показательное, нормальное, являются семействами распределений, зависящими от одного или нескольких параметров. Например, показательное распределение с плотностью вероятностей , зависит от одного параметра λ, нормальное распределение
- от двух параметровm и σ. Из условий исследуемой задачи, как правило, ясно, о каком семействе распределений идёт речь. Однако остаются неизвестными конкретные значения параметров этого распределения, входящие в выражения интересующих нас характеристик распределения. Поэтому необходимо знать хотя бы приближённое значение этих величин.

Пусть закон распределения генеральной совокупности определён с точностью до значений входящих в его распределение параметров
, часть из которых может быть известна. Одной из задач математической статистики является нахождение оценок неизвестных параметров по выборке наблюдений
из генеральной совокупности. Оценка неизвестных параметров заключается в построении функции
от случайной выборки, такой, что значение этой функции приближённо равно оцениваемому неизвестному параметруθ . Функция называетсястатистикой параметра θ .

Статистической оценкой (в дальнейшем просто оценкой ) параметраθ теоретического распределения называется его приближённое значение, зависящего от данных выбора.

Оценка является случайной величиной, т.к. является функцией независимых случайных величин
; если произвести другую выборку, то функция примет, вообще говоря, другое значение.

Существует два вида оценок – точечные и интервальные.

Точечной называется оценка, определяемая одним числом. При малом числе наблюдений эти оценки могут приводить к грубым ошибкам. Чтобы избежать их, используют интервальные оценки.

Интервальной называется оценка, которая определяется двумя числами – концами интервала, в котором с заданной вероятностью заключена оцениваемая величина θ .

П. 2 Свойства статистических оценок

Величину
называютточностью оценки . Чем меньше
, тем лучше, точнее определён неизвестный параметр.

К оценке любого параметра предъявляется ряд требований, которым она должна удовлетворять, чтобы быть «близкой» к истинному значению параметра, т.е. быть в каком-то смысле «доброкачественной» оценкой. Качество оценки определяют, проверяя, обладает ли она свойствами несмещённости, эффективности и состоятельности.

Оценка параметраθ называется несмещённой (без систематических ошибок), если математическое ожидание оценки совпадает с истинным значением θ :

. (1)

Если равенство (1) не имеет места, то оценка называетсясмещённой (с систематическими ошибками). Это смещение может быть связано с ошибками измерения, счёта или неслучайным характером выборки. Систематические ошибки приводят к завышению или занижению оценки.

Для некоторых задач математической статистики может существовать несколько несмещённых оценок. Обычно предпочтение отдают той, которая обладает наименьшим рассеянием (дисперсией).

Оценка называетсяэффективной , если она имеет наименьшую дисперсию среди всех возможных несмещённых оценок параметра θ .

Пусть D () – минимальная дисперсия, а
– дисперсия любой другой несмещённой оценкипараметраθ . Тогда эффективность оценки равна

. (2)

Ясно, что
. Чем ближе
к 1, тем эффективнее оценка. Если
при
, то оценка называетсяасимптотически эффективной .

Замечание : Если оценка смещённая, то малости её дисперсии ещё не говорит о малости её погрешности. Взяв, например, в качестве оценки параметраθ некоторое число , получим оценку даже с нулевой дисперсией. Однако в этом случае ошибка (погрешность)
может быть сколь угодно большой.

Оценка называетсясостоятельной , если с увеличением объема выборки (
) оценка сходится по вероятности к точному значению параметраθ , т.е. если для любого

. (3)

Состоятельность оценки параметраθ означает, что с ростом n объема выборки качество оценки улучшается.

Теорема 1. Выборочная средняя является несмещённой и состоятельной оценкой математического ожидания.

Теорема 2. Исправленная выборочная дисперсия является несмещённой и состоятельной оценкой дисперсии.

Теорема 3. Эмпирическая функция распределения выборки является несмещённой и состоятельной оценкой функции распределения случайной величины.

Изучив эту главу, студент будет знать, что выборка может рассматриваться как эмпирический аналог генеральной совокупности, что с помощью выборочных данных можно судить о свойствах генеральной совокупности и оценивать ее характеристики, основные законы распределения статистических оценок, уметь производить точечные и интервальные оценки параметров генеральной совокупности методом моментов и максимального правдоподобия, владеть способами определения точности и надежности полученных оценок.

Виды статистических оценок

О параметрах генеральной совокупности мы знаем то, что они объективно существуют, но определить их непосредственно невозможно в силу того, что генеральная совокупность или бесконечна или чрезмерно велика. Поэтому может стоять вопрос только об оценке этих характеристик.

Ранее было установлено, что для выборки, извлеченной из генеральной совокупности, при соблюдении условий репрезентативности, можно определить характеристики, которые являются аналогами характеристик генеральной совокупности.

cjp Определение 8.1. Приближенные значения параметров распределения, найденные по выборке, называются оценкой параметра.

Обозначим оцениваемый параметр случайной величины (генеральной совокупности) как 0, а его оценку, полученную с помощью выборки, 0.

Оценка 0 является случайной величиной, поскольку любая выборка является случайной. Оценки, полученные для разных выборок, будут отличаться друг от друга. Поэтому будем считать 0 функцией, зависящей от выборки: 0 = 0(Х в).

ЩР Определение 8.2. Статистическая оценка называется состоятельной, если она стремиться по вероятности к оцениваемому параметру:

Это равенство означает, что событие 0=0 становится достоверным при неограниченном возрастании объема выборки.

В качестве примера можно привести относительную частоту некоторого события А, которая является состоятельной оценкой вероятности этого события в соответствии с теоремой Пуассона (см. формулу (6.1), часть 1).

Определение 8.3. Статистическая оценка называется эффективной, если она имеет наименьшую дисперсию при одних и тех же объемах выборки.

Рассмотрим оценку М х математического ожидания М х случайной величины X. В качестве такой оценки выберем X . Найдем математическое ожидание случайной величины X .

Сначала сделаем важное утверждение: учитывая то, что все случайные величины X, извлекаются из одной и той же генеральной совокупности X, а значит, имеют одно и то же распределение что и X, можно записать:

Теперь найдем М(Х в):


Таким образом, выборочная средняя является статистической оценкой математического ожидания случайной величины. Эта оценка является состоятельной поскольку в соответствии со следствием из теоремы Чебышева она сходится по вероятности к математическому ожиданию (6.3).

Мы установили, что в рассматриваемом случае математическое ожидание выбранной нами оценки (случайной величины) равно самому оцениваемому параметру. Оценки, обладающие таким свойством, занимают особое место в математической статистике, они называются несмещенными.

Определение 8.4. Статистическая оценка © называется несмещенной, если ее математическое ожидание равно оцениваемому параметру

Если это требование не выполнено, то оценка называется смещенной.

Таким образом, выборочная средняя является несмещенной оценкой математического ожидания.

Проведем анализ смещенности выборочной дисперсии D , если ее выбрать в качестве оценки генеральной дисперсии D x . Для этого проверим выполнимость условия (8.2) для?) :


Преобразуем каждое из двух полученных слагаемых:

Здесь было использовано равенство М(Х.) = М(Х 2), справедливое по той же причине, что и (8.1).

Рассмотрим второе слагаемое. С помощью формулы квадрата суммы п слагаемых получаем


учитывая снова равенство (8.1), а также то, что X. и X независимые случайные величины запишем

и окончательно получим:

Подставим полученные результаты в (8.3)

После преобразования получим

Таким образом, можно сделать вывод, что выборочная дисперсия является смещенной оценкой генеральной дисперсии.

Учитывая полученный результат, поставим задачу построить такую оценку генеральной дисперсии, которая удовлетворяла бы условию несмещенности (8.2). Для этого рассмотрим случайную величину

Легко видеть, что для этой величины условие (8.2) выполняется:

Заметим, что различие между выборочной дисперсией и исправленной выборочной дисперсией становятся незначительными при больших объемах выборки.

При выборе оценок характеристик случайных величин важно знать их точность. В некоторых случаях требуется высокая точность, а иногда достаточно иметь грубую оценку. Например, планируя перелет с пересадкой нам важно знать как можно точнее планируемое время прилета к месту стыковки авиарейсов. В другой ситуации, например, находясь дома и ожидая курьера с заказанным нами товаром, высокая точность времени его прибытия для нас не важна. В обоих случаях случайной величиной является время прибытия, а интересующей нас характеристикой случайной величины - среднее время в пути.

Оценки бывают двух видов. В первом случае ставится задача получить конкретное числовое значение параметра. В другом случае определяется интервал, в который с заданной вероятностью попадает интересующий нас параметр.

Пусть требуется изучить, к примеру, количественный признак генеральной совокупности. Допустим, что из теоретических соображений удалось установить, какое именно распределение имеет признак. Естественно, возникает задача оценки параметров, которыми определяется это распределение. Например, если наперед известно, что изучаемый признак распределен в генеральной совокупности нормально, то необходимо оценить (приближенно найти) математическое ожидание а и среднее квадратическое отклонение s, так как эти два параметра полностью определяют нормальное распределение.

Обычно в распоряжении исследователя имеются лишь данные выборки, например, значения количественного признака х 1 , х 2 , …, х n , полученные в результате n наблюдений. Через эти данные и выражают оцениваемый параметр .

Пусть q * - статистическая оценка неизвестного параметра q теоретического распределения. Различают несмещённую и смещённую оценки.

Несмещённой называют статистическую оценку q * , математическое ожидание которой равно оцениваемому параметру q при любом объеме выборки, то есть

В противном случае, то есть если М(q *) ¹ q, оценка называется смещённой .

Требование несмещённости означает, что не должно быть систематического отклонения в одну и ту же сторону наблюдаемых значений от q.

К статистической оценке предъявляется также требование эффективности , что подразумевает (при заданном объеме выборки) наименьшую возможную дисперсию, а в случае большого объема выборки и требование состоятельности , то есть практическое совпадение наблюдаемых значений случайной величины с оцениваемым параметром.

Если статистический материал представлен в виде вариационного ряда, то последующий его анализ осуществляется, как правило, с помощью некоторых постоянных величин, достаточно полно отражающих присущие изучаемой генеральной совокупности закономерности.

К таким постоянным относятся средние величины, среди которых наиболее значимой является средняя арифметическая - она проще других и по смыслу, и по свойствам, и по способу получения.

Так как при исследовании генеральной совокупности осуществляется выборка, то постоянная величина, характеризующая выборку, называется выборочной средней и обозначается .

Можно показать, что есть несмещённая оценка среднего арифметического значения признака генеральной совокупности , то есть

Пусть некоторая совокупность разбита на части - группы , не обязательно одинаковые по объему. Тогда средние арифметические распределения членов групп называют групповыми средними , а среднюю арифметическую распределения по тому же признаку всей совокупности - общей средней . Группы называются непересекающимися , если каждый член совокупности принадлежит только одной группе.

Общая средняя равна средней арифметической групповых средних всех непересекающихся групп.

Пример. Вычислить среднюю заработную плату рабочих предприятия по данным таблицы

Решение. По определению общая средняя равна

. (*)

n 1 = 40, n 2 = 50, n 3 = 60

Средняя заработная плата рабочих цеха № 1. Для её нахождения мы составили среднюю арифметическую зарплату по всему цеху: 75, 85, 95 и 105 (у.е.) Для удобства эти значения можно уменьшить в пять раз (это их наибольший общий делитель): 15, 17, 19, 21. Остальное понятно из формулы.

Проделав аналогичные операции, найдем , .

Подставив полученные значения в (*), получим

Средние - это постоянные величины, которые определенным образом характеризуют распределения. О некоторых распределениях судят только по средним. Например, для сравнения уровней заработной платы в различных отраслях промышленности достаточно сравнить средние заработные платы в них. Однако по средним нельзя судить ни о различиях между уровнями заработной платы наиболее высоко- и низкооплачиваемых работников, ни о том, какие отклонения от средней заработной платы имеют место.

В статистике наибольший интерес представляет разброс значений признака около их средней арифметической. На практике и в теоретических исследованиях рассеяние признака чаще характеризуется дисперсией и средним квадратическим отклонением.

Выборочной дисперсией D В называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения .

Если все значения х 1 , х 2 , … х n признака выборки объема n различны, то

. (3)

Если же значения признака х 1 , х 2 , … х k имеют соответственно частоты n 1 , n 2 , … n k , причём n 1 + n 2 + … + n k = n, то

. (4)

Если есть необходимость, чтобы показатель рассеяния выражался в тех же единицах, что и значения признака, то можно пользоваться сводной характеристикой - средним квадратическим отклонением

Для вычисления дисперсии обычно используется формула

Если совокупность разбита на непересекающиеся группы, то для их характеристики можно ввести понятия групповой, внутригрупповой, межгрупповой и общей дисперсии.

Групповой дисперсией называется дисперсия распределения членов j-ой группы относительно их средней - групповой средней , то есть

где n i - частота значения x i , - объем группы j.

Внутригрупповой дисперсией называется средняя арифметическая групповых дисперсий

где N j (j = 1, 2, …, m) - объемы непересекающихся групп.

Межгрупповой дисперсией называется средняя арифметическая квадратов отклонений групповых средних всех непересекающихся групп от общей средней , то есть

.

Общей дисперсией называют дисперсию значений признака всей совокупности относительно общей средней

,

где n i - частота значения x i ; - общая средняя; n - объем всей совокупности.

Можно показать, что общая дисперсия D равна сумме , то есть

Пример. Найти общую дисперсию совокупности, состоящей из следующих двух групп

Первая группа Вторая группа
x i n i x i n i

Решение. Найдем групповые средние

Найдем групповые дисперсии

Найдем общую среднюю

Искомая общая дисперсия

Рассмотренные выше оценки принято называть точечными , так как эти оценки определяются одним числом . В случае небольшого объема выборки используется интервальная оценка, определяемая двумя числами , называемыми концами интервала.

Интервальные оценки позволяют установить точность и надежность оценок. Поясним смысл этих понятий. Пусть найденная по данным выборки статистическая характеристика q * служит оценкой неизвестного параметра q. Ясно, что q * тем точнее будет определять параметр q, чем меньше абсолютная величина . Иными словами, если d > 0 и , то чем меньше d, тем оценка точнее.

Таким образом, число d > 0 характеризует точность оценки. Но с другой стороны статистические методы не позволяют категорически утверждать, что оценка q * удовлетворяет неравенству . Здесь можно говорить только о вероятности g , с которой это неравенство осуществляется. Эту вероятность g и называют надежностью (доверительной вероятностью) оценки q по q * .

Таким образом, из сказанного следует, что

Соотношение (*) следует понимать так: вероятность того, что интервал (q * - d, q * + d) заключает в себе (покрывает) неизвестный параметр q, равна g. Интервал (q * - d, q * + d), покрывающий неизвестный параметр с заданной надежностью g, называют доверительным.

Пример. Случайная величина Х имеет нормальное распределение с известным средним квадратическим отклонением s = 3. Найти доверительные интервалы для оценки неизвестного математического ожидания а по выборочным средним , если объем выборки n = 36 и задана надежность оценки g = 0,95.

Решение. Заметим, что если случайная величина Х распределена нормально, то выборочная средняя , найденная по независимым наблюдениям, также распределена нормально, а параметры распределения таковы: , (см. стр. 54).

Потребуем выполнения соотношения

.

Пользуясь формулой (**) (см. стр. 43), заменив в ней Х на и s на , получим

Похожие публикации