Определить эмпирическое корреляционное отношение. Эмпирическое корреляционное отношение рассчитывается по формуле

Эмпирическое корреляционное отношение измеряет, какую часть общей колеблемости результативного признака вызывает изучаемый фактор. Эмпирическое корреляционное среднее варьирует от 0 до 1.

Находят эмпирическое корреляционное отношение обычно в следующих типах задач:

  • 1) когда по двум рядам данным X и Y необходимо произвести аналитическую группировку
  • 2) группировка уже произведена, необходимо проверить правило сложения дисперсий
  • 3) по двум рядам данным X и Y необходимо найти уравнение регрессии и оценить его значимость

Формула дисперсии альтернативного признака

Исходя из изложенного выше, можно вывести формулу нахождения дисперсии альтернативного признака, если нам известна процентная доля такого признака в общем объеме выборки.

Изначально мы предполагаем, что признак принимает только два значения.

Таким образом, сумма доли элементов, в которых элементы статистического ряда имеют значение признака "нет" и элементов ряда, которые имеют значение признака "да" - равно единице.

Для нахождения среднего значения ряда, подставим значения альтернативных признаков (0 и 1) в формулу нахождения среднего взвешенного значения статистического ряда. Откуда, совершенно очевидно, в знаменателе будет единица, а в числителе - процентное значение элементов "1". То есть ровно процентное значение элементов с признаком "1". (Формула 2)

Формула дисперсии - это средневзвешенное значение квадратов отклонений каждого значения ряда данных. (Формула 3)

Поскольку в нашем ряду данные имеют только два типа значений - "0" и "1", то формула нахождения дисперсии для ряда, имеющего альтернативный признак сводится к Формуле 4. Пояснение. поскольку мы только что вывели, что среднее значение выборки равно р (Формула 2), то значение квадрата разности значения (0/1) и среднего значения, согласно Формулы 1, будет в первом случае (1-p)2 , а во втором случае (1-q)2 , теперь, применив следствие из первой формулы: q = 1 - p, p = 1- q . Получим p2 и q2 . Соответственно, доля значений "0" и "1" равна p и q, в результате в числителе и получается q2 p и p2 q. Сумма долей признаков значений "0" и "1" согласно Формуле 1 равна 1. В итоге Формула 4 и принимает значение pq, которое и будет равно значению дисперсии альтернативного признака. Исходя из найденного значения величины дисперсии альтернативного признака, найдем среднеквадратичное отклонение (Формула 5). Поставив значение из Формулы 1 в Формулу 5, получим формулу среднеквадратичного отклонения для дисперсии ряда с альтернативным признаком.

ОТВЕТ

Количественная оценка тесноты связи по эмпирическим данным состоит в расчете показателей тесноты связи:

· Эмпирический коэффициент детерминации (эмпирическое дисперсионное отношение) - r 2 .

Данный показатель рассчитывается по данным аналитической группировки (табл.), как отношение межгрупповой дисперсии признака-результата Y (d y 2) к общей дисперсии Y (s y 2):

Согласно теореме о разложении дисперсии межгрупповая дисперсия связана с общей дисперсией: s y 2 =d y 2 +e y 2 . Тогда эмпирический коэффициент детерминации может быть рассчитан через остаточную дисперсию по формуле:

где s j 2 – дисперсия признака-результата Y внутри j-ой группы.

Эмпирический коэффициент детерминации характеризует силу влияния группировочного признака (Х) на образование общей вариации результативного признака Y и показывает процент (долю) вариации признака-результата, обусловленную признаком-фактором, положенным в основу группировки.

Расчет r 2 удобно вести в таблице:

Признак- фактор Х j N j Среднее значение признака-результата s j 2 N j
X 1 N 1 s 1 2 N 1
X 2 N 2 s 2 2 N 2
.... ...
X m N m s m 2 N m
Итого N Х ås j 2

Тогда .

Рассмотрим пример. Пусть дана совокупность из 20 рабочих, характеризующихся признаками: Y - выработка рабочего (шт./смену) и Х- квалификация (разряд). Исходные данные представлены в таблице:

X
Y

Требуется оценить тесноту связи между признаками с помощью эмпирического коэффициента детерминации (r 2).

Для расчета r 2 произведем аналитическую группировку совокупности. В качестве признака-фактора возьмем Х (разряд рабочего), в качестве признака-результата – Y выработку рабочего). Аналитическая группировка производится по признаку Х. В данном случае она будет дискретная (т.к. значения признака Х довольно часто повторяются). Количество групп равно числу значений признака Х в совокупности, т.е. 6. Результаты группировки и расчета r 2 сведем в таблицу:

Признак-фактор Х Признак-результат Y Количество единиц в группе, N j Среднее значение признака-результата в группе, ( - ) 2 ·N j Дисперсия признака-результата в группе, s 2 j s 2 j ·N j
(10+12+13)/3=11,7 (11,7-17,1) 2 3=88,56 s 2 1 =((10-11,7) 2 +(12-11,7) 2 +(13-11,7) 2)/3=1,56 4,7
(11+14)/2=12,5 (12,5-17,1) 2 2=42,3 s 2 2 =((11-12,5) 2 +(14-12,5) 2)/2=2,25 4,5
(12+13+15+16)/4= 14 (14-17,1) 2 4=38,4 s 2 3 =((12-14) 2 +(13-14) 2 +(15-14) 2 +(16-14) 2)/4=2,5
(15+17+17+18)/4= 16,75 (16,75-17,1) 2 4=0,49 s 2 4 =((15-16,75) 2 +(17-16,75) 2 ++(17-16,75) 2 +(18-16,75) 2)/4=1,9 4,75
(18+20+22)/3=20 (20-17,1) 2 3=25,23 s 2 5 =((18-20) 2 +(20-20) 2 +(22-20) 2)/3=2,7
(23+24+27+25)/4= 24,75 (24,75-17,1) 2 4=234,1 s 2 6 =((23-24,75) 2 +(24-24,75) 2 +(27-24,75) 2 +(25-24,75) 2)/4=2,19 8,75
=17,1 429,1 40,7

Эмпирический коэффициент детерминации равен отношению межгрупповой дисперсии признака-результата (d y 2) к общей дисперсии признака-результата (s y 2): r 2 = d y 2 /s y 2 = d y 2 /(d y 2 +e y 2).

Межгрупповая дисперсия Y будет равна: d y 2 = å( - ) 2 ·N j / N = 429,1/20=21,45.

Остаточная дисперсия Y будет равна: e y 2 = ås 2 j ·N j / N= 40,7/20= 2,035.

Тогда: r 2 =21,45/(21,45+2,035)= 429,1/(429,1+40,7)=0,913.

Вывод: 91,3% вариации выработки рабочих обусловлена влиянием фактора разряд.

· Эмпирическое корреляционное отношение - r.

Данный показатель представляет собой корень из эмпирического коэффициента детерминации. Оно показывает тесноту связи (не только линейной!) между группировочным и результативным признаками. Область допустимых значений эмпирического корреляционного отношения от 0 до +1.

Максимально тесная связь – это связь функциональная, когда каждое значение признака-результата Y однозначно определяется значением признака-фактора Х (т.е. результатом группировки). В этом случае дисперсия групповых средних (d y 2) равна общей дисперсии (s y 2), т.е. внутригрупповой вариации не будет. При этом остаточная дисперсия (e y 2) равна 0, а эмпирический коэффициент детерминации равен 1.

Если связь между признаками отсутствует, то все групповые средние равны между собой, межгрупповой вариации не будет (d y 2 =0), а эмпирический коэффициент детерминации равен 0.

Рассчитаем эмпирическое корреляционное отношение для нашего примера: r= 0,9555. Вывод: признаки «выработка рабочего» и «разряд» связаны довольно тесной связью.

Показатели r и r 2 определяются не только наличием связи признаков Х и Y, но и фактом группировки первичных данных. С ростом числа групп m межгрупповая дисперсия d 2 растет и приближается к общей дисперсии. Если число групп меньше количества единиц совокупности N, то значения r и r 2 никогда не будут равны 1, даже при строгой функциональной связи.

Заметим, что сама по себе величина показателя тесноты связи не является доказательством наличия причинно-следственной связи между исследуемыми признаками, а является оценкой степени взаимной согласованности в изменениях признаков. Установлению причинно-следственной зависимости должен обязательно предшествовать анализ качественной природы явлений.

Корреляционный анализ предполагает измерение тесноты связи с помощью коэффициента корреляции и корреляционного отношения. При линейной форме зависимости силу связи оценивает коэффициент корреляции Пирсона :

Коэффициент корреляции изменяется в пределах от (– 1) до (+ 1), (– 1 r 1).

Отрицательный знак показателя свидетельствует об обратной связи, положительный – о прямой связи. Чем ближе значение показателя к единице, по модулю, тем связь сильнее, чем ближе к нулю, тем связь слабее.

Для измерения силы связи при любой форме зависимости, как линейной, так и нелинейной, а также для оценки множественной связи применяют теоретическое корреляционное отношение (индекс корреляции). В основе его расчета лежит правило сложения дисперсии:

где общая дисперсия – отражает вариацию результативного признака за счет всех действующих на него факторов;

или

факторная дисперсия , отражает вариацию результативного признака за счет фактора (х) .

остаточная дисперсия , отражает вариацию результативного признака за счет всех факторов, кроме фактора (х) ;

Теоретическое корреляционное отношение – это корень квадратный из отношения факторной дисперсии к общей дисперсии:

Подкоренное выражение – коэффициент детерминации :

показывает долю вариации результативного признака, обусловленную влиянием факторного признака, в общей вариации. Чем эта доля выше, тем связь между признаками сильнее.

Теоретическое корреляционное отношение изменяется от 0 до 1 (0 R 1) .Чем значение показателя ближе к единице, тем связь сильнее.

Для оценки тесноты связи можно воспользоваться шкалой Чеддока :

Основная тенденция развития и методы ее выявления

Каждый ряд динамики имеет свою тенденцию развития, т.е. общее направление к росту, снижению или стабилизации уровня явления с течением времени. Степень выраженности этой тенденции зависит от влияния постоянных, периодических (сезонных) и случайных факторов на уровни ряда динамики. Поэтому следует говорить не просто о тенденции развития, а об основной тенденции.

Основной тенденцией развития (трендом) называется плавное и устойчивое изменение уровня явления во времени, свободное от периодических и случайных колебаний .

Для выявления тренда ряды динамики подвергаются обработке методами укрупнения интервалов, скользящей средней, аналитического выравнивания.

Метод укрупнения интервалов основан на укрупнении периодов времени, к которым относятся уровни ряда динамики. Для этого исходные данные объединяются, т.е. суммируются или усредняются за более продолжительные интервалы времени, пока общая тенденция развития не станет достаточно отчетливой. Например, дневные данные о производстве продукции объединяются в декадные, месячные в квартальные, годовые в многолетние. Достоинство метода в его простоте. Недостаток в том, что сглаженный ряд существенно короче исходного.

Метод скользящей средней состоит в том, что на основе исходных данных рассчитываются подвижные средние из определенного числа сначала первых по счету уровней ряда, затем из такого же числа уровней, начиная со второго, с третьего и т.д. Средняя величина как бы скользит по динамическому ряду, передвигаясь на один интервал. В скользящих средних сглаживаются случайные колебания.

Схема расчета 3-х уровневой скользящей средней величины

Интервал времени

(номер по порядку)

Фактические уровни ряда динамики

у i

Скользящие средние

у ск

у 1

у 2

у 3

у 4

у ск3

у 5

у ск4

у 6

Сглаженный ряд динамики короче исходного на величину (l – 1) , если укрупнение производится по нечетному числу уровней, где l – длина периода укрупнения. Например, если l = 3, то выровненный ряд на 2 уровня короче. Таким образом сглаженный ряд не на много короче исходного.

Метод аналитического выравнивания заключается в замене фактических уровней ряда динамики их теоретическими значениями, вычисленными на основе уравнения тренда:

Расчет параметров уравнения производится методом наименьших квадратов:

где у – фактические уровни;у ti – соответствующие им во времени выровненные (расчетные) уровни.

Если развитие осуществляется в арифметической прогрессии (с равными цепными абсолютными приростами), то для выравнивания используют линейную функцию :

Если наблюдается динамика в геометрической прогрессии, (с равными цепными темпами роста), то необходимо использовать показательную функцию :

у t = а 0 а 1 t .

Если развитие происходит с равными темпами прироста, используется степенная функция , например второго порядка (парабола):

у t = а 0 + а 1 t + а 2 t 2 .

Критерием правильности выбора уравнения тренда служит ошибка аппроксимации . Она представляет собой среднее квадратическое отклонение фактических уровней ряда динамики от теоретических:

Оптимальным считается уравнение с наименьшей ошибкой аппроксимации.

Рассмотрим «технику» выравнивания ряда динамики по линейной функции :


где а 0 , а 1 – параметры уравнения прямой; t – показатели времени (как правило, порядковый номер периода или момента времени).

Параметры прямой а 0 и а 1 , удовлетворяющие методу наименьших квадратов, находят решением следующей системы нормальных уравнений:

где n – число уровней ряда динамики; параметр а 1 соответствует среднему абсолютному приросту.

Для упрощения расчета показателям времени
можно придать такие значения, при которых
, тогда

Для этого в рядах с нечетным числом уровней за начало отсчета времени принимают центральный интервал, где t приравнивают к нулю. По обе стороны от нуля располагают соответственно ряды отрицательных и положительных натуральных чисел, например:

Интервал времени

(номер по порядку)

t i

При четном числе уровней отсчет ведется от двух центральных интервалов, в которых t приравнено к (-1) и (+1) соответственно, а по обе стороны располагаются ряды отрицательных и положительных нечетных чисел, например:

Интервал времени

(номер по порядку)

t i

Схема расчета параметров линейного уравнения

Интервалы времени

Уровни ряда динамики

у i

t i

i t 2

у i t i

у ti

На основе исчисленного уравнения тренда можно производить экстраполяцию – нахождение вероятностных (прогнозируемых) уровней за пределами исходного ряда динамики.

Эмпирическое корреляционное отношение

Теснота или сила связи между двумя признаками может быть измерена показателем, называемым эмпирическим корреляционным отношением. Этот показатель назван эмпирическим, поскольку он может быть рассчитан на основе обычной группировки по факторному и результативному признаку, то есть на основе корреляционной таблицы. Эмпирическое корреляционное отношение получается из правила сложения дисперсий, согласно которому , где - общая дисперсия; - межгрупповая дисперсия; - внутригрупповая (средняя из частных) дисперсия. Межгрупповая дисперсия является мерой колеблемости, обусловленной факторным признаком. Средняя из частных дисперсий является мерой колеблемости, обусловленной всеми остальными(кроме факторного) признаками. Тогда отношение выражает долю колеблемости, возникающей за счет факторного признака, в общей колеблемости. Квадратный корень из этого отношения и называется эмпирическим корреляционным отношением: .

Отсюда следует правило, что чем больше межгрупповая дисперсия, тем сильнее факторный признак влияет на вариации результативного признака. Составляющие отношения дисперсий вычисляются по данным корреляционной таблицы по следующим формулам:

; ,

где - частные средние; - общая средняя; - итоги по признаку ; - итоги по признаку ; - число наблюдений. То же соотношение сохраняется и для условных значений , полученных числовым преобразованием .

Само отношение дисперсий (подкоренное выражение) называется коэффициентом детерминации (оно равно также квадрату эмпирического корреляционного отношения). Эмпирическое корреляционное отношение изменяется в широких пределах (от 0 до 1). Если оно равно нулю, значит факторный признак на корреляционный не влияет. Если =1, значит, результативный признак полностью зависит от факторного. Если же эмпирическое корреляционное отношение представляет дробь, близкую единице, то говорят о тесной связи между факторным и результативным признаками. Если эта дробь мала (близка нулю), то говорят о слабой связи между ними.

Решение. Для расчета групповых дисперсий вычислим средние по каждой группе:

Шт.; шт.

Промежуточные расчеты дисперсий по группам представлены в табл. 3.2. Подставив полученные значения в формулу (3.4), получим:

Средняя из групповых дисперсий

Затем рассчитаем межгрупповую дисперсию. Для этого предварительно определим общую среднюю как среднюю взвешенную из групповых средних:

Теперь определим межгрупповую дисперсию

Таким образом, общая дисперсия по правилу сложения дисперсий:

Проверим полученный результат, вычислив общую дисперсию обычным способом:

На основании правила сложения дисперсий можно определить показатель тесноты связи между группировочным (факторным) и результативным признаками. Он называется эмпирическим корреляционным отношением, обозначается («эта») и рассчитывается по формуле

Для нашего примера эмпирическое корреляционное отношение

.

Величина 0,86 характеризует существенную связь между группировочным и результативным признаками.

Величина называется коэффициентом детерминации и показывает долю межгрупповой дисперсии в общей дисперсии.

Наряду с вариацией количественных признаков может наблюдаться и вариация качественных признаков. Такое изучение вариации достигается, как и для долей количественных признаков, посредством вычисления и анализа следующих видов дисперсий.

Внутригрупповая дисперсия доли определяется по формуле

. (3.17)

Средняя из внутригрупповых дисперсий рассчитывается как

. (3.18)

Формула межгрупповой дисперсии имеет следующий вид:

, (3.19)

где n i – численность единиц в отдельных группах;

– доля изучаемого признака во всей совокупности, которая определяется по формуле

Общая дисперсия имеет вид

. (3.21)

Три вида дисперсии связаны между собой следующим образом:

. (3.22)

Пример 3.4

Определим групповые дисперсии, среднюю из групповых, межгрупповую и общую дисперсии по данным табл. 3.3.

Таблица 3.3

Численность и удельный вес одной из категорий
крупного рогатого скота фермерских хозяйств района



Решение

Определим долю дойных коров в целом по трем хозяйствам:

Общая дисперсия доли дойных коров:

Внутригрупповые дисперсии:

; ; .

Средняя из внутригрупповых дисперсий:

Межгрупповая дисперсия:

Используя правило сложения дисперсий, получаем: 0,1025+0,0031=0,1056. Пример решен правильно.

Пример 3.5

По данным выборочного обследования заработной платы работников бюджетной сферы получены следующие показатели (табл. 3.4).

Таблица 3.4

Определите:

1) среднюю заработную плату по двум отраслям;

2) дисперсии заработной платы:

а) среднюю из групповых дисперсий (отраслевых),

б) межгрупповую (межотраслевую),

3) коэффициент детерминации;

4) эмпирическое корреляционное отношение.

Решение

1. Средняя заработная плата работников по двум отраслям рассчитывается по формуле (2.10):

руб.

2. Дисперсии заработной платы:

а) средняя из групповых дисперсий по (3.14)

б) межгрупповая дисперсия согласно (3.12)

в) общая дисперсия, полученная на основании правила сложения дисперсий (3.15):

3. Коэффициент детерминации равен величине

т.е. , или 44,24%.

Он показывает, что оплата труда на 44,24% зависит от отраслевой принадлежности работников и на 55,76% – от внутриотраслевых причин.

По формуле (3.16) эмпирическое корреляционное отношение ,

что свидетельствует о существенном влиянии на дифференциацию заработной платы отраслевых особенностей.

3.2. ЗАДАЧИ ДЛЯ САМОСТОЯТЕЛЬНОГО РЕШЕНИЯ

Задача 3.1

По распределению 60 рабочих по тарифному разряду имеются следующие данные (табл. 3.5).

Таблица 3.5

Определите:

1) средний тарифный разряд рабочих;

2) среднее линейное отклонение;

3) дисперсию;

4) среднее квадратическое отклонение;

5) коэффициент вариации.

Задача 3.2

По результатам экзаменационной сессии 1 и 2 курсов одного из вузов имеются следующие данные: на 1 курсе сдали сессию без двоек 85% студентов, на 2 курсе – 90%.

Определите на каждом курсе дисперсию доли студентов, успешно сдавших сессию.

Задача 3.3

Акционерные общества области по среднесписочной численности работающих на 1 января 2004 г. распределились следующим образом (табл. 3.6).

Таблица 3.6

Рассчитайте:

1) среднее линейное отклонение;

2) дисперсию;

3) среднее квадратическое отклонение;

4) коэффициент вариации.

Задача 3.4

Имеются данные о распределении семей сотрудников предприятия по количеству детей (табл. 3.7).

Таблица 3.7

Вычислите:

1) внутригрупповые дисперсии;

2) среднюю из внутригрупповых дисперсий;

3) межгрупповую дисперсию;

4) общую дисперсию.

Проверьте правильность проведенных расчетов с помощью правила сложения дисперсий.

Задача 3.5

Распределение стоимости продукции, предназначенной для экспорта по цехам предприятия, представлено следующими данными (табл. 3.8).

Таблица 3.8

Вычислите:

1) среднюю из внутригрупповых, межгрупповую и общую доли экспортной продукции;

2) коэффициент детерминации и эмпирическое корреляционное соотношение.

Задача 3.6

По данным обследования коммерческих банков города, 70% общего числа клиентов составили юридические лица со средним размером кредита 120 тыс. руб. и коэффициентом вариации 25%, а 20% – физические лица со средним размером ссуды 20 тыс. руб. при среднем квадратическом отклонении 6 тыс. руб.

Используя правила сложения дисперсий, определите тесноту связи между размером кредита и типом клиента, исчислив эмпирическое корреляционное отношение.

Раздел 4. Выборочное наблюдение

4.1. МЕТОДИЧЕСКИЕ УКАЗАНИЯ
И РЕШЕНИЕ ТИПОВЫХ ЗАДАЧ

Целью выборочного наблюдения является определение характеристик генеральной совокупности – генеральной средней ( о) и генеральной доли (р ). Характеристики выборочной совокупности – выборочная средняя () и выборочная доля () отличаются от генеральных характеристик на величину ошибки выборки (). Поэтому для определения характеристик генеральной совокупности необходимо вычислять ошибку выборки, или ошибку репрезентативности, которая определяется по формулам, разработанным в теории вероятностей для каждого вида выборки и способа отбора.

Собственно случайная и механическая выборки. При случайном повторном отборе предельная ошибка выборки для средней () и для доли () рассчитывается по формулам

; (4.1)

(4.2)

где – дисперсия выборочной совокупности;

n – численность выборки;

t – коэффициент доверия, который определяется по таблице значений интегральной функции Лапласа при заданной вероятности (P дов. ) (табл. П1).

При бесповторном случайном и механическом отборе предельная ошибка выборки вычисляется по формулам

; (4.3)

, (4.4)

где N – численность генеральной совокупности.

Пример 4.1

Для определения зольности угля в месторождении в порядке случайной выборки было обследовано 100 проб угля. В результате обследования установлено, что средняя зольность угля в выборке составляет 16%, среднее квадратическое отклонение – 5%. В десяти пробах зольность угля составила более 20%. С вероятностью 0,954 определите пределы, в которых будут находиться средняя зольность угля в месторождении и доля угля с зольностью более 20%.

Решение

Средняя зольность угля будет находиться в пределах

Для определения границ генеральной средней вычислим предельную ошибку выборки для средней по формуле (4.1):

. (4.5)

С вероятностью 0,954 можно утверждать, что средняя зольность угля в месторождении будет находиться в пределах 16% 1%, или 15% 17%.

Доля угля с зольностью более 20% будет находиться в пределах

Выборочная доля определяется по формуле

где m – доля единиц, обладающих признаком

Ошибку выборки для доли () вычислим по формуле (4.2):

или ±6%.

С вероятностью 0,954 можно утверждать, что доля угля с зольностью более 20% в месторождении будет находиться в пределах , или .

Пример 4.2

Для определения среднего срока пользования краткосрочным кредитом в банке была произведена 5%-ная механическая выборка, в которую попало 100 счетов. В результате обследования установлено, что средний срок пользования краткосрочным кредитом – 30 дней при среднем квадратическом отклонении 9 дней. В пяти счетах срок пользования кредитом превышал 60 дней. С вероятностью 0,954 определите пределы, в которых будут находиться срок пользования краткосрочным кредитом в генеральной совокупности и доля счетов со сроком пользования краткосрочным кредитом более 60 дней.

Решение

Средний срок пользования кредитом в банке находится в пределах

.

Так как выборка механическая, то ошибка выборки определяется по формуле (2.3):

дня.

С вероятностью 0,954 можно утверждать, что срок пользования краткосрочным кредитом в банке находится в пределах =30 дней 2 дня, или

28 дней дня.

Доля кредитов со сроком пользования более 60 дней находится в пределах

Выборочная доля составит

Ошибку выборки для доли определим по формуле (4.4):

или 4,2%.

С вероятностью 0,954 можно утверждать, что доля кредитов в банке со сроком пользования более 60 дней будет находиться в пределах или

Типическая выборка. При типическом (районированном) отборе генеральная совокупность разбивается на однородные типические группы, районы. Отбор единиц наблюдения в выборочную совокупность производится различными методами. Рассмотрим типическую выборку с пропорциональным отбором внутри типических групп.

Объем выборки из типической группы при отборе, пропорциональном численности типических групп, определяется по формуле

где n i – объем выборки из типической группы;

N i – объем типической группы.

Предельная ошибка выборочной средней и доли при бесповторном случайном и механическом способе отбора внутри типических групп рассчитывается по формулам

; (4.8)

, (4.9)

где – дисперсия выборочной совокупности.

Пример 4.3

Для определения среднего возраста мужчин, вступающих в брак, в районе была произведена 5%-ная типическая выборка с отбором единиц пропорционально численности типических групп. Внутри групп применялся механический отбор. Данные сведены в табл. 4.1.

Таблица 4.1

С вероятностью 0,954 определите пределы, в которых будет находиться средний возраст мужчин, вступающих в брак, и долю мужчин, вступающих в брак во второй раз.

Решение

Средний возраст вступления мужчин в брак находится в пределах

.

Средний возраст вступления мужчин в брак в выборочной совокупности определим по формуле средней взвешенной

= года.

Средняя выборочная дисперсия определяется по формуле
средней

=

Предельную ошибку выборки вычислим по формуле (4.8):

года.

С вероятностью 0,954 можно утверждать, что средний возраст мужчин, вступающих в брак, будет находиться в пределах года года, или

24 года года.

Доля мужчин, вступающих в брак во второй раз, будет находиться в пределах

Выборочную долю определим по формуле средней

или 14%.

Среднюю выборочную дисперсию альтернативного признака вычисляем по формуле

(4.12)

Ошибку выборки для доли определим по формуле (4.9):

или 6%.

С вероятностью 0,954 можно утверждать, что доля мужчин, вступающих в брак во второй раз, будет находиться в пределах , или .

Серийная выборка. При серийном способе отбора генеральную совокупность делят на одинаковые по объему группы – серии. В выборочную совокупность отбираются серии. Внутри серий производится сплошное наблюдение единиц, попавших в серию.

При бесповторном отборе серий предельные ошибки выборочной средней и доли определяются по формуле

, (4.13)

где – межсерийная дисперсия;

R – число серий в генеральной совокупности;

r – число отобранных серий.

Пример 4.4

В цехе предприятия 10 бригад рабочих. С целью изучения их производительности труда была осуществлена 20%-ная серийная выборка, в которую попали 2 бригады. В результате обследования установлено, что средняя выработка рабочих в бригадах составила 4,6 и 3 т. С вероятностью 0,997 определите пределы, в которых будет находиться средняя выработка рабочих цеха. т, или т.

Пример 4.5

На складе готовой продукции цеха находятся 200 ящиков деталей по 40 штук в каждом ящике. Для проверки качества готовой продукции была произведена 10%-ная серийная выборка. В результате выборки установлено, что доля бракованных деталей составляет 15%. Дисперсия серийной выборки равна 0,0049.

С вероятностью 0,997 определите пределы, в которых находится доля бракованной продукции в партии ящиков.

Решение

Доля бракованных деталей будет находиться в пределах

Определим предельную ошибку выборки для доли по формуле (4.13):

или 4,4%.

С вероятностью 0,997 можно утверждать, что доля бракованных деталей в партии находится в пределах 10,6% 19,6%.

Пример 4.6

В области, состоящей из 20 районов, проводилось выборочное обследование урожайности на основе отбора серий (районов). Выборочные средние по районам составили соответственно 14,5 ц/га; 16; 15,5; 15 и 14 ц/га. С вероятностью 0,954 найдите пределы урожайности во всей области.

Решение

Рассчитаем общую среднюю:

ц/га.

Межгрупповая (межсерийная) дисперсия

Определим теперь предельную ошибку серийной бесповторной выборки (t = 2, Р дов = 0,954) по формуле (4.13):

.

Следовательно, урожайность в области (с вероятностью 0,954) будет находиться в пределах

15-1,7≤ ≤15+1,7,

13,3 ц/га≤ ≤16,7 ц/га.

В практике проектирования выборочного наблюдения возникает потребность в нахождении численности выборки, которая необходима для обеспечения определенной точности расчета генеральных характеристик – средней и доли. При этом предельная ошибка выборки, вероятность ее появления и вариация признака предварительно известны.

При случайном повторном отборе численность выборки определяется из выражения

При случайном бесповторном и механическом отборе численность выборки вычисляется по формуле

. (4.16)

Для типической выборки

. (4.17)

Для серийной выборки

. (4.18)

Пример 4.7

В районе проживает 2000 семей. Предполагается провести их выборочное обследование методом случайного бесповторного отбора для нахождения среднего размера семьи. Определите необходимую численность выборки при условии, что с вероятностью 0,954 ошибка выборки не превысит одного человека при среднем квадратическом отклонении, составляющем три человека ( =3).

Решение

При бесповторном случайном отборе численность выборки по формуле (4.16) составит семей.

Численность выборки: не менее 36 семей.

Пример 4.8

В городе А проживает 10 000 семей. С помощью механической выборки предполагается определить долю семей с тремя детьми и более. Какова должна быть численность выборки, чтобы с вероятностью 0,954 ошибка выборки не превышала 0,02, если на основе предыдущих обследований известно, что дисперсия равна 0,2?

Решение

Определим необходимую численность выборки по формуле (4.16):

.

Численность выборки: не менее 1667.

В статистике часто приходится сравнивать результаты двух (или более) выборок. На основании сравнения двух выборочных средних (или долей) делается вывод о случайности или существенности их расхождения.

Для этого абсолютная разность показателей выборочных средних сопоставляется со средней ошибкой разности :

. (4.19)

Найденное t расч. сравнивается с t табл. по t – распределению Стьюдента (таблица П2) для числа степеней свободы v =n 1 +n 2 -2 и заданного уровня значимости a. (здесь n 1 и n 2 – объемы сравниваемых выборок).