Меню
Бесплатно
Главная  /  Саморазвитие  /  Совокупность однородная. Генеральная совокупность и выборочный метод Однородная совокупность в статистике

Совокупность однородная. Генеральная совокупность и выборочный метод Однородная совокупность в статистике

Статистическая совокупность -

Совокупность называется однородной,

разнородной.

Вопрос 2. Признаки и их классификация

Признак - это качественная особенность единицы совокупности. По характеру отображения свойств единиц изучаемой совокупности признаки делятся на две основные группы;

признаки, имеющие непосредственное количественное выражение, например возраст, стаж работы, средний заработок и т. д. Они могут быть дискретными и непрерывными;

признаки, не имеющие непосредственного количественного выражения. В этом случае отдельные единицы совокупности различаются своим содержанием (например, отрасли - древесина, минеральные продукты, продтовары и т. д.). Такие признаки обычно называют атрибутивными (в философии «атрибут» - неотъемлемое свойство предмета).

Особенностью статистического исследования является то, что в нем изучаются только варьирующие признаки, т. е. признаки, принимающие различные значения (для атрибутивных признаков) или имеющие различные количественные уровни у отдельных единиц совокупности.

Вариация - это изменение величины либо значения признака при переходе от одного объекта (или группы объектов) к другому; точнее говоря - от одной единицы совокупности к другой. Обычно под вариацией мы понимаем обусловленное перекрещивающимся влиянием различных факторов на данное явление изменение величин только в пределах однородной совокупности.

Если же изменения изучаемого явления происходят в разные периоды времени, причем носят характер закономерности, то говорят уже не о вариации признака, а о его динамике.

Вопрос 3. Статистический показатель, система статистических показателей

Статистический показатель - это понятие (категория), отображающее количественные характеристики (размеры) соотношения признаков общественных явлений. Статистические показатели могут быть объемными (численность населения, объем продаж, товарооборот) и расчетными (средние величины). Они могут быть плановыми, отчетными и прогностическими (т.е. выступать в качестве прогнозных оценок). Статистические показатели следует отличать от статистических данных. Статистические данные - это конкретные численные значения статистических показателей. Они всегда определены не только качественно, но и количественно и зависят от конкретных условий места и времени.

Задачами статистики в этом направлении являются:

а) правильное определение содержания статистического показателя (валового национального продукта, национального дохода, экспорта, импорта и т. п.);

б) разработка методологии расчета статистического показателя.

Атрибуты статистического показателя:

1. Качественная сторона: объект, его свойство, категория.

2. Количественная сторона: число и единицы измерения.

3. Территориальные, отраслевые и иные границы объекта.

4. Интервал или момент времени.

Система статистических показателей - это совокупность статистических показателей, отражающая взаимосвязи, которые объективно существуют между явлениями. Для каждой общественно-экономической формации характерна определенная система взаимосвязи общественных явлений. Поэтому образуют систему и статистические показатели.

Система статистических показателей охватывает все стороны жизни общества на различных уровнях: страны, региона - макроуровень; предприятий, фирм, объединений и т. д. - микроуровень.

Системы статистических показателей имеют следующие особенности:

1) они носят исторический характер - меняются условия жизни населения, общества, меняются и системы статистических показателей;

2) методология расчета статистических показателей непрерывно совершенствуется.

Вопрос 4. Статистическая закономерность. Закон больших чисел

Статистическая закономерность – причинно-следственные связи, проявляющиеся в последовательности, повторяемости, регулярности массовых явлений и процессов общественной жизни, относящихся к определенному пространству и времени.
Закономерности, в которых необходимость неразрывно связана в каждом отдельном явлении со случайностью и лишь во множестве явлений проявляет себя как закон, называются статистическими.
Статистические закономерности обладают свойством устойчивости, т.е. стабильности и повторяемости при повторных наблюдениях.

Статистические закономерности изучают распределение единиц статистического множества по отдельным признакам под воздействием всей совокупности факторов.

Статистическая закономерность выступает как объективная закономерность сложного массового процесса и является формой причинной связи. Она обнаруживается в итоге массового статистического наблюдения. Этим обуславливается ее связь с законом больших чисел.

Статистическая закономерность с определенной вероятностью гарантирует устойчивость средних величин при сохранении постоянного комплекса условий, порождающих данное явление.

Свойство статистических закономерностей - проявляться лишь в массе явлений при обобщении данных по достаточно большому числу единиц, получило название закон больших чисел.

Закон больших чисел в наиболее простой форме гласит , что количественные закономерности массовых явлений отчетливо проявляются лишь в достаточно большом их числе.

Сущность - в числах, получающихся в результате массового наблюдения, выступают определенные правильности, которые не могут быть обнаружены в небольшом числе фактов.

Закон больших чисел выражает диалектику случайного и необходимого. В результате взаимопогашения случайных отклонений средние величины, исчисленные для величины одного и того же вида, становятся типичными, отражающими действия постоянных и существенных фактов в данных условиях места и времени.

Тенденции и закономерности, вскрытые с помощью закона больших чисел, имеют силу лишь как массовые тенденции, но не как законы для каждого отдельного случая.

Он характеризует лишь одну из форм проявления закономерностей в массовых количественных отношения х.

Так, цены на отдельные товары могут понижаться, на другие - повышаться, но совокупное изменение цен на все потребительские товары и услуги свидетельствует о неуклонном росте цен. Статистические совокупности часто называют массовыми явлениями.

Вопрос 7. Классификация стат.сводки и группировки.

Классификация сводки

от глубины обработки первичной информации , полученной в результате статистического наблюдения:

· простую;

· сложную.

Простая сводка предусматривает подсчет общих итогов по всей совокупности единиц статистического наблюдения. При этом определяется общий объем изучаемого явления.

Сложная сводка представляет собой комплекс процедур, которые включают группировку единиц совокупности, подсчет итогов характеристик единиц совокупности по каждой группе и по совокупности в целом, а также представление полученных результатов в виде статистических таблиц.

По признаку формы обработки информации :

· централизованную;

· децентрализованную.

Централизованная сводка предусматривает концентрацию всей исходной статистической информации в одном органе(Росстате, ФТС..), в котором он полностью обрабатывается При децентрализованной сводке обобщение исходных данных проводится последовательными этапами снизу доверху по иерархической системе (статистическая отчетность).

В зависимости от техники исполнения :

· автоматизированной

· ручной.

Классификация группировки

В зависимости от числа положенных в их основание признаков:

· простые

· многомерные (сложные)

Группировка, выполненная по одному признаку, называется простой.

Многомерная (сложная) группировка производится по двум и более признакам. Частным случаем многомер­ной группировки является комбинационная группировка, базирующаяся на двух и более признаках, взятых во взаи­мосвязи, в комбинации.

По отношениям между признаками:

· иерар­хические

· неиерархические

Иерархические группировки выполняются по двум и более признакам, при этом значения второго признака оп­ределяются областью значений первого (например, клас­сификация отраслей промышленности по подотраслям, товарных групп - по товарным позициям и т.д.).

Неиерархические (например, группировка по товарным группам в разрезе таможен или стран и т.д.).

По очередности обработки информации:

· п ервичные (составленные на основе первичных данных)

· и вторичные, являющиеся результатом перегруп­пировки ранее уже сгруппированных данных.

Статистические группировки и классификации делятпо преследуемым целям:

· типологическая, выделения качественно однородных совокупностей

· струк­турная, изучения структуры совокупности

· аналитическая (факторная) исследования существующих зависимостей

Вопрос 9. Ряды распределения. Атрибутивные и вариационные ряды распределения

Результаты сводки или группировки стат.наблюдения представляют собой статистические ряды рас­пределения .

При этом ряды распределения образованные по качественному признаку называют атрибутив.(напри­мер, распределение экспорта или импорта по товарным группам, по таможням, характеру сделки, категориям участни­ков ВЭД).

Если в качестве группировки выступает количе­ственный признак, то получается вариационный ряд распре­деления.

Атрибутивные ряды распределения

Изучение структуры в разрезе атрибутивных призна­ков целесообразно проводить по объемным показателям, таким как экспорт, импорт. Так, экспорт (импорт) можно подразделять по всем тем признакам, которые отражены в ГТД (товарные группы, страны, отрасли промышленнос­ти, таможенные режимы и т.д.).

Элементом структуры атрибутивного ряда являются группы значений, объединенных по качественному признаку (структура отраслей промышленности, страна, товарная по­зиция). Для более наглядного описания структуры ряда рас­пределения используют относительные величины (доли, %). Еще более наглядным является графическое изображение.

Пред­мет изучения вариационных рядов - подсчет частоты встречаемости значений исследуемого показателя и анализ частоты характеристик

Любой вариационный ряд состоит из элементов: ва­риантов и частот.

Вариантами (х) называются отдельные значения признака, которые он принимает в вариационном ряду, т.е. значения варьирующего признака.

Частоты (/) - это численность отдельных вариан­тов или каждой группы вариационного ряда, т.е. это чис­ла, показывающие, как часто встречаются те или иные ва­рианты в ряду распределения. Сумма всех частот определяет численность совокупности , ее объем. Например, при исследовании средней цены товара, частотой будет коли­чество килограммов товара, цена которого попадает в оп­ределенный интервал.

Частость, или относительная частота (м)-это от­ношение частоты к объему всей совокупности, т.е. часто­та, выраженная в процентах к итогу.

При проведении вариационного анализа исходные данные группируются в виде ряда распределения, рассчи­тываются статистические характеристики, описывающие форму распределения, строится его график. Затем делает­ся вывод о соотношении закономерности и случайности.

~В статистике вариационные ряды делятся на дискрет­ные, в которых значения признака выражены в виде изоли­рованных величин (чаще всего целых), и интервальные (не­прерывные), где значения признака заданы определенным интервалом. Например, участники ВЭД по товарообороту разделены на группы: 1000-10000 долл., 10000-20000 долл.

Статистическое распределение дискретного вариационного ряда - это перечень вариантов в возрастающем поряд­ке и соответствующих им частот (относительных частот).

Статистическое распределение непрерывного вариационного ряда - это последовательность интервалов в возрастающем порядке и соответствующих им частот (в качестве частоты, соответствующей интервалу, принимают сумму вариантов, попавших в этот интервал)

Простые таблицы

Простые таблицы имеют в подлежащем перечень единиц совокупности, времени или территорий.

Групповые таблицы

Групповыми называются таблицы, имеющие в подлежащем группировку единиц совокупности по одному признаку.

Комбинационные таблицы

Комбинационные таблицы имеют в подлежащем группировку единиц совокупности по двум или более признакам.

По характеру разработки показателей сказуемого различают:

§ таблицы с простой разработкой показателей сказуемого, в которых имеет место параллельное расположение показателей сказуемого.

§ таблицы со сложной разработкой показателей сказуемого, в которых имеет место комбинирование показателей сказуемого: внутри групп, образованных по одному признаку, выделяют подгруппы по другому признаку.

Для достижения наибольшей выразительности статистической таблицы необходимо при ее оформлении придерживаться определенных правил

1 Форма статистической таблицы должна быть согласована с ранее существующими таблицами для обеспечения возможности сравнения данных за ряд отрезков времени

2 Название таблицы (общий заголовок) должна кратко и точно характеризовать основное ее содержание Это требование в равной степени касается и названий подлежащего и сказуемого таблицы Если общий заголовок недостаточно подробно сформулирован, то можно сделать примечания к нему.

3 В таблице должно быть указано, какой территории или какого периода или момента времени к приведенные данные, а также характер этих данных (фактич,норматив.,расчетные и т д.).

4 Показатели таблицы должны иметь единицы измерения

5 Все числовые значения данного показателя отмечаются с одинаковой точностью и др.

Относительные величины

Относительные величины представляют собой частное от деления двух величин и характеризуют количественное соотношение между ними.

При расчете относительных величин следует иметь в виду, что в числител е всегда находится показатель, отражающий то явление, которое изучается, а в знаменателе - показатель, с которым производится сравнение, принимаемый за основание или базу сравнения.

В завис-ти от базы сравнения- результат отношения может быть выражен в форме коэффициента или % .

Если значение основания или базы сравнения принимается за единицу (приравнивается к единице), то относительная величина (результат сравнения) является коэффициентом и показывает, во сколько раз изучаемая величина больше основания. (только если сравниваемая величина существенно больше той, с которой она сравнивается.) Если значение основания или базу сравнения принять за 100%, результат вычисления относительной величины будет выражаться также в %.

По своему значению они подразделяются на относительные величины структуры, сравнения, динамики, интенсивности, координации.

Относительные величины структуры характеризуют состав изучаемых совокупностей, исчисляются как отношение абсолютной величины каждого из элементов группировки к общему объему, т.е. как отношение части к целому. Сравнивая относительные величины структуры за разные периоды можно проследить структурные изменения. (Удел.вес (долю) экспорта и импорта в объеме внешнеторгового оборота…. а на долю экспорта – 3:4*100=75%).

Относительные величины сравнения отражают количественное соотношение одноименных показателей, т.е. показывают во сколько раз (или на сколько %) один показатель больше (меньше) другого. (коэффициент покрытия импорта экспортом. - экспорт превышает импорт в.=3 раза.)

Относительные величины динамики характеризуют изменение изучаемого явления во времени, т.е. показывают во сколько раз или на сколько %, уровень отчетного периода больше или меньше уровня базисного периода. (базис или цепной)

интенсивности - сколько единиц одной совокупности приходится на единицу другой. Рассчитываются делением абсолютной величины одной совокупности изучаемого явления на величину, характеризующую объем среды.(На 1 сотрудника в год пришлось – 500 деклараций).

координации - соотношение между отдельными частями стат. совокупности, и показывает во сколько раз сравниваемая часть больше или меньше части, которая принимается за базу сравнения. Относительная величина координации рассчитывается следующим образом.650: 6500= 10%, т.е. на 10 человек с высшим образованием приходится 1 чел. со средним техническим.

Средние величины

сглаживание различий в величине признака, которые возникают по тем или иным причинам. Средняя величина - один из распространенных способов обобщений количественных показателей.

Рассмотрим признак x (осредняемый признак) , по которому необходимо найти среднее значение . Значения осредняемого признака представлены рядом индивидуальных значений или вариант (х 1 , х 2 , х 3 ….х n) (например, вариационным рядом) с частотами индивидуальных значений (f 1 ,f 2 ,f 3 ,…f n) .

Сред. величина измер-ся в той же размер-ти, что и признак.

Каждая средняя величина характеризует изучаемую совокупность по какому-либо одному признаку.

суммарные

* средняя арифметическая;

* средняя геометрическая;

* средняя гармоническая;

Средняя арифметическая используется для характеристики абсолютных величин.

1. Если каждое значение признака в ряду встречается по одному разу, расчет производится по формуле простой (сумма всех значений, деленная на число этих значений
,
где x 1 ,x 2 знач-я признака (цена)

n - количество значений.

2. Если одно и то же значение признака встречается несколько раз, используют формулу средней арифметической взвешенной. ,

f i - частота повторения этого признака (вес товара).

Среднее арифметическое рассчитывается по разному в дискретных и интервальных вариационных рядах.

В дискретных рядах варианты признака умножаются на частоты, эти произведения суммируются и полученная сумма произведений делится на сумму частот.

В интервальных рядах значение признака задано в виде интервалов, поэтому нужно перейти к дискретному. В качестве вариантов X i используется середина соответствующих интервалов. - как полусумма нижней и верхней границ.

Средней гармонической величинойназывают величину, рассчитанную из обратных значений варьирующего признака. Она применяется и как обобщающая характеристика относительных величин.

Средняя гармоническая простая:

Средняя гармоническая взвешенная:

,

Средней геометрической принято именовать величину, исчисляемую как корень n –ной степени из произведения n отдельных вариантов признака.

Она также обычно используется для характеристики относительных величин и рассчитывается по формуле:

,

В случаях, когда некоторые либо все варианты (коэффициенты темпов роста, например) относятся к периодам, не одинаковым по продолжительности:

, (10.6)

где х - варианты; f i - веса; - сумма весов.

Определить длину интервала

(Хmаx - Хmin)/к

где Хmаx, Хmin - максимальное и минимальное значения показателя, соответственно;

к - число интервалов.

Вопрос 1. Статистическая совокупность. Однородность совокупности

Статистическая совокупность - это совокупность социально-экономических объектов или явлений общественной жизни, объединенных некоей качественной основой, общей связью, но отличающихся друг от друга отдельными признаками. Таковы, например, совокупность домохозяйств, совокупность семей, совокупность предприятий, фирм, объединений и т. п.. Совокупности могут быть однородными и разнородными.

Совокупность называется однородной, если один или несколько изучаемых существенных признаков ее объектов являются общими для всех единиц. Совокупность оказывается однородной именно с точки зрения этих признаков.

Совокупность, в которую входят явления разного типа, считается разнородной. Совокупность может быть однородна в одном отношении и разнородна в другом. В каждом отдельном случае однородность совокупности устанавливается путем проведения качественного анализа, выяснения содержания изучаемого общественного явления. Статистическая совокупность состоит из отдельных единиц (в статистике внешней торговли - отдельных партий товаров), имеющих свои свойства, особенности.

Единица совокупности- это первичный элемент статистической совокупности, являющийся носителем признаков, подлежащих регистрации, и основой ведущегося при обсле­довании счета.

Следует заметить, что приведенная выше шкала оценки однородности со­вокупности достаточно условна. Дело в том, что вопрос о степени интенсивности вариа­ции каждого изучаемого признака должен решаться индивидуаль­но, исходя из сравнения наблюдаемой вариации с некоторой ее обыч­ной интенсивностью, принимаемой за норму. Наиболее часто исходят из того, что совокупность считается однородной, если коэффициент вариации не превышает 33 %.

Пример. По данным о распределении сотрудников гостиницы по стажу определить абсолютные и относительные показатели вариации. Сделать вывод об однородности совокупности (табл. 6.2).

Таблица 6.2

Вспомогательная таблица для расчета показателей вариации

Стаж , лет Число сотрудников, Середина интервала
- 4 4-7 7- 10 10-13 13 - 2,5 5,5 8,5 11,5 14,5 20,0 77,0 76,5 69,0 43,5 4,7 1,7 1,3 4,3 7,3 37,6 23,8 11,7 25,8 21,9 22,09 2,89 1,69 18,49 53,29 176,72 40,46 15,21 110,94 159, 87
Итого - 286,0 - 120,8 - 503,2

Решение.

Для расчета показателей вариации необходимо определить средний стаж сотрудников:

года.

Среднее линейное отклонение :

года.

Дисперсия

Среднее квадратическое отклонение :

Таким образом, каждое индивидуальное значение стажа сотрудников отклоняется от их среднего стажа на 3, 55 года.

Относительное линейное отклонение ;

%.

Коэффициент вариации :

> 33 % - совокупность является неоднородной.

Вариация альтернативного признака

Наряду с вариацией количественного признака в статистике может ставиться задача оценки вариации качественного признака. При наличии двух взаимоисключающих вариантов зна­чений признака говорят о наличии альтернативной изменчивости качественного признака.

В таких случаях возникает необходимость в измерении дисперсии альтернативных призна­ков , т.е. признаков, которыми обладают одни единицы и не обла­дают другие.

Введем обозначения:

1 - наличие данного признака; 0 – отсутствие признака;

р = - доля единиц, обладающих данным признаком; число единиц совокупности, обладающие данным призна­ком; n- число наблюдений.

- доля единиц, не обладающих данным признаком;

Тогда справедливо равенство ,

Среднее значение альтернативного признака:

Дисперсия альтернативного признака определяется по формуле:

Среднее квадратическое отклонение альтернативного признака:

Предельное значение вариации альтернативного признака равно 0,25; оно получается при

Статистическая совокупность — множество единиц, обладающих массовостью, типичностью, качественной однородностью и наличием вариации.

Статистическая совокупность состоит из материально существующих объектов (Работники, предприятия, страны, регионы), является объектом .

Единица совокупности — каждая конкретная единица статистической совокупности.

Одна и та же статистическая совокупность может быть однородна по одному признаку и неоднородна по другому.

Качественная однородность — сходство всех единиц совокупности по какому-либо признаку и несходство по всем остальным.

В статистической совокупности отличия одной единицы совокупности от другой чаще имеют количественную природу. Количественные изменения значений признака разных единиц совокупности называются вариацией.

Вариация признака — количественное изменение признака (для количественного признака) при переходе от одной единицы совокупности к другой.

Признак — это свойство, характерная черта или иная особенность единиц, объектов и явлений, которая может быть наблюдаема или измерена. Признаки делятся на количественные и качественные. Многообразие и изменчивость величины признака у отдельных единиц совокупности называется вариацией .

Атрибутивные (качественные) признаки не поддаются числовому выражению (состав населения по полу). Количественные признаки имеют числовое выражение (состав населения по возрасту).

Показатель — это обобщающая количественно качественная характеристика какого-либо свойства единиц или совокупности в целом в конкретных условиях времени и места.

Система показателей — это совокупность показателей всесторонне отражающих изучаемое явление.

Например, изучается зарплата:
  • Признак — оплата труда
  • Статистическая совокупность — все работники
  • Единица совокупности — каждый работник
  • Качественная однородность — начисленная зарплата
  • Вариация признака — ряд цифр

Генеральная совокупность и выборка из нее

Основу составляет множество данных, полученных в результате измерения одного или нескольких признаков. Реально наблюдаемая совокупность объектов, статистически представленная рядом наблюдений случайной величины , является выборкой , а гипотетически существующая (домысливаемая) — генеральной совокупностью . Генеральная совокупность может быть конечной (число наблюдений N = const ) или бесконечной (N = ∞ ), а выборка из генеральной совокупности — это всегда результат ограниченного ряда наблюдений. Число наблюдений , образующих выборку, называется объемом выборки . Если объем выборки достаточно велик (n → ∞ ) выборка считается большой , в противном случае она называется выборкой ограниченного объема . Выборка считается малой , если при измерении одномерной случайной величины объем выборки не превышает 30 (n <= 30 ), а при измерении одновременно нескольких (k ) признаков в многомерном пространстве отношение n к k не превышает 10 (n/k < 10) . Выборка образует вариационный ряд , если ее члены являются порядковыми статистиками , т. е. выборочные значения случайной величины Х упорядочены по возрастанию (ранжированы), значения же признака называются вариантами .

Пример . Практически одна и та же случайно отобранная совокупность объектов — коммерческих банков одного административного округа Москвы, может рассматриваться как выборка из генеральной совокупности всех коммерческих банков этого округа, и как выборка из генеральной совокупности всех коммерческих банков Москвы, а также как выборка из коммерческих банков страны и т.д.

Основные способы организации выборки

Достоверность статистических выводов и содержательная интерпретация результатов зависит от репрезентативности выборки, т.е. полноты и адекватности представления свойств генеральной совокупности, по отношению к которой эту выборку можно считать представительной. Изучение статистических свойств совокупности можно организовать двумя способами: с помощью сплошного и несплошного . Сплошное наблюдение предусматривает обследование всех единиц изучаемой совокупности , а несплошное (выборочное) наблюдение — только его части.

Существуют пять основных способов организации выборочного наблюдения:

1. простой случайный отбор , при котором объектов случайно извлекаются из генеральной совокупности объектов (например с помощью таблицы или датчика случайных чисел), причем каждая из возможных выборок имеют равную вероятность. Такие выборки называются собственно-случайными ;

2. простой отбор с помощью регулярной процедуры осуществляется с помощью механической составляющей (например, даты, дня недели, номера квартиры, буквы алфавита и др.) и полученные таким способом выборки называются механическими ;

3. стратифицированный отбор заключается в том, что генеральная совокупность объема подразделяется на подсовокупности или слои (страты) объема так что . Страты представляют собой однородные объекты с точки зрения статистических характеристик (например, население делится на страты по возрастным группам или социальной принадлежности; предприятия — по отраслям). В этом случае выборки называются стратифицированными (иначе, расслоенными, типическими, районированными );

4. методы серийного отбора используются для формирования серийных или гнездовых выборок . Они удобны в том случае, если необходимо обследовать сразу "блок" или серию объектов (например, партию товара, продукцию определенной серии или население при территориально-административном делении страны). Отбор серий можно осуществить собственно-случайным или механическим способом. При этом проводится сплошное обследование определенной партии товара, или целой территориальной единицы (жилого дома или квартала);

5. комбинированный (ступенчатый) отбор может сочетать в себе сразу несколько способов отбора (например, стратифицированный и случайный или случайный и механический); такая выборка называется комбинированной .

Виды отбора

По виду различаются индивидуальный, групповой и комбинированный отбор. При индивидуальном отборе в выборочную совокупность отбираются отдельные единицы генеральной совокупности, при групповом отборе — качественно однородные группы (серии) единиц, а комбинированный отбор предполагает сочетание первого и второго видов.

По методу отбора различают повторную и бесповторную выборку.

Бесповторным называется отбор, при котором попавшая в выборку единица не возвращается в исходную совокупность и в дальнейшем выборе не участвует; при этом численность единиц генеральной совокупности N сокращается в процессе отбора. При повторном отборе попавшая в выборку единица после регистрации возвращается в генеральную совокупность и таким образом сохраняет равную возможность наряду с другими единицами быть использованной в дальнейшей процедуре отбора; при этом численность единиц генеральной совокупности N остается неизменной (метод в социально-экономических исследованиях применяется редко). Однако, при большом N (N → ∞) формулы для бесповторного отбора приближаются к аналогичным для повторного отбора и практически чаще используются последние (N = const ).

Основные характеристики параметров генеральной и выборочной совокупности

В основе статистических выводов проведенного исследования лежит распределение случайной величины , наблюдаемые же значения (х 1 , х 2 , … , х n) называются реализациями случайной величины Х (n — объем выборки). Распределение случайной величины в генеральной совокупности носит теоретический, идеальный характер, а ее выборочный аналог является эмпирическим распределением. Некоторые теоретические распределения заданы аналитически, т.е. их параметры определяют значение функции распределения в каждой точке пространства возможных значений случайной величины . Для выборки же функцию распределения определить трудно, а иногда невозможно, поэтому параметры оценивают по эмпирическим данным, а затем их подставляют в аналитическое выражение, описывающее теоретическое распределение. При этом предположение (или гипотеза ) о виде распределения может быть как статистически верным, так и ошибочным. Но в любом случае восстановленное по выборке эмпирическое распределение лишь грубо характеризует истинное. Важнейшими параметрами распределений являются математическое ожидание и дисперсия .

По своей природе распределения бывают непрерывными и дискретными . Наиболее известным непрерывным распределением является нормальное . Выборочными аналогами параметров идля него являются: среднее значение и эмпирическая дисперсия . Среди дискретных в социально-экономических исследованиях наиболее часто применяется альтернативное (дихотомическое) распределение. Параметр математического ожидания этого распределения выражает относительную величину (или долю ) единиц совокупности, которые обладают изучаемым признаком (она обозначена буквой ); доля совокупности, не обладающая этим признаком, обозначается буквой q (q = 1 — p) . Дисперсия же альтернативного распределения также имеет эмпирический аналог .

В зависимости от вида распределения и от способа отбора единиц совокупности по-разному вычисляются характеристики параметров распределения. Основные из них для теоретического и эмпирического распределений приведены в табл. 1.

Долей выборки k n называется отношение числа единиц выборочной совокупности к числу единиц генеральной совокупности:

k n = n/N .

Выборочная доля w — это отношение единиц, обладающих изучаемым признаком x к объему выборки n :

w = n n /n .

Пример. В партии товара, содержащей 1000 ед., при 5% выборке доля выборки k n в абсолютной величине составляет 50 ед. (n = N*0,05); если же в этой выборке обнаружено 2 бракованных изделия, то выборочная доля брака w составит 0,04 (w = 2/50 = 0,04 или 4%).

Так как выборочная совокупность отлична от генеральной, то возникают ошибки выборки .

Таблица 1. Основные параметры генеральной и выборочной совокупностей

Ошибки выборки

При любом (сплошном и выборочном) могут встретиться ошибки двух видов: регистрации и репрезентативности. Ошибки регистрации могут иметь случайный и систематический характер. Случайные ошибки складываются из множества различных неконтролируемых причин, носят непреднамеренный характер и обычно по совокупности уравновешивают друг друга (например, изменения показателей прибора при температурных колебаниях в помещении).

Систематические ошибки тенденциозны, так как нарушают правила отбора объектов в выборку (например, отклонения в измерениях при изменении настройки измерительного прибора).

Пример. Для оценки социального положения населения в городе предусмотрено обследовать 25% семей. Если при этом выбор каждой четвертой квартиры основан на ее номере, то существует опасность отобрать все квартиры только одного типа (например, однокомнатные), что обеспечит систематическую ошибку и исказит результаты; выбор же номера квартиры по жребию более предпочтителен, так как ошибка будет случайной.

Ошибки репрезентативности присущи только выборочному наблюдению, их невозможно избежать и они возникают в результате того, что выборочная совокупность не полностью воспроизводит генеральную. Значения показателей, получаемых по выборке, отличаются от показателей этих же величин в генеральной совокупности (или получаемых при сплошном наблюдении).

Ошибка выборочного наблюдения есть разность между значением параметра в генеральной совокупности и ее выборочным значением. Для среднего значения количественного признака она равна: , а для доли (альтернативного признака) — .

Ошибки выборки свойственны только выборочным наблюдениям. Чем больше эти ошибки, тем больше эмпирическое распределение отличается от теоретического. Параметры эмпирического распределения и являются случайными величинами, следовательно, ошибки выборки также являются случайными величинами, могут принимать для разных выборок разные значения и поэтому принято вычислять среднюю ошибку .

Средняя ошибка выборки есть величина , выражающая среднее квадратическое отклонение выборочной средней от математического ожидания. Эта величина при соблюдении принципа случайного отбора зависит прежде всего от объема выборки и от степени варьирования признака: чем больше и чем меньше вариация признака (следовательно, и значение ), тем меньше величина средней ошибки выборки . Соотношение между дисперсиями генеральной и выборочной совокупностей выражается формулой:

т.е. при достаточно больших можно считать, что . Средняя ошибка выборки показывает возможные отклонения параметра выборочной совокупности от параметра генеральной. В табл. 2 приведены выражения для вычисления средней ошибки выборки при разных методах организации наблюдения.

Таблица 2. Средняя ошибка (m) выборочных средней и доли для разных видов выборки

Где - средняя из внутригрупповых выборочных дисперсий для непрерывного признака;

Средняя из внутригрупповых дисперсий доли;

— число отобранных серий, — общее число серий;

,

где — средняя -й серии;

— общая средняя по всей выборочной совокупности для непрерывного признака;

,

где — доля признака в -й серии;

— общая доля признака по всей выборочной совокупности.

Однако о величине средней ошибки можно судить лишь с определенной, вероятностью Р (Р ≤ 1). Ляпунов А.М. доказал, что распределение выборочных средних , a следовательно, и их отклонений от генеральной средней, при достаточно большом числе приближенно подчиняется нормальному закону распределения при условии, что генеральная совокупность обладает конечной средней и ограниченной дисперсией.

Математически это утверждение для средней выражается в виде:

а для доли выражение (1) примет вид:

где - есть предельная ошибка выборки , которая кратна величине средней ошибки выборки , а коэффициент кратности — есть критерий Стьюдента ("коэффициент доверия"), предложенный У.С. Госсетом (псевдоним "Student"); значения для разного объема выборки хранятся в специальной таблице.

Значения функции Ф(t) при некоторых значениях t равны:

Следовательно, выражение (3) может быть прочитано так: с вероятностью Р = 0,683 (68,3%) можно утверждать, что разность между выборочной и генеральной средней не превысит одной величины средней ошибки m (t = 1) , с вероятностью Р = 0,954 (95,4%) — что она не превысит величины двух средних ошибок m (t = 2) , с вероятностью Р = 0,997 (99,7%) — не превысит трех значений m (t = 3) . Таким образом, вероятность того, что эта разность превысит трехкратную величину средней ошибки определяет уровень ошибки и составляет не более 0,3% .

В табл. 3 приведены формулы для вычисления предельной ошибки выборки.

Таблица 3. Предельная ошибка (D) выборки для средней и доли (р) для разных видов выборочного наблюдения

Распространение выборочных результатов на генеральную совокупность

Конечной целью выборочного наблюдения является характеристика генеральной совокупности. При малых объемах выборки эмпирические оценки параметров ( и ) могут существенно отклоняться от их истинных значений ( и ). Поэтому возникает необходимость установить границы, в пределах которых для выборочных значений параметров ( и ) лежат истинные значения ( и ).

Доверительным интервалом какого-либо параметра θгенеральной совокупности называется случайная область значений этого параметра, которая с вероятностью близкой к 1 (надежностью ) содержит истинное значение этого параметра.

Предельная ошибка выборки Δ позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы , которые равны:

Нижняя граница доверительного интервала получена путем вычитания предельной ошибки из выборочного среднего (доли), а верхняя — путем ее добавления.

Доверительный интервал для средней использует предельную ошибку выборки и для заданного уровня достоверности определяется по формуле:

Это означает, что с заданной вероятностью Р , которая называется доверительным уровнем и однозначно определяется значением t , можно утверждать, что истинное значение средней лежит в пределах от ,а истинное значение доли — в пределах от

При расчете доверительного интервала для трех стандартных доверительных уровней Р = 95%, Р = 99% и Р = 99,9% значение выбирается по . Приложения в зависимости от числа степеней свободы . Если объем выборки достаточно велик, то соответствующие этим вероятностям значения t равны: 1,96, 2,58 и 3,29 . Таким образом, предельная ошибка выборки позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы:

Распространение результатов выборочного наблюдения на генеральную совокупность в социально-экономических исследованиях имеет свои особенности, так как требует полноты представительности всех ее типов и групп. Основой для возможности такого распространения является расчет относительной ошибки :

где Δ % - относительная предельная ошибка выборки; , .

Существуют два основных метода распространения выборочного наблюдения на генеральную совокупность: прямой пересчет и способ коэффициентов .

Сущность прямого пересчета заключается в умножении выборочного среднего значения!!\overline{x} на объем генеральной совокупности .

Пример . Пусть среднее число детей ясельного возраста в городе оценено выборочным методом и составило человека. Если в городе 1000 молодых семей, то число необходимых мест в муниципальных детских яслях получают умножением этой средней на численность генеральной совокупности N = 1000, т.е. составит 1200 мест.

Способ коэффициентов целесообразно использовать в случае, когда выборочное наблюдение проводится с целью уточнения данных сплошного наблюдения.

При этом используют формулу:

где все переменные — это численность совокупности:

Необходимый объем выборки

Таблица 4. Необходимый объем (n) выборки для разных видов организации выборочного наблюдения

При планировании выборочного наблюдения с заранее заданным значением допустимой ошибки выборки необходимо правильно оценить требуемый объем выборки . Этот объем может быть определен на основе допустимой ошибки при выборочном наблюдении исходя из заданной вероятности , гарантирующей допустимую величину уровня ошибки (с учетом способа организации наблюдения). Формулы для определения необходимой численности выборки n легко получить непосредственно из формул предельной ошибки выборки. Так, из выражения для предельной ошибки:

непосредственно определяется объем выборки n :

Эта формула показывает, что с уменьшением предельной ошибки выборки Δ существенно увеличивается требуемый объем выборки , который пропорционален дисперсии и квадрату критерия Стьюдента .

Для конкретного способа организации наблюдения требуемый объем выборки вычисляется согласно формулам, приведенным в табл. 9.4.

Практические примеры расчета

Пример 1. Вычисление среднего значения и доверительного интервала для непрерывного количественного признака.

Для оценки скорости расчета с кредиторами в банке проведена случайная выборка 10 платежных документов. Их значения оказались равными (в днях): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

Необходимо с вероятностью Р = 0,954 определить предельную ошибку Δ выборочной средней и доверительные пределы среднего времени расчетов.

Решение. Среднее значение вычисляется по формуле из табл. 9.1 для выборочной совокупности

Дисперсия вычисляется по формуле из табл. 9.1.

Средняя квадратическая погрешность дня.

Ошибка средней вычисляется по формуле:

т.е. среднее значение равно x ± m = 12,0 ± 2,3 дней .

Достоверность среднего составила

Предельную ошибку вычислим по формуле из табл. 9.3 для повторного отбора, так как численность генеральной совокупности неизвестна, и для Р = 0,954 уровня достоверности.

Таким образом, среднее значение равно `x ± D = `x ± 2m = 12,0 ± 4,6, т.е. его истинное значение лежит в пределах от 7,4 до16,6 дней.

Использование таблицы Стьюдента. Приложения позволяет заключить, что для n = 10 — 1 = 9 степеней свободы полученное значение достоверно с уровнем значимости a £ 0,001, т.е. полученное значение среднего достоверно отличается от 0.

Пример 2. Оценка вероятности (генеральной доли) р.

При механическом выборочном способе обследования социального положения 1000 семей выявлено, что доля малообеспеченных семей составила w = 0,3 (30%) (выборка была 2% , т.е. n/N = 0,02 ). Необходимо с уровнем достоверности р = 0,997 определить показатель р малообеспеченных семей во всем регионе.

Решение. По представленным значениям функции Ф(t) найдем для заданного уровня достоверности Р = 0,997 значение t = 3 (см. формулу 3). Предельную ошибку доли w определим по формуле из табл. 9.3 для бесповторного отбора (механическая выборка всегда является бесповторной):

Предельная относительная ошибка выборки в % составит:

Вероятность (генеральная доля) малообеспеченных семей в регионе составит р=w±Δ w , а доверительные пределы р вычисляются исходя из двойного неравенства:

w — Δ w ≤ p ≤ w — Δ w , т.е. истинное значение р лежит в пределах:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Таким образом, с вероятностью 0,997 можно утверждать, что доля малообеспеченных семей среди всех семей региона составляет от 28,6% до 31,4%.

Пример 3. Вычисление среднего значения и доверительного интервала для дискретного признака, заданного интервальным рядом.

В табл. 5. задано распределение заявок на изготовление заказов по срокам их выполнения предприятием.

Таблица 5. Распределение наблюдений по срокам появления

Решение. Средний срок выполнения заявок вычисляется по формуле:

Средний срок составит:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 мес.

Тот же ответ получим, если используем данные о р i из предпоследней колонки табл. 9.5, используя формулу:

Заметим, что середина интервала для последней градации находится путем искусственного ее дополнения шириной интервала предыдущей градации равной 60 — 36 = 24 мес.

Дисперсия вычисляется по формуле

где х i - середина интервального ряда.

Следовательно!!\sigma = \frac {20^2 + 14^2 + 1 + 25^2 + 49^2}{4}, а средняя квадратическая погрешность .

Ошибка средней вычисляется по формуле мес., т.е. среднее значение равно!!\overline{x} ± m = 23,1 ± 13,4.

Предельную ошибку вычислим по формуле из табл. 9.3 для повторного отбора, так как численность генеральной совокупности неизвестна, для 0,954 уровня достоверности:

Таким образом, среднее значение равно:

т.е. его истинное значение лежит в пределах от 0 до 50 мес.

Пример 4. Для определения скорости расчетов с кредиторами N = 500 предприятий корпорации в коммерческом банке необходимо провести выборочное исследование методом случайного бесповторного отбора. Определить необходимый объем выборки n, чтобы с вероятностью Р = 0,954 ошибка среднего значения выборки не превышала 3-х дней, если пробные оценки показали, что среднее квадратическое отклонение s составило 10 дней.

Решение . Для определения числа необходимых исследований n воспользуемся формулой для бесповторного отбора из табл. 9.4:

В ней значение t определяется из для уровня достоверности Р = 0,954. Оно равно 2. Среднее квадратическое значение s = 10, объем генеральной совокупности N = 500, а предельная ошибка среднего значения Δ x = 3. Подставляя эти значения в формулу, получим:

т.е. выборку достаточно составить из 41 предприятия, чтобы оценить требуемый параметр — скорость расчетов с кредиторами.

Слово «статистика» имеет латинское происхождение (от status , что означает «определенное положение вещей» – состояние). В средние века оно использовалось для характеристики политического состояния государства и употреблялось в значении слова «государствоведение», (Готфрид Ахенваль, XVIII в., Германия). Как наука статистика возникла только в XVII в., когда правительства различных западноевропейских стран стали заниматься сбором разного рода информации о своих гражданах. Однако статистический учет существовал уже в глубокой древности, упоминания о статистических обследованиях встречаются и в библейские времена.

Еще за 5 тыс. лет до н.э. проводились переписи населения в Китае, велся учет имущества граждан в Древнем Риме, использование средней было хорошо известно еще при жизни Пифагора. В средние века осуществлялось сравнение военного потенциала разных стран, численности их населения, домашнего имущества, земель.

У истоков статистической науки стояли две школы – немецкая описательная и английская школа политических арифметиков.

Представители описательной школы (Г. Конринг (1606-1661), Г. Ахенваль (1719-1772), А. Бюшинг (1724-1793) и др. считали, что задачей статистики является описание достопримечательностей государства: территории, населения, климата, вероисповедания, ведения хозяйства и т. п. – только в словесной форме, без цифр и вне динамики, т. е. без отражения особенностей развития государств в те или иные периоды, а только лишь на момент наблюдения. Они были «политические арифметики», которые ставили целью изучать общественные явления с помощью числовых характеристик – меры веса и числа. Политические арифметики видели основное назначение статистики в изучении массовых общественных явлений, осознавали необходимость учета в статистическом исследовании требований закона больших чисел, поскольку закономерность может проявиться лишь при достаточно большом объеме анализируемой совокупности. Виднейшим представителем и основателем этого направления был В. Петти (1623-1687). Именно школа политических арифметиков стала основообразующей в развитии современной статистики.

В XIX в. получило развитие учение бельгийского статистика Адольфа Кетле (1796-1874), который первым применил современные методы сбора данных, его считают основоположником учения о средних величинах. Математическое направление в статистике развивалось в работах англичан – сэра Фрэнсиса Гальтона (1822-1911) и Карла Пирсона (1857-1936), Рональда Фишера, которые внесли значительный вклад в развитие теории корреляции и оказали существенное воздействие на современную статистику. * Примечание. Знаком (*) отмечены издания, на основании которых составлен тематический обзор.

Прогрессу статистической методологии способствовали труды российских статистиков – А.А. Чупрова (1874-1926), B.C. Немчинова (1894-1964), С.Г. Струмилина (1877 – 1974), В.Н. Старовского (1905-1975) и др.

Развитие статистической науки, расширение сферы практической статистической работы привели к изменению содержания самого понятия «статистика». В настоящее время данный термин употребляется в трех значениях:

Во-первых , под статистикой понимают отрасль практической деятельности, которая имеет своей целью сбор, обработку, анализ и публикацию массовых данных о различных явлениях общественной жизни. Осуществляется сбор данных в каждом регионе и по стране в целом о численности и составе населения, ведется подсчет предприятий и организаций, собираются данные об объемах производства и объемах продаж и т.д. Эту деятельность на профессиональном уровне осуществляет Федеральная служба государственной статистики (Госкомстат РФ) и система ее учреждений, организованных, по административно-территориальному признаку, например, Ростовский областной комитет государственной статистики или Таганрогский межрайоннный отдел государственной статистики и т. д.

Во-вторых , статистикой называют цифровые материалы, служащие для характеристики какой-либо области общественных явлений или территориального распределения какого-то показателя, публикуемые в периодической прессе, справочниках, сборниках. Например, динамика цены на бензин в Ростовской области представленная за летние месяцы текущего года.

В-третьих , статистикой называется отрасль знания, особая научная дисциплина, которая в широком понимании разрабатывает методы сбора, систематизации, анализа, интерпретации и отображения результатов наблюдений массовых случайных явлений и процессов целью выявления существующих в них закономерностей. Например, исследования взаимосвязи между качеством трудовых ресурсов и экономическим ростом в регионах РФ.

Итак, статистика – это вид научно-практической деятельности, направленной на получение, обработку, анализ и хранение информации, характеризующей количественные закономерности жизни общества во всём ее многообразии в неразрывной связи с её качественным содержанием.

Если рассматривать статистику как инструмент изучения социально-экономических явлений и процессов, то предмет статистики состоит в изучении размеров и количественных соотношений массовых общественных явлений в конкретных условиях места и времени, а так же числовое выражение проявляющихся в них закономерностей.

Свой предмет статистика изучает при помощи определенных категорий, т.е. понятий, которые отражают наиболее общие и существенные свойства, признаки, связи и отношения предметов и явлений объективного мира. Закономерность, выявленная на основе массового наблюдения, то есть проявляющаяся лишь в большой массе явлений через преодоление свойственной её единичным элементам случайности, называется статистической закономерностью .

Свойство статистических закономерностей проявляться лишь в массе явлений при обобщении данных по достаточно большому числу единиц, находит свое отражение в законе больших чисел, сущность которого состоит в том, что по мере увеличения числа наблюдений влияние случайных факторов взаимопогашается и на поверхность выступает действие основных факторов, которые и определяют закономерность. Например, характеристика экологической ситуации предполагает изучение закономерности динамики выбросов загрязняющих веществ в атмосферный воздух регионов от динамики физического объема валового регионального продукта.

Познание закономерностей возможно только в том случае, если изучаются не отдельные явления, а совокупности явлений. То есть объектом статистического изучения является статистическая совокупность – множество единиц изучаемого явления, объединенных качественной однородностью, определенной целостностью, взаимозависимостью состояний отдельных единиц и наличием вариации. Таковы, например, совокупность домохозяйств, совокупность предприятий и фирм, совокупность нефтяных месторождений, совокупность регионов и т. п.

Однородная совокупность – это вид совокупности, в которой один или несколько научаемых существенных признаков являются общими для всех единиц. Например, принадлежность предприятий к одной и той же отрасли – заводы металлургического комплекса или регионы, относящиеся к одной природно-климатической зоне.

Разнородная совокупность – это вид совокупности, в которую входят явления разного типа. Совокупность может быть однородна в одном отношении и разнородна в другом. Регионы, включенные в одну группу по природно-климатическим характеристикам, различаются по уровню социально-экономического развития. Заводы, входящие в металлургический комплекс России, различаются по своей специализации – выделяются группы заводов по производству труб, или по производству листового проката и т.п. В каждом отдельном случае однородность совокупности устанавливается путем проведения качественного анализа, выяснения содержания изучаемого общественного явления.

Статистическая совокупность состоит из единиц совокупности. Единицы статистической совокупности представляют собой качественно однородные первичные элементы этой совокупности. Каждая единица совокупности представляет собой частный случай проявления изучаемой закономерности. Решение вопроса о единице и границах изучаемой совокупности определяется целью исследования. Это связано со сложной природой социально-экономических явлений. В каждом отдельном явлении одновременно реализуются различные процессы. Например, при изучении совокупности работников, каждый работник может рассматриваться как член определенной социально-профессиональной группы, как работник предприятия, как житель города поселка и т.д., то есть единица совокупности – это предел дробления объекта исследования, при котором сохраняются все свойства изучаемого процесса.

Единицы совокупности обладают определенными свойствами, качествами, которые принято называть признаками. Признак – качественная особенность единицы совокупности. Например, признаки человека: возраст, пол, образование, вес, семейное положение и т. д. Признаки предприятия: форма собственности, отрасль, численность работников, величина уставного фонда и т.д. Статистика изучает явления через их признаки: чем более однородна совокупность, тем больше общих признаков имеют ее единицы, тем меньше варьируют её значения.

По характеру отображения свойств единиц изучаемой совокупности признаки делятся на две основные группы:

признаки, имеющие непосредственное количественное выражение, например, площадь территории, численность жителей города и т. д. Они могут быть дискретно или непрерывно варьируемыми. Дискретно варьируемые признаки – это признаки, отдельные значения которых отличаются друг от друга на некоторую конечную величину (обычно целое число). Так, дискретные признаки мы используем, когда проводится группировка, например, магазинов по числу в них отделов или касс. В магазинах может быть один, два, три и т.д. отдела, но не может быть полтора или два с половиной отдела. Существует множество признаков, значения которых отличаются друг от друга на сколько угодно малую величину и могут принимать любые значения на некотором интервале. Такие признаки называют непрерывно варьирующими или непрерывными признаками. К ним относятся индексы экономического состояния, среднедушевые доходы, весовые и объемные характеристики товаров;

признаки, не имеющие непосредственного количественного выражения. В этом случае отдельные единицы совокупности различаются своим содержанием, например, отраслевая специализация предприятий и организаций; деление природных ресурсов по их происхождению: минеральные, водные, земельные или деление населения по полу – мужчины и женщины и т.д. Такие признаки обычно называют атрибутивными (в философии «атрибут» – неотъемлемое свойство предмета). В случае, когда имеются противоположные по значению варианты признака, говорят об альтернативном признаке (да, нет). Например, продукция может быть годной или бракованной (не годной); каждое лицо может состоять в браке или нет и т. д.

Особенностью статистического исследования является, то, что в нем изучаются только варьирующие признаки, т.е. признаки, принимающие различные значения (для атрибутивных, альтернативных признаков) или имеющие различные количественные уровни у отдельных единиц совокупности.

Поскольку статистика, как уже сказано, изучает количественную сторону массовых явлений, то возникает необходимость в обобщающих характеристиках статистической совокупности. Эту роль выполняет статистический показатель, являющийся количественной характеристикой какого-то свойства совокупности.

Статистический показатель это количественная оценка свойства изучаемого явления. Статистические показатели можно подразделить на два основных вида. Первый вид - это учетно-оценочные показатели, которые показывают размеры, объемы, уровни изучаемого явления, например, объем промышленной продукции в РФ в 2003 г, составил 8498,0 млрд. рублей или оборот розничной торговли – 4483,5 млрд. рублей. Второй вид показателей – аналитические, которые показывают, как развивается изучаемое явление, из каких частей состоит целое, т.е. в каком соотношении находятся части целого между собой и как распространяется явление в пространстве. Так, в составе Северо-Кавказского экономического района территория Ростовской области составляет 28,4%, а Республики Адыгея – 2,1 %. К аналитическим относят относительные и средние величины, показатели вариации и т.д. Например, среднедушевые денежные доходы населения в 2003 г. в РФ составляли 5129 рублей в месяц.

Лекция 1.3

РАЗВЕДОЧНЫЙ АНАЛИЗ ДАННЫХ

Основные узловые моменты разведочного анализа

Слайд 2

Цель разведочного анализа – представить наблюдаемые данные компактной и простой форме, позволяющей выявить имеющиеся в них закономерности и связи. Разведочный анализ включает преобразование данных и способы наглядного их представления, выявление аномальных значений, грубую оценку типа распределения, сглаживание.

Термин разведочный анализ применяется также в более широком смысле, чем предварительная обработка данных. Например, в многомерных процедурах, таких как факторный анализ, многомерное шкалирование данных, цель разведочного анализа, кроме анализа первичных данных, заключается в определении минимального числа факторов, которые удовлетворительно воспроизводят ковариационную (корреляционную) матрицу или матрицу близостей наблюдаемых переменных

Слайд 3

Согласно предыдущей лекции считаем, что у исследователя имеются наблюдения в виде матрицы «объект-признак» или вектора признака и частичное или полное отсутствие априорной информации о причинно-следственном механизме этих данных. При анализе обычно возникают следующие вопросы

1. Какой обработке подвергнуть наблюдения?

2. Какую модель выбрать?

3. Какие заключения можно сделать?

Для выбора способа обработки необходима модель наблюдаемых данных. Прежде чем произвести наблюдение необходимо указать природу и свойства измеряемой величины, т.е. использовать априорную информацию. Чем полнее априорная информация, тем точнее и с меньшими затратами можно получить необходимые результаты. Поэтому большое значение имеет формализация методов сбора, обработки и использования априорной информации. На основе анализа этой информации строится модель исследуемого явления, выбирается аппаратура, разрабатывается методика проведения эксперимента.

Слайд 4

Для получения более полной информации об изучаемом явлении проводится первичный анализ данных, получивший название разведочного анализа (Exploratory data analysis). Разведочный анализ необходим во всех случаях, за исключением лишь очень простых задач. Например, выбору семейства моделей исследуемого явления в большинстве случаев должен предшествовать предварительный и графический анализ данных. Для иллюстрации сказанного рассмотрим модель простой одномерной линейной регрессии. В соответствии с этой моделью предполагается, что наблюдения n пар (x 1 ,Y 1), …, (x n ,Y n ) можно описать уравнением



В качестве минимального предварительного анализа можно рассматривать график рассеяния точек (x j ,Y j ). В результате анализа графиков можно сделать заключение о постоянстве дисперсии Y i , о целесообразности преобразования переменных, выявить наличие аномальных наблюдений, для исключения которых необходимы специальные исследования. После такой обработки данных, предполагая, что верна модель (1), необходимо оценить параметры b 0 , b 1 и провести графический анализ остатков между наблюдаемыми и оцененными значениями Y i . На основе этого анализа можно подтвердить или предложить другую модель.

Слайд 5

Рассмотрим простейшие процедуры разведочного анализа, относящиеся к предварительной обработке данных . Они дополняют методы, изложенные в первой лекции при рассмотрении конкретных форм представления данных. Поясним необходимость проведения разведочного анализа на конкретных вопросах оценивания.

Оценка среднего . Рассмотрим простейший пример оценки истинного среднего m независимой случайной величины x по выборкеобъема n . Если вычислена оценка среднего, то возникает вопрос: «насколько сильно отличается оценка от ненаблюдаемого истинного значения?» Так как истинное значение m недоступно, то определяется доверительный интервал , который с заданной вероятностью накрывает истинное значение.

Отношение имеет t- распределение Стьюдента. Очень часто строят 95%-е доверительные интервалы, считая, что величина t распределена нормально. Для нормального распределения величина t будет равна 1,96, тогда как для t- распределения при числе степеней свободы v (v = n – 1), равных 1; 3 и 12, величина t , соответственно, равна 12,7; 4,3 и 2,18. Поэтому при малых объемах выборок использование нормального распределения вместо t- распределения приводит к большим ошибкам в интервальной оценке. Большое различие интервальных оценок связано с различием t- распределения от нормального в хвостах распределения.

Слайд 6

Хвосты реальных распределений имеют, как правило, больший разброс, чем у нормального распределения. Природа отличия реального распределения от нормального может быть различной:

1. Большинство измерений проводится в конкретных единицах, например, в миллиграммах, микронах, и их значения ограничены. Для нормального же закона распределения значения изменяются от – ¥ до + ¥.

2. Резкая асимметрия некоторых распределений (например,c 2 , F ) при малых выборках, обрывистые края у равномерного распределения.

3. Поведение на «хвостах» распределения. Одно или несколько резко выделяющихся значений от основной массы наблюдений могут существенно изменить среднее и катастрофически дисперсию. Неправдоподобные значения почти неизбежны в экспериментальных данных. Количество таких значений в медицинских данных достигает до 30%, а в специально поставленных экспериментах оно составляет около 1% от всех данных.

Оценка среднего среднеарифметическим имеет большие достоинства: несмещенность для генеральных совокупностей, имеющих математическое ожидание, достаточность, полнота и, соответственно, полная эффективность для нормального, пуассоновского, гамма-распределений и при достаточно широких условиях удобное асимптотически нормальное распределение, которое во многих случаях приближенно достигается уже при средних объемах выборок n . Имеются и недостатки такой оценки: эффективность ее равна нулю для равномерного распределения, а для некоторых выборок уже одно неправдоподобно большое наблюдение может сделать среднеарифметическую оценку бесполезной.

Слайд 7

Если нормальность распределения нарушается резко выделяющимися данными, то желательно применять робастные (robust – крепкий, здоровый, дюжий) оценки . Примером робастной оценки среднего, терпимой к отклонению хвостов распределения от нормального является медиана распределения. Она, как срединное значение наблюдений, не зависит от одного или нескольких неправдоподобно больших измерений.

Медиана, как робастная, не является эффективной оценкой относительно среднеарифметической оценки для нормального распределения.

Слайд 8

Мера разброса . На практике для характеристики величины разброса данных используются следующие меры: среднеквадратическое отклонение s или его квадрат – дисперсия s 2 , а также размах R. Оценки этих величин обозначают соответственно S , S 2 , R . Оценка разброса по S широко применяется, и оно полезно при линейных преобразованиях типа Y = b + aX. Для некоторых распределений s 2 = ∞, а размах применим; неправдоподобно большие отклонения в наблюдениях также могут сделать оценку дисперсии очень большой, что приводит к типу распределения, отличному от истинного.

Оценка разброса по выборочному размаху относится к быстрым процедурам. В связи с появлением быстродействующих ЭВМ вычислительные преимущества R по сравнению с S становятся все менее важными, но остаются преимущества, связанные с простотой вычисления R и возможностью для неспециалистов применять эту статистику. Так, размах практически совсем вытеснил S из систем контроля качества, в которых выборки малых объемов берутся через короткие интервалы времени и по средним значениям и размахам строятся контрольные карты.

Следует отметить, что размах можно использовать для распознавания больших неправдоподобных ошибок в вычислениях S для выборок из любой генеральной совокупности. Это следует из ограниченности отношения S/R .

Слайд 9

Подводя итог рассмотренным оценкам, необходимо сделать вывод, что имеются причины, чтобы не обрабатывать все данные одинаково. Прежде чем приступить к обработке наблюдений, необходимо проверить однородность выборки и, если она неоднородна, то разделить на слои. Наличие резко выделяющихся наблюдений также нарушает однородность выборки. В этом случае один из подходов базируется на обнаружении и удалении этих выделяющихся данных.

Удаление резко выделяющихся наблюдений обеспечивает безопасность оценки, однако обеспечивает эффективность только в случае определения четкой границы между удаленными и не удаленными данными. К явным резко выделяющимся данным примыкает зона «сомнительных» данных (рис. 1), которые не всегда можно распознать. Здесь легко допустить неправильные удаления и необоснованные сохранения, полной эффективности ожидать не приходится даже в идеале после удаления. Эти трудности можно преодолеть, применяя робастные методы оценивания. Робастные алгоритмы обеспечивают безопасность и эффективность оценивания при наличии резко выделяющихся и сомнительных данных.

Рис. 1. Плотность распределения. Разбиение данных на три группы.

Слайд 10

О качестве результатов Цель исследования – дать ответ на вопрос: можно полученные результаты применять на практике. Пригодность полученных результатов можно оценить методами перепроверок. Наиболее часто используются методики простой и двойной перепроверок.

Простая перепроверка. Проверка полученной модели проводится на данных, отличных от тех, по которым рассчитаны параметры модели. В этом случае можно выборку наблюдений делить на две (или больше) части. Одну часть используют для обработки, а другую – для проверки. После этого части можно менять местами, что может дать несколько больше информации, хотя здесь имеются определенные трудности, вытекающие из-за связи между двумя оценками качества модели.

Такую перепроверку можно осуществить и для многократного деления данных, например, можно выборку разделить на 10 равных частей. На любых 9 из них провести оценку модели, а на оставшейся одной части осуществить проверку. После этого повторить процедуру 9 раз, беря каждый раз новые 9 частей. В ряде случаев процедуру усложняют. Расчет осуществляют по всем данным без одного наблюдения, а проверку – на отброшенном значении. Расчеты повторяют для каждого из наблюдений выборки. Не следует обольщаться результатами простой проверки, так как контрольная выборка всегда будет больше похожа на рабочую, чем на выборку объектов, для которой будут использоваться результаты исследований.

Двойная перепроверка. Производится проверка на данных отличных, как от тех, по которым строилась модель, так и от тех, которые были использованы для расчета параметров модели. Медики такой метод проверки называют «дважды слепым». «Свежие данные» для перепроверки можно собирать после выбора модели и расчета параметров. Если получение таких данных невозможно, то можно обратиться к архивным данным при условии, что они оставались неизвестными, пока строилась модель и рассчитывались параметры этой модели. При двойной перепроверке важно, чтобы данные, используемые для проверки, являлись отличными от тех, по которым проводились оценки. Можно использовать данные разных лет, если они могут быть отнесены к одному времени, или данные других исследователей.

Слайд 11

Неоднородные выборки

Стандартные методы оценивания любой статистики выборочных данных построены на предположении, что выборка взята из однородной совокупности с простой структурой закона распределения. Между тем на практике выборки часто формируются под влиянием различных причин и условий, и они могут быть представлены в виде объединения некоторого множества однородных выборок, каждая из которых имеет простую структуру. Например, нельзя считать однородными доходы богатых и других граждан государства, так как они имеют различную экономическую основу; объекты различной стоимости, отличающиеся по народнохозяйственным последствиям . Примерами могут служить неоднородные последовательности динамических моделей в задачах анализа вибраций в машиностроении; сейсмограмм в геофизике; кардиограмм с нарушениями частоты биения сердца.

Природа неоднородности может быть различной. Например, возможны объединения из совокупностей с различными средними и дисперсиями или с одинаковыми средними, но с различными дисперсиями. Важный класс неоднородных выборок образуют также выборки, содержащие одно или несколько неправдоподобно больших или малых измерений . Обработка неоднородных

Пусть наблюдения состоят из трех однородных слоев, каждый из которых можно описать простой одномерной регрессией. Эти зависимости показаны на рис. 2, где прямые – линии регрессий каждой совокупности. Если обработать объединенную выборку этих совокупностей, то получим регрессионную зависимость, изображенную на рис. 2 пунктирной прямой. Очевидно, что регрессия по объединенным данным лишена всякого смысла.

Для определения однородности выборки необходим подробный содержательный анализ исследуемой совокупности. Этот анализ должен базироваться на существенном не случайном признаке, по которому исходная совокупность может быть представлена в виде объединения нескольких однородных совокупностей. Например, налоговые декларации можно разбить на группы по объемам доходов; учреждения – по числу служащих; фермы – по общей площади земель и валовым доходам. При разделении выборки на слои требуется ответить на вопросы, по какому признаку лучше производить расслоение, как определить границы между слоями, сколько должно быть слоев.

Слайд 12

Разделение неоднородной совокупности на однородные

Пусть выборка изучаемой совокупности x 1 , …, x n , содержит элементы двух независимых случайных величин с плотностями распределений f(x,q 1) и f(x,q 2). Обозначим через А – множество элементов выборки, принадлежащих к первой случайной величине, В – множество элементов выборки из второй совокупности. Требуется найти оценки 1 , 2 неизвестных параметров q 1 , q 2 и множества А и В. Для оценки этих четырех неизвестных используем метод максимума правдоподобия. Неизвестные q 1 , q 2 и А и В найдем из условия покоординатной максимизации функции правдоподобия

На каждом шаге максимизируется величина функции правдоподобия по одному из неизвестных . 1) < f(x i , 2),. Если f(x i , 1) = f(x i , 2), то оба варианта одинаково правдоподобны, что для непрерывных распределений является маловероятным событием. Далее берем следующий элемент и относим его в то или иное множество. Полученные множества сравниваем с множествами на предыдущем шаге. Если они отличаются, то переходим к шагу 2, в противном случае алгоритм останавливается, и задача считается решенной.

Недостатком алгоритма является то, что он останавливается на первом локальном максимуме функции правдоподобия. Частично этого недостаток можно избежать, решая задачу при различных начальных разбиениях на подмножества А и В. Если конечные результаты для нескольких начальных условий различны, то берется то решение, для которого значение функции правдоподобия больше. Отсюда следует, что приведенный алгоритм применим и для выборок, содержащих более двух слоев.