Цель статистической обработки данных. Первичная статистическая обработка данных. Главные цели изучения элементов статистики

Методами статистической обработки результатов эксперимента называются математические приемы, формулы, способы количественных расчетов, с помощью которых показатели, получаемые в ходе эксперимента, можно обобщать, приводить в систему, выявляя скрытые в них закономерности.

Речь идет о таких закономерностях статистического характера, которые существуют между изучаемыми в эксперименте переменными величинами.

Данные – это основные элементы, подлежащие классифицированию или разбитые на категории с целью обработки 26 .

Некоторые из методов математико-статистического анализа позволяют вычислять так называемые элементарные математические статистики, характеризующие выборочное распределение данных, например:

Выборочное среднее,

Выборочная дисперсия,

Медиана и ряд других.

Иные методы математической статистики позволяют судить о динамике изменения отдельных статистик выборки, например:

Дисперсионный анализ,

Регрессионный анализ.

С помощью третьей группы методов выборочных данных, можно достоверно судить о статистических связях, существующих между переменными величинами, которые исследуют в данном эксперименте:

Корреляционного анализа;

Факторного анализа;

Методов сравнения.

Все методы математико-статистического анализа условно делятся на первичные и вторичные 27 .

Первичными называют методы, с помощью которых можно получить показатели, непосредственно отражающие результаты производимых в эксперименте измерений.

Вторичными называются методы статистической обработки, с помощью которых на базе первичных данных выявляют скрытые в них статистические закономерности.

К первичным методам статистической обработки относят, например:

Определение выборочной средней величины;

Выборочной дисперсии;

Выборочной моды;

Выборочной медианы.

В число вторичных методов обычно включают:

Корреляционный анализ;

Регрессионный анализ;

Методы сравнения первичных статистик у двух или нескольких выборок.

Рассмотрим методы вычисления элементарных математических статистик, начав с выборочного среднего.

Среднее арифметическое значение – это отношение суммы всех значений данных к числу слагаемых 28 .

Среднее значение как статистический показатель представляет собой среднюю оценку изучаемого в эксперименте психологического качества.

Эта оценка характеризует степень его развития в целом у той группы испытуемых, которая была подвергнута психодиагностическому обследованию. Сравнивая непосредственно средние значения двух или нескольких выборок, мы можем судить об относительной степени развития у людей, составляющих эти выборки, оцениваемого качества.

Выборочное среднее определяется при помощи следующей формулы 29:

где х ср -выборочная средняя величина или среднее арифметическое значение по выборке;

п - количество испытуемых в выборке или частных психодиагностических показателей, на основе которых вычисляется средняя величина;

x k - частные значения показателей у отдельных испытуемых. Всего таких показателей п, поэтому индекс k данной переменной принимает значения от 1 до п;

∑ - принятый в математике знак суммирования величин тех переменных, которые находятся справа от этого знака.

Дисперсия – это мера разброса данных относительно среднего значения 30 .

Чем больше дисперсия, тем больше отклонения или разброс данных. Ее определяют для того, чтобы можно было отличать друг от друга величины, имеющие одинаковую среднюю, но разный разброс.

Дисперсия определяется по следующей формуле:

где - выборочная дисперсия, или просто дисперсия;

Выражение, означающее, что для всех x k от первого до последнего в данной выборке необходимо вычислить разности между частными и средними значениями, возвести эти разности в квадрат и просуммировать;

п - количество испытуемых в выборке или первичных значений, по которым вычисляется дисперсия.

Медианой называется значение изучаемого признака, которое делит выборку, упорядоченную по величине данного признака, пополам.

Знание медианы полезно для того, чтобы установить, является ли распределение частных значений изученного признака симметричным и приближающимся к так называемому нормальному распределению. Средняя и медиана для нормального распределения обычно совпадают или очень мало отличаются друг от друга.

Если выборочное распределение признаков нормально, то к нему можно применять методы вторичных статистических расчетов, основанные на нормальном распределении данных. В противном случае этого делать нельзя, так как в расчеты могут вкрасться серьезные ошибки.

Мода еще одна элементарная математическая статистика и характеристика распределения опытных данных. Модой называют количественное значение исследуемого признака, наиболее часто встречающееся в выборке.

Для симметричных распределений признаков, в том числе для нормального распределения, значения моды совпадают со значениям среднего и медианы. Для других типов распределений, несимметричных, это не характерно.

Метод вторичной статистической обработки, посредством которого выясняется связь или прямая зависимость между двумя рядами экспериментальных данных, носит название метод корреляционного анализа. Он показывает, каким образом одно явление влияет на другое или связано с ним в своей динамике. Подобного рода зависимости существуют, к примеру, между величинами, находящимися в причинно-следственных связях друг с другом. Если выясняется, что два явления статистически достоверно коррелируют друг с другом и если при этом есть уверенность в том, что одно из них может выступать в качестве причины другого явления, то отсюда определенно следует вывод о наличии между ними причинно-следственной зависимости.

Имеется несколько разновидностей данного метода:

Линейный корреляционный анализ позволяет устанавливать прямые связи между переменными величинами по их абсолютным значениям. Эти связи графически выражаются прямой линией, отсюда название «линейный».

Коэффициент линейной корреляции определяется при помощи следующей формулы 31:

где r xy - коэффициент линейной корреляции;

х, у - средние выборочные значения сравниваемых величин;

х i ,у i - частные выборочные значения сравниваемых величин;

п - общее число величин в сравниваемых рядах показателей;

Дисперсии, отклонения сравниваемых величин от средних значений.

Ранговая корреляция определяет зависимость не между абсолютными значениями переменных, а между порядковыми местами, или рангами, занимаемыми ими в упорядоченном по величине ряду. Формула коэффициента ранговой корреляции следующая 32:

где R s - коэффициент ранговой корреляции по Спирмену;

d i - разница между рангами показателей одних и тех же испытуемых в упорядоченных рядах;

п - число испытуемых или цифровых данных (рангов) в коррелируемых рядах.

1. Средства статистической обработки данных в Excel

2. Использование специальных функций

3. Использование инструмента ПАКЕТ АНАЛИЗА

Литература :

основная :

1. Берк. Анализ данных с помощью Microsoft Excel. : Пер. с англ./ Берк, Кеннет, Кэйри, Патрик. - М. : Издательский дом "Вильяме", 2005. - С. 216 - 256.

2. Мишин А.В. Информационные технологии в юридической деятельности: практикум / А.В. Мишин. – М.: РАП, 2013. – С. 2-11.

дополнительная :

3. Информатика для юристов и экономистов: учебник для вузов / Под ред. С.В. Симоновича. – СПб.: Питер, 2004. – С. 498-516.

Практическое занятие № 30

Тема № 11.1. Ведение баз данных в СУБД Access

Занятие проводится методом проектов.

Цель проекта: разработать базу данных о работе суда.

Техническое задание:

1. Создайте базу данных «Суд» из двух таблиц «Судьи» и «Иски», имеющих следующую структуру, соответственно:

Таблица «Судьи»

Имя поля	Код судьи	Ф_И_О	Дни приема	Часы приема	Стаж работы
Тип данных	Числовой	Текстовый	Текстовый	Текстовый	Числовой

Размер поля	Длинное целое				Длинное целое
Формат поля	Основной				Основной
Число десятичных знаков
Значение по умолчанию			«Ср»	«15:00-17:00»
Условие на значение	>36200 And <36299		Пн Or Вт Or Ср Or Чт Or Пт		>0 And <40
Сообщение об ошибке			Допустимые значения: «Пн», «Вт», «Ср», «Чт» или «Пт». Повторите ввод!	!	Допустимы значения от 1 до 39. Повторите ввод!
Обязательное поле	Да	Да	Нет	Нет	Нет
Индексированное поле		Нет	Нет	Нет	Нет

Примечание. Объявить ключевым поле «Код судьи».

Таблица «Иски»

Имя поля	Номер дела	Истец	Ответ-чик	Код судьи	Дата заседания
Тип данных	Числовой	Текстовый	Текстовый	Числовой	Дата/ время
Свойства поля: вкладка «Общие»
Размер поля	Длинное целое			Длинное целое	Полный формат даты
Формат поля	Основной
Число десятичных знаков
Значение по умолчанию
Условие на значение	>0 And <99999			>36200 And <36299
Сообщение об ошибке	Ошибочный ввод - повторите!			Допустимы значения от 36201 до 36298. Повторите ввод!
Обязательное поле	Да	Нет	Нет	Нет	Нет
Индексированное поле	Да (Совпадения не допускаются)	Нет	Нет	Да (Допускаются совпадения)	Нет

2. В таблицу «Судьи» введите следующие записи данных:

В таблицу «Иски» введите следующие записи данных:

3. По полю «Код судьи» установить связь «один-ко-многим» между таблицами Судьи и Иски . При этом задайте «Обеспечение целостности данных» и «каскадное обновление связанных полей».

Литература :

основная :

1. Мишин А.В. Информационные технологии в профессиональной деятельности: учебное пособие / А.В. Мишин, Л.Е. Мистров, Д.В. Картавцев. – М.: РАП, 2011. – С. 259-264.

дополнительная :

Практическое занятие № 31

Тема № 11.2. Принципы создания форм и запросов в СУБД Access

1. Разработка входных форм для ввода данных.

2. Методика проведения расчётов и анализа введённых данных.

Литература :

основная :

1. Мишин А.В. Информационные технологии в профессиональной деятельности: учебное пособие / А.В. Мишин, Л.Е. Мистров, Д.В. Картавцев. – М.: РАП, 2011. – С. 265-271.

дополнительная :

2. Информатика и информационные технологии: учебное пособие для студентов вузов / И.Г. Лесничая, И.В. Миссинг, Ю.Д. Романова, В.И. Шестаков. - 2-е изд. - М.: Эксмо, 2006. - 544 с.

3. Михеева Е.В. Информационные технологии в профессиональной деятельности: учебное пособие для студентов учреждений СПО / Е.В. Михеева. - 2-е изд., стер. - М.: Академия, 2005. - 384 с.

Лабораторная работа №3. Статистическая обработка данных в системе MatLab

Общая постановка задачи

Основной целью выполнения лабораторной работы является ознакомление с основами работы со статистической обработкой данных в среде MatLAB.

Теоретическая часть

Первичная статистическая обработка данных

Статистическая обработка данных основывается на первичных и вторичных количественных методах. Цель первичной обработки статистических данных является структурирование полученных сведений, подразумевающее группировку данных в сводные таблицы по различным параметрам. Первичные данных должны быть представлены в таком формате, чтобы человек смог провести приближенную оценку полученной совокупности данных и выявить информацию о распределении данных полученной выборки данных, например, однородность или компактность данных. После первичного анализа данных применяются методы вторичной статистической обработки данных, на основании которых определяются статистические закономерности в имеющемся наборе данных.

Проведение первичного статистического анализа над массивом данных позволяет получить знания о следующем:

Какое значение наиболее характерно для выборки? Для ответа на данный вопрос определяются меры центральной тенденции.

Велик ли разброс данных относительно этого характерного значения, т. е. какова «размытость» данных? В данном случае определяются меры изменчивости.

Стоит отметить тот факт, что статистические показатели меры центральной тенденции и изменчивостиопределяются только на количественных данных.

Меры центральной тенденции – группа величин, вокруг которых группируются остальные данные.Таким образом, меры центральной тенденции обобщают массив данных, что делает возможным формирование умозаключений как о выборке в целом, так и проведение сравнительного анализа разных выборок друг с другом.

Допустим имеется выборка данных , тогда меры центральной тенденции оцениваются следующими показателями:

1. Выборочное среднее – это результат деления суммы всех значений выборки на их количество.Определяется по формуле (3.1).

(3.1)

где - i -й элемент выборки;

n – количество элементов выборки.

Выборочное среднее позволяет получить наибольшую точность в процессе оценки центральной тенденции.

2. Медиана – формирует значение, выше и ниже которого количество отличающихся значений одинаково, т. е. это центральное значение в последовательном ряду данных. Определяется в зависимости четности/нечетности количества элементов выборке по формулам (3.2) или (3.3).Алгоритм оценки медианы для выборки данных :

Первым делом данные ранжируются (упорядочиваются) по убыванию/возрастанию .

Если в упорядоченной выборке нечетное число элементов, то медиана совпадает с центральным значением.

(3.2)

где n

В случае четного числа элементов медиана определяется как как среднее арифметическое двух центральных значений.

(3.3)

где - средний элемент упорядоченной выборки;

- элемент упорядоченной выборки следующий за ;

Количество элементов выборки.

В том случае, если все элементы выборки различны, то ровно половина элементов выборки больше медианы, а другая половина меньше. Например, для выборки {1, 5, 9, 15, 16} медиана совпадает с элементом 9.

В статистическом анализе данных медиана позволяет определить элементы выборки, которые сильно влияют на значение выборочного среднего.

Допустим имеется выборка из 20 человек. Элементами выборки являются сведения о среднем ежемесячном доходе каждого человека. Предположим, что 19 человек имеют средний ежемесячный доход в 20 т.р. и 1 человек с доходом в 300 т.р. Суммарный ежемесячный доход всей выборки составляет 680 т.р. Медиана, после упорядочивания выборки, определяется как среднеарифметическое десятого и одиннадцатого элементов выборки) и равняется Ме=20 т.р. Данный результат интерпретируется следующим образом: медиана делит выборку на две группу, таким образом, что можно сделать заключение о том, что в первой группе у каждого человека средний ежемесячный доход не более 20 т.р., а во второй группе не менее 20 т.р. В данном примере можно говорить о том, что медиана характеризуется тем, сколько зарабатывает «средний» человек. В то время как значение выборочного среднего значительно превышено S=34, что указывает на неприемлемость данной характеристики при оценке среднего заработка.

Таким образом, чем больше различие между медианой и выборочным средним, тем больший разброс данных выборки (в рассмотренном примере, человек с заработком в 300 т.р. явно отличается от среднестатистических людей конкретной выборки и оказывает существенное влияние на оценку среднего дохода). Что делать с подобными элементами решается в каждом индивидуальном случае. Но в общем случае для обеспечения достоверности выборки они изымаются, так как оказывают сильное влияние на оценку статистических показателей.

3. Мода (Мо) – формирует значение, наиболее часто встречающееся в выборке, т. е. значение с наибольшей частотой.Алгоритм оценки моды:

В том случае, когда выборка содержит элементы, встречающиеся одинаково часто, то говорят, что мода в подобной выборке отсутствует.

Если два соседних элемента выборки имеют одинаковую частоту, являющуюся больше частоты остальных элементов выборки, то мода определяется как среднее этих двух значений.

Если два элемента выборки имеют одинаковую частоту, являющуюся больше частоты остальных элементов выборки, и при этом данные элементы не являются соседними, то говорят, что в данной выборке две моды.

Мода в статистическом анализе используется в ситуациях, когда необходимо проведение быстрой оценки меры центральной тенденции и не требуется высокая точность. Например, моду (по показателю размер либо бренд) удобно применять для определения одежды и обуви, которая пользуется наибольшим спросом у покупателей.

Меры разброса (изменчивости) – группа статистических показателей, характеризующих различия между отдельными значениями выборки. Основываясь на показателях мер разброса можно оценивать степень однородности и компактности элементов выборки. Меры разброса, характеризуются следующим набором показателей:

1. Размах - это интервал между максимальным и минимальным значениями результатов наблюдений (элементов выборки). Показатель размаха указывает на разброс значений в совокупности данных. Если размах большой, то значения в совокупности сильно разбросаны, в противном случае (размах небольшой) говорится о том, что значения в совокупности лежат близко друг к другу. Размах определяется по формуле (3.4).

(3.4)

Где - максимальный элемент выборки;

- минимальный элемент выборки.

2.Среднее отклонение – среднеарифметическая разница (по абсолютной величине) между каждым значением в выборке и ее выборочным средним. Среднее отклонение определяется по формуле (3.5).

(3.5)

где - i -й элемент выборки;

Значение выборочного среднего, рассчитанное по формуле (3.1);

Количество элементов выборки.

Модуль необходим в связи с тем, что отклонения от среднего по каждому конкретному элементу могут быть как положительными так и отрицательными. Следовательно, если не взять модуль, то сумма всех отклонений будет близка к нулю и невозможно будет судить о степени изменчивости данных (скученности данных вокруг выборочного среднего). При проведении статистического анализа могут быть взяты мода и медиана вместо выборочного среднего.

3. Дисперсия - мера рассеяния, описывающая сравнительное отклонение между значениями данных и средней величиной. Вычисляется как сумма квадратов отклонений каждого элемента выборки от средней величины. В зависимости от размера выборки дисперсия оценивается разными способами:

Для больших выборок (n>30) по формуле (3.6)

(3.6)

Для малых выборок (n<30) по формуле (3.7)

(3.7)

где X i - i-й элемент выборки;

S – среднее значение выборки;

Количество элементов выборки;

(X i – S) - отклонение от средней величины для каждого значения набора данных.

4. Стандартное отклонение -мера того, насколько широко разбросаны точки данных относительно их среднего.

Процесс возведения в квадрат отдельных отклоненийпри вычислении дисперсии усиливает степень отклонения полученной величины отклонения от первоначальных отклонений, что в свою очередь вносит дополнительные погрешности. Таким образом, с целью приближения оценки разброса точек данных относительно их среднего к значению среднего отклонения, из дисперсии извлекают квадратный корень. Извлеченный корень из дисперсии характеризует меру изменчивости, именуемую среднеквадратическим или стандартным отклонением (3.8).

(3.8)

Допустим вы руководитель проекта по разработке программного обеспечения. У вас в подчинении пять программистов. Управляя процессом выполнения проекта, вы распределяете задания между программистами. Для простоты примера будем исходить из того факта, что задания равнозначны по сложности и времени выполнения. Вы решили проанализировать работу каждого программиста (число выполненных заданий в течении недели) за последние 10 недель, в результате чего вами получены следующие выборки:

Неделя ФИО

Проведя оценку среднего числа выполненных задач, вы получили следующий результат:

Неделя ФИО											S
											22,3
											22,4
											22,2
											22,1
											22,5

Исходя из показателя S все программисты в среднем работают с одинаковой эффективностью (около 22 заданий в неделю). Однако, показатель вариабельности (размах) очень высок (от 5 заданий четвертого программиста до 24 заданий у пятого).

Неделя ФИО	S	P
	22,3
	22,4
	22,2
	22,1
	22,5

Оценим стандартное отклонение, показывающее как распределены значения в выборках относительно среднего, а именно в нашем случае оценить на сколько велик разброс выполнения заданий от недели к неделе.

Неделя ФИО	S	P	SO
	22,3		1,56
	22,4		1,8
	22,2		2,84
	22,1		1,3
	22,5		5,3

Полученная оценка стандартного отклонения говорит о следующем (оценим два крайних случая 4 и 5 программисты):

Каждое значение в выборке 4 программиста в среднем отклоняется на 1,3 задания от среднего значения.

Каждое значение в выборке 5 программиста в среднем отклоняется на 5,3 задания от среднего значения.

Чем ближе стандартное отклонение к 0, тем надежнее среднее, так как это указывает на то, что каждое значение выборки практически равно среднему (в нашем примере это 22,5 задания). Следовательно, 4 программист наиболее последователен в отличии от 5-го. Вариабельность выполнения заданий от недели к неделе 5-го программиста составляет 5,3 задания, что говорит о значительном разбросе. В случае с 5-м программистом нельзя доверять среднему, а, следовательно,трудно спрогнозировать число выполненных заданий на следующую неделю, что в свою очередь затрудняет процедуру планирования и соблюдения графиков выполнения работ. Какое управленческое решение вы примете в данном курсе неважно. Важно, что вы получили оценку, на основании которой можно принять соответствующие управленческие решения.

Таким образом, можно сделатьобщий вывод, говорящий о том, что среднее значение не всегда правильно оценивает данные. Об корректности оценки среднего можно судить по значению стандартного отклонения.

Лекция 12. Методы статистической обработки результатов.

Методами статистической обработки результатов называются математические приемы, формулы, способы количественных расчетов, с помощью которых показатели, получаемые в ходе эксперимента, можно обобщать, приводить в систему, выявляя скрытые в них закономерности. Речь идет о таких закономерностях статистического характера, которые существуют между изучаемыми в эксперименте переменными величинами.

1. Методы первичной статистической обработки результатов эксперимента

Все методы математико-статистического анализа условно делятся на первичные и вторичные. Первичными называют методы, с помощью которых можно получить показатели, непосредственно отражающие результаты производимых в эксперименте измерений. Соответственно под первичными статистическими показателями имеются в виду те, которые применяются в самих психодиагностических методиках и являются итогом начальной статистической обработки результатов психодиагностики. Вторичными называются методы статистической обработки, с помощью которых на базе первичных данных выявляют скрытые в них статистические закономерности.

К первичным методам статистической обработки относят, например, определение выборочной средней величины, выборочной дисперсии, выборочной моды и выборочной медианы. В число вторичных методов обычно включают корреляционный анализ, регрессионный анализ, методы сравнения первичных статистик у двух или нескольких выборок.

Рассмотрим методы вычисления элементарных математических статистик.

Модой называют количественное значение исследуемого признака, наиболее часто встречающееся в выборке.

Выборочное среднее (среднее арифметическое) значение как статистический показатель представляет собой среднюю оценку изучаемого в эксперименте психологического качества.

Разброс (иногда эту величину называют размахом) выборки обозначается буквой R. Это самый простой показатель, который можно получить для выборки - разность между максимальной и минимальной величинами данного конкретного вариационного ряда.

Дисперсия - это среднее арифметическое квадратов отклонений значений переменной от её среднего значения.

2. Методы вторичной статистической обработки результатов эксперимента

С помощью вторичных методов статистической обработки экспериментальных данных непосредственно проверяются, доказываются или опровергаются гипотезы, связанные с экспериментом. Эти методы, как правило, сложнее, чем методы первичной статистической обработки, и требуют от исследователя хорошей подготовки в области элементарной математики и статистики.

Обсуждаемую группу методов можно разделить на несколько подгрупп:

1 Регрессионное исчисление

Регрессионное исчисление - это метод математической статистики, позволяющий свести частные, разрозненные данные к некоторому линейному графику, приблизительно отражающему их внутреннюю взаимосвязь, и получить возможность по значению одной из переменных приблизительно оценивать вероятное значение другой переменной.

2.Корреляция

Следующий метод вторичной статистической обработки, посредством которого выясняется связь или прямая зависимость между двумя рядами экспериментальных данных, носит название метод корреляций. Он показывает, каким образом одно явление влияет на другое или связано с ним в своей динамике. Подобного рода зависимости существуют, к примеру, между величинами, находящимися в причинно-следственных связях друг с другом. Если выясняется, что два явления статистически достоверно коррелируют друг с другом и если при этом есть уверенность в том, что одно из них может выступать в качестве причины другого явления, то отсюда определенно следует вывод о наличии между ними причинно-следственной зависимости.

3 Факторный анализ

Факторный анализ - статистический метод, который используется при обработке больших массивов экспериментальных данных. Задачами факторного анализа являются: сокращение числа переменных (редукция данных) и определение структуры взаимосвязей между переменными, т.е. классификация переменных, поэтому факторный анализ используется как метод сокращения данных или как метод структурной классификации.

Вопросы для повторения

1.Что такое методы статистической обработки?

2.На какие подгруппы делят вторичные методы статистической обработки?

3.Объясните сущность метода корреляции?

4.В каких случаях применяют методы статистической обработки?

5.Как Вы считаете, насколько эффективно применение методов статистической обработки в научном исследовании?

2.Рассмотреть особенности методов статистической обработки данных.

Литература

1.. Горбатов Д.С. Практикум по психологическому исследованию: Учеб. пособие. - Самара: "БАХРАХ - М", 2003. - 272 с.

2. Ермолаев А.Ю. Математическая статистика для психологов. - М.: Московский психолого-социальный институт: Флинта, 2003.336с.

3. Корнилова Т.В. Введение в психологический эксперимент. Учебник для ВУЗов. М.: Изд-во ЧеРо, 2001.