Zweck der statistischen Datenverarbeitung. Primäre statistische Datenverarbeitung. Die Hauptziele des Studiums der Elemente der Statistik

Die Methoden der statistischen Verarbeitung der Ergebnisse des Experiments sind mathematische Methoden, Formeln, Methoden quantitativer Berechnungen, mit deren Hilfe die während des Experiments erhaltenen Indikatoren verallgemeinert, in das System gebracht und die darin verborgenen Muster aufgedeckt werden können.

Wir sprechen von solchen Regelmäßigkeiten statistischer Natur, die zwischen den im Experiment untersuchten Variablen bestehen.

Daten sind die Hauptelemente, die zum Zwecke der Verarbeitung klassifiziert oder kategorisiert werden müssen 26 .

Einige Methoden der mathematischen und statistischen Analyse ermöglichen es, die sogenannte elementare mathematische Statistik zu berechnen, die die Stichprobenverteilung von Daten charakterisiert, zum Beispiel:

Stichprobenmittelwert,

Stichprobenabweichung,

Median und andere.

Andere Methoden der mathematischen Statistik ermöglichen es, die Dynamik von Veränderungen in einzelnen Stichprobenstatistiken zu beurteilen, zum Beispiel:

Dispersionsanalyse,

Regressionsanalyse.

Mit der dritten Gruppe von Stichprobenverfahren kann man zuverlässig die statistischen Beziehungen beurteilen, die zwischen den in diesem Experiment untersuchten Variablen bestehen:

Korrelationsanalyse;

Faktorenanalyse;

Vergleichsmethoden.

Alle Methoden der mathematisch-statistischen Analyse werden üblicherweise in primäre und sekundäre Verfahren unterteilt 27 .

Methoden werden als primär bezeichnet, mit deren Hilfe es möglich ist, Indikatoren zu erhalten, die die Ergebnisse der im Experiment durchgeführten Messungen direkt widerspiegeln.

Sekundäre Verfahren werden als statistische Verarbeitung bezeichnet, mit deren Hilfe auf der Grundlage von Primärdaten darin verborgene statistische Muster aufgedeckt werden.

Zu den primärstatistischen Verarbeitungsverfahren gehören beispielsweise:

Bestimmung des Stichprobenmittelwertes;

Stichprobenabweichung;

Selektive Mode;

Stichprobenmedian.

Sekundäre Methoden umfassen typischerweise:

Korrelationsanalyse;

Regressionsanalyse;

Methoden zum Vergleichen von Primärstatistiken für zwei oder mehr Stichproben.

Betrachten wir Methoden zur Berechnung der elementaren mathematischen Statistik, beginnend mit dem Stichprobenmittelwert.

Arithmetisches Mittel - ist das Verhältnis der Summe aller Datenwerte zur Anzahl der Terme 28 .

Der Mittelwert als statistischer Indikator ist die durchschnittliche Einschätzung der im Experiment untersuchten psychischen Qualität.

Diese Einschätzung charakterisiert den Grad ihrer Entwicklung insgesamt in der Gruppe der einer psychodiagnostischen Untersuchung unterzogenen Probanden. Durch den direkten Vergleich der Durchschnittswerte von zwei oder mehr Stichproben können wir den relativen Entwicklungsgrad der Personen beurteilen, aus denen diese Stichproben der zu bewertenden Qualität bestehen.

Der Stichprobenmittelwert wird mit der folgenden Formel 29 bestimmt:

wobei x cf der Stichprobenmittelwert oder das arithmetische Mittel der Stichprobe ist;

n - die Anzahl der Probanden in der Stichprobe oder private psychodiagnostische Indikatoren, auf deren Grundlage der Durchschnittswert berechnet wird;

x k - private Werte von Indikatoren für einzelne Fächer. Es gibt n solcher Indikatoren, daher nimmt der Index k dieser Variablen Werte von 1 bis n an;

∑ - in der Mathematik akzeptiert, das Summenzeichen der Werte der Variablen, die sich rechts von diesem Zeichen befinden.

Streuung ist ein Maß für die Streuung der Daten um den Mittelwert von 30 .

Je größer die Varianz, desto größer die Varianz oder Streuung in den Daten. Sie wird ermittelt, um Größen mit gleichem Mittelwert, aber unterschiedlicher Streuung voneinander unterscheiden zu können.

Die Streuung wird nach folgender Formel bestimmt:

wo ist die Stichprobenvarianz oder einfach die Varianz;

Ein Ausdruck, der bedeutet, dass es für alle x k vom ersten bis zum letzten in dieser Stichprobe notwendig ist, die Differenzen zwischen privaten und durchschnittlichen Werten zu berechnen, diese Differenzen zu quadrieren und zu summieren;

n ist die Anzahl der Probanden in den Stichproben- oder Primärwerten, für die die Varianz berechnet wird.

Median wird der Wert des untersuchten Merkmals genannt, der die Stichprobe, geordnet nach dem Wert dieses Merkmals, in zwei Hälften teilt.

Die Kenntnis des Medians ist nützlich, um festzustellen, ob die Verteilung bestimmter Werte des untersuchten Merkmals symmetrisch ist und sich der sogenannten Normalverteilung annähert. Mittelwert und Median einer Normalverteilung sind in der Regel gleich oder unterscheiden sich kaum voneinander.

Wenn die Stichprobenverteilung von Merkmalen normal ist, können darauf sekundärstatistische Berechnungsmethoden angewendet werden, die auf der Normalverteilung von Daten basieren. Andernfalls ist dies nicht möglich, da sich schwerwiegende Fehler in die Berechnungen einschleichen können.

Mode noch eine elementare mathematische Statistik und Charakteristik der Verteilung der experimentellen Befunde. Modus ist der quantitative Wert des untersuchten Merkmals, der am häufigsten in der Stichprobe gefunden wird.

Bei symmetrischen Merkmalsverteilungen, einschließlich der Normalverteilung, stimmen die Moduswerte mit den Mittel- und Medianwerten überein. Für andere Arten von Verteilungen, asymmetrisch, ist dies nicht typisch.

Die Methode der sekundären statistischen Verarbeitung, durch die die Beziehung oder direkte Beziehung zwischen zwei Reihen experimenteller Daten ermittelt wird, wird als bezeichnet Methode der Korrelationsanalyse. Es zeigt, wie ein Phänomen auf ein anderes wirkt oder in seiner Dynamik mit diesem zusammenhängt. Abhängigkeiten dieser Art bestehen beispielsweise zwischen Größen, die in kausalen Beziehungen zueinander stehen. Stellt sich heraus, dass zwei Phänomene statistisch signifikant miteinander korrelieren und besteht gleichzeitig die Gewissheit, dass eines von ihnen als Ursache des anderen Phänomens fungieren kann, dann besteht definitiv ein kausaler Zusammenhang zwischen ihnen .

Es gibt mehrere Varianten dieser Methode:

Mit der linearen Korrelationsanalyse können Sie direkte Verbindungen zwischen Variablen in ihren absoluten Werten herstellen. Diese Verbindungen werden grafisch durch eine gerade Linie ausgedrückt, daher der Name "linear".

Der lineare Korrelationskoeffizient wird nach folgender Formel 31 bestimmt:

wo r xy - linearer Korrelationskoeffizient;

x, y- durchschnittliche Probenwerte der verglichenen Werte;

X ich , ja ich - private Probenwerte verglichener Mengen;

P - die Gesamtzahl der Werte in der verglichenen Reihe von Indikatoren;

Streuungen, Abweichungen von Vergleichswerten von Durchschnittswerten.

Die Rangkorrelation bestimmt die Abhängigkeit nicht zwischen den absoluten Werten von Variablen, sondern zwischen Ordnungsstellen oder Rängen, die sie in einer nach Größe geordneten Reihe einnehmen. Die Formel für den Rangkorrelationskoeffizienten lautet 32:

wobei R s - Koeffizient der Rangkorrelation nach Spearman;

d ich - die Differenz zwischen den Reihen von Indikatoren derselben Fächer in geordneten Reihen;

P - die Anzahl der Subjekte oder digitalen Daten (Ränge) in der korrelierten Serie.


1. Statistische Datenverarbeitungstools in Excel

2. Verwenden von Sonderfunktionen

3. Verwenden des Tools ANALYSIS PACKAGE

Literatur:

hauptsächlich:

1. Burke. Datenanalyse mit Microsoft Excel. : Pro. aus dem Englischen / Burke, Kenneth, Carey, Patrick. - M.: Verlag "William", 2005. - S. 216 - 256.

2. Mischin A.V. Informationstechnologie in juristischer Tätigkeit: Werkstatt / A.V. Mischin. – M.: RAP, 2013. – S. 2-11.

zusätzlich:

3. Informatik für Juristen und Wirtschaftswissenschaftler: Ein Lehrbuch für Hochschulen / Ed. S.V. Simonowitsch. - St. Petersburg: Peter, 2004. - S. 498-516.

Übung Nr. 30

Themennummer 11.1. Pflege von Datenbanken in Access DBMS

Der Unterricht wird nach der Methode der Projekte durchgeführt.

Ziel des Projekts: Aufbau einer Datenbank zur Arbeit des Gerichts.

Technische Aufgabe:

1. Erstellen Sie eine Datenbank „Court“ aus zwei Tabellen „Richter“ und „Claims“ mit jeweils folgender Struktur:

Tabelle "Richter"

Feldname Schiedsrichter-Code VOLLSTÄNDIGER NAME Tage der Rezeption Öffnungszeiten Berufserfahrung
Datentyp Numerisch Text Text Text Numerisch
Feldgröße lange Ganzzahl lange Ganzzahl
Feldformat Basic Basic
Anzahl der Dezimalstellen
Standardwert "Heiraten" "15:00-17:00"
Wertbedingung >36200 Und<36299 Mo oder Di oder Mi oder Do oder Fr >0 Und<40
Fehlermeldung Gültige Werte sind Mo, Di, Mi, Do oder Fr. Wiederholen! ! Gültige Werte sind 1 bis 39. Bitte versuchen Sie es erneut!
Pflichtfeld Ja Ja Nein Nein Nein
Indiziertes Feld Nein Nein Nein Nein

Notiz. Deklarieren Sie das Schlüsselfeld "Kennzeichen des Richters".

Tabelle "Forderungen"

Feldname Fallnummer Kläger Antwort-chik Schiedsrichter-Code Datum des Treffens
Datentyp Numerisch Text Text Numerisch Terminzeit
Feldeigenschaften: Registerkarte „Allgemein“.
Feldgröße lange Ganzzahl lange Ganzzahl Vollständiges Datumsformat
Feldformat Basic
Anzahl der Dezimalstellen
Standardwert
Wertbedingung >0 Und<99999 >36200 Und<36299
Fehlermeldung Falsche Eingabe - versuchen Sie es erneut! Gültige Werte sind 36201 bis 36298. Bitte versuchen Sie es erneut!
Pflichtfeld Ja Nein Nein Nein Nein
Indiziertes Feld Ja (keine Übereinstimmungen erlaubt) Nein Nein Ja (Zufall erlaubt) Nein

2. Geben Sie in der Tabelle Judges folgende Datensätze ein:

Geben Sie in der Tabelle Forderungen folgende Datensätze ein:

3. Verwenden Sie das Feld „Judge-Code“, um eine „Eins-zu-Viele“-Beziehung zwischen den Tischen herzustellen Richter und Klagen. Stellen Sie gleichzeitig "Datenintegrität sicherstellen" und "Aktualisierung verwandter Felder kaskadieren" ein.

Literatur:

hauptsächlich:

1. Mischin A.V. Informationstechnologien in der beruflichen Tätigkeit: Studienführer / A.V. Mischin, L.E. Mistrow, D.V. Kartawzew. - M.: RAP, 2011. - S. 259-264.

zusätzlich:

Übung Nr. 31

Themennummer 11.2. Prinzipien zum Erstellen von Formularen und Abfragen in Access DBMS

1. Entwicklung von Eingabeformularen für die Dateneingabe.

2. Methodik zur Durchführung von Berechnungen und Analyse der eingegebenen Daten.

Literatur:

hauptsächlich:

1. Mischin A.V. Informationstechnologien in der beruflichen Tätigkeit: Studienführer / A.V. Mischin, L.E. Mistrow, D.V. Kartawzew. - M.: RAP, 2011. - S. 265-271.

zusätzlich:

2. Informatik und Informationstechnologien: Ein Lehrbuch für Studierende / I.G. Lesnichaya, I.V. Vermisst, Yu.D. Romanova, W.I. Schestakow. - 2. Aufl. - M.: Eksmo, 2006. - 544 S.

3. Michejewa E.V. Informationstechnologien in der beruflichen Tätigkeit: Ein Lehrbuch für Schüler der Berufsbildenden Schulen / E.V. Michejew. - 2. Aufl., gelöscht. - M.: Akademie, 2005. - 384 S.

Laborarbeit №3. Statistische Datenverarbeitung im MatLab-System

Allgemeine Problemstellung

Der Hauptzweck der Laborarbeit besteht darin, sich mit den Grundlagen der Arbeit mit statistischer Datenverarbeitung in der MatLAB-Umgebung vertraut zu machen.

Theoretischer Teil

Primäre statistische Datenverarbeitung

Die statistische Verarbeitung der Daten basiert auf primären und sekundären quantitativen Methoden. Der Zweck der primären Verarbeitung statistischer Daten besteht darin, die erhaltenen Informationen zu strukturieren, was bedeutet, dass Daten nach verschiedenen Parametern in Pivot-Tabellen gruppiert werden. Rohdaten sollten in einem solchen Format präsentiert werden, dass eine Person eine ungefähre Bewertung des empfangenen Datensatzes vornehmen und Informationen über die Datenverteilung der empfangenen Datenstichprobe, beispielsweise die Homogenität oder Kompaktheit der Daten, preisgeben kann. Nach der Primärdatenanalyse werden Methoden der sekundärstatistischen Datenverarbeitung angewendet, auf deren Basis statistische Muster im bestehenden Datensatz ermittelt werden.

Die Durchführung einer primären statistischen Analyse eines Datenarrays ermöglicht es Ihnen, Kenntnisse über Folgendes zu erlangen:

Was ist der typischste Wert für die Stichprobe? Zur Beantwortung dieser Frage werden Maße der zentralen Tendenz ermittelt.

Gibt es eine große Streuung der Daten relativ zu diesem Kennwert, d. h. wie hoch ist die „Unschärfe“ der Daten? In diesem Fall werden Variabilitätsmaße bestimmt.

Es ist erwähnenswert, dass die statistischen Indikatoren des Maßes der zentralen Tendenz und Variabilität nur anhand quantitativer Daten bestimmt werden.

Maße der zentralen Tendenz- eine Gruppe von Werten, um die sich die restlichen Daten gruppieren.So verallgemeinern die Maße der zentralen Tendenz das Datenarray, was es ermöglicht, Rückschlüsse sowohl auf die Stichprobe als Ganzes zu ziehen als auch eine vergleichende Analyse durchzuführen verschiedener Proben miteinander.

Angenommen, es gibt eine Datenstichprobe, dann werden die Maße der zentralen Tendenz durch die folgenden Indikatoren geschätzt:

1. Stichprobenmittelwert ist das Ergebnis der Division der Summe aller Abtastwerte durch ihre Anzahl und wird durch Formel (3.1) bestimmt.

(3.1)

wo - ich-tes Probenelement;

n ist die Anzahl der Probenelemente.

Der Stichprobenmittelwert bietet die größte Genauigkeit beim Schätzen des zentralen Trends.

Nehmen wir an, wir haben eine Stichprobe von 20 Personen. Beispielelemente sind Informationen über das durchschnittliche monatliche Einkommen jeder Person. Angenommen, 19 Personen haben ein durchschnittliches monatliches Einkommen von 20.000. und 1 Person mit einem Einkommen von 300 tr. Das monatliche Gesamteinkommen der gesamten Stichprobe beträgt 680 Billionen Euro. Der Stichprobenmittelwert ist in diesem Fall S=34.


2. Median- erzeugt einen Wert, ober- und unterhalb dessen die Anzahl der unterschiedlichen Werte gleich ist, d.h. dies ist der zentrale Wert in einer sequentiellen Datenreihe. Er wird in Abhängigkeit von der Geraden/Ungerade der Anzahl der Elemente in der Stichprobe mit den Formeln (3.2) oder (3.3) bestimmt Algorithmus zur Schätzung des Medians für eine Datenstichprobe:

Zunächst werden die Daten in aufsteigender/absteigender Reihenfolge geordnet (geordnet).

Wenn die bestellte Stichprobe eine ungerade Anzahl von Elementen hat, dann ist der Median gleich dem Mittelwert.

(3.2)

wo n

Bei einer geraden Anzahl von Elementen ist der Median als arithmetisches Mittel der beiden Mittelwerte definiert.

(3.3)

wo ist das durchschnittliche Element der bestellten Probe;

- Element der geordneten Auswahl nach ;

Die Anzahl der Beispielelemente.

Falls alle Elemente der Stichprobe unterschiedlich sind, dann ist genau die Hälfte der Elemente der Stichprobe größer als der Median und die andere Hälfte kleiner. Für die Stichprobe (1, 5, 9, 15, 16) ist der Median beispielsweise derselbe wie Element 9.

In der statistischen Datenanalyse ermöglicht Ihnen der Median, die Elemente der Stichprobe zu identifizieren, die den Wert des Stichprobenmittels stark beeinflussen.

Nehmen wir an, wir haben eine Stichprobe von 20 Personen. Beispielelemente sind Informationen über das durchschnittliche monatliche Einkommen jeder Person. Angenommen, 19 Personen haben ein durchschnittliches monatliches Einkommen von 20.000. und 1 Person mit einem Einkommen von 300 tr. Das monatliche Gesamteinkommen der gesamten Stichprobe beträgt 680 Billionen Euro. Der Median nach der Bestellung der Stichprobe ist definiert als das arithmetische Mittel des zehnten und elften Elements der Stichprobe) und ist gleich Me = 20 tr. Dieses Ergebnis wird wie folgt interpretiert: Der Median teilt die Stichprobe in zwei Gruppen, so dass geschlussfolgert werden kann, dass in der ersten Gruppe jede Person ein durchschnittliches monatliches Einkommen von nicht mehr als 20.000 Rubel hat und in der zweiten Gruppe nein weniger als 20 Tausend Rubel. R. In diesem Beispiel können wir sagen, dass der Median dadurch gekennzeichnet ist, wie viel die „durchschnittliche“ Person verdient. Der Wert des Stichprobendurchschnitts liegt zwar deutlich über S=34, was auf die Inakzeptanz dieses Merkmals bei der Beurteilung des Durchschnittsverdienstes hindeutet.

Je größer also die Differenz zwischen dem Median und dem Stichprobenmittelwert ist, desto größer ist die Streuung der Stichprobendaten (im betrachteten Beispiel unterscheidet sich eine Person mit einem Einkommen von 300 Billionen deutlich von den Durchschnittspersonen in einer bestimmten Stichprobe und hat einen erheblichen Einfluss auf die Durchschnittseinkommensschätzung). Was mit solchen Elementen zu tun ist, wird im Einzelfall entschieden. Im Allgemeinen werden sie jedoch zurückgezogen, um die Zuverlässigkeit der Stichprobe zu gewährleisten, da sie einen starken Einfluss auf die Bewertung statistischer Indikatoren haben.

3. Mode (Mo)- generiert den Wert, der in der Stichprobe am häufigsten vorkommt, also den Wert mit der höchsten Häufigkeit Modusschätzungsalgorithmus:

Für den Fall, dass die Probe Elemente enthält, die gleich häufig vorkommen, dann sagen wir, dass es in einer solchen Probe keinen Modus gibt.

Wenn zwei benachbarte Bins dieselbe Häufigkeit haben, die größer ist als die Häufigkeit der anderen Bins, dann wird der Modus als Mittelwert der beiden Werte definiert.

Wenn zwei Elemente der Probe die gleiche Frequenz haben, die größer ist als die Frequenz der übrigen Elemente der Probe, und diese Elemente gleichzeitig nicht benachbart sind, dann sagen wir, dass es in dieser Probe zwei Moden gibt.

Der Modus in der statistischen Analyse wird in Situationen verwendet, in denen es notwendig ist, das Maß der zentralen Tendenz schnell zu schätzen, und keine hohe Genauigkeit erforderlich ist. Beispielsweise ist Mode (in Bezug auf Größe oder Marke) bequem zu verwenden, um die Kleidung und Schuhe zu bestimmen, die bei den Käufern am gefragtesten sind.

Streuungsmaße (Variabilität)- eine Gruppe von statistischen Indikatoren, die die Unterschiede zwischen den einzelnen Werten der Stichprobe charakterisieren. Anhand der Indikatoren der Streuungsmaße ist es möglich, den Grad der Homogenität und Kompaktheit der Probenelemente zu beurteilen. Streumaße sind durch folgendes Indikatorenset gekennzeichnet:

1. Wischen - dies ist das Intervall zwischen den Maximal- und Minimalwerten der Beobachtungsergebnisse (Probenelemente). Der Bereichsindikator zeigt die Streuung von Werten in einem Datensatz an. Ist die Spannweite groß, dann sind die Werte in der Grundgesamtheit sehr gestreut, ansonsten (die Streubreite ist klein) spricht man davon, dass die Werte in der Grundgesamtheit dicht beieinander liegen. Der Bereich wird durch Formel (3.4) bestimmt.

(3.4)

Wo - das maximale Element der Probe;

ist das kleinste Element der Stichprobe.

2.Durchschnittliche Abweichung ist die arithmetische mittlere Differenz (im absoluten Wert) zwischen jedem Wert in der Stichprobe und seinem Stichprobenmittelwert. Die mittlere Abweichung wird nach Formel (3.5) bestimmt.

(3.5)

wo - ich-tes Probenelement;

Der Wert des Stichprobenmittelwerts, berechnet nach Formel (3.1);

Die Anzahl der Beispielelemente.

Modul notwendig, da Abweichungen vom Durchschnitt für jedes spezifische Element sowohl positiv als auch negativ sein können. Wenn der Modul nicht genommen wird, ist die Summe aller Abweichungen daher nahe Null, und es ist unmöglich, den Grad der Datenvariabilität zu beurteilen (Daten drängen sich um den Stichprobenmittelwert herum). Bei der statistischen Analyse können der Modus und der Median anstelle des Stichprobenmittelwerts genommen werden.

3. Streuung ist ein Streumaß, das die relative Abweichung zwischen Datenwerten und dem Mittelwert beschreibt. Er errechnet sich aus der Summe der quadrierten Abweichungen jedes Probenelements vom Mittelwert. Je nach Stichprobenumfang wird die Varianz auf unterschiedliche Weise geschätzt:

Für große Stichproben (n>30) nach Formel (3.6)

(3.6)

Für kleine Proben (n<30) по формуле (3.7)

(3.7)

wo X i - i-tes Element der Probe;

S ist der Mittelwert der Stichprobe;

Anzahl der Probenelemente;

(X i – S) - Abweichung vom Mittelwert für jeden Wert des Datensatzes.

4. Standardabweichung ist ein Maß dafür, wie weit die Datenpunkte relativ zu ihrem Mittel gestreut sind.

Das Quadrieren einzelner Abweichungen bei der Berechnung der Varianz erhöht den Grad der Abweichung des erhaltenen Abweichungswerts von den ursprünglichen Abweichungen, was wiederum zusätzliche Fehler einführt. Um also die Schätzung der Streuung von Datenpunkten um ihren Mittelwert an den Wert der durchschnittlichen Abweichung anzunähern, wird die Quadratwurzel aus der Varianz gezogen. Die extrahierte Wurzel der Varianz charakterisiert ein Variabilitätsmaß, das als quadratischer Mittelwert oder Standardabweichung (3.8) bezeichnet wird.

(3.8)

Angenommen, Sie sind Projektmanager für Softwareentwicklung. Sie haben fünf Programmierer unter Ihrer Aufsicht. Indem Sie den Prozess der Projektausführung verwalten, verteilen Sie Aufgaben auf Programmierer. Zur Vereinfachung des Beispiels gehen wir davon aus, dass die Aufgaben in Komplexität und Ausführungszeit gleichwertig sind. Sie haben sich entschieden, die Arbeit jedes Programmierers (die Anzahl der erledigten Aufgaben während der Woche) für die letzten 10 Wochen zu analysieren, als Ergebnis haben Sie die folgenden Beispiele erhalten:

Wochenname

Nach Auswertung der durchschnittlichen Anzahl erledigter Aufgaben kam man zu folgendem Ergebnis:

Wochenname S
22,3
22,4
22,2
22,1
22,5

Basierend auf dem S-Indikator arbeiten alle Programmierer im Durchschnitt mit der gleichen Effizienz (etwa 22 Aufgaben pro Woche). Der Variabilitätsindikator (Bereich) ist jedoch sehr hoch (von 5 Aufgaben für den vierten Programmierer bis zu 24 Aufgaben für den fünften Programmierer).

Wochenname S P
22,3
22,4
22,2
22,1
22,5

Schätzen wir die Standardabweichung, die zeigt, wie sich die Werte in den Stichproben relativ zum Mittelwert verteilen, nämlich in unserem Fall, um abzuschätzen, wie groß die Streuung der Aufgabenerledigung von Woche zu Woche ist.

Wochenname S P ALSO
22,3 1,56
22,4 1,8
22,2 2,84
22,1 1,3
22,5 5,3

Die daraus resultierende Schätzung der Standardabweichung sagt folgendes aus (bewerten wir die beiden Extremfälle 4 und 5 Programmierer):

Jeder Wert in einer Stichprobe von 4 Programmierern weicht im Durchschnitt um 1,3 Stellen vom Mittelwert ab.

Jeder Wert in der Programmiererstichprobe 5 weicht im Durchschnitt um 5,3 Stellen vom Mittelwert ab.

Je näher die Standardabweichung bei 0 liegt, desto zuverlässiger ist der Mittelwert, da er anzeigt, dass jeder Wert in der Stichprobe nahezu gleich dem Mittelwert ist (22,5 Elemente in unserem Beispiel). Daher ist der 4. Programmierer im Gegensatz zum 5. der konsequenteste. Die wöchentliche Variabilität der Aufgabenerfüllung für den fünften Programmierer beträgt 5,3 Aufgaben, was auf eine signifikante Streuung hinweist. Im Fall des 5. Programmierers ist dem Durchschnitt nicht zu trauen, und daher ist es schwierig, die Anzahl der erledigten Aufgaben für die nächste Woche vorherzusagen, was wiederum die Planung und Einhaltung von Arbeitsplänen erschwert. Welche Managemententscheidung Sie in diesem Kurs treffen, ist unwichtig. Es ist wichtig, dass Sie eine Einschätzung erhalten, auf deren Grundlage entsprechende Managemententscheidungen getroffen werden können.

Daraus lässt sich allgemein schließen, dass der Mittelwert die Daten nicht immer richtig schätzt. Die Richtigkeit der Schätzung des Mittelwerts kann anhand des Werts der Standardabweichung beurteilt werden.

Vorlesung 12. Methoden der statistischen Aufbereitung von Ergebnissen.

Methoden der statistischen Verarbeitung von Ergebnissen werden als mathematische Techniken, Formeln, Methoden quantitativer Berechnungen bezeichnet, mit deren Hilfe die während des Experiments erhaltenen Indikatoren verallgemeinert, in ein System gebracht und die darin verborgenen Muster aufgedeckt werden können. Wir sprechen von solchen Regelmäßigkeiten statistischer Natur, die zwischen den im Experiment untersuchten Variablen bestehen.

1. Methoden der primärstatistischen Verarbeitung experimenteller Ergebnisse

Alle Methoden der mathematischen und statistischen Analyse werden bedingt in primäre und sekundäre unterteilt. Methoden werden als primär bezeichnet, mit deren Hilfe es möglich ist, Indikatoren zu erhalten, die die Ergebnisse der im Experiment durchgeführten Messungen direkt widerspiegeln. Primärstatistische Indikatoren sind demnach solche, die in den psychodiagnostischen Verfahren selbst verwendet werden und das Ergebnis der initialen statistischen Aufbereitung der Ergebnisse der Psychodiagnostik sind. Sekundäre Verfahren werden als statistische Verarbeitung bezeichnet, mit deren Hilfe auf der Grundlage von Primärdaten darin verborgene statistische Muster aufgedeckt werden.

Zu den primären statistischen Verarbeitungsverfahren gehören beispielsweise die Bestimmung des Stichprobenmittelwerts, der Stichprobenvarianz, des Stichprobenmodus und des Stichprobenmedians. Sekundäre Methoden umfassen normalerweise Korrelationsanalysen, Regressionsanalysen und Methoden zum Vergleichen von Primärstatistiken in zwei oder mehr Stichproben.

Betrachten Sie Methoden zur Berechnung elementarer mathematischer Statistiken.

Mode wird der quantitative Wert des untersuchten Merkmals genannt, das in der Stichprobe am häufigsten vorkommt.

Median wird der Wert des untersuchten Merkmals genannt, der die Stichprobe, geordnet nach dem Wert dieses Merkmals, in zwei Hälften teilt.

Stichprobenmittelwert(arithmetischer Mittelwert) als statistischer Indikator ist die durchschnittliche Einschätzung der im Experiment untersuchten psychischen Qualität.

streuen(manchmal wird dieser Wert als Bereich bezeichnet) der Probe wird mit dem Buchstaben R bezeichnet. Dies ist der einfachste Indikator, der für die Probe erhalten werden kann - die Differenz zwischen den Höchst- und Mindestwerten dieser bestimmten Variationsreihe .

Streuung ist das arithmetische Mittel der Quadrate der Abweichungen der Werte einer Variablen von ihrem Mittelwert.

2. Methoden der sekundärstatistischen Verarbeitung experimenteller Ergebnisse

Mit Hilfe sekundärer Methoden der statistischen Verarbeitung experimenteller Daten werden experimentelle Hypothesen direkt verifiziert, bewiesen oder widerlegt. Diese Methoden sind in der Regel komplizierter als die Methoden der primären statistischen Verarbeitung und erfordern eine gute Ausbildung des Forschers in elementarer Mathematik und Statistik.

Die diskutierte Methodengruppe lässt sich in mehrere Untergruppen unterteilen:

1 Regressionsrechnung

Die Regressionsrechnung ist eine Methode der mathematischen Statistik, die es ermöglicht, private, disparate Daten auf einen bestimmten linearen Graphen zu reduzieren, der ihren inneren Zusammenhang näherungsweise widerspiegelt, und den wahrscheinlichen Wert einer anderen Variablen durch den Wert einer der Variablen näherungsweise schätzen zu können .

2. Korrelation

Die nächste Methode der sekundären statistischen Verarbeitung, mit der die Verbindung oder direkte Abhängigkeit zwischen zwei Reihen experimenteller Daten ermittelt wird, heißt Korrelationsmethode. Es zeigt, wie ein Phänomen auf ein anderes wirkt oder in seiner Dynamik mit diesem zusammenhängt. Abhängigkeiten dieser Art bestehen beispielsweise zwischen Größen, die in kausalen Beziehungen zueinander stehen. Stellt sich heraus, dass zwei Phänomene statistisch signifikant miteinander korrelieren und besteht gleichzeitig die Gewissheit, dass eines von ihnen als Ursache des anderen Phänomens fungieren kann, dann besteht definitiv ein kausaler Zusammenhang zwischen ihnen .

3-Faktoren-Analyse

Die Faktorenanalyse ist eine statistische Methode, die bei der Verarbeitung großer Mengen experimenteller Daten verwendet wird. Die Aufgaben der Faktorenanalyse sind: Reduzierung der Anzahl der Variablen (Datenreduktion) und Bestimmung der Beziehungsstruktur zwischen Variablen, d.h. Klassifikation von Variablen, daher wird die Faktorenanalyse als Datenreduktionsverfahren oder als strukturelles Klassifikationsverfahren verwendet.

Rezensionsfragen

1.Was sind statistische Verarbeitungsmethoden?

2. In welche Untergruppen werden die sekundären Methoden der statistischen Verarbeitung eingeteilt?

3. Erklären Sie das Wesen der Korrelationsmethode?

4. In welchen Fällen werden statistische Verarbeitungsverfahren eingesetzt?

5. Wie effektiv ist Ihrer Meinung nach der Einsatz statistischer Verarbeitungsmethoden in der wissenschaftlichen Forschung?

2. Betrachten Sie die Merkmale statistischer Datenverarbeitungsmethoden.

Literatur

1.. Gorbatov D.S. Workshop zur psychologischen Forschung: Proc. Beihilfe. - Samara: "BAHRACH - M", 2003. - 272 p.

2. Ermolaev A.Yu. Mathematische Statistik für Psychologen. - M.: Moskauer Institut für Psychologie und Soziales: Flint, 2003.336s.

3. Kornilova T.V. Einführung in das psychologische Experiment. Lehrbuch für Universitäten. M.: CheRo-Verlag, 2001.