Ich will alles wissen: die Sprache R. R verwenden Die Sprache r

Lassen Sie uns ein wenig über eine Programmiersprache namens R sprechen. Kürzlich konnten Sie in unseren Blogs Artikel über und lesen, jene Bereiche, in denen Sie nur eine leistungsfähige Sprache zur Hand haben müssen, um mit Statistiken und Diagrammen zu arbeiten. Und R ist einer davon. Wenn Sie neu in der Welt der Programmierung sind, mag dies kaum zu glauben sein, aber heute ist R bereits beliebter als SQL, es wird aktiv in kommerziellen Organisationen, Forschung und Universitäten eingesetzt.

Ohne in die Regeln, die Syntax und bestimmte Anwendungsbereiche einzutauchen, schauen wir uns einfach die wichtigsten Bücher und Ressourcen an, die Ihnen helfen werden, R von Grund auf neu zu lernen.

Was die R-Sprache ist, warum Sie sie brauchen und wie Sie sie sinnvoll einsetzen können, können Sie von dem wunderbaren Ruslan Kuptsov lernen, den er vor etwas weniger als einem Jahr im Rahmen der GeekWeek-2015 verbrachte.

Bücher

Jetzt, wenn eine gewisse Ordnung im Kopf ist, können Sie anfangen, Literatur zu lesen, da es mehr als genug ist. Beginnen wir mit einheimischen Autoren:


Internet-Ressourcen

Jeder, der eine Programmiersprache lernen möchte, sollte unbedingt zwei Ressourcen auf der Suche nach Wissen besuchen: die offizielle Website seiner Entwickler und die größte Online-Community. Brunnen. Machen wir keine Ausnahme für R:

Aber wieder voller Sorge um diejenigen, die englische Sprache Ich hatte noch keine Zeit, es zu lernen, aber ich möchte R wirklich lernen, erwähnen wir ein paar russische Ressourcen:

Vervollständigen wir das Bild in der Zwischenzeit mit einer kleinen Liste englischsprachiger, aber nicht weniger informativer Seiten:

CRAN - in der Tat ein Ort, an dem Sie die R-Entwicklungsumgebung auf Ihren Computer herunterladen können, außerdem Handbücher, Beispiele und andere nützliche Lektüre;

Quick-R - kurz und übersichtlich über Statistik, Methoden ihrer Verarbeitung und die Sprache R;

Burns-Stat - über R und über seinen Vorgänger S mit einer Vielzahl von Beispielen;

R für Data Science – ein weiteres Buch von Garrett Grolemund, übersetzt in ein Online-Lehrbuchformat;

Fantastische R - Zusammenstellung besserer Code von der offiziellen Website, die auf unserem bevorzugten GitHub gehostet wird;

Mran - R-Sprache von Microsoft;

Tutorial R ist eine weitere organisierte Ressource von der offiziellen Website.

Programmieren auf R. Level 1. Grundlagen

Die R-Sprache ist das weltweit beliebteste Werkzeug für die statistische Datenanalyse. Es enthält die breiteste Palette an Funktionen zur Datenanalyse, Visualisierung und Erstellung von Dokumenten und Webanwendungen. Möchten Sie diese kraftvolle Sprache unter Anleitung eines erfahrenen Mentors beherrschen? Wir laden Sie zum Kurs ein "Programmieren in der Sprache R. Stufe 1. Grundkenntnisse".

Dieser Kurs richtet sich an ein breites Spektrum von Fachleuten, die in großen Datenmengen nach Mustern suchen, diese visualisieren und statistisch korrekte Schlussfolgerungen ziehen müssen: Soziologen, Leiter klinischer Studien / Pharmakologen, Forscher (Astronomie, Physik, Biologie, Genetik, Medizin). , etc.), IT-Analysten, Business-Analysten, Finanzanalysten, Vermarkter. Der Kurs soll auch Fachkräfte ansprechen, die für die Funktionalität nicht geeignet (oder bezahlt)/ sind.

Im Unterricht erwerben Sie grundlegende Fähigkeiten in der Datenanalyse und Visualisierung in der Umgebung R. Die meiste Zeit wird praktischen Aufgaben und der Arbeit mit realen Datensätzen gewidmet. Sie lernen alle neuen Tools für die Arbeit mit Daten kennen und lernen, wie Sie diese in Ihrer Arbeit anwenden.

Nach dem Kurs wird ein Weiterbildungszertifikat des Zentrums ausgestellt.

Diese müssen Sie im Terminal eingeben.

Das Schöne an R ist:

  1. Dieses Programm ist kostenlos (verteilt unter der GPL-Lizenz),
  2. Viele Pakete wurden für dieses Programm geschrieben, um eine Vielzahl von Aufgaben zu lösen. Alle von ihnen sind auch kostenlos.
  3. Das Programm ist sehr flexibel: Die Größe beliebiger Vektoren und Matrizen kann auf Wunsch des Benutzers geändert werden, die Daten haben keine starre Struktur. Diese Eigenschaft erweist sich im Fall von Prognosen als äußerst nützlich, wenn der Forscher eine Prognose für einen beliebigen Zeitraum erstellen muss.

Die letztere Eigenschaft ist besonders relevant, da andere Statistikpakete (wie SPSS, Eviews, Stata) suggerieren, dass wir möglicherweise nur an der Analyse von Daten interessiert sind, die eine feste Struktur haben (z. B. müssen alle Daten in einer Arbeitsdatei gleich sein). Frequenz mit gleichem Anfang und Ende).

R ist jedoch nicht das freundlichste Programm. Vergessen Sie für die Zeit, in der Sie damit arbeiten, die Maus - fast alle wichtige Aktionen darin werden mit durchgeführt Befehlszeile. Um jedoch das Leben ein wenig einfacher und das Programm selbst ein wenig freundlicher zu machen, gibt es ein Frontend-Programm ( Frontend) namens RStudio. Sie können es hier herunterladen. Es wird installiert, nachdem R selbst bereits installiert ist.RStudio hat eine Menge davon handliche Werkzeuge und eine angenehme Schnittstelle, dennoch werden Analysen und Prognosen darin immer noch über die Befehlszeile durchgeführt.

Lassen Sie uns versuchen, einen Blick auf dieses wunderbare Programm zu werfen.

Einführung in RStudio

Die RStudio-Oberfläche sieht folgendermaßen aus:

In der oberen rechten Ecke in RStudio wird der Name des Projekts angezeigt (was wir bisher "None" haben - das heißt, es fehlt). Wenn Sie auf diese Aufschrift klicken und „New Project“ (neues Projekt) auswählen, werden wir aufgefordert, ein Projekt zu erstellen. Für grundlegende Prognosezwecke reicht es aus, „Neues Verzeichnis“ (ein neuer Ordner für das Projekt), „Leeres Projekt“ (ein leeres Projekt) auszuwählen und dann den Namen des Projekts einzugeben und das Verzeichnis auszuwählen, in dem es gespeichert werden soll . Schalten Sie Ihre Fantasie ein und versuchen Sie, sich selbst einen Namen auszudenken :).

Wenn Sie mit einem Projekt arbeiten, können Sie jederzeit auf die darin gespeicherten Daten, Befehle und Skripte zugreifen.

Die Konsole befindet sich auf der linken Seite des RStudio-Fensters. Darin werden wir verschiedene Befehle eingeben. Schreiben wir zum Beispiel Folgendes:

x< - rnorm (100 , 0 , 1 )

Dieser Befehl generiert 100 Zufallsvariablen aus einer Normalverteilung mit Nullmittelwert und Einheitsvarianz, erstellt dann einen Vektor namens "x" und schreibt die resultierenden 100 Variablen hinein. Symbol "<-» эквивалентен символу «=» и показывает какое значение присвоить нашей переменной, стоящей слева. Иногда вместо него удобней использовать символ «->“, obwohl unsere Variable in diesem Fall rechts stehen sollte. Beispielsweise erstellt der folgende Code ein Objekt "y", das genau mit dem Objekt "x" identisch ist:

x -> y

Diese Vektoren erscheinen jetzt oben rechts auf dem Bildschirm unter einer Registerkarte, die ich mit „Umgebung“ beschriftet habe:

Änderungen im Reiter „Umgebung“.

Dieser Teil des Bildschirms zeigt alle Objekte an, die wir während der Sitzung speichern. Wenn wir zum Beispiel eine Matrix wie diese erstellen:

\(A = \begin(pmatrix) 1 & 1 \\ 0 & 1 \end(pmatrix) \)

das ist der Befehl:

EIN< - matrix (c (1 , 0 , 1 , 1 ) , 2 , 2 )

dann erscheint es auf der Registerkarte "Umgebung":

Jede Funktion, die wir verwenden, erfordert, dass wir bestimmten Parametern einige Werte zuweisen. In Funktion Matrix() es gibt folgende Möglichkeiten:

  • data ist ein Vektor mit Daten, die in die Matrix geschrieben werden sollen,
  • nrow ist die Anzahl der Zeilen in der Matrix,
  • ncol ist die Anzahl der Spalten in der Matrix,
  • byrow ist ein boolescher Parameter. Wenn "TRUE" (true), dann wird das Füllen der Matrix Zeile für Zeile (von links nach rechts, Zeile für Zeile) durchgeführt. Standardmäßig ist dieser Parameter auf „FALSE“ (falsch) gesetzt,
  • dimnames - Blatt mit Zeilen- und Spaltennamen.

Einige dieser Optionen haben Standardwerte (z. B. byrow = FALSCH), während andere weggelassen werden können (z. B. Dimmnamen).

Eines der Merkmale von "R" ist das für jede Funktion (zum Beispiel für unsere Matrix()) kann durch direktes Setzen der Werte angesprochen werden:

Eine weitere Möglichkeit besteht darin, im Register "Umgebung" auf den Namen des Objekts zu klicken.

Matrix

wobei Matrix der Name der Funktion ist, an der wir interessiert sind. In diesem Fall öffnet RStudio das Hilfefenster mit der Beschreibung:

Sie können auch Hilfe zu einer Funktion finden, indem Sie den Namen der Funktion in das "Suchen"-Fenster (ein Symbol mit einer Linse) auf der Registerkarte "Hilfe" eingeben.

Falls Sie sich nicht genau erinnern, wie der Name der Funktion geschrieben ist oder welche Parameter sie verwendet, beginnen Sie einfach mit dem Schreiben ihres Namens in der Konsole und drücken Sie die „Tab“-Taste:

Darüber hinaus können Sie in RStudio Skripte schreiben. Sie benötigen sie möglicherweise, wenn Sie ein Programm schreiben oder eine Folge von Funktionen aufrufen müssen. Skripte werden über die Schaltfläche mit einem Pluszeichen in der oberen linken Ecke erstellt (im Drop-down-Menü „R Script“ auswählen). In dem sich danach öffnenden Fenster können Sie beliebige Funktionen und Kommentare schreiben. Zum Beispiel, wenn wir bauen wollen Liniendiagramm Entlang der x-Reihe kann dies wie folgt geschehen:

Grundstück(x)

Linien(x)

Die erste Funktion erstellt ein einfaches Streudiagramm, und die zweite Funktion fügt Linien über den Punkten hinzu, die die Punkte in Reihe verbinden. Wenn Sie diese beiden Befehle auswählen und Strg+Enter drücken, werden sie ausgeführt, wodurch RStudio die Registerkarte Plot in der unteren rechten Ecke öffnet und den Plot darin anzeigt.

Benötigen wir in Zukunft noch alle eingetippten Befehle, dann kann dieses Skript gespeichert werden (Diskette oben links).

Falls Sie auf einen Befehl verweisen müssen, den Sie bereits einmal in der Vergangenheit eingegeben haben, gibt es im oberen rechten Teil des Bildschirms eine Registerkarte „Verlauf“. Darin können Sie jeden gewünschten Befehl finden und auswählen und doppelklicken, um ihn in die Konsole einzufügen. In der Konsole selbst können Sie mit den Tasten „Up“ (hoch) und „Down“ (runter) auf der Tastatur auf vorherige Befehle zugreifen. Mit dem Tastaturkürzel „Strg+Nach oben“ können Sie eine Liste aller zuletzt verwendeten Befehle in der Konsole anzeigen.

Im Allgemeinen verfügt RStudio über viele nützliche Tastaturkürzel, die die Arbeit mit dem Programm erheblich erleichtern. Sie können mehr über sie lesen.

Wie ich bereits erwähnt habe, gibt es viele Pakete für R. Alle von ihnen befinden sich auf dem CRAN-Server und um sie zu installieren, müssen Sie ihren Namen kennen. Die Installation und Aktualisierung von Paketen erfolgt über die Registerkarte „Pakete“. Wenn Sie dorthin gehen und auf die Schaltfläche „Installieren“ klicken, sehen wir so etwas wie das folgende Menü:

Geben wir in das sich öffnende Fenster ein: Vorhersage ist ein von Rob J. Hyndman geschriebenes Paket, das eine Reihe nützlicher Funktionen für uns enthält. Klicken Sie auf die Schaltfläche „Installieren“, woraufhin das Paket „Prognose“ installiert wird.

Alternativ können wir jedes Paket, das seinen Namen kennt, mit dem Befehl in der Konsole installieren:

Installieren . Pakete ("glatt")

vorausgesetzt, dass es sich natürlich im CRAN-Repository befindet. glatt ist ein Paket, in dem ich Funktionen entwickle und pflege.

Einige Pakete sind nur in verfügbar Quellcodes auf Websites wie github.com und erfordern, dass sie zuerst erstellt werden. Um Pakete unter Windows zu erstellen, benötigen Sie möglicherweise das Programm Rtools.

Um eines von zu verwenden installierte Pakete, es muss angeschlossen werden. Dazu müssen Sie es in der Liste finden und ankreuzen oder den Befehl in der Konsole verwenden:

Bibliothek (Prognose)

Unter Windows kann sich ein ärgerliches Problem zeigen: Einige Pakete lassen sich einfach herunterladen und erstellen, aber sie werden in keinem installiert. R schreibt in diesem Fall so etwas wie: "Warnung: Temporäre Installation kann nicht verschoben werden ...". Alles, was Sie in diesem Fall tun müssen, ist, den Ordner mit R zu den Ausnahmen im Antivirus hinzuzufügen (oder ihn während der Installation der Pakete auszuschalten).

Nach dem Download des Pakets stehen uns alle darin enthaltenen Funktionen zur Verfügung. Zum Beispiel die Funktion tsdisplay(), die wie folgt verwendet werden kann:

tsdisplay(x)

Sie wird für uns drei Grafiken erstellen, die wir im Kapitel Forecaster's Toolkit besprechen werden.

Jenseits des Pakets Vorhersage Ich verwende das Paket ziemlich oft für verschiedene Beispiele Mkomp. Es enthält Datenreihen aus der M-Competition-Datenbank. Daher empfehle ich, dass Sie es auch installieren.

Sehr oft benötigen wir nicht nur Datensätze, sondern Daten der Klasse „ts“ (Zeitreihen). Um eine Zeitreihe aus einer beliebigen Variablen zu erstellen, müssen Sie den folgenden Befehl ausführen:

x< - ts (x , start = c (1984 , 1 ) , frequency = 12 )

Hier der Parameter Anfang ermöglicht es Ihnen, das Datum anzugeben, ab dem unsere Zeitreihen beginnen, und Frequenz Datenrate einstellen. Die Zahl 12 in unserem Beispiel gibt an, dass es sich um monatliche Daten handelt. Als Ergebnis der Ausführung dieses Befehls werden wir unseren Vektor "x" in eine Zeitreihe von monatlichen Daten ab Januar 1984 umwandeln.

Im August 1993 kündigten zwei junge neuseeländische Wissenschaftler der University of Auckland ihre Neuentwicklung an, die sie R nannten neue Implementierung der S-Sprache, die sich von S-PLUS in einigen Details unterscheidet, z. B. Umgang mit globalen und lokalen Variablen sowie Arbeiten mit Speicher. Tatsächlich haben sie kein vollständiges Analogon von S-PLUS erstellt, sondern einen neuen "Zweig" im "S-Baum". Viele der Dinge, die R von S-PLUS unterscheiden, sind auf den Einfluss der Scheme-Sprache zurückzuführen (eine funktionale Programmiersprache, einer der populäreren Dialekte der Lisp-Sprache).

Mitte 2016 holte R SAS und SPSS (die kostenpflichtig sind) ein und stieg in die Top 3 der gängigsten Systeme für die Verarbeitung ein statistische Information. Es sollte auch beachtet werden, dass R in den 10 universellen Programmiersprachen enthalten ist.

Fähigkeiten

Viele statistische Methoden sind in der R-Umgebung implementiert: lineare und nichtlineare Modelle, statistische Hypothesentests, Zeitreihenanalyse, Klassifikation, Clustering, grafische Visualisierung. Die R-Sprache ermöglicht es Ihnen, Ihre eigenen Funktionen zu definieren. Viele R-Funktionen sind in R selbst geschrieben, für rechentechnisch komplexe Aufgaben ist es möglich, Funktionen in C, C++ und Fortran zu implementieren. Fortgeschrittene Benutzer können aus C-Code direkt auf R-Objekte zugreifen.R ist eine striktere objektorientierte Sprache als die meisten statistischen Computersprachen. Mit den Grafikfunktionen können Sie Grafiken von guter polygrafischer Qualität erstellen, mit der Möglichkeit, mathematische Symbole einzufügen. Es hat ein eigenes LaTeX-ähnliches Dokumentationsformat.

Obwohl R am häufigsten für statistische Berechnungen verwendet wird, kann es auch als Matrizenberechnungstool verwendet werden. Wie MATLAB behandelt R das Ergebnis einer beliebigen Zahlenoperation als Vektor der Länge eins. Im Allgemeinen gibt es in R keine Skalare.

Skripte

Einfach eine R-Sitzung öffnen und Befehle nacheinander in das Programmfenster eingeben, ist nur eine davon mögliche Wege Arbeit. Eine wesentlich produktivere Methode, die gleichzeitig der gravierendste Vorteil von R ist, ist die Erstellung von Skripten (Programmen), die dann in R geladen und von diesem interpretiert werden. Bereits zu Beginn der Arbeit sollten Sie Skripte erstellen, auch für scheinbar unbedeutende Aufgaben – das spart in Zukunft viel Zeit. Das Skripten aus beliebigem Grund und sogar ohne besonderen Grund ist eine der Grundlagen der Arbeitskultur in R.

Pakete

Andere wichtiger Vorteil R - das Vorhandensein zahlreicher Erweiterungen oder Pakete dafür. Mehrere Basispakete unmittelbar nach der Installation von R auf einem Computer vorhanden sind, ohne die das System einfach nicht funktioniert (z. B. ein Paket namens base oder ein grDevices-Paket, das die Ausgabe von Graphen steuert), sowie „empfohlene“ Pakete (ein Paket für spezialisierte Cluster-Analyse-Cluster, ein Paket für die Analyse nichtlinearer nlme-Modelle und andere). Darüber hinaus können Sie jedes der fast achttausend (Stand Mitte 2016) Pakete installieren, die auf CRAN verfügbar sind. Wenn Sie über einen Internetzugang verfügen, kann dies direkt aus R heraus mit dem Befehl install.packages() erfolgen

Verknüpfungen

  • CRAN (Comprehensive R Archive Network) ist ein zentrales Speicher- und Verteilungssystem für R und seine Pakete.

Ich möchte über die Verwendung der kostenlosen statistischen Analyseumgebung R sprechen. Ich betrachte sie als Alternative Statistikpakete Geben Sie SPSS Statistics ein. Zu meinem tiefen Bedauern ist es in den Weiten unserer Heimat völlig unbekannt, aber vergebens. Ich glaube, dass die Fähigkeit, zusätzliche statistische Analyseverfahren in der S-Sprache zu schreiben, das R-System ausmacht nützliches Werkzeug Datenanalyse.

Im Frühjahrssemester 2010 hatte ich Gelegenheit, Vorlesungen und Praktika zur Lehrveranstaltung „Statistische Datenanalyse“ für Studierende des Fachbereichs zu leiten intelligente Systeme RGGU.

Meine Studenten hatten zuvor einen Semesterkurs in Wahrscheinlichkeitstheorie besucht, der die Grundlagen diskreter Wahrscheinlichkeitsräume, bedingter Wahrscheinlichkeiten, des Satzes von Bayes, des Gesetzes der "großen Zahlen", einiger Hintergrundinformationen zum Normalgesetz und des zentralen Grenzwertsatzes behandelte.

Vor etwa fünf Jahren habe ich bereits im (damals einheitlichen) Semesterkurs „Grundlagen der Wahrscheinlichkeitsrechnung und mathematische Statistik“ Vorlesungen gehalten und so meine (vor jeder Vorlesung an die Studierenden ausgegebenen) Mitschriften zum Thema Statistik erweitert. Da die RSUH nun einen Studentenserver isdwiki.rsuh.ru des Fachbereichs hat, lade ich diese parallel auf FTP hoch.

Es stellte sich die Frage: Welches Programm für die praktische Ausbildung im Computerunterricht? Häufig verwendet Microsoft Excel wurde sowohl aufgrund proprietärer Natur als auch aufgrund der fehlerhaften Implementierung einiger statistischer Verfahren abgelehnt. Sie können dies beispielsweise in dem Buch von A. A. Makarov und Yu. N. Tyurin „Statistische Analyse von Daten auf einem Computer“ nachlesen. Tabellenkalkulation von Freeware Bürosuite Openoffice.org wurde so russifiziert, dass ich die benötigte Funktion kaum finden kann (ihre Namen sind auch ekelhaft verkürzt).

Das am häufigsten verwendete Paket ist SPSS Statistics. SPSS wird derzeit von IBM übernommen. Unter den Vorteilen von IBM SPSS Statistics möchte ich hervorheben:

  • Komfortables Laden von Daten in verschiedenen Formaten (Excel, SAS, über OLE DB, über ODBC Direct Driver);
  • Das Vorhandensein sowohl einer Befehlssprache als auch eines umfangreichen Menüsystems für den direkten Zugriff auf verschiedene statistische Analyseverfahren;
  • Grafische Mittel zur Darstellung von Ergebnissen;
  • Eingebautes Statistik-Coach-Modul, das interaktiv eine adäquate Analysemethode bietet.
Die Nachteile von IBM SPSS Statistics sind meiner Meinung nach:
  • Bezahlt sogar für Studenten;
  • Die Notwendigkeit, (zusätzlich bezahlte) Module zu erwerben, die spezielle Verfahren enthalten;
  • Unterstützung nur für 32-Bit Betriebssysteme Linux, obwohl Windows sowohl 32-Bit als auch 64-Bit unterstützt wird.
Als Alternative habe ich mich für die entschieden. Dieses System wurde 1995 durch die Bemühungen von Robert Gentleman und Ross Ihak am Department of Statistics der University of Melbourne entwickelt. Die Anfangsbuchstaben der Autorennamen bestimmten den Titel. In der Folge beteiligten sich führende Statistiker an der Entwicklung und Erweiterung dieses Systems.

Ich sehe die Vorteile des besprochenen Systems:

  • Verbreitung des Programms unter der GNU Public License;
  • Verfügbarkeit von Quellcodes und Binärmodulen im umfangreichen Netzwerk von CRAN (The Comprehensive R Archive Network) Repositories. Für Russland ist dies der Server cran.gis-lab.info;
  • Das Vorhandensein eines Installationspakets für Windows (funktioniert sowohl unter 32-Bit- als auch unter 64-Bit-Vista). Ich habe zufällig festgestellt, dass die Installation unter Windows XP keine Administratorrechte erfordert;
  • Möglichkeit zur Installation aus einem Repository unter Linux (funktioniert bei mir auf einer 64-Bit-Version von Ubuntu 9.10);
  • Das Vorhandensein einer eigenen Programmiersprache für statistische Verfahren R, die eigentlich zum Standard geworden ist. Es wird beispielsweise vollständig unterstützt neues System IBM SPSS Statistics-Entwickler;
  • Diese Sprache ist eine Erweiterung der bei Bell Labs entwickelten S-Sprache und bildet derzeit die Grundlage von Handelssystem SPlus. Die meisten Programme, die für S-PLUS geschrieben wurden, können problemlos in der R-Umgebung ausgeführt werden;
  • Möglichkeit zum Austausch von Daten mit Tabellenkalkulationen;
  • Speichermöglichkeit der gesamten Berechnungshistorie zu Dokumentationszwecken.
Für die erste Unterrichtsstunde wurden CDs vorbereitet, auf denen Setup-Dateien, Dokumentation und Handbücher. Ich werde Ihnen mehr über letzteres erzählen. CRAN hat detaillierte Anleitungen Benutzer für die Installation, die Sprache R (und ihre Teilmenge S), das Schreiben zusätzlicher statistischer Prozeduren, das Exportieren und Importieren von Daten. Der Abschnitt „Contributed Documentation“ enthält eine große Anzahl von Veröffentlichungen von Statistiklehrern, die dieses Paket im Unterrichtsprozess verwenden. Leider gibt es nichts auf Russisch, obwohl es zum Beispiel sogar auf Polnisch gibt. Unter den englischsprachigen Büchern möchte ich „Using R for introductory statistics“ von Professor John Verzani von der City University of New York und „Introduction to the R project for Statistical Computing“ von Professor Rossiter (Holland) von der International erwähnen Institut für Geoinformatik und Erdbeobachtung.

Die erste Lektion widmete sich der Installation und dem Erlernen der Verwendung des Pakets, dem Kennenlernen der Syntax der Sprache R. Als Testaufgabe verwendeten wir die Berechnung von Integralen nach der Monte-Carlo-Methode. Hier ist ein Beispiel für die Berechnung der Wahrscheinlichkeit von r.v. bei Exponentialverteilung mit Parameter 3 nehmen Sie einen Wert kleiner als 0,5 (10000 - Anzahl der Versuche).
> x=runif(10000,0,0.5)
> y=runif(10000,0,3)
>t=y<3*exp(-3*x)
>u=x[t]
>v=y[t]
>plot(u,v)
> i=0,5*3*Länge(u)/10000

Die ersten beiden Zeilen legen eine gleichmäßige Verteilung von Punkten im Rechteck x fest, dann werden diejenigen Punkte ausgewählt, die unter den exponentiellen Dichtegraphen 3*exp(-3*x) fallen, die Plot-Funktion zeigt die Punkte im grafischen Ausgabefenster an, und schließlich wird das erforderliche Integral berechnet.
Die zweite Sitzung war der Berechnung deskriptiver Statistiken (Quantile, Median, Mittelwert, Varianz, Korrelation und Kovarianz) und der grafischen Darstellung (Histogramme, Box-and-Whisker) gewidmet.
In den folgenden Lektionen wurde die Bibliothek "Rcmdr" verwendet. Das - GUI Benutzeroberfläche (GUI) für die Umgebung R. Die Bibliothek wurde von Professor John Fox von der McMaster University in Kanada erstellt.

Diese Bibliothek wird durch Ausführen des Befehls install.packages("Rcmdr",dependencies=TRUE) innerhalb der R-Umgebung installiert.Statistische Standardverfahren. Dies ist besonders praktisch für Kurse, in denen es vor allem darum geht, dem Schüler das Drücken von Knöpfen beizubringen (leider gibt es davon immer mehr).

Aus meinem vorherigen Kurs wurden Hinweise für Seminare erweitert. Sie sind auch per FTP von isdwiki.rsuh.ru verfügbar. Diese Notizen enthielten Tabellen mit kritischen Werten, die für Tafelberechnungen verwendet wurden. In diesem Jahr wurden die Schüler gebeten, diese Probleme am Computer zu lösen und auch Tabellen mit (normalen) Näherungen zu überprüfen, die ebenfalls in den Anmerkungen angegeben sind.

Es gab auch einige meiner Fehler. Ich habe zum Beispiel zu spät erkannt, dass Rcmdr es erlaubt, Daten aus heruntergeladenen Paketen zu importieren, daher wurden relativ große Stichproben nur in den Lektionen zur Regressionsanalyse verarbeitet. Bei der Präsentation von nichtparametrischen Tests wurden die Daten von den Studierenden anhand meiner Notizen von Hand eingegeben. Ein weiterer Mangel, wie ich jetzt verstehe, war der Mangel an Hausaufgaben, um genug zu schreiben komplexe Programme in R-Sprache.

Es sei darauf hingewiesen, dass mehrere ältere Studenten meine Kurse besuchten und einige Materialien aus Vorlesungen und Seminaren herunterluden. Studierende des Fachbereichs Intelligente Systeme der Russischen Staatlichen Universität für Geisteswissenschaften erhalten eine grundlegende Ausbildung in Mathematik und Programmierung, sodass die Nutzung der R-Umgebung (statt Tabellenkalkulationen und Statistikpakete mit festen Statistikverfahren) erscheint mir sehr sinnvoll.

Wenn Sie mit der Aufgabe konfrontiert sind, Statistik zu studieren und insbesondere nicht standardmäßige Verfahren zu schreiben statistische Verarbeitung data, empfehle ich Ihnen, Ihre Aufmerksamkeit auf das R-Paket zu richten.