Data-Mining-Technologien. Data Mining · Loginom Wiki. Vergleich von Clustering und Klassifizierung

Data Mining

Data Mining ist eine Methodik und ein Prozess zur Entdeckung großer Datenmengen, die in einem Unternehmen angesammelt werden Informationssysteme ah Unternehmen, bisher unbekannt, nicht trivial, praktisch nützlich und zugänglich für die Interpretation des Wissens, das für die Entscheidungsfindung in verschiedenen Bereichen menschlichen Handelns erforderlich ist. Data Mining ist eine der Phasen der umfassenderen Knowledge Discovery in Databases-Methodik.

Das im Data-Mining-Prozess gewonnene Wissen darf nicht trivial und bisher unbekannt sein. Nicht-Trivialität bedeutet, dass solches Wissen nicht durch einfache visuelle Analyse entdeckt werden kann. Sie müssen die Beziehungen zwischen den Eigenschaften von Geschäftsobjekten beschreiben, die Werte einiger Merkmale anhand anderer vorhersagen usw. Die gewonnenen Erkenntnisse sollen auf neue Objekte anwendbar sein.

Der praktische Nutzen des Wissens beruht auf der Möglichkeit seiner Nutzung im Prozess der Unterstützung der Managemententscheidungen und der Verbesserung der Unternehmensaktivitäten.

Das Wissen muss in einer Form dargestellt werden, die auch für Benutzer ohne spezielle mathematische Ausbildung verständlich ist. Beispielsweise sind logische Konstrukte „Wenn, dann“ für Menschen am einfachsten wahrzunehmen. Darüber hinaus können solche Regeln in verschiedenen DBMS als SQL-Abfragen verwendet werden. Für den Fall, dass das extrahierte Wissen für den Benutzer nicht transparent ist, müssen Nachbearbeitungsmethoden vorhanden sein, um es in eine interpretierbare Form zu bringen.

Data Mining ist keine einzelne, sondern eine Kombination aus einer Vielzahl unterschiedlicher Wissensgewinnungsmethoden. Alle durch Data-Mining-Methoden gelösten Probleme können in sechs Typen unterteilt werden:

Data Mining ist multidisziplinärer Natur, da es Elemente numerischer Methoden, mathematischer Statistik und Wahrscheinlichkeitstheorie, Informationstheorie usw. umfasst mathematische Logik, künstliche Intelligenz und maschinelles Lernen.

Geschäftsanalyseaufgaben werden auf unterschiedliche Weise formuliert, aber die Lösung der meisten davon beruht auf der einen oder anderen Data-Mining-Aufgabe oder einer Kombination davon. Beispielsweise ist die Risikobewertung eine Lösung für ein Regressions- oder Klassifizierungsproblem, Marktsegmentierung ist Clustering, Nachfragestimulation sind Assoziationsregeln. Tatsächlich sind Data-Mining-Aufgaben die Elemente, aus denen Sie eine Lösung für die meisten realen Geschäftsprobleme „zusammenstellen“ können.

Um die oben genannten Probleme zu lösen, werden verschiedene Data-Mining-Methoden und -Algorithmen verwendet. Aufgrund der Tatsache, dass sich Data Mining an der Schnittstelle von Disziplinen wie mathematischer Statistik, Informationstheorie, maschinellem Lernen und Datenbanken entwickelt hat und entwickelt, ist es ganz natürlich, dass die meisten Data Mining-Algorithmen und -Methoden auf der Grundlage verschiedener Methoden dieser Disziplinen entwickelt wurden . Beispielsweise wurde der K-Means-Clustering-Algorithmus aus der Statistik übernommen.

Was ist Data Mining?

Klassifizierung von Data-Mining-Aufgaben

Problem bei der Suche nach Assoziationsregeln

Clustering-Problem

Funktionen von Data Miner in Statistica 8

Analysetools STATISTICA Data Miner

Beispiel für die Arbeit in Data Minin

Erstellen von Berichten und Zusammenfassungen

Informationen sortieren

Analyse der Preise von Wohngrundstücken

Analyse von Überlebensprädiktoren

Abschluss


Was ist Data Mining?

Modern Computerbegriff Data Mining wird als „Informationsextraktion“ oder „Data Mining“ übersetzt. Häufig werden neben Data Mining auch die Begriffe Knowledge Discovery und Data Warehouse verwendet. Das Aufkommen dieser Begriffe, die ein integraler Bestandteil des Data Mining sind, ist mit einer neuen Runde in der Entwicklung von Werkzeugen und Methoden zur Verarbeitung und Speicherung von Daten verbunden. Das Ziel von Data Mining besteht also darin, versteckte Regeln und Muster in großen (sehr großen) Datenmengen zu identifizieren.

Tatsache ist, dass der menschliche Geist selbst nicht dazu geeignet ist, große Mengen heterogener Informationen wahrzunehmen. Der durchschnittliche Mensch ist, mit Ausnahme einiger Individuen, selbst in kleinen Stichproben nicht in der Lage, mehr als zwei oder drei Zusammenhänge zu erfassen. Aber auch traditionelle Statistiken lange Zeit das angeblich das Hauptwerkzeug zur Datenanalyse ist, versagt jedoch häufig bei der Lösung realer Probleme. Es arbeitet mit durchschnittlichen Merkmalen der Stichprobe, bei denen es sich häufig um fiktive Werte handelt (die durchschnittliche Zahlungsfähigkeit des Kunden, wenn Sie je nach Risikofunktion oder Verlustfunktion in der Lage sein müssen, die Zahlungsfähigkeit und Absichten des Kunden vorherzusagen; die durchschnittliche Intensität des Signals, an der Sie interessiert sind Eigenschaften und Gründe für Signalspitzen usw.).

Daher erweisen sich Methoden der mathematischen Statistik vor allem zum Testen vorformulierter Hypothesen als nützlich, während die Bestimmung einer Hypothese manchmal eine recht komplexe und zeitaufwändige Aufgabe ist. Moderne Data-Mining-Technologien verarbeiten Informationen, um automatisch nach Mustern (Mustern) zu suchen, die für beliebige Fragmente heterogener mehrdimensionaler Daten charakteristisch sind. Im Gegensatz zur Online-Analyseverarbeitung (OLAP) verlagert Data Mining die Last, Hypothesen zu formulieren und unerwartete Muster zu identifizieren, vom Menschen auf den Computer. Data Mining ist keine einzelne, sondern eine Kombination aus einer Vielzahl unterschiedlicher Wissensgewinnungsmethoden. Die Wahl der Methode hängt häufig von der Art der verfügbaren Daten und den Informationen ab, die Sie erhalten möchten. Hier sind zum Beispiel einige Methoden: Assoziation (Vereinigung), Klassifizierung, Clustering, Zeitreihenanalyse und -prognose, neuronale Netze usw.

Betrachten wir die in der Definition angegebenen Eigenschaften des entdeckten Wissens genauer.

Das Wissen muss neu, bisher unbekannt sein. Der Aufwand, Wissen zu entdecken, das dem Benutzer bereits bekannt ist, lohnt sich nicht. Daher ist neues, bisher unbekanntes Wissen wertvoll.

Wissen darf nicht trivial sein. Die Ergebnisse der Analyse sollten nicht offensichtliche, unerwartete Muster in den Daten widerspiegeln, die das sogenannte verborgene Wissen darstellen. Ergebnisse, die mehr hätten erzielt werden können auf einfache Weise(z. B. Sichtprüfung) rechtfertigen den Einsatz leistungsstarker Data-Mining-Methoden nicht.

Wissen muss praktisch nützlich sein. Die gewonnenen Erkenntnisse müssen mit ausreichend hoher Zuverlässigkeit auch auf neue Daten anwendbar sein. Der Nutzen liegt darin, dass dieses Wissen bei der Anwendung gewisse Vorteile bringen kann.

Wissen muss dem menschlichen Verständnis zugänglich sein. Die gefundenen Muster müssen logisch erklärbar sein, sonst besteht die Möglichkeit, dass sie zufällig sind. Darüber hinaus muss das entdeckte Wissen in einer für den Menschen verständlichen Form dargestellt werden.

Beim Data Mining werden Modelle zur Darstellung des gewonnenen Wissens eingesetzt. Die Art der Modelle hängt von den Methoden ab, mit denen sie erstellt wurden. Am häufigsten sind: Regeln, Entscheidungsbäume, Cluster usw mathematische Funktionen.

Der Anwendungsbereich von Data Mining ist in keiner Weise eingeschränkt – Data Mining wird überall dort benötigt, wo Daten vorhanden sind. Die Erfahrung vieler solcher Unternehmen zeigt, dass der Return on Data Mining bis zu 1000 % betragen kann. Beispielsweise gibt es Berichte über einen wirtschaftlichen Effekt, der 10-70-mal höher ist als die anfänglichen Kosten von 350.000 bis 750.000 Dollar. Es werden Informationen über ein 20-Millionen-Dollar-Projekt bereitgestellt, das sich in nur 4 Monaten amortisiert hat. Ein weiteres Beispiel sind jährliche Einsparungen von 700.000 US-Dollar. durch die Implementierung von Data Mining in einer Supermarktkette im Vereinigten Königreich. Data Mining ist für Manager und Analysten in ihrer täglichen Arbeit von großem Wert. Unternehmer haben erkannt, dass sie mit Hilfe von Data-Mining-Methoden handfeste Wettbewerbsvorteile erzielen können.

Klassifizierung von DataMining-Aufgaben

Mit DataMining-Methoden können Sie viele Probleme lösen, mit denen ein Analyst konfrontiert ist. Die wichtigsten sind: Klassifizierung, Regression, Suche nach Assoziationsregeln und Clustering. Drunter ist Kurzbeschreibung Hauptaufgaben der Datenanalyse.

1) Bei der Klassifizierungsaufgabe geht es darum, die Klasse eines Objekts anhand seiner Eigenschaften zu bestimmen. Es ist zu beachten, dass bei diesem Problem die Menge der Klassen, denen ein Objekt zugeordnet werden kann, im Voraus bekannt ist.

2) Das Regressionsproblem ermöglicht es Ihnen, wie das Klassifizierungsproblem, den Wert einiger seiner Parameter basierend auf den bekannten Eigenschaften eines Objekts zu bestimmen. Im Gegensatz zum Klassifizierungsproblem ist der Wert des Parameters keine endliche Menge von Klassen, sondern eine Menge reeller Zahlen.

3) Assoziationsaufgabe. Bei der Suche nach Assoziationsregeln besteht das Ziel darin, häufige Abhängigkeiten (oder Assoziationen) zwischen Objekten oder Ereignissen zu finden. Die gefundenen Abhängigkeiten werden in Form von Regeln dargestellt und können sowohl zum besseren Verständnis der Natur der analysierten Daten als auch zur Vorhersage des Auftretens von Ereignissen verwendet werden.

4) Die Aufgabe des Clustering besteht darin, im gesamten analysierten Datenbestand nach unabhängigen Gruppen (Clustern) und deren Merkmalen zu suchen. Die Lösung dieses Problems hilft Ihnen, die Daten besser zu verstehen. Darüber hinaus ermöglicht die Gruppierung homogener Objekte eine Reduzierung ihrer Anzahl und erleichtert somit die Analyse.

5) Sequentielle Muster – Festlegung von Mustern zwischen zeitlich zusammenhängenden Ereignissen, d. h. Erkennung der Abhängigkeit, dass, wenn Ereignis X eintritt, nach einer bestimmten Zeit Ereignis Y eintritt.

6) Analyse von Abweichungen – Identifizierung der uncharakteristischsten Muster.

Die aufgeführten Aufgaben sind entsprechend ihrem Zweck in beschreibende und prädiktive Aufgaben unterteilt.

Beschreibende Aufgaben konzentrieren sich auf die Verbesserung des Verständnisses der analysierten Daten. Der entscheidende Punkt bei solchen Modellen ist die Einfachheit und Transparenz der Ergebnisse für die menschliche Wahrnehmung. Es ist möglich, dass die entdeckten Muster ein spezifisches Merkmal der jeweiligen untersuchten Daten sind und nirgendwo anders zu finden sind. Sie können jedoch dennoch nützlich sein und sollten daher bekannt sein. Diese Art von Aufgabe umfasst das Clustering und die Suche nach Assoziationsregeln.

Die Lösung prädiktiver Probleme gliedert sich in zwei Phasen. Im ersten Schritt wird ein Modell basierend auf einem Datensatz mit bekannten Ergebnissen erstellt. In der zweiten Stufe wird es verwendet, um Ergebnisse auf Basis neuer Datensätze vorherzusagen. Dabei ist es natürlich erforderlich, dass die konstruierten Modelle möglichst genau funktionieren. ZU diese Art Zu den Aufgaben gehören Klassifikations- und Regressionsprobleme. Dazu kann auch das Problem der Suche nach Assoziationsregeln gehören, wenn sich anhand der Ergebnisse ihrer Lösung das Eintreten bestimmter Ereignisse vorhersagen lässt.

Basierend auf den Methoden zur Problemlösung werden sie in überwachtes Lernen (Lernen mit einem Lehrer) und unüberwachtes Lernen (Lernen ohne Lehrer) unterteilt. Dieser Name leitet sich vom Begriff „Machine Learning“ ab, der in der englischen Literatur häufig verwendet wird und alle Data-Mining-Technologien bezeichnet.

Beim überwachten Lernen wird das Problem der Datenanalyse in mehreren Schritten gelöst. Zunächst wird mithilfe eines Data-Mining-Algorithmus ein Modell der analysierten Daten – ein Klassifikator – erstellt. Anschließend wird der Klassifikator trainiert. Mit anderen Worten: Die Qualität seiner Arbeit wird überprüft und bei unbefriedigender Qualität erfolgt eine zusätzliche Schulung des Klassifikators. Dies geschieht so lange, bis das erforderliche Qualitätsniveau erreicht ist oder klar wird, dass der ausgewählte Algorithmus nicht korrekt mit den Daten arbeitet oder die Daten selbst keine erkennbare Struktur aufweisen. Diese Art von Aufgabe umfasst Klassifizierungs- und Regressionsprobleme.

Unüberwachtes Lernen kombiniert Aufgaben, die beschreibende Muster identifizieren, beispielsweise Muster bei Einkäufen von Kunden in einem großen Geschäft. Wenn diese Muster existieren, sollte das Modell sie offensichtlich repräsentieren, und es ist unangemessen, über sein Training zu sprechen. Daher der Name – unbeaufsichtigtes Lernen. Der Vorteil solcher Probleme liegt in der Möglichkeit, sie ohne Vorkenntnisse über die analysierten Daten zu lösen. Dazu gehören Clustering und die Suche nach Assoziationsregeln.

Klassifizierungs- und Regressionsproblem

Bei der Analyse ist es oft notwendig, zu bestimmen, zu welchen der bekannten Klassen die untersuchten Objekte gehören, d. h. sie zu klassifizieren. Wenn sich beispielsweise eine Person wegen eines Kredits an eine Bank wendet, muss der Bankmitarbeiter entscheiden, ob der potenzielle Kunde kreditwürdig ist oder nicht. Offensichtlich wird eine solche Entscheidung auf der Grundlage von Daten über das Untersuchungsobjekt (in diesem Fall eine Person) getroffen: seinen Arbeitsplatz, seine Größe Löhne, Alter, Familienzusammensetzung usw. Als Ergebnis der Analyse dieser Informationen muss der Bankmitarbeiter die Person in eine von zwei bekannten Klassen einstufen: „kreditwürdig“ und „nicht kreditwürdig“.

Ein weiteres Beispiel für eine Klassifizierungsaufgabe ist die E-Mail-Filterung. In diesem Fall muss das Filterprogramm die eingehende Nachricht als Spam (unerwünscht) klassifizieren E-Mail) oder als Brief. Diese Entscheidung wird auf der Grundlage der Häufigkeit des Vorkommens bestimmter Wörter in der Nachricht getroffen (z. B. Name des Empfängers, unpersönliche Adresse, Wörter und Phrasen: Kauf, „verdienen“, „vorteilhaftes Angebot“ usw.).

Wir begrüßen Sie auf dem Data-Mining-Portal – einem einzigartigen Portal, das sich modernen Data-Mining-Methoden widmet.

Data-Mining-Technologien sind ein leistungsstarkes Werkzeug für moderne Geschäftsanalysen und Datenforschung, um verborgene Muster zu erkennen und Vorhersagemodelle zu erstellen. Data Mining oder Wissensextraktion basiert nicht auf spekulativen Überlegungen, sondern auf realen Daten.

Reis. 1. Data-Mining-Anwendungsschema

Problemdefinition – Problemstellung: Datenklassifizierung, Segmentierung, Erstellung von Vorhersagemodellen, Prognose.
Datenerfassung und -vorbereitung – Erfassung und Vorbereitung von Daten, Bereinigung, Überprüfung, Entfernung doppelter Datensätze.
Modellbau – Modellbau, Genauigkeitsbewertung.
Wissensbereitstellung – ​​Anwendung eines Modells zur Lösung eines bestimmten Problems.

Data Mining wird zur Umsetzung groß angelegter Analyseprojekte in den Bereichen Wirtschaft, Marketing, Internet, Telekommunikation, Industrie, Geologie, Medizin, Pharmazie und anderen Bereichen eingesetzt.

Mit Data Mining können Sie den Prozess der Suche nach aussagekräftigen Korrelationen und Zusammenhängen beginnen, indem Sie eine große Datenmenge durchsuchen moderne Methoden Mustererkennung und der Einsatz einzigartiger Analysetechnologien, einschließlich Entscheidungsbäume und Klassifizierung, Clustering, neuronale Netzwerkmethoden und andere.

Wer zum ersten Mal mit der Data-Mining-Technologie in Berührung kommt, ist erstaunt über die Fülle an Methoden und effektiven Algorithmen, die es ihm ermöglichen, Lösungsansätze für schwierige Probleme bei der Analyse großer Datenmengen zu finden.

Generell lässt sich Data Mining als eine Technologie zur Durchsuchung großer Datenmengen charakterisieren. nicht offensichtlich, Zielsetzung und praktisch nützlich Muster.

Data Mining basiert auf wirksame Methoden und Algorithmen zur Analyse unstrukturierter Daten großen Volumens und Ausmaßes.

Der entscheidende Punkt ist, dass es bei großvolumigen, hochdimensionalen Daten offenbar an Struktur und Verbindungen mangelt. Ziel der Data-Mining-Technologie ist es, diese Strukturen zu identifizieren und Muster zu finden, in denen auf den ersten Blick Chaos und Beliebigkeit herrschen.

Hier ein aktuelles Beispiel für den Einsatz von Data Mining in der Pharma- und Arzneimittelindustrie.

Wechselwirkungen mit anderen Arzneimitteln sind ein wachsendes Problem im modernen Gesundheitswesen.

Im Laufe der Zeit nimmt die Anzahl der verschriebenen Medikamente (rezeptfreie Medikamente und Nahrungsergänzungsmittel aller Art) zu, wodurch es immer wahrscheinlicher wird, dass es zu Wechselwirkungen zwischen Medikamenten kommt, die schwerwiegende Nebenwirkungen verursachen können, die Ärzte und Patienten nicht bemerken.

Dieser Bereich bezieht sich auf die postklinische Forschung, wenn das Medikament bereits auf den Markt gebracht wurde und intensiv genutzt wird.

Klinische Studien beziehen sich auf die Bewertung der Wirksamkeit eines Arzneimittels, berücksichtigen jedoch nicht die Wechselwirkungen des Arzneimittels mit anderen Arzneimitteln auf dem Markt.

Forscher der Stanford University in Kalifornien untersuchten die FDA-Datenbank zu Arzneimittelnebenwirkungen und stellten fest, dass zwei häufig verwendete Medikamente – das Antidepressivum Paroxetin und das cholesterinsenkende Medikament Pravastatin – das Risiko für die Entwicklung von Diabetes erhöhen, wenn sie zusammen angewendet werden.

Eine ähnliche, auf FDA-Daten basierende Analysestudie identifizierte 47 bisher unbekannte unerwünschte Wechselwirkungen.

Das ist großartig, mit dem Vorbehalt, dass viele der von den Patienten festgestellten negativen Auswirkungen unentdeckt bleiben. In diesem Fall kann die Online-Suche ihre optimale Leistung erbringen.

Kommende Data Mining-Kurse an der StatSoft Data Analysis Academy im Jahr 2020

Wir beginnen unsere Einführung in Data Mining mit den erstaunlichen Videos der Data Science Academy.

Schauen Sie sich unbedingt unsere Videos an und Sie werden verstehen, was Data Mining ist!

Video 1. Was ist Data Mining?


Video 2. Überblick über Data-Mining-Methoden: Entscheidungsbäume, verallgemeinerte Vorhersagemodelle, Clustering und vieles mehr

JavaScript ist in Ihrem Browser deaktiviert


Bevor wir mit einem Forschungsprojekt beginnen, müssen wir einen Prozess zur Datenbeschaffung aus externen Quellen organisieren. Jetzt zeigen wir, wie das geht.

Das Video stellt Ihnen vor einzigartige Technologie STATISTIK In-Place-Datenbankverarbeitung und Verbindung von Data Mining mit realen Daten.

Video 3. Die Reihenfolge der Interaktion mit Datenbanken: grafische Oberfläche zum Erstellen von SQL-Abfragen, In-Place-Datenbankverarbeitungstechnologie

JavaScript ist in Ihrem Browser deaktiviert


Jetzt machen wir uns mit interaktiven Bohrtechnologien vertraut, die bei der Durchführung explorativer Datenanalysen effektiv sind. Der Begriff Bohren selbst spiegelt die Verbindung zwischen Data-Mining-Technologie und geologischer Erkundung wider.

Video 4: Interaktives Bohren: Explorations- und Grafiktechniken für die interaktive Datenexploration

JavaScript ist in Ihrem Browser deaktiviert


Jetzt machen wir uns mit der Assoziationsanalyse (Assoziationsregeln) vertraut. Mit diesen Algorithmen können Sie Verbindungen finden, die in realen Daten vorhanden sind. Der entscheidende Punkt ist die Effizienz von Algorithmen bei großen Datenmengen.

Das Ergebnis von Verbindungsanalysealgorithmen, beispielsweise dem Apriori-Algorithmus, ist das Finden von Verbindungsregeln für die untersuchten Objekte mit einer bestimmten Zuverlässigkeit, beispielsweise 80 %.

In der Geologie können diese Algorithmen bei der Explorationsanalyse von Mineralien verwendet werden, beispielsweise um herauszufinden, wie Merkmal A mit den Merkmalen B und C zusammenhängt.

Sie können finden konkrete Beispiele solche Lösungen über unsere Links:

Im Einzelhandel ermöglichen Apriori-Algorithmen oder deren Modifikationen die Untersuchung der Beziehung zwischen verschiedenen Produkten, beispielsweise beim Verkauf von Parfüms (Parfüm – Nagellack – Mascara usw.) oder Produkten verschiedener Marken.

Mithilfe von Assoziationsregeln kann auch eine Analyse der interessantesten Abschnitte der Website effektiv durchgeführt werden.

Schauen Sie sich also unser nächstes Video an.

Video 5. Verbandsregeln

JavaScript ist in Ihrem Browser deaktiviert

Hier finden Sie Beispiele für die Anwendung von Data Mining in bestimmten Bereichen.

Onlinehandel:

  • Analyse der Kundenverläufe vom Besuch der Website bis zum Kauf von Waren
  • Bewertung der Serviceeffizienz, Analyse von Ausfällen aufgrund von Warenmangel
  • Anbindung von Produkten, die für Besucher interessant sind

Einzelhandel: Analyse von Kundeninformationen basierend auf Kreditkarten, Rabattkarten usw.

Typische Einzelhandelsaufgaben, die durch Data-Mining-Tools gelöst werden:

  • Warenkorbanalyse;
  • Erstellung von Vorhersagemodellen und Klassifizierungsmodelle von Käufern und gekauften Waren;
  • Erstellen von Käuferprofilen;
  • CRM, Bewertung der Loyalität von Kunden verschiedener Kategorien, Planung von Treueprogrammen;
  • Zeitreihenforschung und Zeitabhängigkeiten, Identifizierung saisonaler Faktoren, Bewertung der Wirksamkeit von Werbeaktionen anhand einer Vielzahl realer Daten.

Der Telekommunikationssektor bietet unbegrenzte Möglichkeiten für den Einsatz von Data-Mining-Methoden moderne Technologien Große Daten:

  • Klassifizierung von Kunden anhand der wichtigsten Merkmale der Anrufe (Häufigkeit, Dauer usw.) und der SMS-Häufigkeit;
  • Identifizierung der Kundenbindung;
  • Betrugserkennung usw.

Versicherung:

  • Risikoanalyse. Durch die Identifizierung von Kombinationen von Faktoren im Zusammenhang mit bezahlten Ansprüchen können Versicherer ihre Haftungsverluste reduzieren. Es gibt einen Fall, in dem eine Versicherungsgesellschaft herausfand, dass die Auszahlungsbeträge für Ansprüche verheirateter Personen doppelt so hoch waren wie die Auszahlungsbeträge für Ansprüche alleinstehender Personen. Das Unternehmen reagierte darauf mit einer Überarbeitung seiner Rabattpolitik für Familienkunden.
  • Entdeckung eines Betruges. Versicherungsunternehmen können Betrug reduzieren, indem sie in Schadensfällen nach bestimmten Mustern suchen, die die Beziehungen zwischen Anwälten, Ärzten und Antragstellern charakterisieren.

Die praktische Anwendung von Data Mining und die Lösung konkreter Probleme stellen wir Ihnen in unserem nächsten Video vor.

Webinar 1. Webinar „Praktische Aufgaben des Data Mining: Probleme und Lösungen“

JavaScript ist in Ihrem Browser deaktiviert

Webinar 2. Webinar „Data Mining und Text Mining: Beispiele für die Lösung realer Probleme“

JavaScript ist in Ihrem Browser deaktiviert


In den StatSoft-Kursen können Sie sich tiefergehende Kenntnisse über die Data-Mining-Methodik und -Technologie aneignen.

Data-Mining-Tools

Derzeit wird die Data-Mining-Technologie durch eine Reihe kommerzieller und frei verteilter Softwareprodukte repräsentiert. Eine ziemlich vollständige und regelmäßig aktualisierte Liste dieser Produkte finden Sie auf der Website www. kdnuggets. com, gewidmet dem Data Mining. Data-Mining-Softwareprodukte können nach denselben Prinzipien klassifiziert werden, die auch die Grundlage für die Klassifizierung der Technologie selbst bilden. Eine solche Klassifizierung wird jedoch keinen praktischen Wert haben. Aufgrund des starken Wettbewerbs auf dem Markt und dem Wunsch nach Vollständigkeit technischer Lösungen decken viele Data-Mining-Produkte buchstäblich alle Aspekte der Anwendung analytischer Technologien ab. Daher ist es sinnvoller, Data-Mining-Produkte danach zu klassifizieren, wie sie implementiert sind und welche Integrationspotenziale sie dementsprechend bieten. Natürlich handelt es sich hierbei auch um eine Konvention, da ein solches Kriterium es uns nicht erlaubt, klare Grenzen zwischen Produkten zu ziehen. Eine solche Klassifizierung hat jedoch zweifellos einen Vorteil. Es ermöglicht Ihnen, bei der Initialisierung von Projekten im Bereich der Datenanalyse, der Entwicklung von Entscheidungsunterstützungssystemen, der Erstellung von Data Warehouses usw. schnell eine Entscheidung über die Wahl der einen oder anderen vorgefertigten Lösung zu treffen.

Daher können Data-Mining-Produkte in drei große Kategorien unterteilt werden:

    als integraler Bestandteil in Datenbankverwaltungssystemen enthalten;

    Bibliotheken von Data-Mining-Algorithmen mit zugehöriger Infrastruktur;

    Box- oder Desktop-Lösungen („Black Boxes“).

Produkte in den ersten beiden Kategorien bieten die größten Integrationsmöglichkeiten und ermöglichen es Ihnen, das analytische Potenzial in nahezu jeder Anwendung in jedem Bereich auszuschöpfen. Geschachtelte Anwendungen wiederum können einige einzigartige Fortschritte im Bereich Data Mining bieten oder auf eine bestimmte Anwendung spezialisiert sein. In den meisten Fällen ist es jedoch schwierig, sie in umfassendere Lösungen zu integrieren.

Die Einbindung analytischer Fähigkeiten in kommerzielle Datenbankmanagementsysteme ist ein natürlicher Trend mit enormem Potenzial. Wo, wenn nicht dort, wo Daten konzentriert sind, ist es dann am sinnvollsten, Mittel zu ihrer Verarbeitung zu platzieren? Basierend auf diesem Prinzip ist die Data-Mining-Funktionalität derzeit in den folgenden kommerziellen Datenbanken implementiert:

    Microsoft SQL Server;

Hauptpunkte

  • Mit Data Mining können Sie auf der Grundlage einer großen Menge an gesammelten Daten automatisch Hypothesen generieren, die von anderen Analysetools (z. B. OLAP) überprüft werden können.

    Data Mining ist die Erforschung und Entdeckung von verborgenem Wissen in Rohdaten durch eine Maschine (Algorithmen, Werkzeuge der künstlichen Intelligenz), das bisher unbekannt, nicht trivial, praktisch nützlich und für die menschliche Interpretation zugänglich war.

    Data-Mining-Methoden lösen drei Hauptprobleme: das Problem der Klassifizierung und Regression, das Problem der Suche nach Assoziationsregeln und das Problem der Clusterbildung. Je nach Zweck werden sie in beschreibende und prädiktive unterteilt. Basierend auf den Methoden zur Problemlösung werden sie in überwachtes Lernen (Lernen mit einem Lehrer) und unüberwachtes Lernen (Lernen ohne Lehrer) unterteilt.

    Die Aufgabe der Klassifizierung und Regression besteht darin, den Wert der abhängigen Variablen eines Objekts aus seinen unabhängigen Variablen zu bestimmen. Wenn die abhängige Variable numerische Werte annimmt, spricht man von einem Regressionsproblem, andernfalls von einem Klassifizierungsproblem.

    Bei der Suche nach Assoziationsregeln besteht das Ziel darin, häufige Abhängigkeiten (oder Assoziationen) zwischen Objekten oder Ereignissen zu finden. Die gefundenen Abhängigkeiten werden in Form von Regeln dargestellt und können sowohl zum besseren Verständnis der Natur der analysierten Daten als auch zur Vorhersage von Ereignissen verwendet werden.

    Die Aufgabe des Clustering besteht darin, im gesamten analysierten Datenbestand nach unabhängigen Gruppen (Clustern) und deren Merkmalen zu suchen. Die Lösung dieses Problems hilft Ihnen, die Daten besser zu verstehen. Darüber hinaus ermöglicht die Gruppierung homogener Objekte eine Reduzierung ihrer Anzahl und erleichtert somit die Analyse.

    Data-Mining-Methoden stehen an der Schnittstelle verschiedener Bereiche der Informationstechnologie: Statistik, neuronale Netze, Fuzzy-Sets, genetische Algorithmen usw.

    Die intelligente Analyse umfasst die folgenden Phasen: Verstehen und Formulieren des Analyseproblems, Vorbereiten von Daten für die automatisierte Analyse, Anwenden von Data-Mining-Methoden und Erstellen von Modellen, Überprüfen der erstellten Modelle und Interpretieren der Modelle durch Menschen.

    Vor der Anwendung von Data-Mining-Techniken müssen die Quelldaten transformiert werden. Die Art der Transformation hängt von den verwendeten Methoden ab.

    Data-Mining-Methoden können in verschiedenen Bereichen der menschlichen Tätigkeit effektiv eingesetzt werden: Wirtschaft, Medizin, Wissenschaft, Telekommunikation usw.

3. Analyse von Textinformationen – Text Mining

Die Analyse strukturierter Informationen, die in Datenbanken gespeichert sind, erfordert eine Vorverarbeitung: Entwurf einer Datenbank, Eingabe von Informationen nach bestimmten Regeln, Platzierung in speziellen Strukturen (z. B. relationale Tabellen) usw. Somit können diese Informationen direkt analysiert und daraus neues Wissen gewonnen werden erfordert zusätzlichen Aufwand. Allerdings haben sie nicht immer einen analytischen Bezug und führen nicht zwangsläufig zum gewünschten Ergebnis. Aus diesem Grund nimmt die Effizienz der Analyse strukturierter Informationen ab. Darüber hinaus können nicht alle Arten von Daten verlustfrei strukturiert werden nützliche Informationen. Beispielsweise ist es fast unmöglich, Textdokumente in eine tabellarische Darstellung umzuwandeln, ohne dass die Semantik des Textes und die Beziehungen zwischen Entitäten verloren gehen. Aus diesem Grund werden solche Dokumente wie Textfelder (BLOB-Felder) ohne Transformation in der Datenbank gespeichert. Gleichzeitig sind im Text große Mengen an Informationen verborgen, deren unstrukturierte Natur jedoch den Einsatz von Data-Mining-Algorithmen nicht zulässt. Methoden zur Analyse unstrukturierter Texte lösen dieses Problem. In der westlichen Literatur wird eine solche Analyse Text Mining genannt.

Methoden zur Analyse unstrukturierter Texte liegen an der Schnittstelle mehrerer Bereiche: Data Mining, Verarbeitung natürlicher Sprache, Informationsabruf, Informationsextraktion und Wissensmanagement.

Definition von Text Mining: Text Knowledge Discovery ist der nicht triviale Prozess der Entdeckung wirklich neuer, potenziell nützlicher und verständlicher Muster in unstrukturierten Textdaten.

Wie Sie sehen, unterscheidet es sich von der Definition von Data Mining nur durch das neue Konzept der „unstrukturierten Textdaten“. Unter diesem Wissen versteht man eine Reihe von Dokumenten, die einen logisch einheitlichen Text ohne Einschränkungen seiner Struktur darstellen. Beispiele für solche Dokumente sind: Webseiten, E-Mails, behördliche Dokumente usw. Punkt B Allgemeiner Fall Solche Dokumente können komplex und umfangreich sein und nicht nur Text, sondern auch grafische Informationen enthalten. Dokumente, die XML (Extensible Markup Language), SGML (Standard Generalized Markup Language) und andere ähnliche Textstrukturkonventionen verwenden, werden als halbstrukturierte Dokumente bezeichnet. Sie können auch mit Text-Mining-Methoden verarbeitet werden.

Der Prozess der Analyse von Textdokumenten kann als Abfolge mehrerer Schritte dargestellt werden

    Suche nach Informationen. Der erste Schritt besteht darin, zu identifizieren, welche Dokumente analysiert werden müssen, und deren Verfügbarkeit sicherzustellen. In der Regel können Benutzer die Menge der zu analysierenden Dokumente selbst bestimmen – manuell, bei einer großen Anzahl von Dokumenten ist es jedoch erforderlich, automatisierte Auswahlmöglichkeiten nach festgelegten Kriterien zu nutzen.

    Vorbearbeitung von Dokumenten. In diesem Schritt werden einfache, aber notwendige Transformationen an Dokumenten durchgeführt, um sie in einer Form darzustellen, mit der Text-Mining-Methoden arbeiten. Der Zweck solcher Transformationen besteht darin, unnötige Wörter zu entfernen und dem Text eine strengere Form zu geben. Vorverarbeitungsmethoden werden im Abschnitt ausführlicher beschrieben.

    Informationsextraktion. Um Informationen aus ausgewählten Dokumenten zu extrahieren, müssen darin Schlüsselkonzepte identifiziert werden, die in Zukunft analysiert werden.

Anwendung von Text-Mining-Methoden. In diesem Schritt werden in den Texten vorhandene Muster und Zusammenhänge extrahiert. Dieser Schritt ist der wichtigste im Prozess der Textanalyse und praktische Probleme werden in diesem Schritt gelöst.

Interpretation der Ergebnisse. Der letzte Schritt im Wissensfindungsprozess besteht in der Interpretation der Ergebnisse. Typischerweise besteht die Interpretation darin, Ergebnisse entweder in natürlicher Sprache darzustellen oder grafisch zu visualisieren.

Visualisierung kann auch als Textanalysetool verwendet werden. Hierzu werden Schlüsselkonzepte extrahiert und grafisch dargestellt. Dieser Ansatz hilft dem Benutzer, die wichtigsten Themen und Konzepte schnell zu identifizieren und ihre Bedeutung zu bestimmen.

Textvorverarbeitung

Eines der Hauptprobleme der Textanalyse ist die große Anzahl von Wörtern in einem Dokument. Wenn jedes dieser Wörter analysiert wird, erhöht sich die Suchzeit nach neuem Wissen stark und wird den Benutzeranforderungen wahrscheinlich nicht gerecht. Gleichzeitig ist es offensichtlich, dass nicht alle Wörter im Text nützliche Informationen enthalten. Darüber hinaus bedeuten formal unterschiedliche Wörter (Synonyme usw.) aufgrund der Flexibilität natürlicher Sprachen tatsächlich dieselben Konzepte. Das Entfernen nicht informativer Wörter sowie das Zusammenführen von Wörtern mit ähnlicher Bedeutung in eine einzige Form verkürzt somit die Zeit der Textanalyse erheblich. Die Beseitigung der beschriebenen Probleme erfolgt in der Phase der Textvorverarbeitung.

Um nicht aussagekräftige Wörter zu entfernen und die Aussagekraft von Texten zu erhöhen, werden in der Regel die folgenden Techniken eingesetzt:

    Stoppwörter entfernen. Stoppwörter sind Hilfswörter, die nur wenige Informationen über den Inhalt des Dokuments enthalten.

    Stemming ist eine morphologische Suche. Es besteht darin, jedes Wort in seine normale Form umzuwandeln.

    L-Gramm sind eine Alternative zum morphologischen Parsen und zum Entfernen von Stoppwörtern. Sie ermöglichen es Ihnen, den Text strenger zu gestalten, lösen jedoch nicht das Problem der Reduzierung der Anzahl nicht informativer Wörter;

    Fallkonvertierung. Bei dieser Technik werden alle Zeichen in Groß- oder Kleinschreibung umgewandelt.

Am effektivsten ist die kombinierte Anwendung dieser Methoden.

Text-Mining-Aufgaben

Derzeit werden in der Literatur viele Anwendungsprobleme beschrieben, die durch die Analyse von Textdokumenten gelöst werden können. Dazu gehören klassische Data-Mining-Aufgaben: Klassifizierung, Clustering und Aufgaben, die nur für Textdokumente typisch sind: automatische Annotation, Extraktion von Schlüsselkonzepten usw.

Die Klassifizierung ist eine Standardaufgabe im Bereich Data Mining. Sein Zweck besteht darin, für jedes Dokument eine oder mehrere vordefinierte Kategorien zu definieren, zu denen dieses Dokument gehört. Ein Merkmal des Klassifizierungsproblems ist die Annahme, dass die Menge der klassifizierten Dokumente keinen „Müll“ enthält, d. h. dass jedes der Dokumente einer bestimmten Kategorie entspricht.

Ein Sonderfall des Klassifikationsproblems ist das Problem der Bestimmung des Themas eines Dokuments.

Der Zweck der Dokumentenclusterung besteht darin, automatisch Gruppen semantisch ähnlicher Dokumente in einem bestimmten festen Satz zu identifizieren. Beachten Sie, dass Gruppen nur auf der Grundlage der paarweisen Ähnlichkeit von Dokumentbeschreibungen gebildet werden und keine Merkmale dieser Gruppen im Voraus festgelegt werden.

Durch die automatische Annotation (Zusammenfassung) können Sie den Text kürzen und gleichzeitig seine Bedeutung beibehalten. Die Lösung dieses Problems wird in der Regel vom Benutzer gesteuert, indem er die Anzahl der zu extrahierenden Sätze oder den Prozentsatz des extrahierten Textes im Verhältnis zum gesamten Text bestimmt. Das Ergebnis umfasst die wichtigsten Sätze im Text.

Das Hauptziel der Merkmalsextraktion besteht darin, Fakten und Zusammenhänge im Text zu identifizieren. In den meisten Fällen handelt es sich bei diesen Konzepten um Substantive und gebräuchliche Substantive: Vor- und Nachnamen von Personen, Namen von Organisationen usw. Konzeptextraktionsalgorithmen können Wörterbücher verwenden, um einige Begriffe zu identifizieren, und sprachliche Muster, um andere zu definieren.

Die textbasierte Navigation ermöglicht Benutzern die Navigation in Dokumenten basierend auf Themen und relevanten Begriffen. Dies geschieht durch die Identifizierung von Schlüsselkonzepten und einigen Beziehungen zwischen ihnen.

Mit der Trendanalyse können Sie Trends in Dokumentensätzen über einen bestimmten Zeitraum hinweg erkennen. Ein Trend kann beispielsweise verwendet werden, um Veränderungen der Interessen eines Unternehmens von einem Marktsegment zu einem anderen zu erkennen.

Auch die Suche nach Zusammenhängen gehört zu den Hauptaufgaben des Data Mining. Um dieses Problem zu lösen, werden assoziative Beziehungen zwischen Schlüsselkonzepten in einem bestimmten Satz von Dokumenten identifiziert.

Es gibt eine ganze Reihe von Varianten der aufgeführten Probleme sowie Methoden zu deren Lösung. Dies bestätigt einmal mehr die Bedeutung der Textanalyse. Im Rest dieses Kapitels werden Lösungen für die folgenden Probleme erörtert: Extraktion von Schlüsselkonzepten, Klassifizierung, Clustering und automatische Annotation.

Klassifizierung von Textdokumenten

Die Klassifizierung von Textdokumenten sowie im Fall der Objektklassifizierung besteht darin, ein Dokument einer der bisher bekannten Klassen zuzuordnen. Die Klassifizierung in Bezug auf Textdokumente wird häufig als Kategorisierung oder Rubrikierung bezeichnet. Offensichtlich stammen diese Namen aus der Aufgabe, Dokumente in Kataloge, Kategorien und Überschriften zu systematisieren. Dabei kann die Verzeichnisstruktur entweder einstufig oder mehrstufig (hierarchisch) sein.

Formal wird die Aufgabe der Klassifizierung von Textdokumenten durch eine Menge von Mengen beschrieben.

Beim Klassifizierungsproblem ist es notwendig, auf der Grundlage dieser Daten ein Verfahren zu konstruieren, das darin besteht, aus der Menge C die wahrscheinlichste Kategorie für das untersuchte Dokument zu finden.

Die meisten Textklassifizierungsmethoden basieren auf die eine oder andere Weise auf der Annahme, dass Dokumente, die zur gleichen Kategorie gehören, die gleichen Merkmale (Wörter oder Phrasen) enthalten und das Vorhandensein oder Fehlen solcher Merkmale in einem Dokument darauf hinweist, dass es zu einer Kategorie gehört oder nicht bestimmtes Thema.

Ein solcher Funktionssatz wird oft als Wörterbuch bezeichnet, da er aus Lexemen besteht, die Wörter und/oder Phrasen enthalten, die die Kategorie charakterisieren.

Es ist zu beachten, dass diese Merkmalssätze ein Unterscheidungsmerkmal der Klassifizierung von Textdokumenten gegenüber der Klassifizierung von Objekten im Data Mining sind, die durch eine Reihe von Attributen gekennzeichnet sind.

Die Entscheidung, Dokument d der Kategorie c zuzuordnen, wird auf der Grundlage der Schnittmenge gemeinsamer Merkmale getroffen

Die Aufgabe von Klassifizierungsverfahren besteht darin, solche Merkmale bestmöglich auszuwählen und Regeln zu formulieren, auf deren Grundlage über die Zuordnung eines Dokuments zu einer Kategorie entschieden wird.

Analysetools Textinformationen

    Oracle-Tools – Oracle Text2

Ab Oracle Version 7.3.3 sind Textanalysetools integraler Bestandteil der Oracle-Produkte. In Oracle wurden diese Tools entwickelt und erhielten einen neuen Namen – Oracle Text – ein in ein DBMS integriertes Softwarepaket, das es Ihnen ermöglicht, effektiv mit Abfragen im Zusammenhang mit unstrukturierten Texten zu arbeiten. In diesem Fall wird die Textverarbeitung mit den dem Benutzer zur Verfügung gestellten Möglichkeiten für die Arbeit mit relationalen Datenbanken kombiniert. Insbesondere beim Schreiben von Textverarbeitungsanwendungen ist der Einsatz von SQL möglich geworden.

Die Hauptaufgabe, die Oracle Text-Tools lösen sollen, ist die Aufgabe, Dokumente nach ihrem Inhalt zu durchsuchen – nach Wörtern oder Phrasen, die bei Bedarf mithilfe boolescher Operationen kombiniert werden. Die Suchergebnisse werden nach Wichtigkeit geordnet, wobei die Häufigkeit des Vorkommens der Suchbegriffe in den gefundenen Dokumenten berücksichtigt wird.

    Tools von IBM – Intelligent Miner für Text1

Das Produkt IBM Intelligent Miner for Text besteht aus einer Reihe einzelner Dienstprogramme, die von gestartet werden Befehlszeile oder aus Skripten unabhängig voneinander. Das System enthält eine Kombination einiger Dienstprogramme zur Lösung von Problemen der Textinformationsanalyse.

IBM Intelligent Miner for Text kombiniert einen leistungsstarken Satz von Tools, die hauptsächlich auf Informationsabrufmechanismen basieren, was die Besonderheit des gesamten Produkts ausmacht. Das System besteht aus einer Reihe grundlegender Komponenten, die über die Text-Mining-Technologie hinaus eigenständige Bedeutung haben:

    SAS Institute Tools – Text Miner

Das amerikanische Unternehmen SAS Institute hat das System SAS Text Miner zum Vergleich bestimmter grammatikalischer und verbaler Sequenzen in schriftlicher Sprache veröffentlicht. Text Miner ist sehr vielseitig, da es mit Textdokumenten verschiedener Formate arbeiten kann – in Datenbanken, Dateisystemen und weiter im Web.

Text Miner bietet logische Textverarbeitung innerhalb der SAS Enterprise Miner-Umgebung. Dadurch können Benutzer den Datenanalyseprozess bereichern, indem sie unstrukturierte Textinformationen mit vorhandenen strukturierten Daten wie Alter, Einkommen und Verbrauchernachfragemustern integrieren.

Hauptpunkte

    Die Entdeckung von Textwissen ist ein nicht trivialer Prozess zur Entdeckung wirklich neuer, potenziell nützlicher und verständlicher Muster in unstrukturierten Textdaten.

    Der Prozess der Analyse von Textdokumenten kann als Abfolge mehrerer Schritte dargestellt werden: Suche nach Informationen, Vorverarbeitung von Dokumenten, Informationsextraktion, Anwendung von Text Mining-Methoden, Interpretation der Ergebnisse.

    Um nicht aussagekräftige Wörter zu entfernen und die Aussagekraft von Texten zu erhöhen, werden in der Regel folgende Techniken eingesetzt: Entfernen von Stoppwörtern, Wortstammerkennung, L-Gramm, Fallreduzierung.

    Die Aufgaben der Textinformationsanalyse sind: Klassifizierung, Clustering, automatische Annotation, Extraktion von Schlüsselkonzepten, Textnavigation, Trendanalyse, Suche nach Assoziationen usw.

    Das Extrahieren von Schlüsselkonzepten aus Texten kann sowohl als separate Anwendungsaufgabe als auch als separate Phase der Textanalyse betrachtet werden. Im letzteren Fall werden aus dem Text extrahierte Fakten zur Lösung verschiedener Analyseprobleme verwendet.

    Der Prozess der Extraktion von Schlüsselkonzepten mithilfe von Vorlagen erfolgt in zwei Schritten: Im ersten Schritt werden einzelne Fakten aus Textdokumenten mithilfe einer lexikalischen Analyse extrahiert, im zweiten Schritt erfolgt die Integration der extrahierten Fakten und/oder die Ableitung neuer Fakten ausgetragen.

    Die meisten Textklassifizierungsmethoden basieren auf die eine oder andere Weise auf der Annahme, dass Dokumente, die zur gleichen Kategorie gehören, die gleichen Merkmale (Wörter oder Phrasen) enthalten und das Vorhandensein oder Fehlen solcher Merkmale in einem Dokument darauf hinweist, dass es zu einer Kategorie gehört oder nicht bestimmtes Thema.

    Die meisten Clustering-Algorithmen erfordern die Darstellung von Daten in einem Vektorraummodell, das häufig zum Abrufen von Informationen verwendet wird und eine Metapher verwendet, um semantische Ähnlichkeit als räumliche Nähe darzustellen.

    Es gibt zwei Hauptansätze zur automatischen Kommentierung von Textdokumenten: Extraktion (Auswahl der wichtigsten Fragmente) und Generalisierung (Verwendung zuvor gesammelten Wissens).

Abschluss

Data Mining ist einer der relevantesten und beliebtesten Bereiche der angewandten Mathematik. Moderne Geschäfts- und Fertigungsprozesse erzeugen riesige Datenmengen, wodurch es für Menschen immer schwieriger wird, große Datenmengen, die sich im Laufe der Laufzeit dynamisch ändern, zu interpretieren und darauf zu reagieren, geschweige denn kritische Situationen zu verhindern. „Data Mining“, um das größtmögliche nützliche Wissen aus mehrdimensionalen, heterogenen, unvollständigen, ungenauen, widersprüchlichen und indirekten Daten zu extrahieren. Dies gelingt effektiv, wenn das Datenvolumen in Gigabyte oder sogar Terabyte gemessen wird. Hilft beim Aufbau von Algorithmen, die lernen können, Entscheidungen in verschiedenen Berufsfeldern zu treffen.

Data-Mining-Tools schützen Menschen vor Informationsüberflutung, indem sie Betriebsdaten in nützliche Informationen umwandeln notwendige Maßnahmen könnte zum richtigen Zeitpunkt angenommen werden.

Angewandte Entwicklungen werden in folgenden Bereichen durchgeführt: Prognosen in Wirtschaftssystemen; Automatisierung der Marktforschung und Analyse von Kundenumgebungen für Fertigungs-, Handels-, Telekommunikations- und Internetunternehmen; Automatisierung der Kreditentscheidung und Kreditrisikobewertung; Überwachung der Finanzmärkte; Automatische Handelssysteme.

Referenzliste

    „Datenanalysetechnologien: Data Mining. Visuelles Mining. Text Mining, OLAP“ A. A. Barseghyan. M. S. Kupriyanov, V. V. Stenanenko, I. I. Kholod. - 2. Aufl., überarbeitet. und zusätzlich

    http://inf.susu.ac.ru/~pollak/expert/G2/g2.htm – Internetartikel

    http://www.piter.com/contents/978549807257/978549807257_p.pdf – Datenanalysetechnologien

    Abschlussarbeit >> Bankwesen

    Kreditnehmer nutzt Cluster, verbal Analyse, Anpassungsfaktoren usw., auch ... die Bonität des Kreditnehmers basierend auf intellektuell Analyse Data Mining (mit... In der Anfangsphase Analyse gehaltenen Analyse Eigenmittel und...

  1. Analyse und Klassifizierung des modernen Marktes für Informationssysteme, die diskretionäre, m implementieren

    Zusammenfassung >> Informatik

    1.3 Rollendifferenzierung 6 2. Vergleichend Analyse verschiedene Arten Systeme 7 Betriebssystem... Systeme, darunter: Analyse Sicherheitsrichtlinien und ihre Eigenschaften, ... Anwendungen oder die Implementierung von mehr intellektuell Analyse Daten. Außerdem...

  2. Intelligent Fähigkeiten hochbegabter Kinder im Zusammenhang mit schulischen Leistungen

    Abschlussarbeit >> Psychologie

    Der Zusammenhang zwischen akademischer Leistung und Merkmalen intellektuell Entwicklung. Basierend auf der Theorie Analyse Das Forschungsproblem war... Intellekt ohne Analyse seine psychologische Struktur. Maßgeblich für die Beurteilung intellektuell Fähigkeiten sind...

Künstliche neuronale Netze, genetische Algorithmen, evolutionäre Programmierung, assoziatives Gedächtnis, Fuzzy-Logik. Data-Mining-Methoden umfassen häufig statistische Methoden(deskriptive Analyse, Korrelations- und Regressionsanalyse, Faktorenanalyse, Varianzanalyse, Komponentenanalyse, Diskriminanzanalyse, Zeitreihenanalyse). Solche Methoden setzen jedoch einige apriorische Vorstellungen über die analysierten Daten voraus, was im Widerspruch zu den Zielen steht Data Mining(Entdeckung bisher unbekannten, nicht trivialen und praktisch nützlichen Wissens).

Einer der wichtigsten Zwecke von Data-Mining-Methoden besteht darin, die Ergebnisse von Berechnungen visuell darzustellen, was den Einsatz von Data-Mining-Tools auch durch Personen ohne besondere mathematische Ausbildung ermöglicht. Gleichzeitig erfordert der Einsatz statistischer Methoden der Datenanalyse gute Kenntnisse der Wahrscheinlichkeitstheorie und der mathematischen Statistik.

Einführung

Data-Mining-Methoden (oder, was dasselbe ist, Knowledge Discovery In Data, abgekürzt als KDD) liegen an der Schnittstelle von Datenbanken, Statistiken und künstlicher Intelligenz.

Historischer Ausflug

Der Bereich Data Mining begann mit einem Workshop, der 1989 von Grigory Pyatetsky-Shapiro geleitet wurde.

Zuvor interessierte sich Grigory Pyatetsky-Shapiro während seiner Arbeit bei GTE Labs für die Frage: Ist es möglich, bestimmte Regeln automatisch zu finden, um einige Abfragen an große Datenbanken zu beschleunigen? Gleichzeitig wurden zwei Begriffe vorgeschlagen – Data Mining („Data Mining“) und Knowledge Discovery In Data (was als „Entdeckung von Wissen in Datenbanken“ übersetzt werden sollte).

Formulierung des Problems

Die Aufgabe wird zunächst wie folgt gestellt:

  • es gibt eine ziemlich große Datenbank;
  • Es wird davon ausgegangen, dass in der Datenbank „verborgenes Wissen“ vorhanden ist.

Es müssen Methoden entwickelt werden, um Wissen zu entdecken, das in großen Mengen anfänglicher „Rohdaten“ verborgen ist.

Was bedeutet „verborgenes Wissen“? Das muss Wissen sein:

  • bisher unbekannt – das heißt, Wissen, das neu sein sollte (und einige zuvor erhaltene Informationen nicht bestätigt);
  • nicht trivial – also solche, die nicht einfach sichtbar sind (bei der direkten visuellen Analyse von Daten oder bei der Berechnung einfacher statistischer Merkmale);
  • praktisch nützlich – das heißt Wissen, das für einen Forscher oder Verbraucher wertvoll ist;
  • zugänglich für die Interpretation – also Wissen, das leicht in einer für den Benutzer klaren Form dargestellt und im Hinblick auf das Fachgebiet leicht erklärt werden kann.

Diese Anforderungen bestimmen weitgehend das Wesen von Data-Mining-Methoden sowie die Form und das Verhältnis, in dem die Data-Mining-Technologie Datenbankverwaltungssysteme, statistische Analysemethoden und -methoden verwendet künstliche Intelligenz.

Data Mining und Datenbanken

Data-Mining-Methoden sind nur für größere Datenbanken sinnvoll. Jeder spezifische Forschungsbereich hat sein eigenes Kriterium für die „Größe“ einer Datenbank.

Die Entwicklung von Datenbanktechnologien führte zunächst zur Schaffung einer speziellen Sprache – einer Datenbankabfragesprache. Für relationale Datenbanken ist dies die bereitgestellte SQL-Sprache reichlich Möglichkeiten um gespeicherte Daten zu erstellen, zu ändern und abzurufen. Dann entstand der Bedarf, analytische Informationen zu erhalten (z. B. Informationen über die Aktivitäten eines Unternehmens für einen bestimmten Zeitraum), und es stellte sich heraus, dass herkömmliche relationale Datenbanken, die beispielsweise für die Führung der Betriebsbuchhaltung (in einem Unternehmen) gut geeignet sind, sind für die Analyse schlecht geeignet. Dies führte wiederum zur Schaffung des sogenannten. „Data Warehouses“, deren eigentliche Struktur auf die bestmögliche Art und Weise entspricht einer umfassenden mathematischen Analyse.

Data Mining und Statistik

Data-Mining-Methoden basieren auf mathematischen Methoden der Datenverarbeitung, einschließlich statistischer Methoden. In industriellen Lösungen sind solche Methoden häufig direkt in Data-Mining-Pakete enthalten. Es sollte jedoch berücksichtigt werden, dass Forscher häufig unangemessenerweise parametrische Tests anstelle von nichtparametrischen Tests verwenden, um die Dinge zu vereinfachen, und zweitens sind die Ergebnisse der Analyse schwer zu interpretieren, was völlig im Widerspruch zu den Zielen und Zielen von Data steht Bergbau. Allerdings kommen statistische Methoden zum Einsatz, deren Anwendung jedoch auf die Durchführung nur bestimmter Phasen der Studie beschränkt ist.

Data Mining und künstliche Intelligenz

Durch Data-Mining-Methoden gewonnene Erkenntnisse werden üblicherweise im Formular dargestellt Modelle. Diese Modelle sind:

  • Vereinsregeln;
  • Entscheidungsbäume;
  • Cluster;
  • mathematische Funktionen.

Methoden zur Konstruktion solcher Modelle werden üblicherweise als sogenannte. "künstliche Intelligenz".

Aufgaben

Durch Data-Mining-Methoden gelöste Probleme werden üblicherweise in beschreibende Probleme unterteilt. beschreibend) und prädiktiv (eng. prädiktiv).

Bei deskriptiven Aufgaben geht es vor allem darum, die vorhandenen verborgenen Muster visuell zu beschreiben, während bei prädiktiven Aufgaben die Frage der Vorhersage für die Fälle im Vordergrund steht, für die noch keine Daten vorliegen.

Zu den beschreibenden Aufgaben gehören:

  • Suche nach Assoziationsregeln oder Mustern (Beispiele);
  • Gruppierung von Objekten, Clusteranalyse;
  • Erstellen eines Regressionsmodells.

Zu den Vorhersageaufgaben gehören:

  • Klassifizierung von Objekten (für vordefinierte Klassen);
  • Regressionsanalyse, Zeitreihenanalyse.

Lernalgorithmen

Klassifizierungsprobleme zeichnen sich durch „überwachtes Lernen“ aus, bei dem die Konstruktion (das Training) eines Modells anhand einer Stichprobe durchgeführt wird, die Eingabe- und Ausgabevektoren enthält.

Bei Clustering- und Assoziationsproblemen wird „unüberwachtes Lernen“ verwendet, bei dem das Modell anhand einer Stichprobe erstellt wird, in der es keinen Ausgabeparameter gibt. Der Wert des Ausgabeparameters („gehört zu einem Cluster ...“, „ist ähnlich einem Vektor ...“) wird während des Trainingsprozesses automatisch ausgewählt.

Für Beschreibungsreduktionsprobleme ist es typisch keine Trennung in Eingabe- und Ausgabevektoren. Seit den klassischen Arbeiten von K. Pearson zur Methode der Hauptkomponenten liegt das Hauptaugenmerk auf der Datennäherung.

Ausbildungsstufen

Es gibt eine typische Abfolge von Phasen zur Lösung von Problemen mithilfe von Data-Mining-Methoden:

  1. Hypothesenbildung;
  2. Datensammlung;
  3. Datenaufbereitung (Filterung);
  4. Modellauswahl;
  5. Auswahl von Modellparametern und Lernalgorithmus;
  6. Modelltraining ( automatische Suche andere Modellparameter);
  7. Analyse der Ausbildungsqualität, wenn der Übergang zu Punkt 5 oder Punkt 4 unbefriedigend ist;
  8. Analyse identifizierter Muster, wenn der Übergang zu den Schritten 1, 4 oder 5 unbefriedigend ist.

Datenaufbereitung

Vor dem Einsatz von Data-Mining-Algorithmen ist es notwendig, einen Satz analysierter Daten vorzubereiten. Da IDA nur in den Daten vorhandene Muster erkennen kann, müssen die Quelldaten einerseits ausreichend umfangreich sein, damit diese Muster in ihnen vorhanden sind, und andererseits kompakt genug sein, damit die Analyse einen akzeptablen Verlauf nimmt Zeit. Am häufigsten fungieren Data Warehouses oder Data Marts als Quelldaten. Für die Analyse mehrdimensionaler Daten ist vor dem Clustering oder Data Mining eine Vorbereitung erforderlich.

Die bereinigten Daten werden auf Merkmalssätze (oder Vektoren, wenn der Algorithmus nur mit festdimensionalen Vektoren arbeiten kann) reduziert, ein Merkmalssatz pro Beobachtung. Basierend auf Hypothesen darüber, welche Merkmale von Rohdaten eine hohe Vorhersagekraft auf der Grundlage der Anforderungen haben, wird eine Reihe von Merkmalen gebildet Rechenleistung zum Bearbeiten. Beispielsweise enthält ein Schwarzweißbild eines Gesichts mit den Maßen 100 x 100 Pixel 10.000 Bit Rohdaten. Sie können durch die Erkennung von Augen und Mund im Bild in einen Merkmalsvektor umgewandelt werden. Dadurch wird das Datenvolumen von 10.000 Bits auf eine Liste von Positionscodes reduziert, was die Menge der analysierten Daten und damit die Analysezeit erheblich reduziert.

Eine Reihe von Algorithmen ist in der Lage, fehlende Daten mit Vorhersagekraft zu verarbeiten (z. B. das Fehlen von Käufen eines Kunden einer bestimmten Art). Zum Beispiel bei Verwendung der Assoziationsregelmethode (Englisch) Russisch Es werden keine Merkmalsvektoren verarbeitet, sondern Mengen variabler Dimensionen.

Die Wahl der Zielfunktion hängt vom Zweck der Analyse ab; Die Auswahl der „richtigen“ Funktion ist für ein erfolgreiches Data Mining von grundlegender Bedeutung.

Beobachtungen werden in zwei Kategorien unterteilt: Trainingssatz und Testsatz. Mit dem Trainingssatz wird der Data-Mining-Algorithmus „trainiert“ und mit dem Testsatz werden die gefundenen Muster überprüft.

siehe auch

Anmerkungen

Literatur

  • Paklin N. B., Oreshkov V. I. Business Analytics: Von Daten zu Wissen (+ CD). - St. Petersburg. : Ed. Peter, 2009. - 624 S.
  • Herzog V., Samoilenko A. Data Mining: Trainingskurs(+CD). - St. Petersburg. : Ed. Peter, 2001. - 368 S.
  • Zhuravlev Yu.I. , Ryazanov V.V., Senko O.V. ERKENNUNG. Mathematische Methoden. Software System. Praktische Anwendungen. - M.: Verlag. „Phase“, 2006. - 176 S. - ISBN 5-7036-0108-8
  • Sinowjew A. Yu. Visualisierung mehrdimensionaler Daten. - Krasnojarsk: Verlag. Staatliche Technische Universität Krasnojarsk, 2000. - 180 S.
  • Chubukova I. A. Data Mining: Ein Tutorial. - M.: Internet-Universität Informationstechnologien: BINOM: Knowledge Laboratory, 2006. - 382 S. - ISBN 5-9556-0064-7
  • Ian H. Witten, Eibe Frank und Mark A. Hall Data Mining: Praktische Tools und Techniken für maschinelles Lernen. - 3. Auflage. - Morgan Kaufmann, 2011. - S. 664. - ISBN 9780123748560

Links

  • Data-Mining-Software im Linkverzeichnis des Open Directory-Projekts (dmoz).

Wikimedia-Stiftung. 2010.