فناوری های داده کاوی داده کاوی Loginom Wiki. مقایسه خوشه بندی و طبقه بندی

داده کاوی

داده کاوی یک روش و فرآیند برای کشف مقادیر زیادی داده است که در آن انباشته می شود سیستم های اطلاعاتیشرکت های ah، قبلا ناشناخته، غیر پیش پا افتاده، عملا مفید و قابل دسترسی برای تفسیر دانش لازم برای تصمیم گیری در زمینه های مختلف فعالیت های انسانی. داده کاوی یکی از مراحل روش شناسی بزرگتر کشف دانش در پایگاه های داده است.

دانشی که در فرآیند داده کاوی کشف می شود باید غیر پیش پا افتاده و قبلاً ناشناخته باشد. بی اهمیتی نشان می دهد که چنین دانشی را نمی توان با تحلیل بصری ساده کشف کرد. آنها باید روابط بین ویژگی های اشیاء تجاری را توصیف کنند، مقادیر برخی از ویژگی ها را بر اساس ویژگی های دیگر پیش بینی کنند و غیره. دانش یافت شده باید برای اشیاء جدید قابل استفاده باشد.

سودمندی عملی دانش به دلیل امکان استفاده از آنها در فرآیند حمایت از تصمیم گیری های مدیریتی و بهبود فعالیت های شرکت است.

دانش باید به شکلی ارائه شود که برای کاربرانی که آموزش ریاضی خاصی ندارند قابل درک باشد. به عنوان مثال، ساختارهای منطقی "اگر، پس" به راحتی توسط یک شخص درک می شود. علاوه بر این، چنین قوانینی را می توان در DBMS های مختلف به عنوان پرس و جوهای SQL استفاده کرد. در مواردی که دانش استخراج شده برای کاربر شفاف نیست، باید روش‌های پس پردازشی وجود داشته باشد که به آنها اجازه می‌دهد تا به شکل قابل تفسیری درآیند.

داده کاوی یکی نیست، بلکه ترکیبی از تعداد زیادی از روش های مختلف کشف دانش است. تمام وظایف حل شده با روش های داده کاوی را می توان به طور مشروط به شش نوع تقسیم کرد:

داده کاوی ماهیتی چند رشته ای دارد، زیرا شامل عناصر روش های عددی، آمار ریاضی و نظریه احتمال، نظریه اطلاعات و منطق ریاضی, هوش مصنوعی و یادگیری ماشینی .

وظایف تجزیه و تحلیل کسب و کار به روش های مختلفی فرموله می شوند، اما راه حل اکثر آنها به یک یا آن وظیفه داده کاوی یا ترکیبی از آنها برمی گردد. به عنوان مثال، ارزیابی ریسک راه حلی برای یک مشکل رگرسیون یا طبقه بندی است، بخش بندی بازار به صورت خوشه بندی است، تحریک تقاضا قوانین تداعی است. در واقع، وظایف داده کاوی عناصری هستند که از طریق آنها می توانید راه حلی برای اکثر مشکلات واقعی کسب و کار را "مجموعه" کنید.

برای حل مسائل فوق از روش ها و الگوریتم های مختلف داده کاوی استفاده می شود. با توجه به اینکه داده کاوی در تقاطع رشته هایی مانند آمار ریاضی، تئوری اطلاعات، یادگیری ماشین و پایگاه های داده توسعه یافته و در حال توسعه است، کاملا طبیعی است که اکثر الگوریتم ها و روش های داده کاوی بر اساس روش های مختلف از این ها توسعه یافته اند. رشته ها به عنوان مثال، الگوریتم خوشه بندی k-means از آمار وام گرفته شده است.

داده کاوی چیست؟

طبقه بندی وظایف داده کاوی

وظیفه جستجوی قوانین انجمن

مشکل خوشه بندی

ویژگی های Data Miner در Statistica 8

ابزارهای تحلیل آماری داده کاوی

نمونه ای از کار در Data Minin

ایجاد گزارش و خلاصه

مرتب سازی اطلاعات

تجزیه و تحلیل قیمت قطعات مسکونی

تجزیه و تحلیل پیش بینی کننده بقا

نتیجه


داده کاوی چیست؟

نوین اصطلاح کامپیوترداده کاوی به عنوان "استخراج اطلاعات" یا "داده کاوی" ترجمه شده است. اغلب، همراه با داده کاوی، اصطلاحات کشف دانش ("کشف دانش") و انبار داده ("انبار داده") یافت می شود. ظهور این اصطلاحات که جزء لاینفک داده کاوی هستند، با دور جدیدی در توسعه ابزارها و روش های پردازش و ذخیره داده ها همراه است. بنابراین، هدف داده کاوی شناسایی قوانین و الگوهای پنهان در مقادیر زیاد (بسیار زیاد) داده است.

واقعیت این است که خود ذهن انسان برای درک آرایه های عظیم اطلاعات ناهمگون سازگار نیست. به طور متوسط، یک فرد، به استثنای برخی از افراد، نمی تواند بیش از دو یا سه رابطه را حتی در نمونه های کوچک ثبت کند. اما آمار سنتی برای مدت طولانیکه ادعا می کرد ابزار اصلی برای تجزیه و تحلیل داده ها است، همچنین اغلب هنگام حل مسائل از زندگی واقعی شکست می خورد. با مشخصات متوسط ​​نمونه کار می کند که اغلب مقادیر ساختگی هستند (متوسط ​​توان پرداختی مشتری، زمانی که بسته به تابع ریسک یا عملکرد زیان، باید بتوانید توان پرداخت و مقاصد مشتری را پیش بینی کنید؛ میانگین پرداخت بدهی مشتری. شدت سیگنال، در حالی که به آن علاقه دارید مشخصاتو پیش نیازهای پیک سیگنال و غیره).

بنابراین، روش‌های آمار ریاضی عمدتاً برای آزمایش فرضیه‌های از پیش تنظیم‌شده مفید هستند، در حالی که تعریف یک فرضیه گاهی اوقات کاری نسبتاً پیچیده و زمان‌بر است. فن‌آوری‌های مدرن داده‌کاوی اطلاعات را پردازش می‌کنند تا به‌طور خودکار الگوهای (الگوهای) مشخصه هر بخش از داده‌های چند بعدی ناهمگن را جستجو کنند. برخلاف پردازش داده های تحلیلی آنلاین (OLAP)، در داده کاوی، بار فرموله کردن فرضیه ها و شناسایی الگوهای غیرمعمول (غیر منتظره) از انسان به رایانه منتقل می شود. داده کاوی یکی نیست، بلکه ترکیبی از تعداد زیادی از روش های مختلف کشف دانش است. انتخاب روش اغلب به نوع داده های موجود و اطلاعاتی که می خواهید به دست آورید بستگی دارد. به عنوان مثال، در اینجا چند روش وجود دارد: ارتباط (ترکیب)، طبقه بندی، خوشه بندی، تحلیل و پیش بینی سری های زمانی، شبکه های عصبی و غیره.

اجازه دهید ویژگی های دانشی را که باید کشف شود، که در تعریف ارائه شده است، با جزئیات بیشتر در نظر بگیریم.

دانش باید جدید باشد، قبلا ناشناخته باشد. تلاش صرف شده برای کشف دانشی که قبلاً برای کاربر شناخته شده است نتیجه نمی دهد. بنابراین، دانش جدید و ناشناخته قبلی است که ارزش دارد.

دانش باید بی اهمیت باشد. نتایج تجزیه و تحلیل باید الگوهای غیر آشکار و غیرمنتظره را در داده هایی که به اصطلاح دانش پنهان را تشکیل می دهند منعکس کند. نتایجی که می شد بیشتر به دست آورد راه های ساده(به عنوان مثال، با بازرسی بصری) استفاده از روش های قدرتمند داده کاوی را توجیه نمی کند.

دانش باید عملا مفید باشد. دانش یافت شده باید قابل اجرا باشد، از جمله در داده های جدید، با درجه بالایی از قابلیت اطمینان. سودمندی در این واقعیت نهفته است که این دانش می تواند در کاربرد آن سودمند باشد.

دانش باید برای فهم بشر قابل دسترس باشد. الگوهای یافت شده باید از نظر منطقی قابل توضیح باشند، در غیر این صورت احتمال تصادفی بودن آنها وجود دارد. علاوه بر این، دانش کشف شده باید به شکلی قابل درک برای انسان ارائه شود.

در داده کاوی از مدل ها برای نشان دادن دانش به دست آمده استفاده می شود. انواع مدل ها به روش های ایجاد آنها بستگی دارد. رایج ترین آنها عبارتند از: قوانین، درخت تصمیم، خوشه ها و توابع ریاضی.

دامنه داده کاوی نامحدود است - داده کاوی در هر کجا که داده ای وجود دارد مورد نیاز است. تجربه بسیاری از چنین شرکت هایی نشان می دهد که بازده استفاده از داده کاوی می تواند به 1000٪ برسد. به عنوان مثال، گزارش هایی از یک اثر اقتصادی وجود دارد که 10 تا 70 برابر بیشتر از هزینه های اولیه از 350 تا 750 هزار دلار است. اطلاعاتی در مورد یک پروژه 20 میلیون دلاری داده می شود که فقط در 4 ماه نتیجه داد. مثال دیگر پس انداز سالانه 700000 دلاری است. از طریق معرفی داده کاوی در سوپرمارکت های زنجیره ای در انگلستان. داده کاوی برای مدیران و تحلیلگران در فعالیت های روزانه آنها ارزش زیادی دارد. افراد تجاری دریافته اند که با کمک روش های داده کاوی می توانند مزیت های رقابتی ملموسی به دست آورند.

طبقه بندی وظایف داده کاوی

روش های داده کاوی امکان حل بسیاری از مشکلات پیش روی یک تحلیلگر را فراهم می کند. از این موارد، اصلی ترین آنها عبارتند از: طبقه بندی، رگرسیون، جستجوی قوانین انجمن و خوشه بندی. در زیر آمده است توضیح کوتاهوظایف اصلی تجزیه و تحلیل داده ها

1) وظیفه طبقه بندی به تعیین کلاس یک شی با توجه به ویژگی های آن خلاصه می شود. لازم به ذکر است که در این مشکل مجموعه کلاس هایی که می توان یک شی را به آنها اختصاص داد از قبل شناخته شده است.

2) وظیفه رگرسیون، مانند کار طبقه بندی، به شما امکان می دهد مقدار برخی از پارامترهای آن را بر اساس ویژگی های شناخته شده یک شی تعیین کنید. برخلاف مسئله طبقه بندی، مقدار پارامتر مجموعه ای محدود از کلاس ها نیست، بلکه مجموعه ای از اعداد واقعی است.

3) وظیفه انجمن. هنگام جستجوی قوانین ارتباط، هدف یافتن وابستگی‌ها (یا تداعی‌های) مکرر بین اشیا یا رویدادها است. وابستگی های یافت شده در قالب قوانین ارائه می شوند و می توانند هم برای درک بهتر ماهیت داده های تحلیل شده و هم برای پیش بینی وقوع رویدادها استفاده شوند.

4) وظیفه خوشه بندی جستجوی گروه های مستقل (خوشه ها) و ویژگی های آنها در کل مجموعه داده های تحلیل شده است. حل این مشکل به درک بهتر داده ها کمک می کند. علاوه بر این، گروه بندی اشیاء همگن باعث کاهش تعداد آنها و در نتیجه تسهیل تجزیه و تحلیل می شود.

5) الگوهای متوالی - ایجاد الگوهایی بین رویدادهای مربوط به زمان، یعنی. تشخیص وابستگی که اگر رویداد X رخ دهد، پس از یک زمان مشخص رویداد Y رخ خواهد داد.

6) تجزیه و تحلیل انحرافات - شناسایی بی خاصیت ترین الگوها.

وظایف ذکر شده بر اساس هدف به توصیفی و پیش بینی تقسیم می شوند.

وظایف توصیفی بر بهبود درک داده های مورد تجزیه و تحلیل تمرکز دارند. نکته کلیدی در چنین مدل هایی، سهولت و شفافیت نتایج برای ادراک انسان است. این امکان وجود دارد که الگوهای کشف شده یک ویژگی خاص از داده های خاص مورد مطالعه باشد و در هیچ جای دیگری یافت نشود، اما همچنان می تواند مفید باشد و بنابراین باید شناخته شود. این نوع مشکل شامل خوشه بندی و جستجوی قوانین ارتباط است.

حل مسائل پیش بینی به دو مرحله تقسیم می شود. در مرحله اول، یک مدل بر اساس یک مجموعه داده با نتایج شناخته شده ساخته می شود. در مرحله دوم برای پیش بینی نتایج بر اساس مجموعه داده های جدید استفاده می شود. در این مورد البته لازم است که مدل های ساخته شده تا حد امکان دقیق عمل کنند. به این گونهوظایف شامل وظایف طبقه بندی و رگرسیون است. این همچنین شامل مشکل یافتن قوانین ارتباط است، در صورتی که از نتایج راه حل آن بتوان برای پیش بینی وقوع رویدادهای خاص استفاده کرد.

با توجه به روش های حل مسائل، آنها به یادگیری نظارت شده (یادگیری با معلم) و یادگیری بدون نظارت (یادگیری بدون معلم) تقسیم می شوند. این نام از عبارت Machine Learning (یادگیری ماشینی) گرفته شده است که اغلب در ادبیات انگلیسی زبان استفاده می شود و به تمام فناوری های داده کاوی اشاره دارد.

در مورد یادگیری نظارت شده، مشکل تجزیه و تحلیل داده ها در چند مرحله حل می شود. ابتدا، با استفاده از هر الگوریتم داده کاوی، مدلی از داده های تجزیه و تحلیل شده ساخته می شود - یک طبقه بندی. سپس طبقه بندی کننده آموزش داده می شود. به عبارت دیگر، کیفیت کار آن بررسی می شود و در صورت نامطلوب بودن، طبقه بندی کننده به طور تکمیلی آموزش می بیند. این کار تا زمانی ادامه می یابد که به سطح کیفی مورد نیاز برسد یا مشخص شود که الگوریتم انتخاب شده به درستی با داده ها کار نمی کند یا خود داده ساختاری قابل شناسایی ندارد. این نوع مسائل شامل مسائل طبقه بندی و رگرسیون می شود.

یادگیری بدون نظارت، وظایفی را ترکیب می کند که الگوهای توصیفی را شناسایی می کند، مانند الگوهای خریدهای انجام شده توسط مشتریان در یک فروشگاه بزرگ. بدیهی است که اگر این الگوها وجود داشته باشد، مدل باید آنها را نشان دهد و صحبت از یادگیری آن نامناسب است. از این رو نام - یادگیری بدون نظارت. مزیت چنین مسائلی امکان حل آنها بدون دانش قبلی از داده های تحلیل شده است. اینها شامل خوشه بندی و جستجوی قوانین انجمن است.

مشکل طبقه بندی و رگرسیون

هنگام تجزیه و تحلیل، اغلب لازم است که اشیاء مورد مطالعه به کدام یک از کلاس های شناخته شده تعلق دارند، به عنوان مثال، آنها را طبقه بندی کنیم. به عنوان مثال، وقتی شخصی برای دریافت وام به بانک مراجعه می کند، مسئول بانک باید تصمیم بگیرد که آیا مشتری بالقوه قابل اعتبار است یا خیر. بدیهی است که چنین تصمیمی بر اساس داده های مربوط به شی مورد مطالعه (در این مورد، یک شخص) گرفته می شود: محل کار، اندازه او. دستمزد، سن، ترکیب خانواده و ... در نتیجه تجزیه و تحلیل این اطلاعات، یک کارمند بانک باید فردی را به یکی از دو طبقه شناخته شده "معتبر" و "بی اعتبار" نسبت دهد.

مثال دیگری از کار طبقه بندی، فیلتر کردن ایمیل است. در این حالت، برنامه فیلتر باید پیام دریافتی را به عنوان هرزنامه (ناخواسته) طبقه بندی کند پست الکترونیک) یا به صورت نامه. این تصمیم بر اساس تعداد تکرار کلمات خاص در پیام (به عنوان مثال، نام گیرنده، آدرس غیر شخصی، کلمات و عبارات: خرید، "کسب"، "بهترین پیشنهاد" و غیره) گرفته می شود.

ورود شما را به پورتال داده کاوی خوش آمد می گوییم - پورتالی منحصر به فرد که به روش های مدرن داده کاوی اختصاص دارد.

فناوری های داده کاوی ابزاری قدرتمند برای هوش تجاری مدرن و داده کاوی برای کشف الگوهای پنهان و ساخت مدل های پیش بینی کننده هستند. داده کاوی یا دانش کاوی بر اساس استدلال حدسی نیست، بلکه بر اساس داده های واقعی است.

برنج. 1. طرح کاربرد داده کاوی

تعریف مشکل - تعریف مسئله: طبقه بندی داده ها، تقسیم بندی، ساخت مدل های پیش بینی، پیش بینی.
جمع آوری و آماده سازی داده ها - جمع آوری و آماده سازی داده ها، تمیز کردن، تأیید، حذف سوابق تکراری.
ساختمان مدل - ساخت یک مدل، ارزیابی دقت.
گسترش دانش - استفاده از مدل برای حل مشکل.

داده کاوی برای اجرای پروژه های تحلیلی در مقیاس بزرگ در تجارت، بازاریابی، اینترنت، مخابرات، صنعت، زمین شناسی، پزشکی، داروسازی و سایر زمینه ها استفاده می شود.

داده کاوی به شما اجازه می دهد تا فرآیند یافتن همبستگی ها و روابط مهم را در نتیجه غربال کردن حجم عظیمی از داده ها با استفاده از روش های مدرنتشخیص الگو و استفاده از فناوری‌های تحلیلی منحصربه‌فرد، از جمله درخت‌های تصمیم‌گیری و طبقه‌بندی، خوشه‌بندی، روش‌های شبکه عصبی و غیره.

کاربری که برای اولین بار فناوری داده کاوی را کشف می کند، از فراوانی روش ها و الگوریتم های کارآمدی که امکان یافتن رویکردهایی برای حل مسائل دشوار مربوط به تجزیه و تحلیل حجم زیادی از داده ها را فراهم می کند، شگفت زده می شود.

به طور کلی داده کاوی را می توان به عنوان یک فناوری طراحی شده برای جستجو در مقادیر زیاد داده توصیف کرد. غیر آشکار, هدف، واقعگرایانهو عملا مفیدالگوها

داده کاوی بر اساس روش های موثرو الگوریتم های طراحی شده برای تجزیه و تحلیل داده های بدون ساختار با حجم و ابعاد بزرگ.

نکته کلیدی این است که به نظر می رسد داده های با حجم زیاد و ابعاد زیاد فاقد ساختار و روابط هستند. هدف فناوری داده کاوی شناسایی این ساختارها و یافتن الگوهایی است که در نگاه اول، هرج و مرج و خودسری حاکم است.

در اینجا یک مثال واقعی از کاربرد داده کاوی در صنایع دارویی و دارویی آورده شده است.

تداخلات دارویی مشکل رو به رشدی است که مراقبت های بهداشتی مدرن با آن مواجه است.

با گذشت زمان، تعداد داروهای تجویز شده (بدون نسخه و انواع مکمل ها) افزایش می یابد و این احتمال را بیشتر می کند که تداخل بین داروها می تواند عوارض جانبی جدی ایجاد کند که پزشکان و بیماران از آن بی اطلاع هستند.

این منطقه به مطالعات پس از بالینی اشاره دارد، زمانی که دارو در حال حاضر در بازار است و به طور گسترده مورد استفاده قرار می گیرد.

مطالعات بالینی به ارزیابی اثربخشی دارو اشاره دارد، اما تداخلات این دارو با سایر داروهای موجود در بازار را ضعیف در نظر گرفته است.

محققان دانشگاه استنفورد در کالیفرنیا پایگاه داده FDA (سازمان غذا و دارو) را در مورد عوارض جانبی دارو مورد مطالعه قرار دادند و دریافتند که دو داروی رایج - ضد افسردگی پاروکستین و پراواستاتین که برای کاهش سطح کلسترول استفاده می شود - در صورت مصرف همزمان، خطر ابتلا به دیابت را افزایش می دهند.

یک مطالعه تحلیلی مشابه بر اساس داده های FDA، 47 تداخل نامطلوب ناشناخته قبلی را شناسایی کرد.

این نکته قابل توجه است، با توجه به این نکته که بسیاری از اثرات منفی که توسط بیماران ذکر شده است شناسایی نشده باقی می مانند. فقط در این صورت جستجوی شبکه می تواند خود را به بهترین شکل نشان دهد.

دوره های آینده داده کاوی در آکادمی تحلیل داده StatSoft در سال 2020

آشنایی خود را با داده کاوی با استفاده از ویدیوهای فوق العاده آکادمی تحلیل داده ها آغاز می کنیم.

حتما ویدیوهای ما را تماشا کنید و متوجه خواهید شد که داده کاوی چیست!

ویدئو 1. داده کاوی چیست؟


ویدئو 2: بررسی اجمالی داده کاوی: درختان تصمیم، مدل های پیش بینی تعمیم یافته، خوشه بندی، و موارد دیگر

جاوا اسکریپت در مرورگر شما غیرفعال است


قبل از شروع یک پروژه تحقیقاتی، باید فرآیند به دست آوردن داده ها از منابع خارجی را سازماندهی کنیم، اکنون نشان خواهیم داد که چگونه این کار انجام می شود.

ویدیو شما را با آن آشنا می کند تکنولوژی منحصر به فرد آمارپردازش در محل پایگاه داده و اتصال داده کاوی با داده های واقعی.

ویدئو 3. ترتیب تعامل با پایگاه های داده: یک رابط گرافیکی برای ساخت پرس و جوهای SQL فناوری پردازش پایگاه داده در محل

جاوا اسکریپت در مرورگر شما غیرفعال است


اکنون با فناوری های حفاری تعاملی که در انجام تحلیل داده های اکتشافی موثر هستند آشنا می شویم. اصطلاح حفاری خود نشان دهنده ارتباط بین فناوری داده کاوی و اکتشافات زمین شناسی است.

ویدئو 4. حفاری تعاملی: روش‌های اکتشاف و نموداری برای اکتشاف داده‌های تعاملی

جاوا اسکریپت در مرورگر شما غیرفعال است


اکنون با تجزیه و تحلیل انجمن ها (قوانین انجمن) آشنا می شویم، این الگوریتم ها به شما امکان می دهند روابطی را که در داده های واقعی وجود دارد پیدا کنید. نکته کلیدی کارایی الگوریتم ها در حجم زیاد داده است.

نتیجه الگوریتم های تحلیل پیوند، به عنوان مثال، الگوریتم Apriori، یافتن قوانین پیوندهای اشیاء مورد مطالعه با قابلیت اطمینان معین، به عنوان مثال، 80٪ است.

در زمین شناسی، این الگوریتم ها را می توان در تجزیه و تحلیل اکتشافی کانی ها به کار برد، به عنوان مثال، چگونگی ارتباط ویژگی A با ویژگی های B و C.

میتونی پیدا کنی نمونه های عینیچنین راه حل هایی در پیوندهای ما:

در خرده فروشی، الگوریتم های Apriori یا اصلاحات آنها به شما امکان می دهد تا رابطه محصولات مختلف را بررسی کنید، به عنوان مثال، هنگام فروش عطر (عطر - لاک - ریمل و غیره) یا محصولات مارک های مختلف.

تجزیه و تحلیل جالب ترین بخش های سایت نیز می تواند به طور موثر با استفاده از قوانین انجمن انجام شود.

پس ویدیوی بعدی ما را ببینید.

ویدئو 5. قوانین انجمن

جاوا اسکریپت در مرورگر شما غیرفعال است

اجازه دهید مثال هایی از کاربرد داده کاوی در زمینه های خاص ارائه دهیم.

تجارت اینترنتی:

  • تجزیه و تحلیل مسیرهای مشتری از بازدید از سایت تا خرید کالا
  • ارزیابی کارایی خدمات، تجزیه و تحلیل خرابی های ناشی از کمبود کالا
  • پیوند دادن محصولاتی که مورد علاقه بازدیدکنندگان است

خرده فروشی: تجزیه و تحلیل اطلاعات مشتری بر اساس کارت های اعتباری، کارت های تخفیف و غیره

وظایف خرده فروشی معمولی که با ابزارهای داده کاوی حل می شوند:

  • تجزیه و تحلیل سبد خرید;
  • ایجاد مدل های پیش بینیو مدل های طبقه بندی خریداران و کالاهای خریداری شده؛
  • ایجاد پروفایل های خریدار؛
  • CRM، ارزیابی وفاداری مشتری در دسته های مختلف، برنامه ریزی برنامه های وفاداری؛
  • تحقیق سری زمانیو وابستگی های زمانی، انتخاب عوامل فصلی، ارزیابی اثربخشی تبلیغات بر روی طیف وسیعی از داده های واقعی.

بخش مخابرات فرصت های نامحدودی را برای استفاده از روش های داده کاوی و همچنین ارائه می دهد فن آوری های مدرناطلاعات بزرگ:

  • طبقه بندی مشتریان بر اساس ویژگی های کلیدی تماس ها (فرکانس، مدت زمان و غیره)، فرکانس پیامک;
  • شناسایی وفاداری مشتری;
  • تعریف کلاهبرداری و غیره

بیمه:

  • تحلیل ریسک. با شناسایی ترکیبی از عوامل مرتبط با خسارت های پرداخت شده، بیمه گذاران می توانند زیان های بدهی خود را کاهش دهند. یک مورد شناخته شده وجود دارد که یک شرکت بیمه متوجه شد مبالغ پرداخت شده بابت درخواست افراد متاهل دو برابر مبلغ درخواست افراد مجرد است. این شرکت با تجدید نظر در سیاست تخفیف خود برای مشتریان خانوادگی به این امر پاسخ داد.
  • تشخیص تقلب. شرکت‌های بیمه می‌توانند با جستجوی کلیشه‌هایی در دعاوی ادعایی که روابط بین وکلا، پزشکان و مدعیان را مشخص می‌کند، تقلب را کاهش دهند.

کاربرد عملی داده کاوی و حل مشکلات خاص در ویدیوی بعدی ما ارائه شده است.

وبینار 1. وبینار "وظایف عملی داده کاوی: مشکلات و راه حل ها"

جاوا اسکریپت در مرورگر شما غیرفعال است

وبینار 2. وبینار "داده کاوی و متن کاوی: نمونه هایی از حل مسائل واقعی"

جاوا اسکریپت در مرورگر شما غیرفعال است


در دوره های StatSoft می توانید دانش عمیق تری در مورد روش و فناوری داده کاوی کسب کنید.

ابزارهای داده کاوی

در حال حاضر، فناوری داده کاوی توسط تعدادی از محصولات نرم افزاری تجاری و آزادانه ارائه شده است. لیست نسبتاً کامل و مرتباً به روز شده این محصولات را می توان در وب سایت یافت. www. kdnuggets. com, اختصاص داده شده به داده کاوی شما می توانید محصولات نرم افزاری داده کاوی را بر اساس همان اصولی که زیربنای طبقه بندی خود فناوری است طبقه بندی کنید. با این حال، چنین طبقه بندی ارزش عملی نخواهد داشت. به دلیل رقابت زیاد در بازار و تمایل به کامل بودن راه حل های فنی، بسیاری از محصولات داده کاوی به معنای واقعی کلمه تمام جنبه های کاربرد فناوری های تحلیلی را پوشش می دهند. بنابراین، طبقه بندی محصولات داده کاوی با توجه به نحوه پیاده سازی آنها و بر این اساس، چه پتانسیل یکپارچه سازی را ارائه می دهند، مصلحت تر است. بدیهی است که این نیز یک قرارداد است، زیرا چنین معیاری به ما اجازه نمی دهد که مرزهای واضحی بین محصولات ترسیم کنیم. با این حال، این طبقه بندی یک مزیت غیرقابل انکار دارد. این به شما امکان می دهد هنگام شروع پروژه ها در زمینه تجزیه و تحلیل داده ها، توسعه سیستم های پشتیبانی تصمیم، ایجاد انبارهای داده و غیره به سرعت در مورد انتخاب یک یا راه حل آماده دیگر تصمیم بگیرید.

بنابراین، محصولات داده کاوی را می توان به طور مشروط به سه دسته کلی تقسیم کرد:

    شامل، به عنوان بخشی جدایی ناپذیر، در سیستم های مدیریت پایگاه داده.

    کتابخانه های الگوریتم های داده کاوی با زیرساخت های مرتبط.

    راه حل های جعبه ای یا دسکتاپ ("جعبه های سیاه").

محصولات دو دسته اول بیشترین فرصت ها را برای ادغام فراهم می کنند و به شما امکان می دهند پتانسیل تحلیلی را تقریباً در هر برنامه کاربردی در هر زمینه ای درک کنید. برنامه های کاربردی جعبه ای، به نوبه خود، ممکن است برخی از پیشرفت های منحصر به فرد داده کاوی را ارائه دهند یا برای یک برنامه خاص تخصصی شوند. با این حال، در بیشتر موارد، ادغام آنها در راه حل های گسترده تر مشکل ساز است.

گنجاندن قابلیت های تحلیلی در سیستم های مدیریت پایگاه داده تجاری یک روند طبیعی با پتانسیل بسیار زیاد است. در واقع، اگر در مکان‌های تمرکز داده‌ها نباشد، قرار دادن ابزار پردازش آنها منطقی‌تر است. بر اساس این اصل، عملکرد داده کاوی در حال حاضر در پایگاه های داده تجاری زیر پیاده سازی می شود:

    مایکروسافت SQL Server

نکات اصلی

  • داده کاوی به شما این امکان را می دهد که به طور خودکار، بر اساس مقدار زیادی از داده های انباشته شده، فرضیه هایی ایجاد کنید که می توانند توسط سایر ابزارهای تجزیه و تحلیل (به عنوان مثال، OLAP) آزمایش شوند.

    داده کاوی - تحقیق و شناسایی توسط یک ماشین (الگوریتم ها، هوش مصنوعی) در داده های خام دانش پنهان که قبلاً شناخته شده نبوده، غیر پیش پا افتاده، عملاً مفید و قابل دسترسی برای تفسیر انسان است.

    سه کار اصلی با روش های داده کاوی حل می شود: مشکل طبقه بندی و رگرسیون، مشکل یافتن قوانین ارتباط و مشکل خوشه بندی. بر اساس هدف، آنها به توصیفی و پیش بینی تقسیم می شوند. با توجه به روش های حل مسائل، آنها به یادگیری نظارت شده (یادگیری با معلم) و یادگیری بدون نظارت (یادگیری بدون معلم) تقسیم می شوند.

    وظیفه طبقه بندی و رگرسیون به تعیین مقدار متغیر وابسته یک شی توسط متغیرهای مستقل آن کاهش می یابد. اگر متغیر وابسته مقادیر عددی به خود بگیرد، آنگاه از یک مشکل رگرسیونی صحبت می‌کنیم، در غیر این صورت مشکل طبقه‌بندی است.

    هنگام جستجوی قوانین ارتباط، هدف یافتن وابستگی‌ها (یا تداعی‌های) مکرر بین اشیا یا رویدادها است. وابستگی های یافت شده در قالب قوانین ارائه می شوند و می توانند هم برای درک بهتر ماهیت داده های تحلیل شده و هم برای پیش بینی رویدادها استفاده شوند.

    وظیفه خوشه بندی جستجوی گروه های مستقل (خوشه ها) و ویژگی های آنها در کل مجموعه داده های تحلیل شده است. حل این مشکل به درک بهتر داده ها کمک می کند. علاوه بر این، گروه بندی اشیاء همگن باعث کاهش تعداد آنها و در نتیجه تسهیل تجزیه و تحلیل می شود.

    روش های داده کاوی در تقاطع حوزه های مختلف فناوری اطلاعات قرار دارند: آمار، شبکه های عصبی، مجموعه های فازی، الگوریتم های ژنتیک و غیره.

    تجزیه و تحلیل فکری شامل مراحل زیر است: درک و فرمول بندی مسئله تجزیه و تحلیل، آماده سازی داده ها برای تجزیه و تحلیل خودکار، استفاده از روش های داده کاوی و ساخت مدل ها، بررسی مدل های ساخته شده، تفسیر مدل ها توسط شخص.

    قبل از اعمال روش های داده کاوی، داده های اصلی باید تبدیل شوند. نوع تبدیل بستگی به روش های اعمال شده دارد.

    روش های داده کاوی را می توان به طور موثر در زمینه های مختلف فعالیت های انسانی مورد استفاده قرار داد: در تجارت، پزشکی، علم، مخابرات و غیره.

3. تجزیه و تحلیل اطلاعات متن - متن کاوی

تجزیه و تحلیل اطلاعات ساختاریافته ذخیره شده در پایگاه های داده نیاز به پردازش اولیه دارد: طراحی پایگاه داده، ورود اطلاعات بر اساس قوانین خاص، قرار دادن آن در ساختارهای خاص (مثلاً جداول رابطه ای) و غیره. بنابراین، به طور مستقیم این اطلاعات را تجزیه و تحلیل کنید و از آن دانش جدید به دست آورید. تلاش بیشتری می طلبد با این حال، آنها همیشه با تجزیه و تحلیل همراه نیستند و لزوماً منجر به نتیجه مطلوب نمی شوند. به همین دلیل، کارایی تجزیه و تحلیل اطلاعات ساختاریافته کاهش می یابد. علاوه بر این، همه انواع داده ها را نمی توان بدون از دست دادن ساختار داد اطلاعات مفید. برای مثال، تبدیل اسناد متنی به نمای جدولی بدون از دست دادن معنای متن و روابط بین موجودیت ها تقریباً غیرممکن است. به همین دلیل، چنین اسنادی مانند فیلدهای متنی (فیلدهای BLOB) بدون تغییر در پایگاه داده ذخیره می شوند. در عین حال، حجم عظیمی از اطلاعات در متن پنهان است، اما ماهیت بدون ساختار آن اجازه استفاده از الگوریتم های داده کاوی را نمی دهد. راه حل این مشکل روش های تحلیل متن بدون ساختار است. در ادبیات غرب به چنین تحلیلی، متن کاوی می گویند.

روش های تحلیل در متون بدون ساختار در تقاطع چندین حوزه قرار دارند: داده کاوی، پردازش زبان طبیعی، بازیابی اطلاعات، استخراج اطلاعات و مدیریت دانش.

تعریف متن کاوی: کشف دانش در متن فرآیند غیر پیش پا افتاده کشف الگوهای واقعا جدید، بالقوه مفید و قابل درک در داده های متنی بدون ساختار است.

همانطور که می بینید، تنها با مفهوم جدید "داده های متنی بدون ساختار" با تعریف داده کاوی متفاوت است. چنین دانشی به عنوان مجموعه ای از اسناد درک می شود که متنی منطقی ترکیب شده بدون هیچ گونه محدودیتی در ساختار آن است. نمونه هایی از این اسناد عبارتند از: صفحات وب، ایمیل، اسناد نظارتی و غیره. مورد B مورد کلیچنین اسنادی می توانند پیچیده و بزرگ باشند و نه تنها متن، بلکه اطلاعات گرافیکی را نیز در بر گیرند. اسنادی که از زبان نشانه گذاری توسعه پذیر (XML)، زبان نشانه گذاری تعمیم یافته استاندارد (SGML) و سایر قراردادهای ساختار متن مشابه استفاده می کنند، اسناد نیمه ساختاریافته نامیده می شوند. آنها همچنین می توانند با روش های Text Mining پردازش شوند.

فرآیند تجزیه و تحلیل اسناد متنی را می توان به صورت دنباله ای از چندین مرحله نشان داد

    جستجو برای اطلاعات اولین قدم این است که مشخص کنید کدام اسناد نیاز به بررسی دارند و آنها را در دسترس قرار دهید. به عنوان یک قاعده، کاربران می توانند مجموعه اسناد مورد تجزیه و تحلیل را به صورت دستی تعیین کنند، اما با تعداد زیادی اسناد، لازم است از گزینه های انتخاب خودکار با توجه به معیارهای مشخص شده استفاده شود.

    پیش پردازش سند در این مرحله ساده ترین اما ضروری ترین تبدیل ها با اسناد انجام می شود تا به شکلی که روش های Text Mining با آن کار می کنند ارائه شوند. هدف از این گونه دگرگونی ها حذف کلمات غیر ضروری و دادن فرم دقیق تر به متن است. روش های پیش پردازش با جزئیات بیشتر در بخش توضیح داده خواهد شد.

    استخراج اطلاعات استخراج اطلاعات از اسناد منتخب شامل برجسته کردن مفاهیم کلیدی در آنها است که تجزیه و تحلیل بیشتر روی آنها انجام خواهد شد.

کاربرد روش های متن کاوی در این مرحله الگوها و روابطی که در متون وجود دارد استخراج می شود. این مرحله اصلی ترین مرحله در فرآیند تحلیل متن است و وظایف عملی در این مرحله حل می شود.

تفسیر نتایج. آخرین مرحله در فرآیند کشف دانش شامل تفسیر نتایج است. به عنوان یک قاعده، تفسیر شامل ارائه نتایج به زبان طبیعی یا تجسم آنها به شکل گرافیکی است.

تجسم همچنین می تواند به عنوان یک ابزار تجزیه و تحلیل متن استفاده شود. برای این کار مفاهیم کلیدی استخراج می شوند که به صورت گرافیکی ارائه می شوند. این رویکرد به کاربر کمک می کند تا به سرعت موضوعات و مفاهیم اصلی را شناسایی کند و همچنین اهمیت آنها را مشخص کند.

پیش پردازش متن

یکی از مشکلات اصلی تحلیل متن، تعداد زیاد کلمات در یک سند است. اگر هر یک از این کلمات مورد تجزیه و تحلیل قرار گیرند، زمان جستجو برای دانش جدید به طور چشمگیری افزایش می یابد و به سختی نیازهای کاربران را برآورده می کند. در عین حال، بدیهی است که همه کلمات در متن حاوی اطلاعات مفیدی نیستند. علاوه بر این، به دلیل انعطاف پذیری زبان های طبیعی، به طور رسمی کلمات مختلف (مترادف و غیره) در واقع به معنای مفاهیم مشابه هستند. بنابراین حذف کلمات غیر آموزنده و همچنین کاهش کلماتی که از نظر معنی مشابه به یک فرم واحد هستند، زمان تحلیل متن را به میزان قابل توجهی کاهش می دهد. حذف مشکلات توصیف شده در مرحله پیش پردازش متن انجام می شود.

روش های زیر معمولا برای حذف کلمات غیر آموزنده و افزایش شدت متون استفاده می شود:

    حذف کلمات توقف کلمات توقف کلماتی هستند که کمکی هستند و اطلاعات کمی در مورد محتوای سند دارند.

    Stamming - جستجوی ریخت شناسی. این شامل تبدیل هر کلمه به شکل عادی آن است.

    L-gram جایگزینی برای تجزیه مورفولوژیکی و حذف کلید واژه است. آنها اجازه می دهند متن را سخت تر کنند، مشکل کاهش تعداد کلمات غیر آموزنده را حل نمی کنند.

    ثبت نام بازیگران این ترفند تبدیل تمام کاراکترها به حروف بزرگ یا کوچک است.

موثرترین ترکیب این روش ها.

وظایف متن کاوی

در حال حاضر، بسیاری از مسائل کاربردی در ادبیات شرح داده شده است که با استفاده از تجزیه و تحلیل اسناد متنی قابل حل است. اینها وظایف کلاسیک داده کاوی هستند: طبقه بندی، خوشه بندی، و وظایف معمول فقط برای اسناد متنی: حاشیه نویسی خودکار، استخراج مفاهیم کلیدی و غیره.

طبقه بندی یک کار استاندارد از حوزه داده کاوی است. هدف آن تعریف برای هر سند یک یا چند دسته از پیش تعریف شده است که سند به آن تعلق دارد. یکی از ویژگی‌های مشکل طبقه‌بندی این فرض است که مجموعه اسناد طبقه‌بندی‌شده حاوی «زباله» نیست، یعنی هر یک از اسناد مربوط به دسته‌بندی خاصی است.

یک مورد خاص از مشکل طبقه بندی، وظیفه تعیین موضوع یک سند است.

هدف از خوشه‌بندی اسناد شناسایی خودکار گروه‌هایی از اسناد معنایی مشابه در میان یک مجموعه ثابت معین است. توجه داشته باشید که گروه ها فقط بر اساس شباهت زوجی توضیحات اسناد تشکیل می شوند و هیچ ویژگی این گروه ها از قبل مشخص نشده است.

حاشیه نویسی خودکار (خلاصه سازی) به شما امکان می دهد متن را با حفظ معنای آن کوتاه کنید. راه حل این مشکل معمولا توسط کاربر با تعیین تعداد جملاتی که باید استخراج شود یا درصد متنی که باید استخراج شود نسبت به کل متن کنترل می شود. نتیجه شامل مهمترین جملات در متن است.

هدف اصلی استخراج ویژگی، شناسایی حقایق و روابط در یک متن است. در بیشتر موارد، چنین مفاهیمی اسامی و اسامی مشترک هستند: نام و نام خانوادگی افراد، نام سازمان ها و غیره. الگوریتم های استخراج مفهوم می توانند از فرهنگ لغت برای شناسایی برخی اصطلاحات و الگوهای زبانی برای تعریف برخی دیگر استفاده کنند.

پیمایش مبتنی بر متن به کاربران امکان می دهد در اسناد در ارتباط با موضوعات و اصطلاحات مهم حرکت کنند. این کار با شناسایی مفاهیم کلیدی و برخی روابط بین آنها انجام می شود.

تجزیه و تحلیل روند به شما امکان می دهد روندها را در مجموعه اسناد در یک دوره زمانی مشخص شناسایی کنید. برای مثال می توان از یک روند برای تشخیص تغییرات در منافع یک شرکت از یک بخش بازار به بخش دیگر استفاده کرد.

جستجوی انجمن ها نیز یکی از وظایف اصلی داده کاوی است. برای حل آن، در یک مجموعه معین از اسناد، روابط انجمنی بین مفاهیم کلیدی شناسایی می شود.

تعداد نسبتاً زیادی از انواع این مشکلات و همچنین روش هایی برای حل آنها وجود دارد. این یک بار دیگر اهمیت تحلیل متن را تایید می کند. بقیه این فصل راه حل هایی را برای وظایف زیر مورد بحث قرار می دهد: استخراج مفهوم کلیدی، طبقه بندی، خوشه بندی، و حاشیه نویسی خودکار.

طبقه بندی اسناد متنی

طبقه بندی اسناد متنی، و همچنین در مورد طبقه بندی اشیاء، شامل تخصیص یک سند به یکی از کلاس های شناخته شده قبلی است. اغلب، طبقه‌بندی در رابطه با اسناد متنی را دسته‌بندی یا روبریکاسیون می‌گویند. بدیهی است که این نام ها از وظیفه سازماندهی اسناد به کاتالوگ ها، دسته ها و سرفصل ها آمده است. در این حالت، ساختار دایرکتوری می تواند تک سطحی یا چند سطحی (سلسله مراتبی) باشد.

به طور رسمی، وظیفه طبقه بندی اسناد متنی توسط مجموعه ای از مجموعه ها توصیف می شود.

در مسئله طبقه بندی، لازم است رویه ای بر اساس این داده ها ساخته شود که شامل یافتن محتمل ترین دسته از مجموعه C برای سند مورد مطالعه است.

اکثر روش‌های طبقه‌بندی متن به نوعی مبتنی بر این فرض است که اسناد متعلق به یک دسته دارای ویژگی‌های یکسانی (کلمات یا عبارات) هستند و وجود یا عدم وجود چنین ویژگی‌هایی در یک سند نشان‌دهنده تعلق یا عدم تعلق آن به یک موضوع خاص است.

چنین مجموعه ای از ویژگی ها را اغلب فرهنگ لغت می نامند، زیرا شامل واژگانی است که شامل کلمات و/یا عباراتی است که مشخصه یک مقوله است.

لازم به ذکر است که این مجموعه از ویژگی ها ویژگی متمایز طبقه بندی اسناد متنی از طبقه بندی اشیاء در داده کاوی هستند که با مجموعه ای از ویژگی ها مشخص می شوند.

تصمیم به اختصاص سند d به دسته ج بر اساس تلاقی ویژگی های مشترک گرفته می شود

وظیفه روش‌های طبقه‌بندی این است که چنین ویژگی‌هایی را به بهترین شکل ممکن انتخاب کنند و قوانینی را تدوین کنند که بر اساس آن تصمیم‌گیری برای اختصاص یک سند به یک روبریک گرفته شود.

ابزارهای تحلیل اطلاعات متنی

    Oracle Tools - Oracle Text2

با شروع Oracle 7.3.3، ابزارهای تجزیه و تحلیل متن بخشی جدایی ناپذیر از محصولات اوراکل هستند. در اوراکل، این ابزارها نام جدیدی را توسعه داده و دریافت کرده اند - Oracle Text - یک بسته نرم افزاری ادغام شده در DBMS که به شما امکان می دهد به طور موثر با پرس و جوهای مربوط به متون بدون ساختار کار کنید. در عین حال، پردازش متن با قابلیت هایی که برای کار با پایگاه های داده رابطه ای در اختیار کاربر قرار می گیرد، ترکیب می شود. به ویژه، هنگام نوشتن برنامه های کاربردی برای پردازش کلمه، استفاده از SQL امکان پذیر شد.

وظیفه اصلی که ابزار Oracle Text در نظر گرفته شده است، جستجوی اسناد بر اساس محتوای آنها است - با کلمات یا عبارات، که در صورت لزوم با استفاده از عملیات Boolean ترکیب می شوند. نتایج جستجو بر اساس اهمیت، با در نظر گرفتن فراوانی وقوع کلمات پرس و جو در اسناد یافت شده رتبه بندی می شوند.

    وجوه از IBM - Intelligent Miner for Text1

محصول IBM Intelligent Miner for Text مجموعه ای از ابزارهای مجزا است که از آن راه اندازی شده است خط فرمانیا از اسکریپت ها به طور مستقل. این سیستم شامل ترکیبی از برخی ابزارها برای حل مشکلات تجزیه و تحلیل اطلاعات متنی است.

IBM Intelligent Miner for Text مجموعه‌ای از ابزارهای قدرتمند را با هم ترکیب می‌کند که اساساً مبتنی بر مکانیسم‌های بازیابی اطلاعات است که مختص کل محصول است. این سیستم شامل تعدادی مؤلفه اساسی است که ارزش مستقلی خارج از فناوری متن کاوی دارند:

    موسسه SAS - ابزار استخراج متن

مؤسسه آمریکایی SAS سیستم SAS Text Miner را برای مقایسه توالی‌های دستوری و کلامی خاص در گفتار نوشتاری منتشر کرده است. Text Miner بسیار متنوع است، زیرا می تواند با اسناد متنی با فرمت های مختلف - در پایگاه داده ها، سیستم های فایل و سپس در وب کار کند.

Text Miner پردازش متن منطقی را در محیط بسته SAS Enterprise Miner فراهم می کند. این به کاربران اجازه می دهد تا فرآیند تجزیه و تحلیل داده ها را با ادغام اطلاعات متنی بدون ساختار با داده های ساختاری موجود مانند سن، درآمد و الگوهای خرید غنی کنند.

نکات اصلی

    کشف دانش در متن فرآیندی غیر پیش پا افتاده برای کشف الگوهای واقعا جدید، بالقوه مفید و قابل درک در داده های متنی بدون ساختار است.

    فرآیند تجزیه و تحلیل اسناد متنی را می توان به صورت دنباله ای از چندین مرحله نشان داد: جستجو برای اطلاعات، پیش پردازش اسناد، استخراج اطلاعات، کاربرد روش های متن کاوی، تفسیر نتایج.

    معمولاً برای حذف کلمات غیر آموزنده و افزایش شدت متون از روش های زیر استفاده می شود: حذف کلمات توقف، ریشه، ال گرم، کاهش حروف.

    وظایف تحلیل اطلاعات متنی عبارتند از: طبقه بندی، خوشه بندی، حاشیه نویسی خودکار، استخراج مفاهیم کلیدی، پیمایش متن، تحلیل روند، جستجوی انجمن و غیره.

    استخراج مفاهیم کلیدی از متون را می توان هم به عنوان یک کار کاربردی مجزا و هم به عنوان مرحله جداگانه ای از تحلیل متن در نظر گرفت. در مورد اخیر، از حقایق استخراج شده از متن برای حل مسائل مختلف تحلیل استفاده می شود.

    فرآیند استخراج مفاهیم کلیدی با استفاده از الگوها در دو مرحله انجام می شود: در مرحله اول، حقایق فردی با استفاده از تحلیل واژگانی از اسناد متنی استخراج می شوند، در مرحله دوم، ادغام واقعیت های استخراج شده و / یا استخراج حقایق جدید. انجام می شود.

    اکثر روش‌های طبقه‌بندی متن به نوعی مبتنی بر این فرض است که اسناد متعلق به یک دسته دارای ویژگی‌های یکسانی (کلمات یا عبارات) هستند و وجود یا عدم وجود چنین ویژگی‌هایی در یک سند نشان‌دهنده تعلق یا عدم تعلق آن به یک موضوع خاص است.

    اکثر الگوریتم‌های خوشه‌بندی نیاز دارند که داده‌ها به‌عنوان یک مدل فضای برداری نمایش داده شوند، که به طور گسترده برای بازیابی اطلاعات استفاده می‌شود و از یک استعاره برای نشان دادن شباهت معنایی به عنوان مجاورت فضایی استفاده می‌کند.

    دو رویکرد اصلی برای حاشیه نویسی خودکار اسناد متنی وجود دارد: استخراج (برجسته کردن مهمترین قطعات) و تعمیم (با استفاده از دانش از پیش جمع آوری شده).

نتیجه

داده کاوی یکی از مرتبط ترین و محبوب ترین حوزه های ریاضیات کاربردی است. فرآیندهای کسب و کار و تولید امروزی حجم عظیمی از داده ها را تولید می کنند، و تفسیر و واکنش به مقدار زیادی از داده ها که به طور پویا در زمان اجرا تغییر می کنند، برای افراد به طور فزاینده ای دشوار می شود، بدون اینکه به جلوگیری از موقعیت های بحرانی اشاره کنیم. "داده کاوی" برای استخراج حداکثر دانش مفید از داده های چند بعدی، ناهمگن، ناقص، نادرست، متناقض، غیر مستقیم. اگر مقدار داده بر حسب گیگابایت یا حتی ترابایت اندازه گیری شود، به انجام کارآمد این کار کمک می کند. به ساخت الگوریتم هایی کمک می کند که بتوانند تصمیم گیری در زمینه های مختلف حرفه ای را یاد بگیرند.

داده کاوی با تبدیل داده های عملیاتی به اطلاعات مفید، از اضافه بار اطلاعات افراد جلوگیری می کند تا اقدامات درست در زمان های مناسب انجام شود.

توسعه های کاربردی در زمینه های زیر انجام می شود: پیش بینی در سیستم های اقتصادی. اتوماسیون تحقیقات بازاریابی و تجزیه و تحلیل محیط های مشتری برای شرکت های تولیدی، تجاری، مخابراتی و اینترنتی؛ اتوماسیون تصمیم گیری اعتباری و ارزیابی ریسک اعتباری؛ نظارت بر بازارهای مالی؛ سیستم های معاملاتی اتوماتیک

کتابشناسی - فهرست کتب

    فن آوری های تجزیه و تحلیل داده ها: داده کاوی. استخراج بصری متن کاوی، OLAP» A. A. Barseghyan. M. S. Kupriyanov، V. V. Stenanenko، I. I. Kholod. - ویرایش دوم، تجدید نظر شده. و اضافی

    http://inf.susu.ac.ru/~pollak/expert/G2/g2.htm - مقاله اینترنتی

    http://www.piter.com/contents/978549807257/978549807257_p.pdf - فن آوری های تجزیه و تحلیل داده ها

    پایان نامه >> بانکداری

    وام گیرنده با استفاده از خوشه، شفاهی تحلیل و بررسی، عوامل تعدیل و ... همچنین ... اعتبار وام گیرنده بر اساس پر فکر تحلیل و بررسیداده کاوی (با ... در مرحله اولیه تحلیل و بررسیبرگزار شد تحلیل و بررسیسرمایه شخصی و ...

  1. تحلیل و بررسیو طبقه بندی بازار مدرن سیستم های اطلاعاتی که اختیاری را پیاده سازی می کنند

    چکیده >> انفورماتیک

    1.3 تمایز نقش 6 2. مقایسه ای تحلیل و بررسی انواع مختلفسیستم 7 سیستم عامل... سیستم ها از جمله: تحلیل و بررسیسیاست های امنیتی و ویژگی های آنها، ... برنامه های کاربردی و یا پیاده سازی بیشتر پر فکر تحلیل و بررسیداده ها. بعلاوه...

  2. پر فکرتوانایی های کودکان تیزهوش در رابطه با عملکرد مدرسه

    پایان نامه >> روانشناسی

    رابطه عملکرد تحصیلی و ویژگی ها پر فکرتوسعه. بر اساس نظری تحلیل و بررسیمشکل تحقیق ... به عقل بدون تحلیل و بررسیساختار روانی او تعیین کننده برای ارزیابی پر فکرتوانایی است...

شبکه های عصبی مصنوعی، الگوریتم های ژنتیک، برنامه ریزی تکاملی، حافظه انجمنی، منطق فازی. روش های داده کاوی اغلب شامل روش های آماری(تحلیل توصیفی، تحلیل همبستگی و رگرسیون، تحلیل عاملی، تحلیل واریانس، تحلیل مؤلفه ها، تحلیل تمایز، تحلیل سری های زمانی). با این حال، چنین روش‌هایی به برخی ایده‌های پیشینی در مورد داده‌های مورد تجزیه و تحلیل نیاز دارند، که تا حدودی با اهداف در تضاد است. داده کاوی(تشخیص دانش غیر پیش پا افتاده و عملاً مفید ناشناخته قبلی).

یکی از مهمترین اهداف روش های داده کاوی، تجسم نتایج محاسبات است که امکان استفاده از ابزارهای داده کاوی را توسط افرادی که آموزش ریاضی خاصی ندارند، میسر می سازد. در عین حال، استفاده از روش های آماری برای تجزیه و تحلیل داده ها مستلزم تسلط خوب بر نظریه احتمال و آمار ریاضی است.

معرفی

روش های داده کاوی (یا به طور معادل، به اختصار، KDD، کشف دانش در داده) در محل تلاقی پایگاه های داده، آمار و هوش مصنوعی قرار دارند.

انحراف تاریخی

حوزه داده کاوی با کارگاهی که توسط گریگوری پیاتتسکی-شاپیرو در سال 1989 برگزار شد آغاز شد.

پیش از این، زمانی که در آزمایشگاه GTE کار می کرد، گریگوری پیاتتسکی-شاپیرو به این سوال علاقه مند شد: آیا می توان به طور خودکار قوانین خاصی را برای سرعت بخشیدن به برخی از پرس و جوها در پایگاه های داده بزرگ پیدا کرد. در همان زمان، دو اصطلاح پیشنهاد شد - داده کاوی ("داده کاوی") و کشف دانش در داده (که باید به عنوان "کشف دانش در پایگاه داده" ترجمه شود).

فرمول بندی مسئله

در ابتدا، وظیفه به شرح زیر تنظیم می شود:

  • یک پایگاه داده نسبتاً بزرگ وجود دارد.
  • فرض بر این است که مقداری "دانش پنهان" در پایگاه داده وجود دارد.

توسعه روش هایی برای کشف دانش پنهان در حجم زیادی از داده های اولیه "خام" ضروری است.

«دانش پنهان» به چه معناست؟ باید آگاهی از:

  • قبلاً ناشناخته - یعنی چنین دانشی که باید جدید باشد (و هیچ اطلاعات دریافت شده قبلی را تأیید نمی کند).
  • غیر بی اهمیت - یعنی مواردی که به سادگی قابل مشاهده نیستند (با تجزیه و تحلیل بصری مستقیم داده ها یا هنگام محاسبه ویژگی های آماری ساده).
  • عملاً مفید - یعنی دانشی که برای محقق یا مصرف کننده ارزش دارد.
  • قابل دسترسی برای تفسیر - یعنی دانشی که به راحتی به صورت تصویری برای کاربر ارائه می شود و از نظر حوزه موضوعی به راحتی قابل توضیح است.

این الزامات تا حد زیادی ماهیت روش های داده کاوی را تعیین می کند و فناوری داده کاوی در چه شکل و نسبتی از سیستم های مدیریت پایگاه داده، روش ها و روش های تجزیه و تحلیل آماری استفاده می کند. هوش مصنوعی.

داده کاوی و پایگاه داده

روش های داده کاوی فقط برای پایگاه های داده به اندازه کافی بزرگ کاربرد دارند. هر حوزه خاصی از تحقیق معیار خاص خود را برای "عظمت" پایگاه داده دارد.

توسعه فن آوری های پایگاه داده ابتدا منجر به ایجاد یک زبان تخصصی - زبان پرس و جو پایگاه داده شد. برای پایگاه های داده رابطه ای، این زبان SQL است که ارائه شده است فرصت های گستردهبرای ایجاد، اصلاح و بازیابی داده های ذخیره شده. سپس نیاز به به دست آوردن اطلاعات تحلیلی (به عنوان مثال، اطلاعات مربوط به فعالیت های یک شرکت برای یک دوره معین) وجود داشت، و سپس معلوم شد که پایگاه های داده سنتی رابطه ای، به عنوان مثال، برای نگهداری سوابق عملیاتی (در یک شرکت) به خوبی سازگار شده اند. ) برای تحلیل مناسب نیستند. این به نوبه خود منجر به ایجاد به اصطلاح. "ذخیره های داده"، که ساختار آن به بهترین شکل ممکنمربوط به یک تحلیل ریاضی جامع است.

داده کاوی و آمار

روش های داده کاوی مبتنی بر روش های ریاضی پردازش داده ها از جمله روش های آماری است. در راه حل های صنعتی، اغلب، چنین روش هایی به طور مستقیم در بسته های داده کاوی گنجانده می شوند. با این حال، باید در نظر داشت که محققان اغلب به‌طور غیرمنطقی از آزمون‌های پارامتریک به جای آزمون‌های ناپارامتریک برای ساده‌سازی استفاده می‌کنند و ثانیاً تفسیر نتایج تجزیه و تحلیل دشوار است که کاملاً با اهداف و اهداف داده‌کاوی مغایرت دارد. . با این حال، از روش های آماری استفاده می شود، اما کاربرد آنها تنها به انجام مراحل خاصی از مطالعه محدود می شود.

داده کاوی و هوش مصنوعی

دانش به دست آمده با روش های داده کاوی معمولاً به صورت نمایش داده می شود مدل ها. این مدل ها عبارتند از:

  • قوانین انجمن؛
  • درختان تصمیم
  • خوشه ها
  • توابع ریاضی

روش‌های ساخت چنین مدل‌هایی معمولاً به منطقه به اصطلاح گفته می‌شود. "هوش مصنوعی".

وظایف

وظایف حل شده با روش های داده کاوی معمولاً به توصیفی تقسیم می شوند. توصیفی) و پیش بینی کننده (eng. پیش بینی کننده).

در کارهای توصیفی، مهمترین چیز ارائه توصیف بصری از الگوهای پنهان موجود است، در حالی که در کارهای پیش بینی، مسئله پیش بینی برای مواردی که هنوز اطلاعاتی برای آنها وجود ندارد در پیش زمینه است.

وظایف توصیفی عبارتند از:

  • جستجوی قوانین یا الگوهای ارتباط (نمونه)؛
  • گروه بندی اشیاء، تجزیه و تحلیل خوشه ای؛
  • ساخت یک مدل رگرسیون

وظایف پیش بینی عبارتند از:

  • طبقه بندی اشیاء (برای کلاس های از پیش تعریف شده)؛
  • تحلیل رگرسیون، تحلیل سری زمانی.

الگوریتم های یادگیری

مشکلات طبقه بندی با "یادگیری نظارت شده" مشخص می شود، که در آن ساخت (آموزش) مدل بر روی نمونه ای حاوی بردارهای ورودی و خروجی انجام می شود.

برای مشکلات خوشه‌بندی و تداعی، «یادگیری بدون نظارت» استفاده می‌شود که در آن مدل بر روی نمونه‌ای ساخته می‌شود که پارامتر خروجی ندارد. مقدار پارامتر خروجی ("به یک خوشه اشاره دارد ..."، "به نظر می رسد یک بردار ...") به طور خودکار در فرآیند یادگیری انتخاب می شود.

برای مشکلات کاهش توصیف، معمولی است بدون جدایی در بردارهای ورودی و خروجی. با شروع کار کلاسیک سی پیرسون در مورد تجزیه و تحلیل مؤلفه های اصلی، تمرکز بر تقریب داده ها است.

مراحل یادگیری

یک سری مراحل معمولی برای حل مسائل با استفاده از روش های داده کاوی متمایز می شود:

  1. تشکیل فرضیه؛
  2. جمع آوری داده ها؛
  3. آماده سازی داده ها (فیلتر کردن)؛
  4. انتخاب مدل؛
  5. انتخاب پارامترهای مدل و الگوریتم یادگیری.
  6. آموزش مدل ( جستجوی خودکارسایر پارامترهای مدل)؛
  7. تجزیه و تحلیل کیفیت آموزش، در صورتی که انتقال به ماده 5 یا 4 رضایت بخش نباشد.
  8. تجزیه و تحلیل الگوهای شناسایی شده، در صورتی که انتقال به مرحله 1، 4 یا 5 رضایت بخش نباشد.

آماده سازی داده ها

قبل از استفاده از الگوریتم های داده کاوی، لازم است مجموعه ای از داده های تحلیل شده تهیه شود. از آنجایی که IAD فقط می تواند الگوهای موجود در داده ها را تشخیص دهد، داده های اولیه از یک طرف باید به اندازه کافی بزرگ باشند تا این الگوها در آنها وجود داشته باشند و از طرف دیگر به اندازه کافی فشرده باشند تا تجزیه و تحلیل انجام شود. زمان قابل قبول اغلب، انبارهای داده یا داده‌ها به عنوان داده‌های منبع عمل می‌کنند. آماده سازی برای تجزیه و تحلیل داده های چند بعدی قبل از خوشه بندی یا داده کاوی مورد نیاز است.

داده های پاک شده به مجموعه ویژگی ها (یا بردارها در صورتی که الگوریتم فقط بتواند با بردارهای با ابعاد ثابت کار کند) کاهش می یابد، یک مجموعه ویژگی در هر مشاهده. مجموعه ای از ویژگی ها مطابق با این فرضیه ها شکل می گیرد که کدام ویژگی های داده های خام بر اساس نیاز، قدرت پیش بینی بالایی دارند. قدرت پردازشبرای پردازش برای مثال، یک تصویر صورت سیاه و سفید 100×100 پیکسلی حاوی 10000 بیت داده خام است. آنها را می توان با تشخیص چشم و دهان در تصویر به یک بردار ویژگی تبدیل کرد. در نتیجه، مقدار داده‌ها از 10 هزار بیت به فهرستی از کدهای موقعیت کاهش می‌یابد، که میزان داده‌های تحلیل شده و در نتیجه زمان تجزیه و تحلیل را به میزان قابل توجهی کاهش می‌دهد.

تعدادی از الگوریتم‌ها قادر به پردازش داده‌های گمشده هستند که دارای قدرت پیش‌بینی هستند (مثلاً عدم وجود نوع خاصی از خرید توسط مشتری). بگویید، هنگام استفاده از روش قوانین انجمن (انگلیسی)روسی نه بردارهای ویژگی، بلکه مجموعه هایی از ابعاد متغیر پردازش می شوند.

انتخاب تابع هدف بستگی به این دارد که هدف تحلیل چیست. انتخاب تابع "درست" برای داده کاوی موفقیت آمیز اساسی است.

مشاهدات به دو دسته تقسیم می شوند - مجموعه آموزشی و مجموعه تست. مجموعه آموزشی برای "آموزش" الگوریتم داده کاوی و مجموعه تست برای آزمایش الگوهای یافت شده استفاده می شود.

همچنین ببینید

یادداشت

ادبیات

  • پاکلین N. B.، Oreshkov V. I.هوش تجاری: از داده تا دانش (+ CD). - سنت پترزبورگ. : اد. پیتر، 2009. - 624 ص.
  • دوک وی، سامویلنکو آ.داده کاوی: دوره آموزشی(+CD). - سنت پترزبورگ. : اد. پیتر، 2001. - 368 ص.
  • ژوراولف یو.آی. ، Ryazanov V.V. ، Senko O.V.به رسمیت شناختن. روش های ریاضی سیستم نرم افزاری. کاربردهای عملی - م.: اد. "فازیس"، 2006. - 176 ص. - شابک 5-7036-0108-8
  • Zinoviev A. Yu.تجسم داده های چند بعدی - کراسنویارسک: اد. دانشگاه فنی دولتی کراسنویارسک، 2000. - 180 p.
  • چوبوکوا I. A.داده کاوی: یک آموزش. - م.: دانشگاه اینترنتی فناوری اطلاعات: BINOM: آزمایشگاه دانش، 1385. - 382 ص. - شابک 5-9556-0064-7
  • ایان اچ ویتن، ایبه فرانک و مارک ای. هالداده کاوی: ابزارها و تکنیک های یادگیری ماشین عملی. - چاپ سوم. - Morgan Kaufmann, 2011. - P. 664. - ISBN 9780123748560

پیوندها

  • نرم افزار داده کاویدر فهرست پیوندهای پروژه دایرکتوری باز (dmoz).

بنیاد ویکی مدیا 2010 .