داده‌کاوی در خدمت کشف دانش

ارنست رادفورد پدر فیزیک هسته‌ای و برنده جایزه نوبل فیزیک در سال 1908 بر این باور بود که «اگر آزمایش شما به آمار نیاز دارد، شما باید آزمایش بهتری انجام می‌دادید.» این گفته بسیار عمیقی است که پرداختن به آن مستلزم سرفصلی جداگانه است.

عصر بانک؛ما با الهام‌گیری حداقلی از این جمله چنین می‌نویسیم «اگر موضوعی به درستی تحلیل آماری شود، دیگر نیازی به تفسیر ندارد و نمودارها و جداول همه‌چیز را خواهند گفت.» یک مشخصه بنیادین دنیای ما کمیتی به‌نام «داده (Data)» است که واحد اندازه‌گیری آن در حساب متداول بیت است. منظور از حساب متداول تمام محاسباتی هستند که توسط پردازنده‌ای مبتنی بر منطق دوجمله‌ای صورت می‌پذیرند. هشت بیت در کنار هم یک بایت را به وجود می‌آورند. در علم اطلاعات یک اگزابایت داده یعنی 1018 بایت داده که تقسیم ریزتر آن به این شرح است که هر اگزا شامل هزار پتا و هر پتا شامل هزار ترا که هر ترا شامل هزار گیگا و هر گیگا شامل هزار مگا است. در سال 2017 روزانه 5/ 2 اگزابایت داده در اینترنت تولید شده است.

 

برای نشان دادن این حجم داده خوب است به کتابخانه کنگره آمریکا فکر کنید. این کتابخانه که در شهر واشنگتن دی.سی قرار دارد دارای ظرفیت محتوایی برابر 10 ترابایت داده مکتوب است (در حال‌حاضر 30 میلیون کتاب در 470 زبان مختلف) حال اگر بخواهیم 5/ 2 اگزابایت داده تولید شده در روز (آن هم سال 2017) را در این کنگره جاسازی کنیم باید 250هزار ساختمان مشابه با آن را بسازیم تا فقط داده تولید شده در روز را در آنها قرار دهیم. چنین روندی منجر به شکل‌گیری مفهومی به‌نام «کلان داده (Big Data)» شده، مفهومی که امروزه به وفور در جنبه‌های مختلفی از زندگی بشر استفاده می‌شود. بهره‌گیری از کلان داده قطعا مستلزم توان محاسباتی بسیاری است که تمایل به کسب چنین توانی را به خوبی می‌توان در افزایش هرساله سرعت (نرخ زمانی) CPU مشاهده کرد به گونه‌ای که از سال 1980 تاکنون سرعت پردازش داده تقریبا هر سال 20‌درصد افزایش داشته است.

 

به‌عنوان نمونه در سال 1992، متوسط سرعت پردازشگر کامپیوتر برابر با 05/ 0گیگاهرتز بوده و این در حالی است که در سال 2005، این عدد چیزی حدود 6/ 3 گیگاهرتز شده و در سال 2017 به 16 گیگاهرتز هم رسیده است. متخصصان حوزه محاسبات بر این نکته اتفاق‌نظر دارند که کلید تبدیل کلان داده به دانش در حوزه‌ای به نام داده کاوی (Data Mining) نهفته است. این حوزه از سه قسمت اساسی مهندسی داده و ذخیره‌سازی (Data Engineering and Storage)، تحلیل‌داده (Data analysis) و یادگیری ماشین (Machine learning) تشکیل شده است. موضوع داده کاوی به‌قدری رواج یافته که بسیاری آن را معادل فرآیند کشف دانش (Knowledge Discovery Process) در نظر می‌گیرند حال آنکه در واقعیت این‌گونه نیست و داده کاوی (DM) فقط قسمتی از فرآیند کشف دانش (KDP) است. فرآیند کشف دانش (KDP) شامل گام‌های زیر است:

 

استخراج داده (Data Extraction): در این مرحله داده‌ها در سطحی عظیم و از منابعی متنوع استخراج می‌شوند.

گزینش داده (Data Selection): داده‌های مربوط به مساله مورد نظر انتخاب می‌شوند.

پیش پردازش داده(Data Pre-processing): در این گام داده‌ها پیش‌پردازش می‌شوند یعنی داده‌های مبهم، ناقص، پرت و ناسازگار حذف می‌شوند.

تبدیل داده (Data Transformation): در این گام، داده‌ها ترکیب و به شکلی تبدیل می‌شوند که بتوان روی آنها تحلیل عمیق‌تری انجام داد. به‌عنوان نمونه یک پایگاه داده‌ای وجود دارد که تعدادی از متغیرهای (فیلد) آن دارای همبستگی معنادار هستند که می‌توان این متغیرها را به یک متغیر مرکب (Composite) تبدیل و داده‌ها را فشرده‌سازی (Compression) کرد.

داده‌کاوی (Data mining): در این مرحله الگوریتم‌های داده‌کاوی برای استخراج الگو از دل داده‌ها به‌کار گرفته می‌شوند.

ارزیابی الگو (Pattern Evaluation): در این مرحله با استفاده از روش‌های خاص الگوی داده (ساختار آماری) آن بررسی می‌شود.

ارائه دانش (Knowledge presentation): در این مرحله با بهره‌گیری از روش‌های بصری‌سازی (Data visualization) داده، دانش استخراج‌شده به متقاضیان ارائه می‌شود.

ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.