دادهکاوی در خدمت کشف دانش
عصر بانک؛ما با الهامگیری حداقلی از این جمله چنین مینویسیم «اگر موضوعی به درستی تحلیل آماری شود، دیگر نیازی به تفسیر ندارد و نمودارها و جداول همهچیز را خواهند گفت.» یک مشخصه بنیادین دنیای ما کمیتی بهنام «داده (Data)» است که واحد اندازهگیری آن در حساب متداول بیت است. منظور از حساب متداول تمام محاسباتی هستند که توسط پردازندهای مبتنی بر منطق دوجملهای صورت میپذیرند. هشت بیت در کنار هم یک بایت را به وجود میآورند. در علم اطلاعات یک اگزابایت داده یعنی 1018 بایت داده که تقسیم ریزتر آن به این شرح است که هر اگزا شامل هزار پتا و هر پتا شامل هزار ترا که هر ترا شامل هزار گیگا و هر گیگا شامل هزار مگا است. در سال 2017 روزانه 5/ 2 اگزابایت داده در اینترنت تولید شده است.
برای نشان دادن این حجم داده خوب است به کتابخانه کنگره آمریکا فکر کنید. این کتابخانه که در شهر واشنگتن دی.سی قرار دارد دارای ظرفیت محتوایی برابر 10 ترابایت داده مکتوب است (در حالحاضر 30 میلیون کتاب در 470 زبان مختلف) حال اگر بخواهیم 5/ 2 اگزابایت داده تولید شده در روز (آن هم سال 2017) را در این کنگره جاسازی کنیم باید 250هزار ساختمان مشابه با آن را بسازیم تا فقط داده تولید شده در روز را در آنها قرار دهیم. چنین روندی منجر به شکلگیری مفهومی بهنام «کلان داده (Big Data)» شده، مفهومی که امروزه به وفور در جنبههای مختلفی از زندگی بشر استفاده میشود. بهرهگیری از کلان داده قطعا مستلزم توان محاسباتی بسیاری است که تمایل به کسب چنین توانی را به خوبی میتوان در افزایش هرساله سرعت (نرخ زمانی) CPU مشاهده کرد به گونهای که از سال 1980 تاکنون سرعت پردازش داده تقریبا هر سال 20درصد افزایش داشته است.
بهعنوان نمونه در سال 1992، متوسط سرعت پردازشگر کامپیوتر برابر با 05/ 0گیگاهرتز بوده و این در حالی است که در سال 2005، این عدد چیزی حدود 6/ 3 گیگاهرتز شده و در سال 2017 به 16 گیگاهرتز هم رسیده است. متخصصان حوزه محاسبات بر این نکته اتفاقنظر دارند که کلید تبدیل کلان داده به دانش در حوزهای به نام داده کاوی (Data Mining) نهفته است. این حوزه از سه قسمت اساسی مهندسی داده و ذخیرهسازی (Data Engineering and Storage)، تحلیلداده (Data analysis) و یادگیری ماشین (Machine learning) تشکیل شده است. موضوع داده کاوی بهقدری رواج یافته که بسیاری آن را معادل فرآیند کشف دانش (Knowledge Discovery Process) در نظر میگیرند حال آنکه در واقعیت اینگونه نیست و داده کاوی (DM) فقط قسمتی از فرآیند کشف دانش (KDP) است. فرآیند کشف دانش (KDP) شامل گامهای زیر است:
استخراج داده (Data Extraction): در این مرحله دادهها در سطحی عظیم و از منابعی متنوع استخراج میشوند.
گزینش داده (Data Selection): دادههای مربوط به مساله مورد نظر انتخاب میشوند.
پیش پردازش داده(Data Pre-processing): در این گام دادهها پیشپردازش میشوند یعنی دادههای مبهم، ناقص، پرت و ناسازگار حذف میشوند.
تبدیل داده (Data Transformation): در این گام، دادهها ترکیب و به شکلی تبدیل میشوند که بتوان روی آنها تحلیل عمیقتری انجام داد. بهعنوان نمونه یک پایگاه دادهای وجود دارد که تعدادی از متغیرهای (فیلد) آن دارای همبستگی معنادار هستند که میتوان این متغیرها را به یک متغیر مرکب (Composite) تبدیل و دادهها را فشردهسازی (Compression) کرد.
دادهکاوی (Data mining): در این مرحله الگوریتمهای دادهکاوی برای استخراج الگو از دل دادهها بهکار گرفته میشوند.
ارزیابی الگو (Pattern Evaluation): در این مرحله با استفاده از روشهای خاص الگوی داده (ساختار آماری) آن بررسی میشود.
ارائه دانش (Knowledge presentation): در این مرحله با بهرهگیری از روشهای بصریسازی (Data visualization) داده، دانش استخراجشده به متقاضیان ارائه میشود.