«بیگ دیتا» و پیش بینی آینده/ حجم داده به ۱۸۱ زتابایت می رسد
این روزها اصطلاح «بیگ دیتا» یا «کلان داده» و نقش آن در عصر دیجیتال و حکمرانی آینده بیش از پیش اهمیت پیدا کرده است. این اصطلاح به حجم وسیع و پیچیدهای از اطلاعات اشاره دارد که بسیار فراتر از کاربردهای سنتی پردازش داده هستند.
با تداوم روند گسترش اینترنت در سالهای اخیر، حجم دادههای جهان از یک دهه پیش رشد تصاعدی خود را آغاز کرده است. توسعه شبکههای اجتماعی، جستجوهای اینترنتی، پیامهای متنی، فایلهای چندرسانه ای دانلود و آپلود شده و دستگاههای متصل به اینترنت، منشأ اصلی این افزایش حجم محسوب میشوند. به عبارت دیگر جمع آوری اطلاعات از طرق یاد شده، سبب ایجاد حجم بسیار گستردهای از اطلاعات شده که با عنوان کلان داده شناخته میشود.
علم داده و تجزیه و تحلیل کلان دادهها، این روزها به مؤلفهای اساسی و تحولزا در همه رشتهها بدل شدهاست و سبب ایجاد بینشی معنادار و کمی از پدیدههای مختلف میشود. در سالهای اخیر، فناوریها و روششناسیها در علوم رایانه به سرعت رشد کردهاند و دیدگاهی بیسابقه از گستره و علل مسائل مهم جهانی به محققان داده است.
بنابراین تعجبی ندارد که یکی از مهمترین حوزههای صنعت فناوری در سالهای آینده بخش دادهها، مدیریت و شیوه استفاده از آنها باشد.
۹۰ درصد دادههای جهان کپی شده اند
طبق آمار وب سایت استاتیستیکا (Statistica) حجم داده تولید، مصرف، کپی و ذخیره شده تا ۲۰۲۵ میلادی به ۱۸۱ زتابایت میرسد. این درحالی است که در ۲۰۲۰ میلادی کل مقدار داده تولید و مصرف شده ۶۴.۲ زتابایت بوده است. یکی از عوامل تأثیر گذار در رشد داده، همه گیری کووید ۱۹ بود که تولید داده جهانی را سرعت بخشید. این وب سایت همچنین تخمین میزند در ۲۰۲۳ میلادی شاخص مذکور به ۱۲۰ زتابایت برسد.
در کل ۹۰ درصد داده موجود در فضای داده جهانی کپی شده اند به طوریکه فقط ۱۰ درصد دادهها یونیک هستند. بین ۲۰۲۰ تا ۲۰۲۴ میلاد نسبت دادههای یگانه به تکراری از ۱ به ۹ به ۱ به ۱۰ تغییر میکند.
با این وجود مقدار اندکی از دادههای تازه خلق شده نگهداری و حفظ شده اند. تنها ۲ درصد از دادههای تولید و مصرف شده در ۲۰۲۰ نگهداری و به ۲۰۲۱ میلادی منتقل شدند.
از سوی دیگر طبق پیش بینی این وب سایت درآمد بازار دادههای کلان در سراسر جهان در ۲۰۲۳ میلادی به ۷۷ و در ۲۰۲۷ میلادی به ۱۰۳ میلیارد دلار میرسد.
مسیر پیش روی کلان دادهها در ۲۰۲۳
در این میان چشم انداز وضعیت دادههای کلان در سال ۲۰۲۳ تغییر میکند. در حالیکه اقتصاد جهانی با تأثیرات مداوم همه گیری کووید ۱۹، اختلال در زنجیره ذخایر، جنگ در اروپا، تورم و رکود درگیر است، ارزش دادهها احتمالاً در ۲۰۲۳ میلادی بیشتر شود.
دادهها به سازمانها کمک میکنند با کمک روشهای تحلیل و کسب و کاری بهتر، تصمیمات سودمندتری بگیرند. همچنین داده، مبنای یادگیری ماشینی است و محتوایی فراهم میکند که براساس آن هوش مصنوعی میتواند فرایندهای خودکار و توصیههایی برای کسب وکارها و افراد فراهم کند.
همزمان با رویارویی بخشهای مختلف چالشهای اقتصادی، استفاده مؤثر از دادهها برای ارتقای کسب وکارها و بهبود عملیاتها از مهمترین نگرانیهای ۲۰۲۳ میلادی به حساب می آیند.
بهره مندی از دادهها برای بهبود عملکرد کسب و کار مستلزم جمع آوری دادههای محصول و خدمات است. در اینجاست که مفهوم داده به عنوان یک محصول (که به آن محصول داده نیز گفته میشود) ارتباط دقیقتری با دنیای کسب وکار برقرار میکند.
بار موزس مدیر ارشد اجرایی شرکت مونت کارلو پیش بینی میکند به زودی هر محصولی به یک محصول دادهای تبدیل میشود زیرا سازمانها به دنبال ارتقای عملیات خود هستند.
او میگوید: در ۲۰۲۳ میلادی تعداد بیشتری از شرکتها روشهای یکپارچه سازی برای ردیابی و درآمدزایی از دادههای تولید شده توسط محصولاتشان را بررسی میکنند. این به بخشی از مزیت رقابتی شرکتها تبدیل خواهد شد. در نتیجه اهمیت کیفیت نظارت و پیروی از قوانین بیشتر خواهد شد. موزس معتقد است در ۲۰۲۳ میلادی شرکتها به دنبال فناوریهایی خواهند بود که شکاف بین دادههای محصول و مشتریان را کمتر کند.
رشد سرعت تحلیل دادههای کلان
همچنین پیش بینی میشود در آیندهای نه چندان دور دیگر استخراج هفتگی یا ماهانه دادهها و سپس انتظار طولانی مدت برای تحلیل آنها پایان یابد. درآینده نزدیک تحلیل دادههای کلان به طور گسترده روی تازگی دادهها با هدف تحلیل آنی و تصمیم گیری های بهتر و افزایش قدرت رقابت متمرکز خواهد بود.
استفاده از جریان دادهها به جای فراوری دادهها براساس دسته بندی، چشم اندازی سریع و لحظهای از وضعیت برای کاربر فراهم میکند که اهمیت زیادی دارد. اما این روند چالشهایی دارد که یکی از آنها حفظ کیفیت دادهها است. به عبارت دیگر برای حفظ کیفیت، دادهها باید به طور مرتب تجدید شوند اما دادههای جدیدتر ریسکهایی نیز در بر دارند و ممکن است سبب شود کاربر بر اساس دادههای نادرست یا ناکامل تصمیم گیری یا عمل کند.
فراهم شدن چشم انداز آنی به دادهها
دسترسی به دادههای لحظهای برای تحلیل اوضاع بازارهای مختلف دیگر پدیده عجیبی نیست زیرا تصمیم گیری درباره بسیاری از فرایندها و معاملات بر اساس همین نوع دادهها انجام میشود.
چشم انداز دقیق و لحظهای هم اکنون صنایع مختلفی مانند امور مالی و شبکههای اجتماعی را دگرگون کرده اما نشانههایی فراتر از این موارد نیز وجود دارد. به عنوان مثال والمارت به نظر میرسد بزرگترین ابر رایانشی هیبریدی را ساخته تا زنجیره ذخایر خود را مدیریت و فروش را به طور آنی تحلیل کند.
تصمیم گیری خودکار و آنی دستاورد مهم تحلیل دادههای کلان
یادگیری ماشینی و هوش مصنوعی از هم اکنون به طور موفقیت آمیز در صنایعی مانند خدمات درمانی برای ردیابی و تشخیص در تولید (سیستمهای هوشمند فرسودگی قطعات را ردیابی میکنند) به کار میروند. اما تحلیل دادههای کلان به این فناوریها سرعت بیشتری میدهد. مثلاً هنگامیکه قطعهای در معرض خراب شدن است، این سیستم به طور خودکار مسیر را طوری تغییر میدهد تا فرایند تولید ادامه یابد و قطعه مورد نظر تعمیر شود.
به عقیده متخصصان، یادگیری ماشینی، یکی از فناوریهایی است که در آینده کلان دادهها، نقش به سزایی ایفا میکند. انتظار میرود که توسعه یادگیری ماشینی این حوزه را به شدت تحت تأثیر قرار دهد. یادگیری ماشینی، به سرعت در حال رشد است.
این گزاره در عین جذابیت، تا حدودی ترسناک نیز هست. رباتهای هوشمند از یک سو زندگی را برای ما آسان میکنند و از سوی دیگر، دخالت یادگیری ماشینی در مواردی چون تعیین صلاحیت افراد برای دریافت وام بانکی، چالشهای اخلاقی متعددی را به وجود آورده است.
افزایش صحت و کیفیت تحلیل دادههای کلان
هرچه دادههای بیشتری جمع آوری شود، تضمین صحت و کیفیت آن نیز سختتر است. همچنین تصمیم گیری براساس دادههای موجود یک اقدام تجاری معقولانه است مگر آنکه تصمیمهای مذکور براساس دادههای بد گرفته شده باشند. دادههای بد نیز اطلاعات ناکامل، نادرست و غلط یا دادههایی را شامل میشود که مرتبط نیستند. علاوه بر آن بسیاری از ابزارهای تحلیل داده اکنون قادر به شناسایی و دادههایی هستند که به نظر میرسد در مکان نادرستی ارائه شده اند.
از آنجاییکه شناسایی یک مشکل کم هزینه تر و بهتر از درمان آن است، کاربران یا شرکتها نیز به جای اتکا بر ابزارها برای شناسایی دادههای بد، باید مسیر دادههایی که به دستشان میرسد را بررسی کنند.
یافتن منابع مناسب استخراج دادهها، بررسی شیوه تحلیل و استفاده از آن و … سبب میشود دادههای بهتر و معتبر تری در دسترس قرار گیرد. در نتیجه مشکلاتی که به دلیل دادههای نادرست و بد به وجود می آیند نیز کمتر خواهند شد.
قابلیت رصد دادهها بیشتر میشود
از سوی دیگر در آینده قابلیت رصد دادهها بسیار فراتر از مشاهده و هشدار دادن درباره نشتی در مسیر اطلاعات است. درک ۵ ستون رصد داده (تازگی، طرح، حجم، توزیع و مسیرآن) نخستین گام برای کسب وکارهایی است که به دنبال کنترل سلامت دادهها و ارتقای کیفیت کلی آنها هستند.
فراتر از آن، پلتفرمهای رصد داده میتوانند چالشهای خودکارسازی، نظارت، هشدار دهی، خطی سازی، هدفگیری و هایلایت کیفیت داده را بررسی کنند. در اینجا هدف نهایی حذف دادههای بد به طور کلی و جلوگیری از ایجاد دوباره آنها است.
نظارت جهانی بر دادهها
با توجه به حجم دادههایی که درباره آن بحث میشود، اتخاذ اقدامات محافظتی لازم بیش از پیش مهم خواهد بود. پیروی از قوانینی مانند قوانین کلی حفاظت از داده اروپا(GDPR) و قانون حریم خصوصی مصرف کننده کالیفرنیا(CCPA) برای اجتناب از جریمه شدن الزامی است اما در این میان چالش میزان خسارت نشتی دادهها نیز مهم است زیرا به شهرت یک برند آسیب میرساند.
دغدغههای کلان امنیت داده و حفظ حریم خصوصی، از زمان شکل گیری مفهوم حقوق شهروندی، مورد توجه بوده است. تداوم روند افزایش حجم دادهها، چالشهای بیشتری را در این حوزه پدید آورده است. از آن جایی که سطح حفاظت از دادهها، هرگز نمیتواند با نرخ رشد حجم اطلاعات یکسان باشد، بنابراین، این مسئله همچنان چالشی بزرگ برای کاربران و فعالان این حوزه خواهد بود.
به طور کلی، اگرچه بسیاری از سازمانها با سیاستهای حفظ حریم خصوصی به عنوان یک روال قانونی پیش فرض برخورد میکنند، اما نگاه کاربران در این زمینه تا حدود زیادی تغییر کرده است. آنها درک میکنند که اطلاعات شخصیشان در خطر است و از همین روی به آن دسته از سازمانها اعتماد میکنند که شفافیت داشته باشند و کنترل کاربر بر دادهها را تضمین کنند.
کنترل حجم بیشتری از دادهها در پلتفرمهای ذخیره سازی
با استفاده از فناوری ابر رایانشی مواردی مانند ذخیره و قدرت پردازش به طور مجازی بی نهایت میشوند.
دیگر نیازی نیست کسب وکارها درباره خرید مخزن فیزیکی یا ماشینهای اضافی نگران باشند زیرا میتوانند از فضای ابر رایانشی را منطبق بر نیازهایشان تنظیم کنند.
فراتر از آن پردازش دادههای ابری بدان معنا است که چند طرف میتوانند به طور همزمان و بدون تجربه کاهش سرعت یا مانع به دادهها دسترسی یابند. این بدان معنا است که تازمانیکه اقدامات امنیتی متناسب اجرا شوند، میتوان به دادههای تازه در هر زمان و مکانی دست یافت.
فراوری انواع داده آسانتر میشود
با بزرگتر شدن حجم دادهها، به طور معمول منابع داده نیز وسیعتر میشوند. مدیریت تمام فرمتها همراه دسترسی هماهنگ به طور دستی غیرممکن است مگر آنکه تیمی بسیار بزرگ از کارشناسان فعالیتهای بی شماری انجام دهند.
ابزارهای مختلفی با بیش از ۱۶۰ متصل کننده منبع داده از تحلیلهای بازاری تا مالی و غیره را دربر میگیرند. دادهها را میتوان از صدها منبع استخراج کرد و تغییرات لازم را در آنها به کاربرد تا یک جریان معتبر داده ایجاد کرد.
از سوی دیگر، دادههای «سریع» و «قابل اجرا»، دو گونه از اطلاعات هستند که پیش بینی میشود نسبت به دیگر اقسام کلان دادهها، رشد بیشتری داشته باشند. دادههای سریع، بر خلاف دیگر انواع کلان داده، امکان پردازش سریع و در لحظه را دارند. این دست دادهها از همین روی، ارزش بیشتری برای سازمانها و شرکتها دارند.
دادههای سریع، کاربران را به تعاملات آنی معتاد میکند. مشاغل به صورت مداوم در حال دیجیتالی شدن هستند و کاربران نیز توقع بالاترین سطح خدمات شخصی سازی شده را از پلتفرمها دارند. از همین روی، کارشناسان پیش بینی میکنند که تا سال ۲۰۲۵، حدود ۳۰ در صد از حجم دادهها را چنین اطلاعاتی تشکیل دهد.
تمرکز زدایی دادهها
تحلیلگران و مدیران ارشد کسب وکارها برای سالهای طولانی هنگام نیاز به استخراج و تحلیل دادهها به متخصصان داخل شرکت مراجعه میکردند. اما در سال گذشته میلادی این روند بسیار تغییر کرد و سرویسها و ابزارهایی ابداع شدند که میتوانند افراد غیر فنی را در تحلیل داده دخیل کنند. پیش بینی میشود این روند در سال آینده میلادی گسترده میشود.
در همین راستا اکنون کارشناسان روی مهندسی تحلیل دادهها با ابزارهایی تاکید دارند که داده را به شیوهای مدلسازی میکند که کاربر نهایی بتواند آن را برای پاسخ به سوالاتش به کار گیرد و در نتیجه قدرتمندتر شود.
نظر به پیش بینیهایی که از چشم انداز کلان دادهها در سطح جهانی صورت گرفته و وابستگی بسیاری از ابعاد حکمرانی جهانی به کلان دادهها، ضرورت پرداختن کشورها به ضابطه مند و نظام مند کردن این موضوع بیش از پیش احساس میشود.
در همین رابطه جواد آزادی، پژوهشگر هسته خط مشی فضای مجازی مرکز رشد دانشگاه امام صادق علیهالسلام، در گفتگو با خبرنگار مهر با اشاره به مدلهای متداول حکمرانی داده در سطح جهان گفت: به طور کلی با سه رویکرد حکمرانی داده در سطح جهان مواجهه هستیم، اولین رویکرد، مربوط به لیبرالیسم است، در کشورهای لیبرال و بهطور خاص آمریکاییها که پلتفرمهای اصلی فضای مجازی را در سلطه خویش دارند، حکمرانی داده را از مفهوم آزادی و مالکیت آغاز کرده و با شعارهایی نظیر جریان آزاد اطلاعات و مالکیت شخصی داده ترویج میکنند. این رویکرد نگاه عمدتاً اقتصادی به داده دارد و داده در عصر مجازی را اهرمی در خدمت لیبرالیزاسیون جهانی میداند که فرصتی بیبدیل برای جمعآوری و پردازش اطلاعات را با اغراض علمی، تجاری و حتی سیاسی پدید آورده است. ازاینرو به گردش درآوردن داده، محور و تکیه اصلی حکمرانی داده در این رویکرد است و ارزشهایی مانند باز بودن، شفافیت، تقارن اطلاعات و بازار رقابت سالم، تأمین زیرساختهای لازم جهت درآمدزایی از داده و … ارزشهایی است که این رویکرد دنبال میکند.
به گفته وی، دومین رویکرد مربوط به نگاههای ناسیونالیستی و بهطور مشخص اروپاییها است که از قرن هفده تأکید ویژهای بر مرز و دولت-ملت دارند. اروپاییها با تأکید بر حقوق خصوصی به موضوع حکمرانی داده ورود داشتهاند و مقررات عمومی حفاظت از دادهGDPR را با محوریت دادههای خصوصی و حفظ حریم خصوصی طرح میکنند. در این رویکرد، بر ارزشی مانند شفافیت تأکید فراوانی میشود و حاکمیت را مکلف میکنند تا زمینه را برای نظارت عمومی و مطالبات مردمی فراهم آورد.
این پژوهشگر تاکید کرد: به عنوان سومین رویکرد، چینیها حکمرانی داده را تَبَعی میدانند و ذیل سلطه یا حاکمیت سایبری Cyber Sovereignty طرح میکنند. نگاه غالب ایشان، امنیت ملی است و نقطه آغاز حکمرانی داده را تعیین شاخص حساسیت داده میدانند و بیش از به گردش درآوردن داده بر روی حفاظت از داده تأکید دارند. در این رویکرد، حفاظت از داده، نه ذیل حریم خصوصی بلکه ذیل امنیت ملی تعریف میشود.
آینده حوزه حکمرانی دادهها
مدیر گروه حکمرانی فضای مجازی مرکز رشد در خصوص آینده حوزه حکمرانی داده افزود: بسته به رویکرد اتخاذ شده، ما در آینده شاهد پیشرفت در حوزههای مختلف خواهیم بود. پیشبینی میکنم در رویکردهای سوسیالیستی شرقی، استانداردهای طبقهبندی داده پیشرفتگی فراوانی پیدا کند، در این رویکرد، مفهوم حساسیت داده تعیینکننده حدود مجاز گردش داده است. به همین سبب استانداردها و تکنولوژیهای طبقهبندی داده از طبقهبندیهای عمومی به طبقهبندی های تخصصی و جزئی توسعه پیدا خواهد کرد و ما شاهد شکلگیری رگولاتورهای تخصصی جهت سنجش حساسیت دادههای عمومی و یا دادههای شخصی غیرخصوصی خواهیم بود.
وی افزود: در رویکردهای لیبرالیستی غربی که بازار محوریت دارد، شاهد مدلهای جدید درآمد و سود خواهیم بود که از گردش داده درون زیستبوم ملی و جهانی شکل خواهد گرفت. همچنین تکنولوژیهای جدید نظیر اینترنت اشیا و هوش مصنوعی و نسل پنجم ارتباطات به کمک این مهم آمده و سرعت و قدرت گردش اطلاعات در زیستبوم داده را توسعه خواهند داد. رویکرد ناسیونالیستی در حکمرانی داده نیز با چالشهای روزافزون صیانت از داده دستوپنجه نرم خواهد کرد، ظهور شبکه استارلینک و ساقط شدن خیلی از ظرفیتهای نظارتی GDPR، نمونهای از این چالشهاست.
آزادی با بیان برخی از اقدامات صورت گرفته جهت تقویت حکمرانی داده در داخل کشور، گفت: اگر سمت رویکردهای غربی حرکت کنیم، بایستی زمینه را برای حفاظت از دادههای شخصی و همچنین گردش داده و انضباط آن فراهم آوریم؛ تا آن نقطه فاصله بسیاری داریم از تأمین زیرساختهای حفاظت از حریم خصوصی نظیر رمزنگاری گرفته تا طراحی و اجرای سازوکارهای نظارت بر زیستبوم داده. شاید بتوان اشارهکرد که طرح کلان و معماری شبکه ملی اطلاعات که در آذر سال ۹۹ به تصویب شورای عالی فضای مجازی رسیده است، طرحی پیشرفته است و امیدواریم اجرایی هم بشود. اگر سمت رویکردهای شرقی بیاییم ضرورتاً بایستی سازوکارهای سنجش حساسیت داده و رگولاتورهای تخصصی را در کشور توسعه دهیم که به نظر بخشهایی از طرح صیانت از حقوق کاربران با همه اشکالاتش به این موضوع میپرداخت. درمجموع هنوز حکمرانی داده بهصورت رسمی در نظام حقوقی و قانونی ما به رسمیت شناخته نشده است و خلأهای جدی در این زمینه داریم.
چالشهای ایران
آزادی به موضوع آینده حکمرانی داده در ایران اشاره کرد و افزود: ما در ایران چالشهای جدی برای حکمرانی داده خواهیم داشت، از طرفی زیستبوم داده در حوزههای متنوعی بهویژه در بخش خصوصی و در شرایط خلأهای قانونی نظیر حقوق مالکیت معنوی، حریم خصوصی و … به نحو غیر منضبطی طی دهه گذشته شکل گرفته است و هرگونه اقدام آتی در جهت ساماندهی به این زیستبوم، موجب نارضایتی و اعتراض بخش خصوصی خواهد بود که از این بیانضباطی حداکثر بهره و انتفاع را از دادههای شخصی و حتی خصوصی مردم کشور میبرد.
وی افزود: از سوی دیگر با خیزش و رستاخیز داده بهویژه با بسط همهجانبه فضای مجازی، ضرورتاً نیازمند یک محیط منضبط برای ادامه حیات این زیستبوم خواهیم بود و ناگزیر از ایجاد زیرساختهای تأمین حریم خصوصی و زیرساختهای جریان و به گردش درآمدن داده، در کشور خواهیم بود.
پژوهشگر حکمرانی فضای مجازی افزود: زیرساختهایی که هم حقوق مردم را تأمین میکند و هم بازار را برای عملکرد پویا خویش مبتنی بر تبادل داده آماده میسازد.