تحلیل دادههای بزرگ در دسترس است
عصر بانک؛یکی از چیزهایی که همواره درباره علم اطلاعات خارج از محدوده سیلیکون ولی به ذهنم خطور میکند، ترس مردم از مجموعه دادههای عظیم است. در حقیقت، روزی نیست که نشنوم افراد درگیر با دادهها بهویژه افراد فعال در دانشگاه که به مراکز HPC و اعداد محاسباتی قابل توجه دسترسی دارند، درباره صدها گیگابایت، چه برسد به ترابایت، شکایت نکنند. آنها همواره میگویند که تحلیل و دسترسی به این دادهها از توانایی آنها خارج است. چطور ممکن است وقتی مهندسان گوگل5 سال پیش توانستند 5پتابایت داده را دستهبندی کنند و سه سال پیش فیسبوک به مرز 4پتابایت دیتای جدید در روز رسید و شرکتها آرشیوهای صد پتابایتی را در پلتفرم BigQuery گوگل نگهداری میکنند، هنوز بعضی از دانشمندان درباره آنالیز چند ترابایت داده بهعنوان پشت سر گذاشتن مرزهای غیرممکن علم سخن میگویند؟
بهعنوان کسی که نزدیک به یک دهه در دنیای ابرکامپیوترها فعالیت داشته و فعالیت خود را از دبیرستان بهعنوان کارآموز آغاز کرده و سپس بهعنوان کارمند وابسته به مرکز کامپیوترها شروع به فعالیت کرده است، همواره شاهد دلبستگی و تمایل دنیای آکادمیک به قدرت پردازش بیشتر از قابلیتهای ذخیرهسازی بودهام. حداقل میدانیم که در ایالات متحده، ابرکامپیوترهای دانشگاهی برای اجرای شبیهسازیهای علمی که به معنی تاکید بر قدرت پردازش است، طراحی شده بودند. زمانی که گوگل در حال دستهبندی اطلاعات با حجم پتابایت بود، ما در حال تلاش برای ذخیرهسازی چند ترابایت داده در کامپیوترهای دانشگاهی بودیم و گاهی اوقات میدیدیم که سرعت هارد چیزی کمتر از 5 مگابایت برثانیه بود، چون سیستم طوری طراحی شده بود که اجازه انتقال همزمان فایلهای سنگین به روی هارددیسک را نمیداد. امروز و پس از گذشت 18 سال، هنوز فضای ذخیرهسازی و سرعت ورود و خروج دادهها بزرگترین محدودیتها در دنیای آکادمیک به شمار میآید. 10 سال پیش زمانی که همکاری نزدیک خود را با سیلیکون ولی آغاز کردم برایم بسیار شگفتانگیز بود که برای اولین بار در دوران کاری حرفهای میدیدم که مفهوم دادههای پتابایتی و تحلیل آنها از طریق دهها هزار پردازشگر به سادگی تعریف و انجام میشود و اصلا رویایی دوردست در آیندههای دور به شمار نمیآمد.
حال یک سوال بسیار جالب در این میان مطرح میشود، چرا در دنیای امروز که در حال غرق شدن در حجم عظیم دیتاها است، تحلیل دادههای پتابایتی تا این حد کمیاب و محدود است؟ احتمالا بزرگترین دلیل آن هزینه این کار است. سفارش یک هارد 8 ترابایتی 125 دلاری از وبسایت آمازون به شما فضایی در حدود یک هارد دیسک پتابایتی را میدهد، اما برای محافظت از اطلاعاتتان از طریق RAID5 با RAID6، نیازمند فضای بیشتری خواهید بود. در ضمن امکان اتصال هارد اکسترنالUSB 125 دلاری به یک دستگاه کامپیوتر خانگی برای ساخت یک پارتیشن یک پتابایتی تقریبا غیر ممکن خواهد بود و حتی اگر راهی برای انجام این کار پیدا کنید، استفاده و اجرای آن بدون وجود دستگاههای مختلف برای انتقال اطلاعات غیر ممکن است. حتی اگر این کار را هم انجام بدهید، اگر هر کدام از درایوها نیز به خوبی وظیفه خود را اجرا کنند و شما کامپیوترهای کافی برای اشباع کامل درایوها خریداری کنید و حتی اگر دستگاه قابلیت خواندن اطلاعات با سرعت پایدار 180 مگابایت بر ثانیه را داشته باشد، احتمالا برای اسکن کامل تمامی اطلاعات به یک نصف روز زمان نیاز خواهید داشت و با وجود این حجم از دیتای خوانده شده، بعید به نظر میرسد که قدرت CPU کافی برای انجام تغییرات کافی روی اطلاعات را داشته باشید.
به نظر در آینده نزدیک و حتی امروزه در دورانی که هاردهای اکسترنال 10ترابایتی مورد استفاده قرار میگیرد، تولید محصولی با ظرفیت یک پتابایت که دوام و سرعت بالایی داشته باشد، تقریبا غیرممکن است و هزینه نگهداری و تعمیر و سیستم خنککننده مورد نیاز برای چنین سیستمی، حاکی ازآن است که چنین سیستمی فعلا چیزی نیست که بتوان از آن در گوشه اتاق خواب بهعنوان وسیله سرگرمی استفاده کرد. سطحی از «صرفهجویی به مقیاس» غیرقابل تصوری که شرکتهایی مانند گوگل، آمازون و دیگر شرکتهای ارائهدهنده سرویس کلود به آن دست پیدا کردهاند، به آنها این اجازه را داده که دستگاههای ذخیرهسازی با مقیاس پتابایت را تولید کنند. سرویس Coldline شرکت گوگل که با قیمت ماهانه 7هزار دلار برای هر پتابایت قابل استفاده است، به کاربران امکان دسترسی سریع به اطلاعات و دانلود امن اطلاعات در هر نقطهای از جهان را میدهد. علاوه بر این، این هزینه تنها صرف سختافزار نگهدارنده این حجم از اطلاعات نمیشود، بلکه برای برق، سیستم خنککننده و بهترین مهندسان و متصدیان دنیا که وظیفه سالم نگه داشتن کل مجموعه را بر عهده دارند، صرف خواهد شد. همچنین، به خاطر داشته باشید که گوگل و شرکتهای ارائهدهنده سرویسهای کلود با گرفتن کپیهای متعدد از اطلاعات شما، به این درجات امنیت، پایداری و سودمندی میرسند.
یعنی در ظاهر شما برای نگهداری یک پتابایت اطلاعات ماهانه 7هزار دلار پرداخت میکنید، اما در حقیقت شما در حال استفاده از چند پتابایت حجم فیزیکی واقعی برای به دست آوردن دوام و امنیت مورد نیاز برای اطلاعاتتان هستید. کاربران حتی قادرند اطلاعاتشان را از طریق مجموعهای از موتورهای محاسبهگر مورد آنالیز قرار دهند. در پایان، برای مشتریانی که نیازی به دسترسی مستقیم به اطلاعاتشان ندارند، سرویس Glacier شرکت آمازون، سرویسی ارزان قیمت (در مقایسه با سرویسهای دیگر) با دوام و افزونگی فوقالعاده را با قیمت 4هزار دلار ماهانه ارائه میدهد. نگهداری یک پتابایت دیتا در سرویس کلود کاری بدیهی است اما آنالیز آن چطور؟ کافی است وارد دنیای نوظهور پلتفرم تحلیلی برپایه کلود و مقیاس پتابایت BigQuery ارائه شده از سوی گوگل شوید. BigQuery مجموعه تجزیه و تحلیلهای عظیم در زیرساختهای سرویس کلود جهانی شرکت گوگل را تسریع میکند و به کاربران اجازه میدهد با بهرهگیری از هزاران یا حتی دهها هزار پردازشگر به اطلاعاتشان دسترسی سریع داشته باشند. هزینه ذخیرهسازی اطلاعات در BigQuery در دورههای بلندمدت چیزی معادل 10هزار دلار به ازای هر یک پتابایت در ماه خواهد بود.
برخی از مشتریان تجاری گوگل بیش از یکصد پتابایت دیتا را در این سرویس ذخیرهسازی کردهاند و هر روز به مقدار آن میافزایند. در حال حاضر، سرویسهایی مانند BigQuery در زمینه پیشرفت و گسترش سرویس کلود به منظور نگهداری از این حجم از اطلاعات، میدرخشند. در مورد BigQuery، باید گفت که یک خط دستوری SQL میتواند در مدت 7/ 3 دقیقه حجمی بالغ بر یک پتابایت را اسکن کند. بنابراین آنالیز آرشیو 15 پتابایتی کل اینترنت میتواند در کمتر از 56 دقیقه انجام بگیرد. مهمتر از همه، از آنجا که BigQuery یک مجموعه ضرورتا تخصصی با قدرت تحلیل در ثانیه است، آنالیز پتابایتی دادهها نیازمند خرید سختافزارهای دائمی یا استفاده از مجموعه سیستمهای تحلیلی کلود نخواهد بود و کاربران با آسانی و با اجاره مقدار نیروی کامپیوتری مورد نیاز و چندهزار پردازشگر کافی برای پردازش دادهها برای چند دقیقه، میتوانند یک پتابایت از اطلاعات را در زمان 7/ 3 دقیقه مورد تحلیل و بررسی قرار دهند. با نگاهی کلی به تمام این قضایا، میبینیم که سیلیکون ولی نه تنها دستگاههای با ظرفیت پتابایت تولید کرده، بلکه با توسعه فراتر از تصور دیتا سنترها، امکان آنالیز دیتاهای عظیم با مقیاس پتابایتی را نیز به حقیقت تبدیل کرده است. با نگاهی به آینده خواهیم دید دانشمندانی که آنالیزهای خود را به دادههای کوچک محدود میکنند، خود را بسیار عقبتر از دنیایی میبینند که در آن تجزیه و تحلیل حجم پتابایتی دادهها در چند دقیقه انجام میشود. به زودی، از طریق سرویس قدرتمند کلود، بهعنوان متخصصان دیتا دیگر ترسی از دیتاهای پتابایتی نخواهیم داشت.
/دنیای اقتصاد