نگهبانان نامرئی زیرساخت پرداخت الکترونیک سداد
او نه تنها حافظ استاندارهای سلامت سیستم است بلکه با پیروی از یک برنامه روتین ورزشی در زندگی شخصیاش هم به این اصول پایبند است؛ مراقبتهای شبانهروزی او و تیم یازده نفرهاش، در اتاقی که 14 مانیتور بزرگ با 70 هزار نود را بیوقفه باید رصد کنند، نقش بسیار مهمی در مسیر پیشرفت سداد ایفا کرده است؛ نودهایی که اگر فقط یکی از آنها با مشکل مواجه شود میتواند تبدیل به فاجعه شود. میگوید برای ورود به این حوزه باید شبکه و آیتی خواند، هر چند که دانش کسب و کاری هم برای تشخیص و تعریف سرویسهای جدید به مشتریان مهم است.
برای آشنایی بیشتر با حوزه فعالیت مرکز عملیات شبکه (NOC) در این گفتگو با ما همراه باشید.
الزامات واحد NOC
واحد NOC، ابتدای سال 1394 با دو نفر آغاز به کار کرد. از آن سال تاکنون، تقریبا هشت بار ممیزی انجام شده که پرداخت الکترونیک سداد هفت بار، نمره کامل شاپرک را دریافت کرده است و به جز سال اول در سالهای بعد توانسته تطبیق صددرصدی را بگیرد. محمد آریان در خصوص شرایط دریافت امتیاز کامل از شاپرک گفت: مطابق با الزامات شاپرک، باید یکسری دستورالعملها را از نظر پایش تجهیزات، سامانهها و سرویسهای مرتبط با شاپرک، زیرساختها و ارتباطات شبکهای رعایت کنیم. همچنین لازم است گزارشهای ماهانه از وضعیت سلامت سیستم سوئیچ پذیرندگی، درگاه و زیرسامانهها به مدیرعامل ارائه شود که البته بخشی از گزارش مربوط به حوزه کسبوکار است. مورد دیگر، اجایلیتی است؛ یعنی هرگاه رخدادی ایجاد میشود به سریعترین وجه، مشکل را حل کنیم. با توجه به نیاز شرکت، با اضافه کردن یکسری ابزار برای دید بهتر توانستیم با کسب دیتای بیشتر، تحلیل بهتری داشته باشیم و درنهایت سرویس پایدارتری به مشتریان بدهیم.
او با اشاره به اینکه پرداخت الکترونیک سداد از یکسال و نیم پیش، در کنار ابزارهای قبلی، شروع به استفاده از ابزارهای بهروز کرده و هفت ابزار حرفهای و برتر جهانی در این حوزه دارد گفت: برای مانیتورینگ نیز مانند سایر کسبوکارها، ابزار خاص توسط شرکتهای بهنام حوزه فناوری ساخته شده است. مثلا اچ پی یا سیسکو، ابزار مانیتورینگ خاص خود را دارند. یکسری محصولات مانند ManageEngine، solarwinds، whatsup gold و prometheus بهصورت تخصصی ابزار مانیتورینگ تولید میکنند. عملا با استانداردهای خاصی که به آنها پروتکلهای مانیتورینگ میگوییم، میتوان تجهیزات مختلف از سنسور دما و رطوبت تا حوزه تراکنش را پایش، از آنها گزارشگیری و برای آنها آستانه، تعریف و از آنها ترند استخراج کرد.
فراتر از استانداردهاییم
آریان با بیان اینکه شاپرک ضوابطی مشخص میکند که باید مطابق آنها استاندارد مانیتورینگ داشت، افزود: الان حدود هفت ابزار مختلف داریم که هرکدام یک المان را با دو یا سه روش مختلف پایش میکنند. به عنوان مثال، وضعیت سلامت یک سرور با دو یا سه روش از مسیرهای مختلف پایش میشود تا اگر احتمالا یکی از ابزارهای مانیتورینگ دچار خطا شد، یکی دو ابزار دیگر، داده درست استخراج کنند. تجمیع دیتا و ارتباط ابزار مانیتورینگ با همدیگر، به ما در تحلیل و عیبیابی منبع رخداد کمک میکند؛ فرآیندی که شناسایی آن قبلا یک دقیقه زمان میبرد الان به 30 تا 35 ثانیه کاهش پیدا کرده است. تعدد اینها مثلا در زمینه پایش سرویسهای مهم برای 10 تا 15 مورد 30 ثانیهای، ممکن است حدود 10 دقیقه در عملکرد سرویس و سامانهها تاثیر بگذارد.
زیرساخت امن
آریان در بخش دیگری از گفتگو در پاسخ به اینکه اقدام شرکت در مواقعی که سرویسدهی به دلیل اختلالات برونشبکه دچار مشکل میشود چیست، گفت: قطعا برای ارائه بخشی از سرویسها نیازمند دریافت خدمت از شرکتهای بیرونی یا پروایدرهای خارج از سازمان هستیم؛ مانند سرویس عوارض خروج از کشور ناجی یا فروش پینشارژها و بستههای اینترنت که مربوط به اپراتورهاست. اگر هرکدام از این اپراتورها یا یکی از سازمانهای بیرونی که در حال خدمت به ما هستند، مانند استعلام قبوض، عوارض خروج از کشور، خلافی، گواهینامه و… با مشکلی مواجه شوند، مشتری ما تحتتاثیر قرار میگیرد. در این لحظه، سرویس ما از A تا Z، چه از نظر شبکه و چه از نظر زیرساخت و تجهیزات مشکلی ندارد و به درستی سرویس میدهد؛ یعنی سرویس ما بالاست به هر حال ممکن است سازمان خدمترسان به هر دلیلی نتواند در آن لحظه خدمت بدهد یا زیرساخت کشوری مشکل داشته باشد اما با وجود تمام مشکلات زیرساختی کشور، سوئیچ پذیرندگی و درگاه ما به درستی خدمات ارائه میدهد.
به گفته وی، درصد عوامل خارجی در بروز اختلالات بسیار بالاست؛ چون اگر قرار باشد تغییراتی اعمال شود، مثلا مجوز تغییرات پیشبینی شده گرفته شود، قطعا قبل از آن اطلاعرسانی صورت میگیرد. همکاران ما تا جای ممکن، فرایند ریسک را درنظر میگیرند و تغییر را در بازههای زمانی انجام میدهند که کمترین تاثیر را برای مشتری داشته باشد، مانند بازه نیمهشب که حجم تراکنش، کمتر از همیشه است. بنابراین نمیتوان برای برخی از این اختلالات، کاری انجام داد.
آریان در پاسخ به اینکه چند درصد از اختلالات سرویسدهی به عوامل برونسازمانی مربوط میشود، گفت: اگر نسبت را لحاظ کنیم، 75 تا 80 درصد اختلالات به عوامل خارجی برمیگردد. این موضوع را میتوان از طریق گرافها و مستندات موجود درباره Uptime سرویسها و سرورها مشخص کرد. مثلا مهرماه پارسال به خاطر اتفاقاتی که رخ داد، اپراتورهای اینترنتی به شدت، اختلال و قطعی داشتند. این موضوع، بسیار وحشتناک بود. عملا در برخی مواقع، اصلا روی کارتخوانهای سیار یا درگاه اینترنتی، امکان سرویسدهی نداشتیم. به دلیل قطعی مکرر پروایدرهای اینترنتی، حملات سایبری به آنها و مشکلاتی که در زیرساخت کشوری اعمال میشد، ما هم نمیتوانستیم به خوبی سرویس بدهیم اما در بازههای دیگر، معمولا سرویسهای استعلامی مانند قبض گاز و برق یا عوارض خروج از کشور، بیشتر قطعی داشت.
رکورددار میمانیم
او در قسمت دیگری از گفتگو در خصوص اینکه معمولا پیک تراکنشها در چه مقطعی است، گفت: عدد دقیق نزد واحد عملیات نرمافزار است با این حال هر سال نزدیک شب عید، رکوردهای سال قبل را میزنیم. اگر سوئیچ کارتهای بانکی پاسخگو باشند، مشکلی ایجاد نمیشود، تا حالا هم مشکلی نداشتهایم. معمولا اوج کاری ما شبهای عید است؛ 27 و 28 اسفندماه. اسفند گذشته 30 هزار تراکنش در دقیقه را هم رد کردیم.
آریان در خصوص اینکه برای کاهش میزان خطا در شبکه چه اقداماتی صورت گرفته است، اینطور توضیح داد: حوزه شبکه به چند قسمت تقسیم میشود. یکی شبکه LAN داخلی خود ساختمان است؛ یعنی ارتباط ساختمان ما با ساختمان سوری و انبار خرمدشت به علاوه مرکز داده بخارست که کاربران آن، همکاران شرکت هستند. یک سایت هم به عنوان بکاپ در پردیس داشتیم که البته خیلی نمیشد به عنوان بکاپ روی آن حساب کرد. قسمتی از دیتاسنتر پارسآنلاین را هم اجاره کرده بودیم که دوستان، آنجا از یکسری دیتاها بکاپ میگرفتند.
او افزود: در حال حاضر برنامهای که وجود دارد تهیه یک سایت disaster برای شرکت است که از این نظر هم خیالمان راحت باشد تا اگر حمله یا اتفاقی مانند آتشسوزی و… افتاد، جای دیگر بکاپ وجود داشته باشد و بتوانیم سرویس را بدون وقفه ارائه دهیم.
چابکتر میشویم
رییس مرکز عملیات شبکه پرداخت الکترونیک سداد در پاسخ به اینکه آیا فرآیند مانیتورینگ علاوه بر دستگاههای کارتخوان، درگاههای اینترنتی و ایوا را نیز شامل میشود یا خیر؟ گفت: این امر، کلیه سرویسهایی که مربوط به درگاه، پوز و میکروسرویسهای موجود روی ایوا و نیز تمام لینکهای ارتباطی با کل کشور را شامل میشود. هرکدام از اینها، مجددا چهار تا پنج لینک بکاپ دارند. علاوه بر اینها، تجهیزات استانها و رادیوهای ارتباطی نیز رصد میشوند. ما اینها را در بخشهای مختلف، بر اساس نیاز واحدهایی که با آنها کار میکنیم، منطقهبندی کردیم. دوستان شبکه و عملیات به یکسری گرافهای خاصی که ما برای آنها شخصیسازی کردیم، دسترسی دارند و میتوانند از آن، برای مانیتورینگ تجهیزات خود بهرهبرداری کنند. الان مشخص است که تمام تجهیزات شبکه، روی کدامیک از سرورهای ما مستقر است. همه اینها از همدیگر تفکیک شده است.
آریان، با بیان اینکه تهران جزو بهترین استانها از نظر وضعیت اختلال است، در خصوص وضعیت پیک اضافه در رویدادهای خاص نظیر نمایشگاه کتاب گفت: معمولا در این بازهها، در زمینه رصد وضعیت ترافیک و پایش شبکه خارجی، وضعیت نارنجی داریم. اگر براساس ترندی که ابزارها به ما میدهند احساس کنیم با شرایط موجود، برای 24 ساعت یا دو روز دیگر، ظرفیت ما پر میشود، در این حالت، بر اساس دیتاهایی که در این بازه میگیریم، به همکاران در قسمتی که میتوانند منابع را اضافه کنند و پوشش دهند، گزارش میدهیم و آنها براساس فرایندهای خودشان، ظرفیت را افزایش میدهند.
او در پایان با بیان اینکه این واحد برای چابکتر شدن در حال ایجاد تغییرات گسترده روی ابزارهای مانیتورینگ خود است، گفت: همکاران ما شروع به برنامهنویسی کردهاند تا ابزار مورد نیاز برای ثبت لاگ و گزارشگیری طراحی کنند که فکر میکنم به زودی، این کار تمام میشود. ارتباط بین این ابزارها باعث میشود برای عیب یابی و تشخیص مشکل، سرعت عملمان به شدت افزایش پیدا کند. این برنامهای است که در پروژهها تعریف کردهایم و طبق برنامه، پیش میرویم.