گزارش اوليه آروان از حمله به سرويسهاي رايانش ابري در ديتاسنتر آسياتك
در روزهاي پاياني سال ۹۹، زيرساخت پردازش ابري آروان در ديتاسنتر آسياتك، بزرگترين مركز داده كشور، به مدت ۳۰ ساعت خاموش شد. اين خاموشي به معناي قطع دسترسي كسبوكارهاي بسياري به اطلاعات بود. بهگفتهيآروان، حملات گسترده هكري به زيرساخت پردازش ابري در مركز داده آسياتك باعث شد دسترسي به اين ديتاسنتر براي جلوگيري از آسيب به اطلاعات مشتريان قطع شود.
با گذشت يك هفته از حمله، آروان گزارش اوليهي حمله و روند بازگرداندن سرويسهاي مشتريان رايانش ابري در ديتاسنتر آسياتك (IR-THR-AT1) را منتشر كرده است. آروان هدف حملات به زيرساخت رايانش ابري خود را تخريب و حذف اطلاعات مشتريان ذكر كرده است و همچنين يادآور شده كه «اين حملات در فعاليت ساير محصولات آروان شامل DNS، CDN، ويدئو پلتفرم، فضاي ذخيرهسازي ابري، همچنين رايانش ابري در ساير ديتاسنترهاي ابر آروان اختلالي ايجاد نكرده و در حدود ۱۶ درصد از مشتريان آروان را متأثر كرده است.»
نشانههايي از اين حملات در روزهاي يكشنبه و دوشنبه ۲۴ و ۲۵ اسفند ديده و منجر به بروز اختلالات محدودي شد؛ اما با آغاز حملات گسترده و متفاوت جديد در شامگاه سهشنبه و آسيبرساني به ديتاي مشتريان در اين ديتاسنتر، مجبور به قطع تمام دسترسيها، بهمنظور جلوگيري از پيشروي آسيبرساني شديم.از تمام كسبوكارهاي آسيبديده در اين اشكال، عذرخواهي ميكنيم. آگاهيم كه قطعي و اختلال سرويس در پيك ترافيكي شب عيد، چه پيامدهايي براي آنها به همراه داشته است و عميقا بابت اين اتفاق متأسفيم.در فرايند اين بحران تلاش كرديم روند بروز اشكال و فرايند حل مسئله را از راههاي رايانامه، پيامك، سايت و بلاگ، همچنين شبكههاي اجتماعي ابر آروان به آگاهي متخصصان برسانيم.ابر آروان به علت اينكه همچنان در حال كالبدشكافي (Forensics) ابعاد نفوذ است، امكان بهاشتراكگذاري اطلاعات متخصص نوع حمله را ندارد. گزارش متخصص نوع حمله پس از پايان فرايند كالبدشكافي با جزئيات كامل منتشر خواهد شد.
حمله چگونه آغاز شد
بر اساس گزارش آروان، در ساعت ۱۱:۳۳ يكشنبه ۲۴ اسفند، يك incident روي دو سوييچ در يك VPC در ديتاسنتر IR-THR-AT1 (آسياتك) ابر آروان مشاهده شد و برآورد اوليه تيم متخصص، اشكال سختافزاري بود كه با بازيابي سوييچها اشكال برطرف شد.
اما در ساعت ۴ صبح دوشنبه ۲۵ اسفند، دوباره اختلال روي سوييچهاي IR-THR-AT1 اتفاق افتاد و به دليل تكرار الگو، احتمال حملهي سايبري داده شد. در نتيجه، تيمهاي ابر آروان از اين زمان تا ساعت ۷ صبح روز بعد، روي موضوع كار كردند و در چند ساعت اول موفق شدند سيستم را به حالت طبيعي برگردانند.
سپس براي جلوگيري از حملهي احتمالي، تغييراتي در شبكهي مديريتي ديتاسنترهاي IR-THR-AT1 و IR-THR-MN1 و NL-AMS-SR1 انجام شد؛ اما متخصص كارشناساني كه به ديتاسنتر IR-THR-AT1 اعزام شده بودند به دليل خستگي، در اعمال تغييرات در شبكهي اين ديتاسنتر دچار اشتباه شدند و فقط بخشي از تغييرات را اعمال كردند.
آروان ميگويد در ساعت ۵:۳۰ عصر سهشنبه ۲۶ اسفند، درحاليكه تيمهاي امنيتي به هر دو ديتاسنتر براي مطالعه دقيق اعزام شده بودند، به شكل ناگهاني از طريق همان بخشي از شبكهي مديريتي كه همچنان فعال بود، ديتاسنتر IR-THR-AT1 مورد حمله قرار ميگيرد. اين حملات در ساعت ۸ شب با حجم بسيار بالايي ادامه پيدا ميكند و تعدادي از سرورهاي ذخيرهسازي و پردازشي با هدف حذف كامل اطلاعات مورد حمله قرار ميگيرند. در ادامه ميخوانيم:
با آغاز آسيبرساني به ديتاي مشتريان، تمام دسترسيها به اين ديتاسنتر قطع شد تا از توسعهي آسيبرساني جلوگيري شود؛ بلافاصله اينترنت و شبكهي مديريتي، هر دو به شكل كامل قطع و علاوه بر متخصص كارشناسان امنيتي، متخصص كارشناسان و اعضاي تيم متخصص به محل ديتاسنتر اعزام ميشوند تا بدون نياز به دسترسي از راه دور - كه ريسك گسترش يا تكرار حمله را افزايش ميداد - به مطالعه موضوع بپردازند.
آروان از هر داده سه نسخه در سه ديسك در سه سرور نگهداري ميكند؛ اما برخي اطلاعات در هر سه نسخه از دست رفتند
آروان ميگويد هكر نتوانسته است به ديتاي مشتريان ابر آروان دسترسي پيدا كند و با توجه به نوع ذخيرهسازي اطلاعات در آن لايه، تنها موفق به آسيب زدن به اطلاعات و پاك كردن بخشي از ديتا شده بود. در اينجا ابر آروان توضيح ميدهد كه به منظور حفظ پايداري، از هر داده (آبجكت) سه نسخهي مختلف در سه ديسك متفاوت در داخل سه سرور مختلف نگهداري ميكند تا اگر يك يا چند ديسك يا حتي يك يا چند سرور از دسترس خارج شوند، به دادهها آسيبي وارد نشود. اما در حملهي اتفاقافتاده، به شكل همزمان تعداد بالايي سرور مورد آسيب قرار گرفتند؛ در نتيجه، علاوه بر حذف حدود ۱۰۰ ترابايت از يك پتابايت اطلاعات اين ديتاسنتر، هر سه نسخهي اطلاعات در برخي موارد از دست رفتند.
آروان با تحليل اوليه برآورد كرده است كه از مجموع بيش از ۹۷ درصد اطلاعات، حداقل يك نسخه از اطلاعات وجود دارد؛ اما به دليل توزيعشدگي سه درصد اطلاعات حذفشده در تمام كلاستر، زيرساخت ذخيرهسازي در خطر از دست رفتن كل اطلاعات قرار گرفت.
فرايند بازگرداندن سرويسها و اطلاعات مشتريان
در ادامه، كميتهي بحراني تشكيل شد و چهار تيم درصدد حل اشكال و اطلاعرساني برآمدند:
- تيم يك: مسئول مراقبت از ديتاسنتر IR-THR-MN1 براي پيشگيري از اتفاق مشابه
- تيم دو: كار متمركز روي استورج ديتاسنتر IR-THR-AT1 براي برگرداندن ۱۰۰ ترابايت اطلاعات و پايدارسازي كلاستر ذخيرهسازي
- تيم سه: كار متمركز روي كل زيرساخت رايانش ابري در IR-THR-AT1 تا به محض رفع اشكال فضاي ذخيرهسازي، سرويس دوباره به مدار برگردد.
- تيم چهار: مسئول كالبدشكافي (Forensics) و ايمنسازي (Hardening)
آروان با پيشبيني آسيب به ديتاي متخصصان و زمانبر بودن بازگشت سرويس، از متخصصان خواست برنامه Disaster Recovery خود را فعال كنند تا اگر از دادههاي خود نسخهي همراه تهيه كردهاند، با استفاده از آن در ساير ديتاسنترهاي آروان يا ديگر فراهمكنندگان زيرساخت، سرويس خود را مجدد راهاندازي كنند.
آروان ميگويد: «بهرغم تأكيد به «همراهگيري اطلاعات حياتي از سوي مشتري» در متن «شروط متخصص استفاده از خدمات زيرساخت رايانش ابري آروان»، بسياري از متخصصان با آروان تماس گرفتند و اعلام كردند كه نسخهي همراهي در دست ندارند.»
در نهايت دسترسي به اطلاعات در ساعت ۱۰:۳۰ صبح چهارشنبه، پس از حدود ۳۰ ساعت با فيكس كردن و يكپارچهسازي داده در سطح كلاستر امكانپذير شد. آروان ميگويد اين نقطه، سختترين كار تيم آغاز شد؛ چرا كه آسيب و اختلال در سه درصد اطلاعات ميتوانست سبب از بين رفتن كل كلاستر و بازيابي ناموفق شود. در نتيجه از اين زمان، تيم بر اصلاح يكپارچگي داده متمركز شد تا كلاستر بالا بيايد.
آروان: در شروط متخصص استفاده از خدمات زيرساخت رايانش ابري تأكيد كرديم كه مشتريان از اطلاعات حياتي همراه بگيرند
تيم متخصص با دو اشكال مواجه بودند: البته اينكه سه درصد ديتاي ازدسترفته مربوط به سه درصد از مشتريان نبود بلكه اطلاعات تمام مشتريان اين ديتاسنتر را شامل ميشد؛ بنابراين احتمال ميرفت كه بخش ناچيزي از اطلاعات اكثريت مشتريان آسيب ديده باشد. بااينحال ممكن بود اين بخش ناچيز، با اثرگذاري بر پارتيشن بوت، مانع بالا آمدن ابرك شود يا با ايجاد اشكال در پارتيشن سيستم، كار سيستمعامل را با اخلال مواجه كند يا با قرار گرفتن در ديتابيس متخصص، آن را از كاركرد عادي بازدارد.
اشكال دوم آروان اين بود كه قطع ناگهاني سيستمعاملها از استورج، بهطور كلي سبب افزايش احتمال آسيبديدگي ميشود. اين اشكالات تا ساعت ۴ صبح روز پنجشنبه ۲۸ اسفند حل شدند؛ كلاستر بالا آمد و كار تيمهاي ديگر هم تمام شد. سپس، بهمرور دسترسي مشتريان به سرورهاي ابري باز شد.
در اينجا اشكال ديگري پيش آمد؛ چرا كه با باز شدن دسترسي به پاپسايت و مطالعه دقيقتر وضعيت ابركها، مشخص شد حذف كمتر از سه درصد از اطلاعات كل ديتاسنتر، سبب تأثيرگذاري روي بخش گستردهاي از سرورهاي ابري شده است. آروان ميگويد:
ميزان سكتورهاي آسيبديده در Block Storage متصل به ابرك، همچنين نوع فايلسيستم، سيستمعامل و پايگاه دادهها سبب ميشد كه سطح آسيبپذيري طيف گستردهاي داشته باشد. در چنين موقعيتي، هر كدام از سيستمعاملها رفتار متفاوتي دارند، از بين سيستمعاملهاي ويندوز و نسخ مختلف لينوكس و فايلسيستمهايشان، برخي سادهتر و برخي با سختي بيشتر ريكاوري ميشوند. همزمان با بهكارگيري روشهاي بازيابي سيستمعاملها، مقالهي يادگيريي آنها نيز منتشر ميشد.
آروان هنوز نميتواند آمار دقيقي از سطح آسيب به ابركها اعلام كند؛ چرا كه بخشي از ابركها بدون هيچ اقدامي امكان استفاده داشتند، بخش ديگري با Reboot و در نهايت ترميم boot loader به مرحلهي استفاده ميرسيدند و برخي نياز به ترميم فايلسيستم يا ريكاوريهاي پيشرفتهتر دارند.
در ادامه در مورد پاسخگويي ۲۴ ساعته آروان به مشتريان ميخوانيم: «از ظهر روز چهارشنبه، تمام خطوط تلفني ابر آروان و تمام ظرفيت تيم همراهي براي پاسخگويي به مشتريان به كار گرفته شده بودند. با بازگشايي دسترسي متخصصان در صبح روز پنجشنبه، ظرفيت تيم همراهي با حمايت تيمهاي متخصص و تيمهاي كوچ ابري، چهار برابر شد.»
كمتر از سه درصد از اطلاعات كل ديتاسنتر حذف شدند؛ اما همين مقدار روي بخش زيادي از سرورهاي ابري تأثير گذاشت
مشتريان فعال ابر آروان در ديتاسنتر آسياتك، حدود ۷۰۰۰ سرور ابري داشتند و از اين ميان، تعداد ۱۱۰۰ سرور ابري از سوي مشتريان براي مطالعه به تيمهاي متخصص ابر آروان ارجاع شدند. آروان ميگويد تاكنون اشكال ۳۰ درصد آنها حل شده است و مابقي همچنان در فرايند حل مسئله قرار دارند.
آروان ميگويد حجم مشترياني كه تقاضاي كمك داشتند به حدي بالا بود كه فرايند پاسخگويي و حل مسئله با كندي همراه شد و اشكالات پيشآمده در كلاستر نيز در مقاطعي، فرايند بازيابي را متوقف كرد.
پرداخت جبران خسارت به مشتريان
آروان با تصور اينكه كلاستر ذخيرهسازي در روز پنجشنبه ۲۸ اسفند پايدار شده است، محاسبهي مدتزمان در دسترس نبودن سرويس را به نسبت هزينهي ماهانهي هر يك از مشتريان انجام داد و مبلغ آن را محاسبه و بالاتر از سقف جبران خسارت تعهدشده، به كيف پول متخصصان واريز كرد. همچنين مبلغي كه در روزهاي قطعي از كيف پول متخصصان كم شده بود، به حساب آنها برگردانده شد.
علاوهبر اينها، فضاي ذخيرهسازي ابري تا پايان فروردين ۱۴۰۰ به شكل رايگان در اختيار تمام مشتريان ديتاسنتر IR-THR-AT1 ابر آروان قرار گرفت تا در فرايند همراهگيري با اشكال فضاي ذخيرهسازي مواجه نباشند.
البته ابر آروان پس از تجربهي اين اتفاق و عدم همراهگيري ديتا از سوي تعداد بالايي از مشتريان، در تلاش است مجموعه اقدامات پيشگيرانهاي را به منظور سهولت تهيهي نسخه همراه از سوي مشتريان در آينده فراهم كند. بااينحال در روزهاي بعد، مشخص شد كه كلاستر ذخيرهسازي با اشكالاتي همراه است؛ در نتيجه محاسبه مجدد براي برخي مشتريان، پس از حل اشكال، دوباره انجام خواهد شد.
در روز جمعه ۲۹ اسفند، حجم درخواست تعداد زيادي از متخصصان براي درست كردن فايلسيستم يا همراهگيري ديتا و ريكاور كردن كلاستر ذخيرهسازي در يك فشار زماني كوتاه صورت گرفته بود؛ آن هم درحاليكه كلاستر هم موفق به تهيهي سه نسخه از تمام دادهها نشده بود؛ بهعلاوه، براي ساخت ابركهاي جديد براي انتقال اطلاعات روي آن نياز به فضاي بيشتر بود و در نتيجه بايد ظرفيت كلاستري كه بهسختي آسيبديده بود نيز افزايش پيدا ميكرد. در نتيجه، ۴۰۰ ترابايت استورج به كلاستر اضافه شد.
آروان: ۷۰۰۰ سرور ابري در ديتاسنتر آسياتك وجود دارد كه ۱۱۰۰ مشتري به تيمهاي متخصص ارجاع شدند و اشكال ۳۰ درصد آنها حل شده است
آروان ميگويد تزريق منابع جديد به معناي وزندهي دوبارهي ديسكها (Rebalance) است كه سبب درگيري شديد زيرساخت و قفل شدن كلاستر ميشود. به همين دليل، در روز ۲۹ اسفند، وضعيت بحرانيتر شد و تلاش تيم باتجربه و متخصص متخصص آروان نتوانست بهبودي در وضعيت كلاستر ايجاد كند. در نتيجه آروان از كمك تيمهاي متخصص آلماني و تركي بهره گرفت؛ اما باز هم تأثير چشمگيري در بهبود وضعيت مشاهده نكرد. در اين اثنا، فرايند بازيابي سرورهاي ابري متوقف شد تا تمام تمركز روي بهبود زيرساخت گذاشته شود.
روز دوشنبه ۲ فروردين، آروان با شكست تلاشهاي تيمهاي تخصصي مختلف، سعي كرد با Patch كردن اشكال نرمافزاري كلاستر و همزمان افزايش منابع، اشكال را حل كند. آروان مينويسد:
بهطور خلاصه ميتوان گفت اشكال اصلي كلاستر ذخيرهسازي تأثير تسلسل دو اشكال ReMirroring-Storm و يك Memory Leak در لايهي نرمافزاري Ceph در شرايط خاص است، اين اشكال همافزا سبب به اغما رفتن كلاستر ميشود. با موفقيتآميز بودن اين فرايند، آروان كد اصلاحي را به شكل متن باز منتشر خواهد كرد.
اين فرايند براي ريكاوري همچنان در حال انجام است؛ بهعلاوه يك تيم در حال برنامهريزي براي راهاندازي كلاستر جديد و انتقال ديتاهاي ممكن از كلاستر آسيبديده به كلاستر جديد است. آروان پيشبيني ميكند اين روال با توجه به حجم كار زيرساختي، تا پايان هفتهي اول فروردين ادامه پيدا كند.
زمانيكه اشكال كلاستر ذخيرهسازي حل شود، آروان به مشتريان اطلاعرساني ميكند تا اقدامات مرتبط با همراهگيري را انجام بدهند. ابر آروان ميگويد مجموعه اقداماتي براي پيشگيري از بروز حوادث اينچنيني در دست انجام دارد كه پس از حل اشكال تمام مشتريان و رسيدن به وضعيت پايدار در گزارش تكميلي، آنها را اطلاعرساني ميكند.
هم انديشي ها