کلاؤڈ فلیر نے حالیہ بڑے آؤٹج کی تفصیلات جاری کی ہیں جس کے باعث منگل کے روز کئی ویب سائٹس بند رہیں۔ کمپنی کے شریک بانی اور سی ای او میتھیو پرنس نے بلاگ پوسٹ میں بتایا کہ مسئلہ کمپنی کے بوٹ مینجمنٹ سسٹم کے اندر پیدا ہوا۔ یہ سسٹم ویب سائٹس تک رسائی رکھنے والے خودکار بوٹس (crawlers) کو کنٹرول کرنے کے لیے بنایا گیا ہے۔
کلاؤڈ فلیر کے مطابق انٹرنیٹ کا تقریباً 20 فیصد حصہ اس کے نیٹ ورک سے گزرتا ہے۔ یہ نیٹ ورک خاص طور پر ٹریفک اسپائکس اور DDoS حملوں کے دوران ویب سائٹس کو آن لائن رکھنے کے لیے ڈیزائن کیا گیا ہے، لیکن اس بار سسٹم ناکام ہو گیا اور کئی سائٹس کئی گھنٹوں تک بند رہیں۔ متاثرہ پلیٹ فارمز میں X، ChatGPT اور Downdetector شامل ہیں، جس سے حالیہ Microsoft Azure اور Amazon Web Services کی ناکامیوں جیسا منظر پیدا ہوا۔
ناکامی کی وجہ:
پرنس نے بتایا کہ مسئلہ ڈیٹا بیس میں کی گئی تبدیلی کی وجہ سے پیدا ہوا۔ یہ DNS، کلاؤڈ فلیر کے نئے AI ٹولز، یا کسی سائبر حملے سے متعلق نہیں تھا۔ اصل مسئلہ بوٹ مینجمنٹ سسٹم میں استعمال ہونے والے مشین لرننگ ماڈل سے پیدا ہوا۔ یہ ماڈل ہر درخواست کو ایک “بوٹ سکور” دیتا ہے تاکہ فیصلہ کیا جا سکے کہ ٹریفک حقیقی ہے یا خودکار۔ اس ماڈل کے لیے ایک کنفیگریشن فائل استعمال ہوتی ہے جو اکثر اپڈیٹ ہوتی ہے، لیکن ClickHouse ڈیٹا بیس میں حالیہ تبدیلی کے بعد فائل میں کئی ڈپلیکٹ رووز آ گئے، جس سے فائل کا سائز حد سے زیادہ بڑھ گیا اور میموری کی حد عبور کر گئی۔
جب یہ ہوا تو کور پروکسی سسٹم جو کسٹمر ٹریفک ہینڈل کرتا ہے، ناکام ہو گیا۔ جس کمپنی نے مخصوص بوٹس کو بلاک کرنے کے لیے قواعد استعمال کیے، وہاں حقیقی ٹریفک بھی فیک سمجھا گیا اور صارفین ویب سائٹس تک رسائی کھو بیٹھے۔ وہ صارفین جو بوٹ سکور پر منحصر نہیں تھے، آن لائن رہیں۔
کلاؤڈ فلیر کا اگلا قدم:
پرنس نے بتایا کہ کمپنی کئی اصلاحات کر رہی ہے تاکہ مستقبل میں ایسا نہ ہو۔ ان میں کنفیگریشن فائلز کو زیادہ سختی سے ہینڈل کرنا، مزید عالمی کل سِوچز شامل کرنا، ایرر رپورٹس کے لیے سسٹم وسائل کا محدود استعمال اور کور سسٹمز کے ردعمل کا جائزہ لینا شامل ہے۔
یہ اقدامات کلاؤڈ فلیر کے نیٹ ورک کو مزید مستحکم اور قابل اعتماد بنانے کے لیے کیے جا رہے ہیں۔
