الگوريتم جديد مبتني بر يادگيري ماشين، كد كپچا را بهراحتي حدس ميزند
محققاني از انگليس و چين، موفق به توسعهي الگوريتم جديدي مبتني بر يادگيري ماشين شدهاند كه ميتواند كدهاي امنيتي كپچا (CAPTCHA) را بسيار سادهتر، سريعتر و با دقت بالاتري نسبتبه تمام روشهاي قبلي حدس بزند.
الگوريتم جديد مبتني بر شبكهي رقابتي مولد (GAN)، توسط دانشمنداني از دانشگاه لنكستر انگليس، دانشگاه نورت وسترن چين و دانشگاه پكينگ چين توسعه يافته است. GANها، كلاس ويژهاي از الگوريتمهاي هوش مصنوعي هستند كه براي مواردي كه به مقادير زيادي از داده براي يادگيري دادن الگوريتم، دسترسي وجود ندارد، بهكار برده ميشوند. معمولا در الگوريتمهاي مبتني بر يادگيري ماشين، براي آنكه الگوريتم بتواند كار خود را بهدرستي و با دقت بالاتري بهانجام برساند، نياز به ميليونها داده براي يادگيري الگوريتم وجود دارد.
الگوريتم GAN داراي مزيتهاي قابلتوجهي است. يكي از مزاياي الگوريتم GAN آن است كه ميتواند با استفاده از دادههاي اوليهي بسيار كمتري نسبت به ساير الگوريتمها كار كند. علت آن است كه الگوريتم GAN از مولفهي موسوم به «مولد» يا «generative»، براي توليد دادهي شبيه بهيكديگر استفاده ميكند. سپس، دادههاي توليدشده به الگوريتم «حلكننده» يا «solver» تغذيه ميشوند. اين الگوريتم تلاش ميكند تا خروجي را حدس بزند.
وقتي دو عنصر GAN دربرابر يكديگر قرار ميگيرند، قسمت solver يا حلكنندهي الگوريتم، عملكرد بهتري از خودش نشان ميدهد و شبيه به اين است كه با ميليونها داده، يادگيري ديده باشد. محققان انگليسي و چيني، از اين ايده براي شكستن كد CAPTCHA استفاده كردند. اكثر قريب به اتفاق مطالعات قبلي انجامشده در اين زمينه، از الگوريتمهاي يادگيري ماشين كلاسيك استفاده ميكردند كه نياز به مقادير زيادي از دادههاي اوليهي يادگيريدادهشده به سيستم بود.
محققان معتقدند كه در دنياي واقعي، كسي كه قصد حمله به يك وبسايت را دارد، نميتواند ميليونها كد كپچا (CAPTCHA) براي وبسايت يا API توليد كند و شناسايي نشود يا آن وبسايت ممنوعيتي براي ورود وي درانديشه متخصصين نگيرد. بههمين دليل، محققان در تحقيق خود، تنها از ۵۰۰ كد متني كپچا از هر يك از ۱۱ سرويس كد متني CAPTCHA براي ۳۲ وبسايت برتر از انديشه متخصصين الكسا استفاده كردند. محققان معتقدند:
براي جمعآوري ۵۰۰ كپچا، كمتر از ۲ ساعت زمان (كمتر از ۳۰ دقيقه براي بيشتر طرحها)، و كمتر از ۲ ساعت براي برچسبگذاري آنها براي يك متخصص زمان صرف شد. اين بدان معني است كه تلاش و هزينهي كمتري براي شكستن كد كپچا صرف شده است.
در جدول ذيل، فهرستي از دادههاي يادگيريي ديده ميشود كه شامل كد متني CAPTCHA از سايتهايي همچون ويكيپديا، مايكروسافت، eBay، بايدو، گوگل، Alipay، JD، Qihoo360، سينا، ويبو و Sohu است. محققان پس از جمعآوري و يادگيري حلكنندههاي GAN با استفاده از ايجاد بيش از ۲۰۰٫۰۰۰ كد متني كپچاي مصنوعي، توانستند الگوريتمهاي خود را در مقايسه با ساير سيستمهاي كد متني كپچا كه در اينترنت استفاده ميشوند، مورد آزمايش قرار دهند كه پيش از اين توسط محققان دانشگاهي ديگري مورد آزمايش قرار گرفته بودند. محققان اعلام كردند:
جدول، مقايسهي خوبي بين روشهاي حمله قديمي با روش الگوريتم جديد نشان ميدهد. در اين آزمايش، رويكرد جديد در مقايسه با تمام روشهاي قبلي، عملكرد بهتر و نتايج قابلتوجه بهتري را نشان ميدهد.
محققان اعلام كردند كه روش پيشنهادي آنها ميتواند با دقت ۱۰۰ درصد، كدمتني كپچا را در سايتهايي مانند Megaupload، Blizzard و .NET حدس بزند. باتوجه به آزمايشهاي انجامشده روي ۳۰ سايت ديگر، مشخص شد كه روش محققان از دقت بالاتري نسبت به تمام روشهاي قبلي برخوردار است. در اين مطالعه، سايتهايي همچون آمازون، Digg، Slashdot، PayPal، ياهو و QQ مورد مطالعه قرار گرفتند. محققان اعلام كردند كه الگوريتم جديد آنها علاوهبر اينكه از دقت بالاتري نسبت به روشهاي قبلي برخوردار است، كارايي بهتر و ارزش پايينتري هم دارد. محققان اعلام كردند:
الگوريتم جديد ميتواند با استفاده از يك كامپيوتر دسكتاپ، كد متني كپچا را در كمتر از ۰.۰۵ ثانيه حدس بزند.
اين بدان معني است كه مهاجمان نيازي به خريد و پرداخت هزينه براي سرورهاي رايانهاي گرانارزش ندارند تا بتوانند كدهاي متني CAPTCHA را بلادرنگ در وبسايتهاي مورد انديشه متخصصينشان حدس بزنند. وقتي مهاجمي، الگوريتم كد متني كپچا را يادگيري داده است، ميتواند از اين الگوريتم روي دسكتاپ يا وب سرور معمولي استفاده كند و حملات DDoS يا حملات اسپم را روي وبسايتهايي كه از سرويس كد متني كپچا استفاده ميكنند، بهانجام برساند. از آنجايي كه يادگيري دادن الگوريتم بسيار ساده است، چنين افرادي ميتونند بهراحتي الگوريتم را يادگيري بدهند. دكتر ژنگ وانگ، مدرس ارشد دانشكده محاسبات و ارتباطات دانشگاه لنكستر و همكارانش در اين تحقيق اعلام كردند:
چنين وضعيتي واقعا ترسناك است. اين بدان معني است كه اولين سد دفاع امنيتي بسياري از وبسايتها ديگر قابل اعتماد نيست.
دكتر ژنگ و تيم تحقيقاتي او توصيه ميكنند كه صاحبان وبسايتها اقدامات ديگري را براي تشخيص روباتها و ايجاد چندين لايهي امنيتي مورد توجه قرار بدهند؛ مثلا ميتوانند از روشهايي نظير استفاده از الگوها، موقعيت مكاني يا دادههاي بيومتريك استفاده كنند. در اوايل سال جاري ميلادي، گوگل چنين سرويسي را تحت عنوان نسخهي ۳ ابزار كپچا معرفي كرد. گوگل اعلام كرد كه نسخهي جديد سرويس كپچا با الگوريتمهاي مبتني بر يادگيري ماشين كار ميكند تا بتواند روباتها را از متخصصان واقعي تشخيص بدهد.
هم انديشي ها