هوش مصنوعي OpenAI هماكنون قادر به شكست تيمهاي نيمهحرفهاي دوتا 2 است
كاربري هوش مصنوعي (AI) تنها به كارهايي مانند اعمال افكتهاي اسلوموشن به ويديوها و پيشنهاد محصولات بر اساس دكور خانه، محدود نميشود. اين حوزه هماكنون قادر به شكست بازيكنان باسابقه انساني يكي از محبوبترين بازيهاي استراتژي الكترونيك دنياست: دوتا ۲ شركت ولو.
اُپن اِيآي يك شركت تحقيقاتي غيرانتفاعي فعال در حوزه هوش مصنوعي است. OpenAI سانفرانسيسكويي توسط تعدادي از ستارگان آسمان فناوري مانند ايلان ماسك، ريد هافمن و پيتر تيل همراهي ميشود. اين شركت بهتازگي اعلام كرده است كه آخرين نسخه از هوش مصنوعي اين شركت كه دوتا ۲ بازي ميكند (ملقب به OpenAI Five)، توانسته ۵ تيم از بازيكنان نيمهحرفهاي را شكست بدهد. يكي از اين تيمها متشكل از كاركنان خود شركت ولو (سازنده Dota 2) بود.
نسل قديم از سيستم OpenAI تنها قادر به برتري در ديدارهاي يك در برابر يك بود كه پيچيدگي بسيار كمتري نسبت به بازي گروهي ۵ در برابر ۵ دارد.
همبنيانگذار و مدير ارشد فناوري OpenAI ميگويد:
بازي دوتا واقعا پيچيده است. در اين بازي شما با افقهاي زماني طولاني و بهطور پيوسته مواجه ميشويد. در بازيهاي روميزي شاهد چند صد حركت ممكن هستيم، اما در دوتا ۸۰ هزار فريم مجزا داريم. هرگاه كاري انجام دهيد، اتفاقات بسيار بيشتري بهتبع آن رخ ميدهد. بايد راهي پيدا كنيد تا بتوانيد براي اين زمان طولاني و با كنترل بسيار كم، برنامهريزي مناسبي داشته باشيد.
الگوريتمهاي يادگيري ماشين OpenAI به مصاف با ۵ تيم رفت: يك تيم از كاركنان OpenAI، يك تيم از مخاطباني كه بازي را مشاهده ميكردند، يك تيم از كاركنان ولو، يك تيم آماتور و يك تيم نيمهحرفهاي. هوش مصنوعي بهراحتي سه تيم اول را در ديدارهاي متعددي شكست داد و دو بازي از سه بازي خود در مقابل تيمهاي چهارم و پنجم را نيز برد.
OpenAI Five واقعا در بعضي از زمينهها برتر بود. اين هوش مصنوعي ميتوانست به تغييرات سلامتي، موقعيت و تجهيزات هر بازيكن بهطور آني پاسخ دهد. بهطور ميانگين، شبكه عصبي آن حدود ۱۵۰-۱۷۰ عمل در دقيقه (تا بيشترين مقدار ۴۵۰) با زمان واكنش فرا انساني ۸۰ ميليثانيه، انجام داد و اين هوش مصنوعي با محدوديتهايي روي برخي از قابليتهاي ويژه، آيتمها و شخصيتها بازي كرد. اما هيچكدام از اين برتريها در كامل كردن هدف غايي اين هوش مصنوعي يعني ارائهي بازي مشابه با بازيكنان كاملاً حرفهاي، كافي نبود.
هوش مصنوعي بارها طي بازي «Safe Lane» خود را براي بهدستآوردن Safe Lane حريف، قرباني كرد؛ و همچنين با حمله به سنگرها و قهرمانان تيم مقابل، قهرمانان خود را ارتقا داده و سريعتر از بسياري از رقباي انساني به سمت پايگاه دشمن حركت ميكرد.
اين هوش مصنوعي همچنين يكسري تكنيك جديد در حين اين بازيها ياد گرفته است؛ مانند جاخالي دادن مقابل موشكها و كسب XP در ابتداي بازي. هوش مصنوعي حتي تكنيكهايي مانند «creep blocking» را در بازي پياده كرد، تكنيكي كه در آن يك قهرمان بهطور فيزيكي مسير دشمنان كوچك را مسدود ميكند تا از پيشرفت آنان جلوگيري كند.
OpenAI برنامه دارد تا در آينده هوش مصنوعياش را با تيمهاي حرفهاي رقابت دهد.
يادگيري OpenAI Five
OpenAI Five از ۵ لايه تكي، شبكههاي حافظه كوتاهمدت ۱۰۲۴ واحدي (LSTM) - نوعي از شبكه عصبي بازگشتكننده (RNN) كه ميتواند مقادير يك طول دلخواه از زمان را «به ياد بسپارد» - كه هركدام به يك قهرمان اختصاص دارند، تشكيل شده است. شبكهها با يك مدل يادگيري تقويتي عميق يادگيري داده شدهاند كه با پيشرفت و تخصيص پاداش به خود، انگيزه ميگيرد. در مورد OpenAI Five، پاداشها همان تعداد كشتهها، مرگها، كمكها (assist)، ارزش خالص و ديگر آمار بازي دوتا هستند.
جالب است بدانيد كه اين شبكههاي LSTM با يكديگر ارتباط برقرار نميكنند. بهجاي آن، يك هايپرپارامتر به نام «روحيه تيمي» كه مقداري از ۰ تا ۱ است، ترجيح هر قهرمان بر پاداش شخصي و تيمي را مشخص ميكند.
براي آمادهسازي ديدارها، سيستم هر روز معادل ۱۸۰ سال روي يك سيستم متشكل از ۲۵۶ كارت گرافيك انويديا P100، بازي ميكند (۱۲۸ هزار هسته در مقايسه با ۶۰ هزار هسته بات قبلي دوتا).
حين هر ديدار، هر بازيكني ميتواند ۱۷۰ هزار عمل ممكن را انجام دهد؛ و اگر تمام قهرمانان بازي را در انديشه متخصصين بگيريم حدود ۱۰ هزار حركت در هر فريم امكانپذير خواهد بود.
كاركنان OpenAI جمع شدهاند تا بازي هوش مصنوعي را در مقابل انسان تماشا كنند
رپيد (Rapid)، چهارچوب تمريني OpenAI، از دو بخش تشكيل شده است: مجموعهاي كه يك نسخه از دوتا ۲ را روي يك شبكه LSTM اجرا ميكند و گرههاي بهينهساز كه گراديان كاهشي همگام (مرحلهاي ضروري در يادگيري ماشين) را روي ناوگاني از GPUها اجرا ميكنند.
در چند بازي نخست، قهرمانان كنترلشده توسط هوش مصنوعي بهطور بيهدفي در نقشهي بازي راه ميروند. با اين حال بعد از چند ساعت، آنها در مهارتهاي پايهاي مانند دفاع و فارمينگ استاد ميشوند و در چند روز استراتژيهاي پيشرفته را ياد ميگيرند.
پيشتر تصور ميشد كه چنين دستاوردي با يادگيري ماشين امروزي غيرممكن است اما حال ميدانيم كه اين شبكهها قادر به بازي در سطحي حرفهاي بوده و ميتوانند برنامهريزي طولانيمدت انجام دهند. مسئلهي شوكهكننده اين است كه از الگوريتمهاي موجود استفاده شده است كه به اعتقاد بسياري داراي اشكالات فراواني بودهاند.
دستاوردي براي هوش مصنوعي
OpenAI Five نخستين سيستم هوش مصنوعي نيست كه قادر به شكست حريفان انساني در بازيهاي پيچيده شده است. AlphaZero، يك شبكه عصبي عميق كه توسط ديپمايند، زيرمجموعه آلفابت، توسعه داده شده است، توانسته به سطحي فراانساني در بازي شطرنج، شوگي و گو دست يابد. يادگيري ماشيني كه توسط مالوبا توسعه داده شده (تصاحبشده توسط گوگل در سال ۲۰۱۷) توانست در بازي Ms Pac-Man، بالاتر از هر انساني، امتياز ۹۹۹/۹۰۰ را ثبت كند.
اما دستاوردهاي OpenAI Five تنها به انجام بازي دوتا محدود نميشود. اين هوش مصنوعي نشانگر دستاوردهاي جديدي براي هوش مصنوعي است؛ دستاوردهايي كه نمايانگر آيندهاي است كه در آن هوش مصنوعي ميتواند كارهاي به مراتب پيچيدهتري را به انجام برساند.
انديشه متخصصين شما درباره اين دستاورد جديد در حوزه هوش مصنوعي چيست؟ آيا آن را قابل توجه ميدانيد؟ هم انديشي ها خود را با ما به اشتراك بگذاريد.
هم انديشي ها