هوش مصنوعي OpenAI هم‌اكنون قادر به شكست تيم‌هاي نيمه‌حرفه‌‌اي دوتا 2 است

سه‌شنبه ۲۰ آذر ۱۳۹۷ - ۱۴:۲۰

مطالعه 5 دقيقه

شركت OpenAI به‌تازگي يك سيستم هوش مصنوعي توسعه داده كه قادر به انجام بازي‌ پيچيده DOTA 2 و شكست حريفان انساني است.

تبليغات

كاربري هوش مصنوعي (AI) تنها به كارهايي مانند اعمال افكت‌هاي اسلوموشن به ويديوها و پيشنهاد محصولات بر اساس دكور خانه، محدود نمي‌شود. اين حوزه هم‌اكنون قادر به شكست بازيكنان باسابقه انساني يكي از محبوب‌ترين بازي‌هاي استراتژي الكترونيك دنياست: دوتا ۲ شركت ولو.

مقاله‌هاي مرتبط:

استارتاپ يك ميليارد دلاري ايلان ماسك، به ربات ها در فضاي مجازي يادگيري مي‌دهد

گرفتاري هوش مصنوعي در دام وهم و خيال چه تبعاتي دارد؟

اُپن اِي‌آي يك شركت تحقيقاتي غيرانتفاعي فعال در حوزه هوش مصنوعي است. OpenAI سان‌فرانسيسكويي توسط تعدادي از ستارگان آسمان فناوري مانند ايلان ماسك، ريد هافمن و پيتر تيل همراهي مي‌شود. اين شركت به‌تازگي اعلام كرده‌ است كه آخرين نسخه از هوش مصنوعي اين شركت كه دوتا ۲ بازي مي‌كند (ملقب به OpenAI Five)، توانسته ۵ تيم از بازيكنان نيمه‌حرفه‌اي را شكست بدهد. يكي از اين تيم‌ها متشكل از كاركنان خود شركت ولو (سازنده Dota 2) بود.

نسل قديم از سيستم OpenAI تنها قادر به برتري در ديدارهاي يك در برابر يك بود كه پيچيدگي بسيار كمتري نسبت به بازي گروهي ۵ در برابر ۵ دارد.

هم‌بنيان‌گذار و مدير ارشد فناوري OpenAI مي‌گويد:

بازي دوتا واقعا پيچيده است. در اين بازي شما با افق‌هاي زماني طولاني و به‌طور پيوسته مواجه مي‌شويد. در بازي‌هاي روميزي شاهد چند صد حركت ممكن هستيم، اما در دوتا ۸۰ هزار فريم مجزا داريم. هرگاه كاري انجام دهيد، اتفاقات بسيار بيشتري به‌تبع آن رخ مي‌دهد. بايد راهي پيدا كنيد تا بتوانيد براي اين زمان طولاني و با كنترل بسيار كم، برنامه‌ريزي مناسبي داشته باشيد.

الگوريتم‌هاي يادگيري ماشين OpenAI به مصاف با ۵ تيم رفت: يك تيم از كاركنان OpenAI، يك تيم از مخاطباني كه بازي را مشاهده مي‌كردند، يك تيم از كاركنان ولو، يك تيم آماتور و يك تيم نيمه‌حرفه‌اي. هوش مصنوعي به‌راحتي سه تيم اول را در ديدارهاي متعددي شكست داد و دو بازي از سه بازي خود در مقابل تيم‌هاي چهارم و پنجم را نيز برد.

OpenAI Five واقعا در بعضي از زمينه‌ها برتر بود. اين هوش مصنوعي مي‌توانست به تغييرات سلامتي، موقعيت و تجهيزات هر بازيكن به‌طور آني پاسخ دهد. به‌طور ميانگين، شبكه عصبي آن حدود ۱۵۰-۱۷۰ عمل در دقيقه (تا بيشترين مقدار ۴۵۰) با زمان واكنش فرا انساني ۸۰ ميلي‌ثانيه، انجام داد و اين هوش مصنوعي با محدوديت‌هايي روي برخي از قابليت‌هاي ويژه، آيتم‌ها و شخصيت‌ها بازي كرد. اما هيچ‌كدام از اين برتري‌ها در كامل كردن هدف غايي اين هوش مصنوعي يعني ارائه‌ي بازي مشابه با بازيكنان كاملاً حرفه‌اي، كافي نبود.

هوش مصنوعي بارها طي بازي «Safe Lane» خود را براي به‌دست‌آوردن Safe Lane حريف، قرباني كرد؛ و همچنين با حمله به سنگرها و قهرمانان تيم مقابل، قهرمانان خود را ارتقا داده و سريع‌تر از بسياري از رقباي انساني به سمت پايگاه دشمن حركت مي‌كرد.

اين هوش مصنوعي همچنين يك‌سري تكنيك جديد در حين اين بازي‌ها ياد گرفته‌ است؛ مانند جاخالي دادن مقابل موشك‌ها و كسب XP در ابتداي بازي. هوش مصنوعي حتي تكنيك‌هايي مانند «creep blocking» را در بازي پياده كرد، تكنيكي كه در آن يك قهرمان به‌طور فيزيكي مسير دشمنان كوچك را مسدود مي‌كند تا از پيشرفت آنان جلوگيري كند.

OpenAI برنامه دارد تا در آينده هوش مصنوعي‌اش را با تيم‌هاي حرفه‌اي رقابت دهد.

يادگيري OpenAI Five

OpenAI Five از ۵ لايه تكي، شبكه‌هاي حافظه‌ كوتاه‌مدت ۱۰۲۴ واحدي (LSTM) - نوعي از شبكه عصبي بازگشت‌كننده (RNN) كه مي‌تواند مقادير يك طول دلخواه از زمان را «به ياد بسپارد» - كه هركدام به يك قهرمان اختصاص دارند، تشكيل شده‌ است. شبكه‌ها با يك مدل يادگيري تقويتي عميق يادگيري داده شده‌اند كه با پيشرفت و تخصيص پاداش به خود، انگيزه مي‌گيرد. در مورد OpenAI Five، پاداش‌ها همان تعداد كشته‌ها، مرگ‌ها، كمك‌ها (assist)، ارزش خالص و ديگر آمار بازي دوتا هستند.

جالب است بدانيد كه اين شبكه‌هاي LSTM با يكديگر ارتباط برقرار نمي‌كنند. به‌جاي آن، يك هايپرپارامتر به نام «روحيه تيمي» كه مقداري از ۰ تا ۱ است، ترجيح هر قهرمان بر پاداش شخصي و تيمي را مشخص مي‌كند.

براي آماده‌سازي ديدارها، سيستم هر روز معادل ۱۸۰ سال روي يك سيستم متشكل از ۲۵۶ كارت گرافيك انويديا P100، بازي مي‌كند (۱۲۸ هزار هسته در مقايسه با ۶۰ هزار هسته بات قبلي دوتا).

حين هر ديدار، هر بازيكني مي‌تواند ۱۷۰ هزار عمل ممكن را انجام دهد؛ و اگر تمام قهرمانان بازي را در انديشه متخصصين بگيريم حدود ۱۰ هزار حركت در هر فريم امكان‌پذير خواهد بود.

كاركنان OpenAI جمع شده‌اند تا بازي هوش مصنوعي را در مقابل انسان تماشا كنند

رپيد (Rapid)، چهارچوب تمريني OpenAI، از دو بخش تشكيل شده‌ است: مجموعه‌اي كه يك نسخه از دوتا ۲ را روي يك شبكه LSTM اجرا مي‌كند و گره‌هاي بهينه‌ساز كه گراديان كاهشي همگام (مرحله‌اي ضروري در يادگيري ماشين) را روي ناوگاني از GPUها اجرا مي‌كنند.

در چند بازي نخست، قهرمانان كنترل‌شده توسط هوش مصنوعي به‌طور بي‌هدفي در نقشه‌ي بازي راه مي‌روند. با اين حال بعد از چند ساعت، آن‌ها در مهارت‌هاي پايه‌اي مانند دفاع و فارمينگ استاد مي‌شوند و در چند روز استراتژي‌هاي پيشرفته را ياد مي‌گيرند.

پيش‌تر تصور مي‌شد كه چنين دستاوردي با يادگيري ماشين امروزي غيرممكن است اما حال مي‌دانيم كه اين شبكه‌ها قادر به بازي در سطحي حرفه‌اي بوده و مي‌توانند برنامه‌ريزي طولاني‌مدت انجام دهند. مسئله‌ي شوكه‌كننده اين است كه از الگوريتم‌هاي موجود استفاده شده است كه به اعتقاد بسياري داراي اشكالات فراواني بوده‌اند.

دستاوردي براي هوش مصنوعي

OpenAI Five نخستين سيستم هوش مصنوعي نيست كه قادر به شكست حريفان انساني در بازي‌هاي پيچيده شده است. AlphaZero، يك شبكه عصبي عميق كه توسط ديپ‌مايند، زيرمجموعه آلفابت، توسعه داده شده‌ است، توانسته به سطحي فراانساني در بازي شطرنج، شوگي و گو دست يابد. يادگيري ماشيني كه توسط مالوبا توسعه داده شده (تصاحب‌شده توسط گوگل در سال ۲۰۱۷) توانست در بازي Ms Pac-Man، بالاتر از هر انساني، امتياز ۹۹۹/۹۰۰ را ثبت كند.

اما دستاوردهاي OpenAI Five تنها به انجام بازي دوتا محدود نمي‌شود. اين هوش مصنوعي نشانگر دستاوردهاي جديدي براي هوش مصنوعي است؛ دستاوردهايي كه نمايانگر آينده‌اي است كه در آن هوش مصنوعي مي‌تواند كارهاي به مراتب پيچيده‌تري را به انجام برساند.

انديشه متخصصين شما درباره اين دستاورد جديد در حوزه هوش مصنوعي چيست؟ آيا آن را قابل توجه مي‌دانيد؟ هم انديشي ها خود را با ما به اشتراك بگذاريد.

مقاله رو دوست داشتي؟

انديشه متخصصينت چيه؟

مسعود ذاكري

تبليغات

جديد‌ترين مطالب روز

مقاله رو دوست داشتي؟

انديشه متخصصينت چيه؟

مسعود ذاكري

هم انديشي ها