هوش مصنوعي ديپ مايند در بازيهاي چندنفره هم انسان را شكست ميدهد
بازي «فتح پرچم» يكي از مشهورترين انواع بازي است كه هم بهصورت فيزيكي و هم ديجيتالي از نمونههاي مشهور آن ميتوان به Quake III و Overwatch اشاره كرد. در همهي انواع فتح پرچم، با يك بازي گروهي روبهرو هستيم. هر گروه تلاش ميكند تا در عين حفاظت از پرچم خود، پرچم تيم حريف را نيز در اختيار بگيرد و به پايگاه خود بياورد. پيروزي در بازي فتح پرچم نياز به همكاريهاي گروهي حرفهاي دارد و همچنين بايد تعادلي كامل بين دفاع و حمله ايجاد شود.
در تعريف بازي فتح پرچم ميتوان ادعا كرد كه مهارتهاي انساني بيش از همهچيز اهميت پيدا ميكنند. البته دانشمندان هوش مصنوعي در آزمايشگاه ديپ مايند لندن، ثابت كردند كه ماشينها هم ميتوانند در اين بازي مهارت پيدا كنند. در مقالهاي كه چند روز پيش در مجلهي ساينس چاپ شد، محققان ادعا كردند كه كارگزارهاي هوشمندي با قابليت شبيهسازي رفتارهاي انساني در بازي فتح پرچم توسعه دادهاند.
براي انجام آزمايش روي كارگزارهاي هوشمند، از بخش فتح پرچم بازي Quake III استفاده شد. كارگزارهاي هوشمند توانستند بهصورت گروهي دربرابر بازيكنان انساني يا دركنار آنها بازي كرده و رفتارهاي آنها را بهخوبي شبيهسازي كنند. ووسيچ كارنگي، از محققان ديپ مايند دربارهي آزمايش ميگويد: «كارگزارهاي هوشمند بهخوبي با اعضاي تيم خود هماهنگ ميشوند».
كارگزارهاي هوشمند با هزاران ساعت بازي توانستند مهارتهايي متخصصدي در بازي فتح پرچم كسب كنند. بهعنوان مثال آنها آموختند كه در موقع حمله و پس از در اختيار گرفتن پرچم حريف توسط يكي از همتيميها، با سرعت به سمت قلعهي حريف حركت كنند. دليل حركت يادشده نيز آن است كه پس از آوردن يك پرچم از حريف به قلعهي خودي، پرچمي ديگر در پايگاه آنها ايجاد ميشود و ميتوان راحتتر آن را تصاحب كرد. درنتيجه يك بازيكن بايد در نزديكي پايگاه حريف باقي بماند.
پروژهي كنوني ديپ مايند با هدف توسعهي هوش مصنوعي انجام ميشود كه بتواند در بازيهاي سهبعدي پيچيده مانند Quake III، Dta 2 و StarCraft II حرفهاي بازي كند. محققان بسياري اعتقاد دارند درصورت موفقيت كارگزارها در دنياي مجازي، ميتوان سيستمهاي اتوماتيكي با تواناييهاي عالي در دنياي واقعي توسعه داد.
بهعنوان نمونهاي از متخصصدهاي واقعي هوش مصنوعي ميتوان به انبارداري رباتيك اشاره كرد. در انبارهايي كه رباتها بهصورت گروهي كالاها را جابهجا ميكنند، ميتوان از هوش مصنوعي با قابليت همكاري گروهي بهرهبرداري كرد. بهعلاوه در خودروهاي خودران نيز ميتوان از كارگزارهاي جديد بهره برد. گرگ بروكمن، محقق هوش مصنوعي كه پروژهي مشابهي را در OpenAI مديريت ميكند، دربارهي بازيها و هوش مصنوعي ميگويد:
بازيها هميشه دستاورد مهمي براي هوش مصنوعي بودهاند. اگر شما نتوانيد معماي بازيها را حل كنيد، نميتوانيد هيچ چيز ديگر را حل كنيد.
تا پيش از اين، توسعهي يك هوش مصنوعي كه بتواند در بازيهايي همچون Quake III با انسان رقابت كند، تقريبا غيرممكن بود. در طول سالهاي گذشته، DeepMind و OpenAI و آزمايشگاههاي بسيار ديگري براي حل اين چالش وارد عمل شدهاند و پيشرفتهاي قابلتوجهي هم داشتهاند. عمدهي موفقيتهاي آنها بهلطف استفاده از روشي رياضياتي بهنام يادگيري تقويتي (Reinforcement Learning) بهدست آمد.
كارگزار هوشمند با بازي كردن چندينبارهي بازيها ميتواند استراتژيهاي منجر به پيروزي و شكست را شناسايي كند. بهعنوان مثال وقتي كارگزاري با رفتن به سمت پايگاه حريف در زمان در اختيار داشتن پرچم توسط همتيميها امتياز بيشتري دريافت كند، اين روش را به مجموعهي استراتژيهاي عملكردي خود اضافه ميكند.
محققان ديپ مايند در سال ۲۰۱۶ با بهكارگيري روش يادگيري تقويتي توانستند هوش مصنوعي با قابليت شكست برترين بازيكنان بازي سنتي Go توسعه دهند. بسياري از متخصصان بهخاطر پيچيدگيهاي فراوان بازي گو تصور ميكردند پيروزي هوش مصنوعي در آن تا دههها بعد ممكن نخواهد بود. درحاليكه مهندسان ديپ مايند خلاف اين تصور را ثابت كردند.
بازيهاي ويدئويي اولشخص، دشواريهاي بسيار پيچيدهتري نسبت به بازيهاي تختهاي همچون شطرنج و گو دارند. بهعلاوه وقتي همكاري و موقعيتدهي همتيميها در بازي مطرح شود، پيچيدگي چندين برابر خواهد شد. كارگزار هوشمند ديپ مايند با ۴۵۰ هزار بار بازي كردن فتح پرچم توانست اصول آن را بياموزد. كارگزارها ابتدا عملكردي فاجعهبار داشتند و بهراحتي شكست ميخوردند. آنها بهمرور جزئيات بازي و نكات ريز آن را بههمراه استراتژيهاي حمله و دفاع آموختند.
پيروزي در بازي Go، دستاورد بزرگ هوش مصنوعي ديپ مايند بود
مهندسان ديپ مايند پس از پايان پروژهي بازي فتح پرچم، كارگزاري با قابليت شكست بازيكنان حرفهاي در بازي StarCraft II توسعه دادند. در آزمايشگاه OpenAI نيز يك هوش مصنوعي توسعه داده شد كه در بازي Dota 2 مهارت دارد. اين بازي را ميتوان نسخهاي حرفهاي از فتح پرچم دانست. در ماه آوريل گذشته، يك تيم پنجنفره از كارگزارهاي هوش مصنوعي توانست تيم پنجنفرهي بازيكنان حرفهاي Dota 2 را شكست دهد.
ويليام لي از بازيكنان مشهور دوتا ۲ است كه سال گذشته با نمونههاي اوليهي كارگزار هوش مصنوعي رقابت كرد. هوش مصنوعي در آن زمان تنها ميتوانست بازيهاي يكنفره را انجام دهد و ويليام عملكرد آن را نپسنديد. البته پس از ماهها تمرين و حرفهاي شدن هوش مصنوعي، ويليام اكنون مهارت آنها را تحسين ميكند:
تصور نميكردم كه ماشينها روزي بتوانند بازي را در تيمهاي پنجنفره انجام دهند، چه برسد به آن كه در آن پيروز شوند.
در مقابل متخصصان و گيمرهايي كه از پيشرفتهاي هوش مصنوعي در بازيها شگفتزده ميشوند، بسياري از متخصصان هوش مصنوعي، متخصصدي بودن دستاوردهاي جديد را زير سؤال ميبرند. آنها ميگويند پيروزي در بازيها نميتواند متخصصدي در دنياي واقعي داشته باشد. مارك ريدل، استاد دانشگاه جورجيا تك و از متخصصان هوش مصنوعي اعتقاد دارد كارگزارهاي ديپ مايند در آزمايشهاي فوق، همكاري واقعي نداشتند. او ميگويد كارگزارهاي بهجاي ردوبدل كردن پيام مانند انسانها، تنها به رخدادهاي داخل بازي واكنش نشان ميدهند.
شايد در نگاه اول، فعاليت كارگزارها مانند همكاري به چشم بايد. درحاليكه آنها به اين دليل موفق ميشوند كه هركدام بهتنهايي دركي از رخدادهاي درحال وقوع در بازي دارند. مكس جادربرگ از محققان ديپ مايند اعتقاد دارد تعريف همكاري گروهي را بايد براي توضيح فعاليتهاي كارگزارهاي هوشمند در انديشه متخصصين گرفت. او ميگويد همينكه كارگزار هوشمند در پايگاه حريف منتظر پرچم جديد ميماند، يعني به فعاليتهاي همتيميهايش وابسته است.
كارگزار هوش مصنوعي در بازي فتح پرچم، همكاري و استراتژي را ميآموزد
بازيهايي شبيه به آنچه در آزمايش بالا انجام شد، بههيچوجه بهاندازهي دنياي واقعي پيچيده نيستند. محيط اين بازيها بهگونهاي طراحي شده است كه حركت را آسان كند و درنتيجه، استراتژي و موقعيتيابي در آنها اصلا دشوار نيست.
روش يادگيري تقويتي را ميتوان روشي متخصصدي براي بازيها دانست. درواقع در بازيهاي ويدئويي، شناسايي فاكتورهايي براي موفقيت، دشواري آنچناني ندارد. بهعنوان مثال امتيازهاي بيشتر در بازي ميتوانند علامتي از موفقيت براي كارگزار هوشمند باشند. درمقابل در دنياي واقعي، هيچ فاكتوري براي درك موفقيت وجود ندارد. احتمالا محققان براي پيادهسازي يادگيري تقويتي در دنياي واقعي، بايد فاكتورهاي موفقيت را براي هوش مصنوعي در فضاهاي واقعي بازتعريف كنند.
پيادهسازي يادگيري تقويتي در دنياي واقعي هم آنچنان دشوار نيست. محققان OpenAI توانستهاند بازوي رباتيكي طراحي كنند كه با مكعبهاي الفبايي بهخوبي كار كند. اگر از اين بازو بخواهيد حرف مشخصي از الفبا را نشان دهد، بهراحتي و سرعت، حرف مورد انديشه متخصصين را نمايش ميدهد. در نمونهاي ديگر، مهندسان رباتيك گوگل بازويي طراحي كردند كه توانايي برداشتن و پرتاب كردن اجسام گوناگون در يك ظرف هدف را دارد. چنين رباتي ميتواند در انبارهاي بزرگ و مراكز توزيع متخصصد داشته باشد.
آزمايشگاههايي همچون ديپ مايند و OpenAI با تلاش براي حل مسائل پيچيدهتر، احتمالا به منابع پردازشي بزرگتري نياز پيدا خواهند كرد. آنها تاكنون با تكيه بر هزاران تراشهي پردازشي توانستهاند در بازيهاي دشوار مهارت پيدا كنند. چنين روندي قطعا افزايش هزينه در اين آزمايشگاهها را در پي خواهد داشت كه متخصصان بايد توجيههايي قابلقبولتر براي آن داشته باشند.
هم انديشي ها