هوش مصنوعي ديپ مايند در بازي‌هاي چندنفره هم انسان را شكست مي‌دهد

دوشنبه ۱۳ خرداد ۱۳۹۸ - ۱۶:۴۵

مطالعه 6 دقيقه

هوش مصنوعي امروزه به‌قدري توسعه يافته است كه مي‌تواند انسان را پس از بازي‌هاي شطرنج و گو، در بازي‌هاي چندنفره نيز شكست دهد.

تبليغات

بازي «فتح پرچم» يكي از مشهورترين انواع بازي است كه هم به‌‌صورت فيزيكي و هم ديجيتالي از نمونه‌هاي مشهور آن مي‌توان به Quake III و Overwatch اشاره كرد. در همه‌ي انواع فتح پرچم، با يك بازي گروهي روبه‌رو هستيم. هر گروه تلاش مي‌كند تا در عين حفاظت از پرچم خود، پرچم تيم حريف را نيز در اختيار بگيرد و به پايگاه خود بياورد. پيروزي در بازي فتح پرچم نياز به همكاري‌هاي گروهي حرفه‌اي دارد و همچنين بايد تعادلي كامل بين دفاع و حمله ايجاد شود.

مقاله‌هاي مرتبط:

هوش مصنوعي براي بهينه‌سازي گرافيك بازي‌هاي قديمي استفاده مي‌شود

سه تهديد جدي فناوري‌هاي مبتني بر هوش مصنوعي

در تعريف بازي فتح پرچم مي‌توان ادعا كرد كه مهارت‌هاي انساني بيش از همه‌چيز اهميت پيدا مي‌كنند. البته دانشمندان هوش مصنوعي در آزمايشگاه ديپ مايند لندن، ثابت كردند كه ماشين‌ها هم مي‌توانند در اين بازي مهارت پيدا كنند. در مقاله‌اي كه چند روز پيش در مجله‌ي ساينس چاپ شد، محققان ادعا كردند كه كارگزارهاي هوشمندي با قابليت شبيه‌سازي رفتارهاي انساني در بازي فتح پرچم توسعه داده‌اند.

براي انجام آزمايش روي كارگزارهاي هوشمند، از بخش فتح پرچم بازي Quake III استفاده شد. كارگزارهاي هوشمند توانستند به‌صورت گروهي دربرابر بازيكنان انساني يا دركنار آن‌ها بازي كرده و رفتارهاي آن‌ها را به‌خوبي شبيه‌سازي كنند. ووسيچ كارنگي، از محققان ديپ مايند درباره‌ي آزمايش مي‌گويد: «كارگزارهاي هوشمند به‌خوبي با اعضاي تيم خود هماهنگ مي‌شوند».

كارگزارهاي هوشمند با هزاران ساعت بازي توانستند مهارت‌هايي متخصصدي در بازي فتح پرچم كسب كنند. به‌عنوان مثال آن‌ها آموختند كه در موقع حمله و پس از در اختيار گرفتن پرچم حريف توسط يكي از هم‌تيمي‌ها، با سرعت به سمت قلعه‌ي حريف حركت كنند. دليل حركت يادشده نيز آن است كه پس از آوردن يك پرچم از حريف به قلعه‌ي خودي، پرچمي ديگر در پايگاه آن‌ها ايجاد مي‌شود و مي‌توان راحت‌تر آن را تصاحب كرد. درنتيجه يك بازيكن بايد در نزديكي پايگاه حريف باقي بماند.

پروژه‌ي كنوني ديپ مايند با هدف توسعه‌ي هوش مصنوعي انجام مي‌شود كه بتواند در بازي‌هاي سه‌بعدي پيچيده مانند Quake III، Dta 2 و StarCraft II حرفه‌اي بازي كند. محققان بسياري اعتقاد دارند درصورت موفقيت كارگزارها در دنياي مجازي، مي‌توان سيستم‌هاي اتوماتيكي با توانايي‌هاي عالي در دنياي واقعي توسعه داد.

به‌عنوان نمونه‌اي از متخصصدهاي واقعي هوش مصنوعي مي‌توان به انبارداري رباتيك اشاره كرد. در انبارهايي كه ربات‌ها به‌صورت گروهي كالاها را جابه‌جا مي‌كنند، مي‌توان از هوش مصنوعي با قابليت همكاري گروهي بهره‌برداري كرد. به‌علاوه در خودروهاي خودران نيز مي‌توان از كارگزارهاي جديد بهره برد. گرگ بروكمن، محقق هوش مصنوعي كه پروژه‌ي مشابهي را در OpenAI مديريت مي‌كند، درباره‌ي بازي‌ها و هوش مصنوعي مي‌گويد:

بازي‌ها هميشه دستاورد مهمي براي هوش مصنوعي بوده‌اند. اگر شما نتوانيد معماي بازي‌ها را حل كنيد، نمي‌توانيد هيچ چيز ديگر را حل كنيد.

تا پيش از اين، توسعه‌ي يك هوش مصنوعي كه بتواند در بازي‌هايي همچون Quake III با انسان رقابت كند، تقريبا غيرممكن بود. در طول سال‌هاي گذشته، DeepMind و OpenAI و آزمايشگاه‌هاي بسيار ديگري براي حل اين چالش وارد عمل شده‌اند و پيشرفت‌هاي قابل‌توجهي هم داشته‌اند. عمده‌ي موفقيت‌هاي آن‌ها به‌لطف استفاده از روشي رياضياتي به‌نام يادگيري تقويتي (Reinforcement Learning) به‌دست آمد.

كارگزار هوشمند با بازي كردن چندين‌باره‌ي بازي‌ها مي‌تواند استراتژي‌هاي منجر به پيروزي و شكست را شناسايي كند. به‌عنوان مثال وقتي كارگزاري با رفتن به سمت پايگاه حريف در زمان در اختيار داشتن پرچم توسط هم‌تيمي‌ها امتياز بيشتري دريافت كند، اين روش را به مجموعه‌ي استراتژي‌هاي عملكردي خود اضافه مي‌كند.

مرجع متخصصين ايران غلبه هوش مصنوعي گوگل بر بهترين بازيكن بازي Go

محققان ديپ مايند در سال ۲۰۱۶ با به‌كارگيري روش يادگيري تقويتي توانستند هوش مصنوعي با قابليت شكست برترين بازيكنان بازي سنتي Go توسعه دهند. بسياري از متخصصان به‌خاطر پيچيدگي‌هاي فراوان بازي گو تصور مي‌كردند پيروزي هوش مصنوعي در آن تا دهه‌ها بعد ممكن نخواهد بود. درحالي‌كه مهندسان ديپ مايند خلاف اين تصور را ثابت كردند.

بازي‌هاي ويدئويي اول‌شخص، دشواري‌هاي بسيار پيچيده‌تري نسبت به بازي‌هاي تخته‌اي همچون شطرنج و گو دارند. به‌علاوه وقتي همكاري و موقعيت‌دهي هم‌تيمي‌ها در بازي مطرح شود، پيچيدگي چندين برابر خواهد شد. كارگزار هوشمند ديپ مايند با ۴۵۰ هزار بار بازي كردن فتح پرچم توانست اصول آن را بياموزد. كارگزارها ابتدا عملكردي فاجعه‌بار داشتند و به‌راحتي شكست مي‌خوردند. آن‌ها به‌مرور جزئيات بازي و نكات ريز آن را به‌همراه استراتژي‌هاي حمله و دفاع آموختند.

پيروزي در بازي Go، دستاورد بزرگ هوش مصنوعي ديپ مايند بود

مهندسان ديپ مايند پس از پايان پروژه‌ي بازي فتح پرچم، كارگزاري با قابليت شكست بازيكنان حرفه‌اي در بازي StarCraft II توسعه دادند. در آزمايشگاه OpenAI نيز يك هوش مصنوعي توسعه داده شد كه در بازي Dota 2 مهارت دارد. اين بازي را مي‌توان نسخه‌اي حرفه‌اي از فتح پرچم دانست. در ماه آوريل گذشته، يك تيم پنج‌نفره از كارگزارهاي هوش مصنوعي توانست تيم پنج‌نفره‌ي بازيكنان حرفه‌اي Dota 2 را شكست دهد.

ويليام لي از بازيكنان مشهور دوتا ۲ است كه سال گذشته با نمونه‌هاي اوليه‌ي كارگزار هوش مصنوعي رقابت كرد. هوش مصنوعي در آن زمان تنها مي‌توانست بازي‌هاي يك‌نفره را انجام دهد و ويليام عملكرد آن را نپسنديد. البته پس از ماه‌ها تمرين و حرفه‌اي شدن هوش مصنوعي، ويليام اكنون مهارت آن‌ها را تحسين مي‌كند:

تصور نمي‌كردم كه ماشين‌ها روزي بتوانند بازي را در تيم‌هاي پنج‌نفره انجام دهند، چه برسد به آن كه در آن پيروز شوند.

در مقابل متخصصان و گيمرهايي كه از پيشرفت‌هاي هوش مصنوعي در بازي‌ها شگفت‌زده مي‌شوند، بسياري از متخصصان هوش مصنوعي، متخصصدي بودن دستاوردهاي جديد را زير سؤال مي‌برند. آن‌ها مي‌گويند پيروزي در بازي‌ها نمي‌تواند متخصصدي در دنياي واقعي داشته باشد. مارك ريدل، استاد دانشگاه جورجيا تك و از متخصصان هوش مصنوعي اعتقاد دارد كارگزارهاي ديپ مايند در آزمايش‌هاي فوق، همكاري واقعي نداشتند. او مي‌گويد كارگزارهاي به‌جاي ردوبدل كردن پيام مانند انسان‌ها، تنها به رخدادهاي داخل بازي واكنش نشان مي‌دهند.

شايد در نگاه اول، فعاليت كارگزارها مانند همكاري به چشم بايد. درحالي‌كه آن‌ها به اين دليل موفق مي‌شوند كه هركدام به‌تنهايي دركي از رخدادهاي درحال وقوع در بازي دارند. مكس جادربرگ از محققان ديپ مايند اعتقاد دارد تعريف همكاري گروهي را بايد براي توضيح فعاليت‌هاي كارگزارهاي هوشمند در انديشه متخصصين گرفت. او مي‌گويد همين‌كه كارگزار هوشمند در پايگاه حريف منتظر پرچم جديد مي‌ماند، يعني به فعاليت‌هاي هم‌تيمي‌هايش وابسته است.

كارگزار هوش مصنوعي در بازي فتح پرچم، همكاري و استراتژي را مي‌آموزد

بازي‌هايي شبيه به آنچه در آزمايش بالا انجام شد، به‌هيچ‌وجه به‌اندازه‌ي دنياي واقعي پيچيده نيستند. محيط اين بازي‌ها به‌گونه‌اي طراحي شده است كه حركت را آسان كند و درنتيجه، استراتژي و موقعيت‌يابي در آن‌ها اصلا دشوار نيست.

روش يادگيري تقويتي را مي‌توان روشي متخصصدي براي بازي‌ها دانست. درواقع در بازي‌هاي ويدئويي، شناسايي فاكتورهايي براي موفقيت، دشواري آن‌چناني ندارد. به‌عنوان مثال امتيازهاي بيشتر در بازي مي‌توانند علامتي از موفقيت براي كارگزار هوشمند باشند. درمقابل در دنياي واقعي، هيچ فاكتوري براي درك موفقيت وجود ندارد. احتمالا محققان براي پياده‌سازي يادگيري تقويتي در دنياي واقعي، بايد فاكتورهاي موفقيت را براي هوش مصنوعي در فضاهاي واقعي بازتعريف كنند.

پياده‌سازي يادگيري تقويتي در دنياي واقعي هم آن‌چنان دشوار نيست. محققان OpenAI توانسته‌اند بازوي رباتيكي طراحي كنند كه با مكعب‌هاي الفبايي به‌خوبي كار كند. اگر از اين بازو بخواهيد حرف مشخصي از الفبا را نشان دهد، به‌راحتي و سرعت، حرف مورد انديشه متخصصين را نمايش مي‌دهد. در نمونه‌اي ديگر، مهندسان رباتيك گوگل بازويي طراحي كردند كه توانايي برداشتن و پرتاب كردن اجسام گوناگون در يك ظرف هدف را دارد. چنين رباتي مي‌تواند در انبارهاي بزرگ و مراكز توزيع متخصصد داشته باشد.

آزمايشگاه‌هايي همچون ديپ مايند و OpenAI با تلاش براي حل مسائل پيچيده‌تر، احتمالا به منابع پردازشي بزرگ‌تري نياز پيدا خواهند كرد. آن‌ها تاكنون با تكيه بر هزاران تراشه‌ي پردازشي توانسته‌اند در بازي‌هاي دشوار مهارت پيدا كنند. چنين روندي قطعا افزايش هزينه در اين آزمايشگاه‌ها را در پي خواهد داشت كه متخصصان بايد توجيه‌هايي قابل‌قبول‌تر براي آن داشته باشند.

مقاله رو دوست داشتي؟

انديشه متخصصينت چيه؟

مهدي زارع سريزدي

تبليغات

جديد‌ترين مطالب روز

مقاله رو دوست داشتي؟

انديشه متخصصينت چيه؟

مهدي زارع سريزدي

هم انديشي ها