هوش مصنوعي آلفازيرو ديپ مايند در مسابقات شطرنج و شوگي پيروز شد
ديپمايند، زيرمجموعهي شركت مادر گوگل يعني آلفابت است كه در بريتانيا و در حوزهي هوش مصنوعي فعاليت ميكند. اين شركت سال گذشته خبر از طراحي و توسعهي هوشي براي كسب مهارت بازي شطرنج و شوگي داد. شوگي، نوعي بازي ژاپني شبيه به شطرنج است. هدف ديپ مايند، طراحي هوشي با نام AlphaZero بود كه با يادگيري شخصي، مهارت كافي را در بازيهاي فكري كسب كند.
آلفازيرو بهگونهاي طراحي شد تا بدون يادگيري خارجي، خودش بهتنهايي بازيهاي شطرنج، شوگي و بازي تختهاي چيني به نام Go را بياموزد. محصول جديد ديپمايند توانست در هر حوزه، قهرمانان آن را شكست دهد. موفقيت بهدستآمده، مرحلهاي جديد از يادگيري بازيهاي دونفره توسط كامپيوتر را نشان ميدهد. منظور از اين بازيهاي دونفره، بازيهايي مانند شطرنج هستند كه تصميمگيري در آنها براساس اتفاقات رخداده در بازيهاي قبلي، قابل يادگيري و پيشبيني باشد.
موفقيت ديپ مايند بسيار مهم و تأثيرگذار بود. البته كمي طول كشيد تا منبعي معتبر، يك مطالعه جامع از روند كار و موفقيت هوش مصنوعي انجام دهد. بههرحال شركت در هفتهي گذشته اعلام كرد كه مجلهي معتبر علمي Science اين رخداد را تأييد كرد و تيتر روي جلد خود را به آن اختصاص داد.
ديويد سيلور محقق ارشد پروژهي آلفازيرو در كنفرانس خبري مراسم NeurIPS ۲۰۱۸ در مونترئال گفت:
چند سال پيش، برنامهي ما به نام AlphaGo توانست قهرمان ۱۸ دوره از مسابقات گو را با نتيجهي ۴ بر يك شكست دهد. اين رخداد براي ما شروع يك مسير بود. هدف اصلي ما، توسعهي سيستم يادگيري جامعي بود كه بازيهاي مختلف را تا سطح بسيار حرفهاي بياموزد.آلفازيرو، قدم بعدي ما در اين مسير محسوب ميشود. هوش مصنوعي جديد، از ابتدا بازيها و قوانين آنها را آموخت و بدون هيچ يادگيري ديگر، موفق شد تا قهرمانان جهان را در بازيهاي شطرنج، گو و شوگي شكست دهد.
سيلور در ادامه توضيح داد كه انتخاب بازيهاي مذكور، بهخاطر پيچيدگي و همچنين تاريخچهي طولانيمدت آنها از لحاظ تلاش هوش مصنوعي براي شكست دادن انسانها، انتخاب شدند. او دربارهي اين بازيها ميگويد:
شطرنج، نشاندهندهي دستاوردي است كه توسط انواع هوش مصنوعي سنتي قابل دستيابي بود. موفقيت در اين بازي توسط نمونههاي قبلي هوش مصنوعي و تلاش براي عالي كردن آنها بهدست آمد. ما ميخواستيم توانايي هوش جديد را در دستيابي به موفقيتهاي نمونههاي پيچيدهي قبلي، تنها از راه يادگيري مطالعه كنيم.دليل انتخاب شوگي نيز دشواري يادگيري آن توسط برنامههاي كامپيوتري بود. درواقع اين بازي يكي از معدود بازيهاي تختهاي (بهجز بازي بسيار چالشي گو) است كه يادگيري آن براي برنامههاي خاص كامپيوتري هم دشوار است. تنها در يكي دو سال گذشته بود كه آمارهايي از پيروزي برنامههاي كامپيوتري بر قهرمانان شوگي منتشر شد.
محققان هوش مصنوعي براي چالشهاي جديد، بايد سراغ نسل جديد بازيها بروند
ماري كمپل يك محقق هوش مصنوعي در مركز تحقيقات آيبيام واتسون در نگارش مقاله به تيم ديپمايند كمك كرده است. او اعتقاد دارد اين دستاورد، پاياني بر تلاشهاي چند دهه در حوزهي هوش مصنوعي بود. كمپل عضو تيم تحقيقاتي آيبيام در پروژهي ديپ بلو بود كه در سال ۱۹۹۷، قهرمان شطرنج آن زمان يعني گري كاسپاروف را شكست داد.
كمپل اعتقاد دارد محققان هوش مصنوعي براي چالشهاي جديد، ديگر بايد به فكر نسل جديدي از بازيها باشند. در بازيهاي مورد انديشه متخصصين كمپل، برخلاف شطرنج، همهي اطلاعات لازم براي تصميمگيري، بهصورت واضح وجود ندارند. بهعنوان مثال در بازيهاي كارتي همچون پوكر، بازيكنان كارتها را نزديك به خود نگه ميدارند و تصميمگيري، دشوارتر خواهد بود. بسياري از بازيهاي چندنفرهي الكترونيك مانند StarCraft، Dota و Minecraft نيز در اين دستهبندي قرار ميگيرند.
ماري كمپل در مصاحبه با مجلهي Spectrum از مؤسسهي IEEE دربارهي چالش بازيهاي نسل جديد ميگويد:
بازيهاي چندنفره، از بازي گو هم دشوارتر هستند اما آنچنان دشوار محسوب نميشوند. درحالحاضر نيز يك گروه توانسته است بهترين بازيكنان Dota 2 را شكست دهد. البته، بازي آنها نسخهاي محدود از بازي اصلي بود. استاركرافت مقداري دشوارتر بهانديشه متخصصين ميرسد. البته بهانديشه متخصصين من هردو بازي از اهداف قابل دستيابي تا ۲ يا ۳ سال آينده خواهند بود.
مقالهي منتشرشده دربارهي مسير موفقيت آلفازيرو، اين هوش مصنوعي را با نمونههاي ديگر متخصص در بازيهاي شطرنج و شوگي مانند Stockfish، Elmo و محصول IBM يعني Deep Blue مطالعه ميكند. درواقع آلفازيرو بهجاي ديكته شدن قوانين بهصورت دستي، از يك شبكهي عصبي عميق براي يادگيري بهره ميبرد. شبكهي عصبي در مباحثه هوش مصنوعي، نشاندهندهي توابع رياضياتي لايهاي است كه عملكرد نورونهاي مغز انسان را شبيهسازي ميكند.
اساتيد شطرنج، از نحوهي بازي آلفازيرو براي تحقيقات خود استفاده ميكنند
روش پوياي بازي آلفازيرو، استراتژيهاي خلاقانه و غيرمعمولي را نتيجه ميدهد. قهرمان دو دوره مسابقات شطرنج و استاد بزرگ رشته يعني متيو سدلر و قهرمان مسابقات بينالمللي زنان در شطرنج يعني ناتاشا رگان در جزوه رايگان آيندهي خود از روشهاي آلفازيرو الهام گرفتهاند و به مطالعه اين هوش مصنوعي و هزار بار بازي آن پرداختهاند.
سدلر درمورد هوش مصنوعي آلفازيرو ميگويد:
موتورهاي هوش مصنوعي سنتي، بسيار قوي هستند و چند اشتباه واضح محدود در بازي انجام ميدهند. البته در موقعيتهايي كه هيچ راهكار قابلمحاسبهي مشخصي وجود نداشته باشد، اين نمونههاي سنتي دچار اشتباه ميشوند. اما آلفازيرو با يك پيشرفت قابل ملاحظه، سبك بازي خود را در بازهي گستردهاي از استراتژيها تغيير ميدهد.در موقعيتهاي غيرقابل پيشبيني، احساسات، بينش و شهود مورد نياز هستند كه آلفازيرو اينها را بهكار ميگيرد. آلفازيرو مانند انساني با اشتياق بالا بازي ميكند كه سبكي بسيار زيبا محسوب ميشود.
بهعنوان مثالي از روش كار آلفازيرو، هوش مصنوعي توانست اصولي مانند شروع بازي، حفاظت از پادشاه و استراتژي چينش مهرههاي پياده را بياموزد. روش بازي بهاين صورت است كه پادشاه حريف محاصره ميشود، سپس حركات حريف محدود شده و حركات مهرههاي هوش مصنوعي افزايش پيدا ميكند. نكتهي جالب توجه ديگر آن است كه آلفازيرو برخلاف انسان، از قرباني كردن مهرههاي خود براي اهداف بلندمدت، ترسي ندارد.
يادگيري بازيهاي فكري مذكور توسط آلفازيرو، نيازمند شبيهسازي ميليونها بازي در مقابل خودش بود. فرايند يادگيري بازي به اين صورت با نام Reinforcement Learning شناخته ميشود. در روش مذكور، سيستم جايزه و تنبيه، هوش مصنوعي را بهسمت اهداف مشخصي پيش ميبرد. آلفازيرو ابتدا بهصورت تصادفي بازي ميكرد اما پس از مدتي، پارامترها را بهنوعي تنظيم كرد تا علاوهبر فرار از شكست، سبك بازي اختصاصي خود را پيدا كند.
آلفازيرو تمامي الگوريتمهاي قبلي را در بازيهاي شطرنج، شوگي و گو شكست داد
زمان مورد نياز براي يادگيري آلفازيرو، به نوع بازي بستگي داشت. حداقل، ۷۰۰ هزار مرحلهي يادگيريي (هر مرحله شامل ۴۰۹۶ موقعيت تخته) روي سيستمهاي مجهز به ۵ هزار واحد پردازش تانسور (TPU) و ۱۶ تيپييو نسل دوم (مدارهاي مجتمع اختصاصي گوگل براي يادگيري ماشين)، در مدت ۹ ساعت، ساخت و بازي كردن شطرنج را انجام داد. براي شوگي و گو نيز به ۱۲ ساعت و ۱۳ روز زمان نياز بود.
آلفازيروي حرفهاي از الگوريتم جستجوي مونت كارلو (الگوريتم جستجوي ابتكاري براي فرايندهاي تصميمگيري) براي انتخاب هر حركت استفاده ميكند. اين هوش مصنوعي جستجوها را بسيار سريع انجام ميدهد. البته، هوش مصنوعي موقعيتهاي بسياري را در بازي مطالعه ميكند كه نسبت به مطالعههاي يك استاد بزرگ شطرنج، كارايي كمتري دارد؛ اما آلفازيرو در مقايسه با نمونههاي ديگر موقعيتهاي كمتري را مطالعه ميكند.
محققان ديپ مايند براي مطالعه دقيقتر تواناييهاي آلفازيرو، آن را در رقابت با الگوريتمهاي ديگر همچون Stockfish و Elmo و همچنين نسل قبلي يعني آلفاگوزيرو امتحان كردند. سختافزار مورد استفاده براي بازيها، سيستمي با ۴۴ هستهي پردازشي و ۴ عدد از نسل اول تيپييوهاي مخصوص گوگل بود. اين سختافزار، از لحاظ قدرت پردازش و استدلال با سيستمي مجهز به چندين كارت گرافيك انويديا تايتان وي برابري ميكند. آلفازيرو در رقابت با الگوريتمهاي مذكور، بردهاي متعدد و قابل توجهي را كسب كرد.
هوش مصنوعي آلفازيرو دربازي شطرنج، در هزار مسابقه با الگوريتم استاكفيش ۱۵۵ مسابقه را با برد به پايان رساند و تنها ۶ باخت ثبت كرد. بهعلاوه، هوش مصنوعي ديپ مايند در مسابقاتي كه با استراتژيهاي نزديك به استراتژي انساني شروع ميشدند، بهترين نتيجهها را كسب كرد. استراتژيهاي استفادهشده در مسابقات قهرماني سال ۲۰۱۶ موتورهاي پردازش شطرنج و بازيهايي با استفاده از آخرين نسخهي استاكفيش يعني استاكفيش ۹ نيز در باربر آلفازيرو شكست خوردند. در برخي مسابقات نيز از نمونههاي استاكفيش با تنظيمات مسابقات قهرماني جهان از لحاظ كنترل زمان و شروع بازي استفاده شد كه باز هم آلفازيرو پيروز ميدان بود.
در مسابقهي شوگي، الگوريتم المو با تنظيمات مسابقات قهرماني سال ۲۰۱۷، شركت كرد. آلفازيرو، در ۹۱.۲ درصد از مسابقات پيروز شد. درمسابقات گو نيز الگوريتم آلفاگوزيرو مورد استفاده قرار گرفته كه در ۶۱درصد از مسابقات، آلفازيرو برنده شد.
ترتيب حركتهاي آلفازيرو در مسابقات شطرنج و شوگي، دركنار مقالهي مذكور، منتشر شد. دميس هاسابيس همبنيانگذار و مديرعامل ديپمايند خبر انتشار حركتها را اعلام كرد و به اين نكته اشاره كرد كه كميتهي بينالمللي شطرنج درحال مطالعه و استفاده از نحوهي بازي آلفازيرو است. كميتهي شطرنج با استفاده از حركات منتشرشده، مناظرهي رقابت را در مسابقهي قهرماني جهان آتي بين مگنوس كارلسن و فابيانو كاروانا تشديد خواهد كرد.
رگان دربارهي تحليلهاي آلفازيرو و سبك بازي آن ميگويد:
تفاوت تحليل و بازي آلفازيرو با ديگر الگوريتمهاي شطرنج و سبك بازي اساتيد بزرگ رشته، جذاب و قابلتوجه است. من ماههاي زيادي به مطالعه بازيهاي آلفازيرو پرداختم. تصور ميكنم درك من از بازي پس از مطالعهها تغيير كرده و بهبود يافته است. آلفازيرو، تمام آنچه كه ما بهعنوان انسان در بازي شطرنج آموختيم را با سوالاتي جديد روبهرو ميكند. درواقع اين هوش مصنوعي ميتواند ابزاري مفيد براي يادگيري در كل جامعهي شطرنج باشد.
هاسابيس در ادامهي صحبتهايش دربارهي پروژهي آلفازيرو اعتقاد دارد هدف نهايي اين پروژه، ساختن يك هوش قوي براي بازي شطرنج نيست. هدف، استفاده از روند يادگيري آلفازيرو براي توسعهي سيستمهايي است كه اشكالات دشوار جامعه را حل كنند.
موفقيت در بازيهاي ديگر، راه را براي حل چالشهاي واقعي هموار ميكند
ديپمايند درحالحاضر در پروژههاي متعدد هوش مصنوعي مرتبط با سلامت فعاليت ميكند. يكي از پروژهها، همكاري با دپارتمان امور مجروحان جنگي ايالات متحدهي آمريكا بود. اين پروژه در جهت پيشبيني بدتر شدن شرايط بيماران در زمان استراحت در بيمارستان، فعاليت ميكند. ديپمايند پيش از پروژه در آمريكا، با سرويس سلامت ملي بريتانيا همكاري كرد تا الگوريتمي براي جستجوي علائم اوليهي نابينايي توسعه دهد. از آخرين پروژههاي ديپمايند در بخش سلامت نيز ميتوان به سيستم هوش مصنوعي توانمند در دستهبندي تصاوير سيتي اسكن اشاره كرد. نتايج پروژه، در كنفرانس Medical Image Computing & Computer Assisted Intervention در ابتداي سال جاري ميلادي، معرفي شد.
يكي ديگر از محصولات ديپمايند در حوزهي هوش مصنوعي و يادگيري عميق، آلفافولد نام دارد. اين پروژه براي پيشبيني ساختار پيچيدهي پروتئينها طراحي شده است. آلفالود در رقابت با ۹۸ الگوريتم ديگر در مسابقات پيشبيني ساختار پروتئين با نام CASP13 رتبهي اول را ازآن خود كرد.
مديرعامل ديپمايند در پايان دربارهي آلفازيرو و ادامهي مسير آن ميگويد:
آلفازيرو براي همهي ما يك پله به سمت هوش مصنوعي بهمعناي عمومي محسوب ميشود. دليل مطالعه و آزمايش اين الگوريتم و خود ما، آن است كه آنها مرحلهاي اساسي براي توسعهي الگوريتمها هستند. ما در نهايت درحال كار روي الگوريتمهايي هستيم كه براي رخدادهاي دنياي واقعي قابل استفاده باشند و اشكالات اصلي آن را حل كنند. هدف اصلي، كمك كردن به متخصصان آن حوزهها است.
چالشهاي زندگي واقعي، بهندرت تمامي اطلاعات لازم براي تصميمگيري را به ما عرضه ميكنند (برخلاف شطرنج و بازيهاي مشابه). بههمين دليل، هوش مصنوعي كه بتواند اشكالات با اطلاعات كم را حل كند، راهكاري مفيد در زندگي واقعي همچون پيشبينيها و مدلسازيهاي مالي يا حتي جنگ، خواهد بود. درواقع قدم بعدي يعني شكست دادن بازيهاي چندنفرهي الكترونيك، اولين قدم در مسير خواهد بود. يك خودروي خودران مجهز به چنين هوش مصنوعي، ميتواند درنهايت جادهها را در اختيار خود درآورد و براي شركتي كه اين ايده را پيادهسازي كند، موفقيتهاي بسياري بههمراه داشته باشد. شايد Waymo، شعبهي آلفابت در حوزهي خودروهاي خودران، در همكاري با ديپمايند بتواند به چنين دستاورد بزرگي دست پيدا كند.
انديشه متخصصين شما چيست؟ آيا هوش مصنوعي با اين روند ميتواند در حل اشكالات واقعي انسانها هم موفق شود؟
هم انديشي ها