هوش مصنوعي آلفازيرو ديپ مايند در مسابقات شطرنج و شوگي پيروز شد

يك‌شنبه ۱۸ آذر ۱۳۹۷ - ۰۹:۲۱

مطالعه 10 دقيقه

بخش هوش مصنوعي آلفابت با نام ديپ مايند، محصولي به‌ نام آلفازيرو توسعه داده است كه موفق به پيروزي در بازي‌هاي دشوار شطرنج و شوگي شد.

تبليغات

ديپ‌مايند، زيرمجموعه‌ي شركت مادر گوگل يعني آلفابت است كه در بريتانيا و در حوزه‌ي هوش مصنوعي فعاليت مي‌كند. اين شركت سال گذشته خبر از طراحي و توسعه‌ي هوشي براي كسب مهارت بازي شطرنج و شوگي داد. شوگي، نوعي بازي ژاپني شبيه به شطرنج است. هدف ديپ مايند، طراحي هوشي با نام AlphaZero بود كه با يادگيري شخصي، مهارت كافي را در بازي‌هاي فكري كسب كند.

آلفازيرو به‌گونه‌اي طراحي شد تا بدون يادگيري خارجي، خودش به‌تنهايي بازي‌هاي شطرنج، شوگي و بازي تخته‌اي چيني به نام Go را بياموزد. محصول جديد ديپ‌مايند توانست در هر حوزه، قهرمانان آن را شكست دهد. موفقيت به‌دست‌آمده، مرحله‌اي جديد از يادگيري بازي‌هاي دونفره توسط كامپيوتر را نشان مي‌دهد. منظور از اين بازي‌هاي دونفره، بازي‌هايي مانند شطرنج هستند كه تصميم‌گيري در آن‌ها براساس اتفاقات رخ‌داده در بازي‌هاي قبلي، قابل يادگيري و پيش‌بيني باشد.

مقاله‌هاي مرتبط:

هوش مصنوعي ديپ مايند با يادگيريي ۴ ساعته به قهرمان شطرنج بدل شد

گفتگويي با كاسپارف در مورد هوش مصنوعي و تعامل آن با انسان (بخش اول)

موفقيت ديپ مايند بسيار مهم و تأثيرگذار بود. البته كمي طول كشيد تا منبعي معتبر، يك مطالعه جامع از روند كار و موفقيت هوش مصنوعي انجام دهد. به‌هرحال شركت در هفته‌ي گذشته اعلام كرد كه مجله‌ي معتبر علمي Science اين رخداد را تأييد كرد و تيتر روي جلد خود را به آن اختصاص داد.

ديويد سيلور محقق ارشد پروژه‌ي آلفازيرو در كنفرانس خبري مراسم NeurIPS ۲۰۱۸ در مونترئال گفت:

چند سال پيش، برنامه‌ي ما به‌ نام AlphaGo توانست قهرمان ۱۸ دوره از مسابقات گو را با نتيجه‌ي ۴ بر يك شكست دهد. اين رخداد براي ما شروع يك مسير بود. هدف اصلي ما، توسعه‌ي سيستم يادگيري جامعي بود كه بازي‌هاي مختلف را تا سطح بسيار حرفه‌اي بياموزد.آلفازيرو، قدم بعدي ما در اين مسير محسوب مي‌شود. هوش مصنوعي جديد، از ابتدا بازي‌ها و قوانين آن‌ها را آموخت و بدون هيچ يادگيري ديگر، موفق شد تا قهرمانان جهان را در بازي‌هاي شطرنج، گو و شوگي شكست دهد.

سيلور در ادامه توضيح داد كه انتخاب بازي‌هاي مذكور، به‌خاطر پيچيدگي و همچنين تاريخچه‌ي طولاني‌مدت آن‌ها از لحاظ تلاش هوش مصنوعي براي شكست دادن انسان‌ها، انتخاب شدند. او درباره‌ي اين بازي‌ها مي‌گويد:

شطرنج، نشان‌دهنده‌ي دستاوردي است كه توسط انواع هوش مصنوعي سنتي قابل دستيابي بود. موفقيت در اين بازي توسط نمونه‌هاي قبلي هوش مصنوعي و تلاش براي عالي كردن آن‌ها به‌دست آمد. ما مي‌خواستيم توانايي هوش جديد را در دستيابي به موفقيت‌هاي نمونه‌هاي پيچيده‌ي قبلي، تنها از راه يادگيري مطالعه كنيم.دليل انتخاب شوگي نيز دشواري يادگيري آن توسط برنامه‌هاي كامپيوتري بود. درواقع اين بازي يكي از معدود بازي‌هاي تخته‌اي (به‌جز بازي بسيار چالشي گو) است كه يادگيري آن براي برنامه‌هاي خاص كامپيوتري هم دشوار است. تنها در يكي دو سال گذشته بود كه آمارهايي از پيروزي برنامه‌هاي كامپيوتري بر قهرمانان شوگي منتشر شد.

محققان هوش مصنوعي براي چالش‌هاي جديد، بايد سراغ نسل جديد بازي‌ها بروند

ماري كمپل يك محقق هوش مصنوعي در مركز تحقيقات آي‌بي‌ام واتسون در نگارش مقاله به تيم ديپ‌مايند كمك كرده است. او اعتقاد دارد اين دستاورد، پاياني بر تلاش‌هاي چند دهه در حوزه‌ي هوش مصنوعي بود. كمپل عضو تيم تحقيقاتي آي‌بي‌ام در پروژه‌ي ديپ بلو بود كه در سال ۱۹۹۷، قهرمان شطرنج آن زمان يعني گري كاسپاروف را شكست داد.

كمپل اعتقاد دارد محققان هوش مصنوعي براي چالش‌هاي جديد، ديگر بايد به فكر نسل جديدي از بازي‌ها باشند. در بازي‌هاي مورد انديشه متخصصين كمپل، برخلاف شطرنج، همه‌ي اطلاعات لازم براي تصميم‌گيري، به‌صورت واضح وجود ندارند. به‌عنوان مثال در بازي‌هاي كارتي همچون پوكر، بازيكنان كارت‌ها را نزديك به خود نگه مي‌دارند و تصميم‌گيري، دشوارتر خواهد بود. بسياري از بازي‌هاي چندنفره‌ي الكترونيك مانند StarCraft، Dota و Minecraft نيز در اين دسته‌بندي قرار مي‌گيرند.

ماري كمپل در مصاحبه با مجله‌ي Spectrum از مؤسسه‌ي IEEE درباره‌ي چالش بازي‌هاي نسل جديد مي‌گويد:

بازي‌هاي چندنفره، از بازي گو هم دشوارتر هستند اما آن‌چنان دشوار محسوب نمي‌شوند. درحال‌حاضر نيز يك گروه توانسته است بهترين بازيكنان Dota 2 را شكست دهد. البته، بازي آن‌ها نسخه‌اي محدود از بازي اصلي بود. استاركرافت مقداري دشوارتر به‌انديشه متخصصين مي‌رسد. البته به‌انديشه متخصصين من هردو بازي از اهداف قابل دستيابي تا ۲ يا ۳ سال آينده خواهند بود.

مقاله‌ي منتشرشده درباره‌ي مسير موفقيت آلفازيرو، اين هوش مصنوعي را با نمونه‌هاي ديگر متخصص در بازي‌هاي شطرنج و شوگي مانند Stockfish، Elmo و محصول IBM يعني Deep Blue مطالعه مي‌كند. درواقع آلفازيرو به‌جاي ديكته شدن قوانين به‌صورت دستي، از يك شبكه‌ي عصبي عميق براي يادگيري بهره مي‌برد. شبكه‌ي عصبي در مباحثه هوش مصنوعي، نشان‌دهنده‌ي توابع رياضياتي لايه‌اي است كه عملكرد نورون‌هاي مغز انسان را شبيه‌سازي مي‌كند.

مرجع متخصصين ايران گري كاسپارف در مقابل Deep Blue

اساتيد شطرنج، از نحوه‌ي بازي آلفازيرو براي تحقيقات خود استفاده مي‌كنند

روش پوياي بازي آلفازيرو، استراتژي‌هاي خلاقانه و غيرمعمولي را نتيجه مي‌دهد. قهرمان دو دوره مسابقات شطرنج و استاد بزرگ رشته يعني متيو سدلر و قهرمان مسابقات بين‌المللي زنان در شطرنج يعني ناتاشا رگان در جزوه رايگان آينده‌ي خود از روش‌هاي آلفازيرو الهام گرفته‌اند و به مطالعه اين هوش مصنوعي و هزار بار بازي آن پرداخته‌اند.

سدلر درمورد هوش مصنوعي آلفازيرو مي‌گويد:

موتورهاي هوش مصنوعي سنتي، بسيار قوي هستند و چند اشتباه واضح محدود در بازي انجام مي‌دهند. البته در موقعيت‌هايي كه هيچ راهكار قابل‌محاسبه‌ي مشخصي وجود نداشته باشد، اين نمونه‌هاي سنتي دچار اشتباه مي‌شوند. اما آلفازيرو با يك پيشرفت قابل ملاحظه، سبك بازي خود را در بازه‌ي گسترده‌اي از استراتژي‌ها تغيير مي‌دهد.در موقعيت‌هاي غيرقابل پيش‌بيني، احساسات، بينش و شهود مورد نياز هستند كه آلفازيرو اين‌ها را به‌كار مي‌گيرد. آلفازيرو مانند انساني با اشتياق بالا بازي مي‌كند كه سبكي بسيار زيبا محسوب مي‌شود.

مرجع متخصصين ايران متخصصد‌هاي يادگيري ماشين در كسب و كارها

به‌عنوان مثالي از روش كار آلفازيرو، هوش مصنوعي توانست اصولي مانند شروع بازي، حفاظت از پادشاه و استراتژي چينش مهره‌هاي پياده را بياموزد. روش بازي به‌اين صورت است كه پادشاه حريف محاصره مي‌شود، سپس حركات حريف محدود شده و حركات مهره‌هاي هوش مصنوعي افزايش پيدا مي‌كند. نكته‌ي جالب توجه ديگر آن است كه آلفازيرو برخلاف انسان، از قرباني كردن مهره‌هاي خود براي اهداف بلندمدت، ترسي ندارد.

يادگيري بازي‌هاي فكري مذكور توسط آلفازيرو، نيازمند شبيه‌سازي ميليون‌ها بازي در مقابل خودش بود. فرايند يادگيري بازي به‌ اين صورت با نام Reinforcement Learning شناخته مي‌شود. در روش مذكور، سيستم جايزه و تنبيه، هوش مصنوعي را به‌سمت اهداف مشخصي پيش مي‌برد. آلفازيرو ابتدا به‌صورت تصادفي بازي مي‌كرد اما پس از مدتي، پارامترها را به‌نوعي تنظيم كرد تا علاوه‌بر فرار از شكست، سبك بازي اختصاصي خود را پيدا كند.

آلفازيرو تمامي الگوريتم‌هاي قبلي را در بازي‌هاي شطرنج، شوگي و گو شكست داد

زمان مورد نياز براي يادگيري آلفازيرو، به نوع بازي بستگي داشت. حداقل، ۷۰۰ هزار مرحله‌ي يادگيريي (هر مرحله شامل ۴۰۹۶ موقعيت تخته) روي سيستم‌هاي مجهز به ۵ هزار واحد پردازش تانسور (TPU) و ۱۶ تي‌پي‌يو نسل دوم (مدارهاي مجتمع اختصاصي گوگل براي يادگيري ماشين)، در مدت ۹ ساعت، ساخت و بازي كردن شطرنج را انجام داد. براي شوگي و گو نيز به ۱۲ ساعت و ۱۳ روز زمان نياز بود.

آلفازيروي حرفه‌اي از الگوريتم جستجوي مونت كارلو (الگوريتم جستجوي ابتكاري براي فرايندهاي تصميم‌گيري) براي انتخاب هر حركت استفاده مي‌كند. اين هوش مصنوعي جستجو‌ها را بسيار سريع انجام مي‌دهد. البته، هوش مصنوعي موقعيت‌هاي بسياري را در بازي مطالعه مي‌كند كه نسبت به مطالعه‌هاي يك استاد بزرگ شطرنج، كارايي كمتري دارد؛ اما آلفازيرو در مقايسه با نمونه‌هاي ديگر موقعيت‌هاي كمتري را مطالعه مي‌كند.

محققان ديپ مايند براي مطالعه دقيق‌تر توانايي‌هاي آلفازيرو، آن را در رقابت با الگوريتم‌هاي ديگر همچون Stockfish و Elmo و همچنين نسل قبلي يعني آلفاگوزيرو امتحان كردند. سخت‌افزار مورد استفاده براي بازي‌ها، سيستمي با ۴۴ هسته‌ي پردازشي و ۴ عدد از نسل اول تي‌پي‌يوهاي مخصوص گوگل بود. اين سخت‌افزار، از لحاظ قدرت پردازش و استدلال با سيستمي مجهز به چندين كارت گرافيك انويديا تايتان وي برابري مي‌كند. آلفازيرو در رقابت با الگوريتم‌هاي مذكور، بردهاي متعدد و قابل توجهي را كسب كرد.

هوش مصنوعي آلفازيرو دربازي شطرنج، در هزار مسابقه با الگوريتم استاك‌فيش ۱۵۵ مسابقه را با برد به پايان رساند و تنها ۶ باخت ثبت كرد. به‌علاوه، هوش مصنوعي ديپ مايند در مسابقاتي كه با استراتژي‌هاي نزديك به استراتژي انساني شروع مي‌شدند، بهترين نتيجه‌ها را كسب كرد. استراتژي‌هاي استفاده‌شده در مسابقات قهرماني سال ۲۰۱۶ موتورهاي پردازش شطرنج و بازي‌هايي با استفاده از آخرين نسخه‌ي استاك‌فيش يعني استاك‌فيش ۹ نيز در باربر آلفازيرو شكست خوردند. در برخي مسابقات نيز از نمونه‌هاي استاك‌فيش با تنظيمات مسابقات قهرماني جهان از لحاظ كنترل زمان و شروع بازي استفاده شد كه باز هم آلفازيرو پيروز ميدان بود.

در مسابقه‌ي شوگي، الگوريتم المو با تنظيمات مسابقات قهرماني سال ۲۰۱۷، شركت كرد. آلفازيرو، در ۹۱.۲ درصد از مسابقات پيروز شد. درمسابقات گو نيز الگوريتم آلفاگوزيرو مورد استفاده قرار گرفته كه در ۶۱درصد از مسابقات، آلفازيرو برنده شد.

ترتيب حركت‌هاي آلفازيرو در مسابقات شطرنج و شوگي، دركنار مقاله‌ي مذكور، منتشر شد. دميس هاسابيس هم‌بنيان‌گذار و مديرعامل ديپ‌مايند خبر انتشار حركت‌ها را اعلام كرد و به اين نكته اشاره كرد كه كميته‌ي بين‌المللي شطرنج درحال مطالعه و استفاده از نحوه‌ي بازي آلفازيرو است. كميته‌ي شطرنج با استفاده از حركات منتشرشده، مناظره‌ي رقابت را در مسابقه‌ي قهرماني جهان آتي بين مگنوس كارلسن و فابيانو كاروانا تشديد خواهد كرد.

رگان درباره‌ي تحليل‌هاي آلفازيرو و سبك بازي آن مي‌گويد:

تفاوت تحليل و بازي آلفازيرو با ديگر الگوريتم‌هاي شطرنج و سبك بازي اساتيد بزرگ رشته، جذاب و قابل‌توجه است. من ماه‌هاي زيادي به مطالعه بازي‌هاي آلفازيرو پرداختم. تصور مي‌كنم درك من از بازي پس از مطالعه‌ها تغيير كرده و بهبود يافته است. آلفازيرو، تمام آنچه كه ما به‌عنوان انسان در بازي شطرنج آموختيم را با سوالاتي جديد رو‌به‌رو مي‌كند. درواقع اين هوش مصنوعي مي‌‌تواند ابزاري مفيد براي يادگيري در كل جامعه‌ي شطرنج باشد.

هاسابيس در ادامه‌ي صحبت‌هايش درباره‌ي پروژه‌ي آلفازيرو اعتقاد دارد هدف نهايي اين پروژه، ساختن يك هوش قوي براي بازي شطرنج نيست. هدف، استفاده از روند يادگيري آلفازيرو براي توسعه‌ي سيستم‌هايي است كه اشكالات دشوار جامعه را حل كنند.

موفقيت در بازي‌هاي ديگر، راه را براي حل چالش‌هاي واقعي هموار مي‌كند

ديپ‌مايند درحال‌حاضر در پروژه‌هاي متعدد هوش مصنوعي مرتبط با سلامت فعاليت مي‌كند. يكي از پروژه‌ها، همكاري با دپارتمان امور مجروحان جنگي ايالات متحده‌ي آمريكا بود. اين پروژه در جهت پيش‌بيني بدتر شدن شرايط بيماران در زمان استراحت در بيمارستان، فعاليت مي‌كند. ديپ‌مايند پيش از پروژه در آمريكا، با سرويس سلامت ملي بريتانيا همكاري كرد تا الگوريتمي براي جستجوي علائم اوليه‌ي نابينايي توسعه دهد. از آخرين پروژه‌هاي ديپ‌مايند در بخش سلامت نيز مي‌توان به سيستم هوش مصنوعي توانمند در دسته‌بندي تصاوير سي‌تي اسكن اشاره كرد. نتايج پروژه، در كنفرانس Medical Image Computing & Computer Assisted Intervention در ابتداي سال جاري ميلادي، معرفي شد.

يكي ديگر از محصولات ديپ‌مايند در حوزه‌ي هوش مصنوعي و يادگيري عميق، آلفافولد نام دارد. اين پروژه براي پيش‌بيني ساختار پيچيده‌ي پروتئين‌ها طراحي شده است. آلفالود در رقابت با ۹۸ الگوريتم ديگر در مسابقات پيش‌بيني ساختار پروتئين با نام CASP13 رتبه‌ي اول را ازآن خود كرد.

مديرعامل ديپ‌مايند در پايان درباره‌ي آلفازيرو و ادامه‌ي مسير آن مي‌گويد:

آلفازيرو براي همه‌ي ما يك پله به سمت هوش مصنوعي به‌معناي عمومي محسوب مي‌شود. دليل مطالعه و آزمايش اين الگوريتم و خود ما، آن است كه آن‌ها مرحله‌اي اساسي براي توسعه‌ي الگوريتم‌ها هستند. ما در نهايت درحال كار روي الگوريتم‌هايي هستيم كه براي رخدادهاي دنياي واقعي قابل استفاده باشند و اشكالات اصلي آن را حل كنند. هدف اصلي، كمك كردن به متخصصان آن حوزه‌ها است.

چالش‌هاي زندگي واقعي، به‌ندرت تمامي اطلاعات لازم براي تصميم‌گيري را به ما عرضه مي‌كنند (برخلاف شطرنج و بازي‌هاي مشابه). به‌همين دليل، هوش مصنوعي كه بتواند اشكالات با اطلاعات كم را حل كند، راهكاري مفيد در زندگي واقعي همچون پيش‌بيني‌ها و مدل‌سازي‌هاي مالي يا حتي جنگ، خواهد بود. درواقع قدم بعدي يعني شكست دادن بازي‌هاي چندنفره‌ي الكترونيك، اولين قدم در مسير خواهد بود. يك خودروي خودران مجهز به چنين هوش مصنوعي، مي‌تواند درنهايت جاده‌ها را در اختيار خود درآورد و براي شركتي كه اين ايده را پياده‌سازي كند، موفقيت‌هاي بسياري به‌همراه داشته باشد. شايد Waymo، شعبه‌ي آلفابت در حوزه‌ي خودروهاي خودران، در همكاري با ديپ‌مايند بتواند به چنين دستاورد بزرگي دست پيدا كند.

انديشه متخصصين شما چيست؟ آيا هوش مصنوعي با اين روند مي‌تواند در حل اشكالات واقعي انسان‌ها هم موفق شود؟

مقاله رو دوست داشتي؟

انديشه متخصصينت چيه؟

مهدي زارع سريزدي

تبليغات

جديد‌ترين مطالب روز

مقاله رو دوست داشتي؟

انديشه متخصصينت چيه؟

مهدي زارع سريزدي

هم انديشي ها