چرا هوش مصنوعي تشنه انرژي است؟
گوگل در پژوهشي نااميدكننده به خطرهاي هوش مصنوعي پردازش زبان اشاره كرد. اين نوع هوش مصنوعي در جستوجوي گوگل و ديگر محصولات تحليل متني بهكار ميرود. يكي از خطرهاي اين نوع هوش مصنوعي، اثر كربني فراوان آن است.
براساس تخمينها، يادگيري مدل هوش مصنوعي بهاندازهي توليد خودرو و رانندگي با خودروها در طول عمر آنها به انرژي نياز دارد. كيت سائنكو، پژوهشگر و نويسندهي اصلي اين مقاله، مدلهاي هوش مصنوعي مطالعه ميكند و آن را توسعه ميدهد و با انرژي و هزينههاي مالي پژوهشهاي AI آشنا است. چرا مدلهاي هوش مصنوعي تا اين اندازه تشنهي انرژي هستند و چه تفاوتي با رايانش ديتاسنتري يا مركزدادهاي سنتي دارند؟
فرايند يادگيري هوش مصنوعي غيربهينه است
عمليات سنتي پردازش داده در ديتاسنترها پخش ويدئو و رايانامه و رسانههاي اجتماعي را شامل ميشود. هوش مصنوعي ازانديشه متخصصين محاسباتي متمركز است؛ زيرا به خواندن مقادير زيادي داده و يادگيري و درك آنها نياز دارد. اين نوع فرايند يادگيريي درمقايسهبا يادگيري انساني غيربهينه است. AI مدرن از شبكههاي عصبي استفاده ميكند كه محاسبات رياضي را به تقليد از مغز انسان انجام ميدهند. ميزان قدرت اتصال هر نورون به همسايهي آن يكي از پارامترهاي شبكه به نام وزن است. شبكه براي يادگيري چگونگي درك زبان با وزنهاي تصادفي آغاز ميشود و اين وزنها را تا زماني تطبيق ميدهد كه خروجي منطبق با پاسخي صحيح باشد.
يكي از روشهاي متداول يادگيري شبكهي زباني تغذيهي شبكه با مقادير زيادي متن از وبسايتهايي مثل ويكيپديا و اخباري داراي كلمات نشانهگذاري شده است. سپس شبكه كلمات جداشده را حدس ميزند. براي مثال، جملهي «سگ من بامزه است» را با كلمهي «بامزه» در انديشه متخصصين بگيريد. در ابتدا، مدل كلمات را بهاشتباه تشخيص ميدهد؛ اما با تطبيق بيشتر، وزنهاي اتصالي تغيير ميكنند و الگوهاي دادهاي را كشف ميكنند؛ درنهايت، شبكه به دقت چشمگيري ميرسد.
يكي از مدلهاي جديد به نام BERT (نمايش رمزنگار دوطرفه از مبدلها) از ۳/۳ ميليارد كلمهي جزوه رايگانهاي انگليسي و مقالههاي ويكيپديا استفاده ميكند. علاوهبراين، BERT در طول يادگيري مجموعههاي دادهاي را يك جا چهل مرتبه ميخواند. درمقابل، كودك بهطورميانگين ميتواند تا پنجسالگي ۴۵ ميليون كلمه را بشنود كه سههزار مرتبه كمتر از دادههاي BERT است.
جستوجوي ساختار مناسب
فرايند يادگيري كه معمولا در طول توسعه چند بار تكرار ميشد، مدلهاي زباني را پرهزينه ميسازد. دليل اين مسئله جستوجوي بهترين ساختار براي شبكه ازجمله تعداد نورونها، تعداد اتصال بين نورونها، سرعت تغيير پارامترها در طول يادگيري و... است. هرچه تركيبهاي آزمايشي بيشتر باشند، بخت شبكه براي رسيدن به دقت زياد افزايش مييابد. درمقابل مغز انسان به يافتن ساختار بهينه نيازي ندارد و از ساختار پيشساختهاي برخوردار است كه در فرايند تكامل شكل گرفته است.
با افزايش شركتها و مؤسسههاي پژوهشي در حوزهي هوش مصنوعي، فشار براي بهبود جديدترين فناوريها افزايش يافت. حتي دستيابي به پيشرفت ۱ درصدي در دقت وظايف دشواري مثل ترجمهي ماشيني هم معنادار است و ميتواند بهمعني توليد محصولات بهتر باشد. باوجوداين براي رسيدن به اين بهبود ۱ درصدي، بايد مدل را هزاران مرتبه و هر بار با ساختار متفاوتي يادگيري داد تا بهترين نتيجه حاصل شود.
پژوهشگران دانشگاه آمهرست ماساچوست با اندازهگيري مصرف برق سختافزارهاي متداول بهكاررفته در فرايند يادگيري، هزينهي انرژي توسعهي مدلهاي زباني AI را تخمين زدند. براساس نتايج، مصرف انرژي BERT معادل اثر كربني حاصل از پرواز بين نيويورك و سانفرانسيسكو است. بااينحال، جستوجو در ساختارهاي مختلف و يادگيري چندبارهي الگوريتم براساس دادهها با تعداد متغير نورونها و اتصالها و پارامترهاي ديگر، هزينهي انرژي همارز با پرواز ۳۱۵ مسافر يا هواپيماي ۷۴۷ كامل است.
بزرگتر و جديدتر
مدلهاي هوش مصنوعي هر سال بزرگتر ميشوند. GPT-2، مدل زباني جديد مشابه BERT، در شبكهي خود تقريبا ۱/۵ ميليارد و GPT-3 با دقتي بيشتر ۱۷۵ ميليارد وزن دارد. بهطوركلي، شبكههاي بزرگتر دقت بيشتر دارند؛ حتي اگر تنها بخش كوچكي از شبكهي مفيد و متخصصدي باشد. فرايند مشابهي در مغز كودكان رخ ميدهد؛ در ابتدا اتصالهاي عصبي اضافه ميشوند و سپس كاهش مييابند؛ اما بهطوركلي مغز بيولوژيكي بهينهتر از مغزهاي كامپيوتري است.
مدلهاي هوش مصنوعي بر اساس سختافزار ويژهاي مثل واحدهاي پردازندهي گرافيكي يادگيري ميبينند كه انرژي بيشتري درمقايسهبا CPUهاي قديمي مصرف ميكند. معمولا در لپتاپهاي بازي از اين واحدهاي پردازنده براي توليد گرافيك پيشرفته براي بازيهايي مثل ماينكرفت RTX استفاده ميشود. اين لپتاپها معمولا جديدتر از لپتاپهاي معمولي هستند.
بهطوركلي، توسعهي مدلهاي پيشرفتهي هوش مصنوعي نشر كربني را افزايش ميدهد. تا زمانيكه از منابع ۱۰۰ درصد تجديدپذير استفاده نكنيم، پيشرفت هوش مصنوعي در تضاد با كاهش گازهاي گلخانهاي و كاهش سرعت تغييرات اقليمي قرار ميگيرد. هزينهي نهايي توسعه هم بسيار گران است و تنها تعداد اندكي از آزمايشگاهها از عهدهي آن برميآيند.
كار بيشتر با انرژي كمتر
كار بيشتر و انرژي كمتر دقيقا چه مفهومي براي پژوهشهاي هوش مصنوعي دارد؟ هزينهي يادگيري با ابداع روشهاي بهينه كاهش خواهد يافت. بهطورمشابه طبق پيشبيني سالهاي گذشته، قرار بود مصرف انرژي ديتاسنترها رو به انفجار باشد؛ اما اين اتفاق بهدليل پيشرفت در بازدهي ديتاسنترها و فناوريهاي سرمايش و سختافزاري بهينه رخ نداد.
همچنين، مبادلهاي بين هزينهي يادگيري مدلها و هزينهي استفاده از آنها وجود دارد؛ درنتيجه مصرف بيشتر انرژي در زمان يادگيري با توليد مدل كوچكتري همراه است كه استفاده از آن ميتواند ارزانتر تمام شود. ازآنجاكه از يك مدل چند بار استفاده ميشود، انرژي بيشتري ذخيره خواهد شد.
سائنكو در پژوهش آزمايشگاهي خود، روشهايي براي كوچككردن مدلهاي AI ازطريق اشتراكگذاري وزنها يا استفاده از وزنهاي يكسان در بخشهاي مختلف شبكه جستوجو كرد. به اين شبكهها شيپشيفتر يا تبديلشونده گفته ميشود؛ زيرا مجموعهي كوچكي از وزنها را ميتوان براي شبكههاي بزرگتر با هر شكل و ساختاري تنظيم كرد. پژوهشگران ديگر هم نشان دادهاند اشتراكگذاري وزن عملكرد بهتري در زمان يادگيري يكسان دارد.
جامعهي AI با نگاهي به آينده بايد براي توسعهي طرحهاي يادگيريي بهينه تلاش كند؛ درغيراينصورت، تعداد اندكي از توسعهدهندگان ميتوانند دستورالعمل دلخواه خود را براي توسعهي مدلها يا نوع دادههاي به كاررفته براي يادگيري توسعه دهند.
مقالهي اصلي در The conversation منتشر شده است.
هم انديشي ها