ARM در روياي سلطه بر بازار پردازندههاي اينتل
در ابتداي دههي ۱۹۹۰، دنياي محاسبات عمدتاْ با استفاده از معماري RISC (مخفف: Reduced Instruction Set Computer - بهمعني: مجموعه دستورالعمل كاهشيافته كامپيوتر) انجام ميشد. پردازندههاي SPARC، آلفا، پاور و MIPS محاسبات سنگين و جدي را انجام ميدادند. از طرفي پردازندههاي اينتل به هيچعنوان مطرح نبودند و تنها براي اجراي اپليكيشنهاي شخصي روي رايانههاي شخصي مناسب بودند. اما تقريبا هيچكس اينتل را بهعنوان يك مدعي جدي براي محيط سرورها تلقي نميكرد.
استدلال اينتل بسيار مهم بود و تقريبا هيچ كس آمادگي تشخيص اهميت آن را نداشت؛ با تسلط اينتل بر بازار كامپيوتر، اين شركت بهسرعت تبديل به بزرگترين توليدكنندهي پردازنده در جهان شد و با چنين درآمد عظيمي، كارتهاي خود را به خوبي بازي كرد. اينتل تا اوايل سال ۲۰۰۰ موفق شد تا معماري CISC خود (Computer Complex Instruction Set) را كه يكي از بهترينها در نوع خود به نسبت توان محاسباتي و ارزش بود، عرضه كند. در آن زمان، نبض بازار بهوضوح در دست RISC بود. اين دستاورد شگفتانگيز، منتقدان CISC را خاموش كرد و راه تسلط بر پردازندهها را نهتنها در جهان رايانههاي شخصي، بلكه در جهان محاسبات سروري، براي ۲۰ سال آينده هموار كرد.
اينتل با تسلط بر بازار كامپيوتر، بهسرعت تبديل به بزرگترين توليدكنندهي پردازنده در جهان شد
اينتل با شروع سال ۲۰۱۰ بهسرعت بر بازار پردازندههاي سرور غالب شد و آن را در دست گرفت. بااينحال در آن زمان، اتفاقي انقلابي رخ داد: بازار موبايل و سيستمهاي يكپارچهشده منجر به ساخت معماري ARM شد كه پركاربردترين معماري در اين زمينه و محيط به شمار ميرود.
تا سال ۲۰۱۷، بيش از ۱۰۰ ميليارد پردازنده ARM توليد شد. در حال حاضر معماري ARM بيشترين استفاده را در جهان دارد. اشتراكوجهي جالب بين وضعيت اينتل در پايان دههي ۱۹۹۰ و ARM در پايان سال ۲۰۱۰ وجود داشت: هر دو شركت مسئول طراحي بيشترين استفاده از پردازندهها در جهان بودند. دراينميان تفاوت مهمي وجود داشت؛ درحاليكه اينتل توانست طرحهاي خود را خودش پبادهسازي كند، ARM كار اجرايي را به فروشندگان شخص ثالث واگذار كرد. البته، واقعيت اين است كه اين عواقب ناشي از قصد رقابت ARM با اينتل است.
برنامهي ARM براي بهبود عملكرد پردازنده
باتوجهبه اينكه پردازندههاي ARM جهان موبايل و سيستمهاي يكپارچهشده را تحت سلطهي خود گرفتهاند، اين سؤال پيش ميآيد كه آيا ARM درصدد ورود به بازار كاميپوترهاي شخصي است يا خير؟ البته باتوجهبه توسعهي روزافزون بازار سرورها، آرم براي ورود به اين حوزه نيز بيعلاقه نيست؛ در سال ۲۰۱۸، شركت ARM نكتهي مهمي را براي پاسخ به اين سؤال ارائه داد: آنها واقعا ميخواهند با معرفي پردازندهي Cortex A76 و بازتعريف تواناييهاي ARM، وارد رقابت با اينتل شوند.
از سوي ديگر واقعيت اين است كه ARM نهتنها براي استفاده از هستههاي خود گواهي آنها را ميفروشد، بلكه براساس مجموعه دستورالعملها، امكان خريد مجوز معماري ARM براي فروشندگان جهت طراحي هستهي پردازندهها نيز فراهم شده است. اين باعث ميشود كه ديگر بازيگران دنياي تكنولوژي مانند اپل، كوالكوم، انويديا، كاويوم (در حال حاضر مارول)، برودكام، اپليدمايكرو و سامسونگ الكترونيكس، پردازندههاي ARM را توليد و حتي از آنها در سناريوهاي مختلف استفاده كنند.
يكي از نمونههايي كه براي اين مباحثه ميتوان مطرح كرد، مارول است كه با پردازنده ThunderX2 خود وارد بازار سرورهاي محاسباتي شد. درواقع، يك اَبَررايانهي جديد با بيش از ۱۰۰ هزار هستهي ThunderX2 اخيرا وارد رتبهبندي TOP500 شده است. اين اولينبار است كه يك كامپيوتر مبتني بر ARM وارد اين فهرست ميشود، فهرستي كه تقريبا در طول دو دهه تحت سلطهي معماري اينتل قرار گرفته است.
پردازندهي كرين ۹۸۰
بياييد به پردازندهي كرين ۹۸۰ هواوي نگاهي بيندازيم، يك SoC (مخفف: System On a Chip) كه از هستهي ARM A76 داخلي استفاده ميكند. اين يك نمونهي خوب از طراحي داخلي با استفاده از IP هستهي ARM است كه مجوز استفاده از آن در يك تراشهي پردازنده (يا SoC) به فروشندهي ديگر (در اينجا هواوي) واگذار شده است. كرين ۹۸۰ داراي ۴ هستهي A76 و ۴ هستهي A55 است، اما A76 قدرتمندتر است (هستهي A55 بيشتر براي وظايف سبكتري كه مصرف انرژي كمتري نياز دارند، استفاده ميشود و اين در موبايلها بسيار حائز اهميت است).
يك ابررايانهي جديد با بيش از ۱۰۰.۰۰۰ هستهي ThunderX2 اخيرا وارد رتبهبندي TOP500 شده است
هستهي A76 بهگونهاي طراحي شده كه بتواند با استفاده از تكنولوژي ۷ نانومتري اجرا شود (مانند كرين۹۸۰ كه پس از پردازندهي Apple A12 دومين SoC در جهان است كه با استفاده از نود ۷ نانومتري طراحي و ساخته شده است) و از تكنولوژي DynamIQ ARM همراهي ميكند. اين تكنولوژي امكان مقياسپذيري براي الزامات خاصي از SoC را هدف قرار ميدهد. كرين ۹۸۰ در يك موبايل اجرا ميشود (هواوي ميت ۲۰) و در اين سناريو، توان طراحي حرارتي (TDP) نميتواند از ۴ وات تجاوز كند. بنابراين DynamIQ بايد در حفظ آن بسيار محافظهكارانه عمل كند و از فعال شدن هستههاي همزمان بيشتر جلوگيري كند.
ARM ميگويد كه آنها A76 را بهعنوان رقيب Intel Skylake Core i5 طراحي كردهاند. اين مورد را مطالعه خواهيم كرد. براي اين كار، هدف اين است كه پردازندهي كرين ۹۸۰ را در يك موبايل هواوي ميت ۲۰ با پردازندهي Core i5 موجود در يك مكبوكپرو مقايسه كنيم (اواخر سال ۲۰۱۶). در اينجا اين عملكرد جانبي دركنار مجموعه دادههاي بارگيري شده است:
ميتوانيم چندين مسئله را ببينيم. اول اينكه، سرعت محاسبهي زماني، بدون هيچ تراكمي در هر دو پردازنده مشابه است. واقعيت اين است كه عملكرد كرين ۹۸۰ تقريبا همانند پردازندهي Core i5 است. شواهد نشان ميدهد كه ARM در طراحي حافظهي پيشفرض بسيار خوب عمل كرده است، بهطوريكه اجازهي يك همبستگي و هماهنگي خوب در سطح حافظه را به متخصص ميدهد.
مسئلهي دوم، در شرايط متراكم، Core i5 هنوز هم ۵۰ درصد سريعتر از كرين ۹۸۰ است؛ اما نسبت ميزان افزايش عملكرد (تا ۴ ترد) براي هر دو پردازنده بهصورت مشابه بالا ميرود. خبر اصلي اين است كه پردازندهي Core i5 داراي توان حرارتي (TDP) به مقدار ۲۸ وات است، درحاليكه براي كرين ۹۸۰ تنها ۴ وات (و احتمالا كمتر از آن) است. ميتوان نتيجه گرفت كه DynamIQ ARM به زيبايي كار ميكند تا بتواند ۴ هستهي قدرتمند را بهطور همزمان در چنين سناريوي محدودكنندهاي به اجرا در بياورد (به ياد داشته باشيد كه اين بنچمارك ازطريق موبايل انجام شده است).
همچنين درست است كه ما در حال مقايسهي پردازندهي اينتل از سال ۲۰۱۶ با پردازندي كرين ۹۸۰ از سال ۲۰۱۸ هستيم؛ اما ميتوانيم نمونه هاي اينتل را نشان دهيم كه با توان ۱۰ وات، عملكرد مشابهي با اين پردازندهي i5 مورد مطالعه دارند (بهعنوان مثال i5-8265U با تنظيم TDP پايينتر)؛ اگرچه واقعا مطمئن نيستيم كه چگونه پردازندهي اينتل با چنين محدوديت تواني شديدي همچنان قدرتمند عمل ميكند. به هر حال، واضح است كه كرين ۹۸۰ هنوز هم بهاندازهي كمتر از نيمي از توان همتاي اينتلي خود مصرف ميكند و احتمالا ارزش آن نيز بسيار كمتر از اينتل است.
براي اطلاعات بيشتر: در علوم رايانه، اجراي يك ترد اجرايي يا ريسهي اجرايي (به انگليسي: Thread) كوچكترين توالي از دستورالعملهاي برنامهريزيشده است كه زمانبندي سيستمعامل ميتواند آنها را به شكل مستقل مديريت كند. يك ريسه، يك فرايند سبك است. پيادهسازي ريسهها و فرايندها از يك سيستمعامل به سيستمعامل ديگر متفاوت است اما در اكثر موارد، ريسه در داخل يك فرايند قرار ميگيرد.
كرين ۹۸۰ هنوز هم كمتر از نيمي از توان همتاي اينتلي خود مصرف ميكند و احتمالا ارزش آن نيز بسيار كمتر از اينتل است
اين سري واقعيتها گواه خوبي هستند بر اينكه ARM بهطور جدي ميخواهد از جانب عملكرد، اينتل را غافلگير كند و آن را به چالش بكشد و احتمالا برگ برندهي ARM، مصرف انرژي كمتر در پردازندههايش است؛ جاي تعجب نيست كه اينگونه باشد. با تجربهي چندين دههاي كه ARM دارد، پردازندههايش بيشترين صرفهجويي را در انرژي دارند.
اما دليل ديگر كاهش قابلتوجه در مصرف انرژي، به نوع تكنولوژي ساخت ARM در طرحهاي جديدش بازميگردد. چرا كه اين شركت از نود ۷ نانومتري استفاده ميكند. در مقابل، اينتل از نود ۱۴ نانومتري بهره ميبرد؛ بدون شك، مزيت ARM در صرفهجويي مصرف برق براي برنامهي سلطهي جهاني بر بازار پردازندهها بسيار مهم است.
پردازندهي ThunderX2
راه دومي كه ARM براي فروش مجوزهايش به كار ميبرد، به اصطلاح فروش مجوز معماري است كه به شركتها اجازه ميدهد براساس دستورالعملهاي ARM هستهي پردازندههاي خود را طراحي كنند. كاويوم (كه اكنون توسط مارول خريداري شده است) يكي از اين شركتها بود كه با استفاده از طراحي متفاوت، پردازندههايي ساخت و درنهايت با ساخت پردازندهي وولكان به اوج خود رسيد. اين ميكرومعماري قدرت پردازندهي ThunderX2 را كه در ماه مي ۲۰۱۸ عرضه شد، تأمين ميكند.
وولكان يك ميكرومعماري ۶۴ بيتي ARM و ۱۶ نانومتري با عملكرد بالا است كه بهطور خاص براي رقابت در حوزهي سرعت محاسباتي/داده تجهيزات سرور ساخته شده است (ميتوانيد آن را بهعنوان يك ريز پردازندهي سرور بر پايهي ARM و مبتني بر كلاس Xeon درانديشه متخصصين بگيريد). ThunderX2 ميتواند تا ۳۲ هستهي وولكان را در خود جاي دهد و هر هستهي وولكان تا ۴ ترد را همراهي ميكند؛ درنهايت كل پردازنده ميتواند تا ۱۲۸ ترد را اجرا كند. با توانايي اين پردازنده در اجراي بسياري از تردها بهطور همزمان، انتظار داشتيم كه قدرت محاسباتي خام آن، غيرقابل توصيف باشد.
براي مطالعه اينكه ThunderX2 تا چه حدي ميتواند قدرتمند باشد، قصد داريم ThunderX2 CN9975 را (درواقع يك جعبه با ۲ نمونه از آن، هر نمونه شامل ۲۸ هسته) با يكي از رقباي طبيعي خود، يعني Intel Scalable Gold 5120 (درواقع يك جعبه با ۲ نمونه از آن، هر نمونه شامل ۱۴ هسته) مقايسه كنيم.
مشاهده ميشود كه وقتي فشردهسازي مورد استفاده قرار نميگيرد، نمونهي اينتل بسيار بهتر و قابل پيشبينيتر عمل ميكند. بااينحال هنگامي كه در انجام وظايف محاسبات، تردها بهاندازهي كافي باشند، ThunderX2 قادر است به كارايي مشابه (تقريبا ۷۰ گيگابايت در ثانيه) اينتل برسد. اين يك واقعيت بسيار جالب است؛ زيرا براي اولينبار نشان ميدهد كه يك پردازندهي ARM ميتواند پهناي باند حافظهي خود را با آخرين نسل از پردازندهي اينتل مطابقت دهد (كه BTW در آن عملكرد بسيار خوبي داشت).
باتوجهبه سناريوي فشردهسازي، اينتل Scalable هنوز هم بيش از دو برابر سريعتر از ThunderX2 عمل ميكند و همچنان نشان ميدهد كه در مقياسپذيري قابلقبول است. از سوي ديگر، اگرچه ThunderX2 يك گام خوب در جهت بهبود عملكرد معماري ARM برداشته است، اما هر دو پردازنده در رسيدن به قدرت محاسباتي خام و مقياسپذيري اينتل راه طولاني در پيش دارند.
يك پردازندهي ARM ميتواند پهناي باند حافظهي خود را با آخرين نسل از پردازندهي اينتل مطابقت دهد
هنگامي كه به مصرف انرژي نگاه ميكنيم، اگرچه قادر نيستيم ميزان دقيقي را براي مدل ThunderX2 CN9975 كه در بنچماركهاي بالا استفاده شده است، پيدا كنيم، اما احتمالا در محدودهي ۱۵۰ وات در ازاي هر پردازنده قرار دارد كه بسيار بزرگتر از همتاي Intel Scalable 5120 با حدود ۱۰۰ وات در هر پردازنده است. اين جمله به اين معنا است كه اينتل در پردازنده خود از قدرت بسيار كمتري استفاده ميكند و در حال حاضر يك مزيت آشكار در محاسبات سرور به آنها ميدهد.
مطالعه نهايي
از اين نتايج كاملا مشهود است كه ARM گامهاي بزرگي در جهت رسيدن به عملكرد اينتل برداشته است، بهويژه در سمت كلاينتها از جمله لپتاپها و كامپيوترهاي روميزي مصرف برق كاهش قابلتوجهي داشته است كه اين براي لپتاپ نكتهي مهمي محسوب ميشود. اين نكات را در ذهن داشته باشيد و زمانيكه قصد داريد لپتاپ يا رايانهي روميزي خود را خريداري كنيد، بهسادگي فكر نكنيد كه اينتل تنها گزينهي منطقي و معقول پيشرو براي خريد است.
در سمت سرور، اينتل همچنان برتري و مزيتهاي مهم خود را حفظ كرده است و گرفتن تاج پادشاهي عملكرد از او آسان نخواهد بود. بااينحال، واقعيت اين است كه ARM به فروشندگان مختلف اجازه ميدهد تا محصولات خود را توليد كنند؛ اين بدان معنا است كه رقابت ويژهاي ميتواند در ميان باشد و هر فروشنده آزاد است كه در جنبههاي مختلفي از محاسبات سرور رقابت كند.
بنابراين بعيد نيست كه در چند سال آينده شاهد نمونههاي جديدي از پردازندههاي ARM باشيم كه نهتنها ركوردهاي بالايي را ثبت ميكنند؛ بلكه براي انجام وظايف مختلفي مانند ذخيرهسازي و خدمت به دادههاي بزرگ، مسيريابي دادهها يا انجام هوش مصنوعي و وظايف مختلف برنامهريزي ميشوند. بهعنوان نمونه مارول در تلاش است تا ThunderX2 را بهطور خاص در موقعيت سناريوي سرور داده قرار دهد كه ميتواند براي معماري اينتل در حفظ سلطهي كنوني خود در مراكز داده بسيار اشكالساز باشد.
درنهايت، ما نبايد اين واقعيت را فراموش كنيم كه توسعهدهندگان نرمافزارها براي دههها، جزوه رايگانخانههايي را با كارايي بالا با استفاده از باكسهاي انحصاري اينتل ساختهاند. بنابراين توسعه و ساخت اين جزوه رايگانخانهها براي معماري اينتل بسيار كارآمد و مؤثر است. همانطور كه در اينجا ديده ميشود، اگر معماري ARM بتواند در سناريوهاي كلاينت و سرور جايگزين شود، پس توسعهدهندگان نرمافزار بايد بهصورت فزايندهاي از باكسهاي ARM بهعنوان بخشي از ابزار خود استفاده كنند تا بتوانند در جهاني پس از پايان دوران سلطهي اينتل نيز همچنان قدرت رقابتي خود را حفظ كنند.
هم انديشي ها