نگاهي جامع به معماري RDNA و كارتهاي گرافيك AMD Navi
AMD در رويداد Next Horizon كه در جريان E3 سال جاري برگزار شد، اطلاعات خوبي در مورد پردازندههاي گرافيكي Navi با معماري جديد RDNA ارائه داد. اين پردازندهي گرافيكي قرار است در دو مدل كارت گرافيك Radeon RX 5700 XT و Radeon RX 5700 مورد استفاده قرار گيرد. AMD قصد دارد اين دو كارت گرافيك را به ميدان رقابت با كارتهاي تورينگ RTX 2070 و RTX 2060 انويديا بفرستد.
AMD در اولين موج پردازندههاي گرافيكي Navi (با عنوان Navi 10) از قابليت رهگيري پرتو (Ray Tracing) مبتني بر سختافزار استفاده نخواهد كرد. ديويد وانگ كه در راس RTG (گروه فناوريهاي رادئون) قرار دارد بر اين باور است كه در حال حاضر محاسبات رهگيري پرتو در فضاي ابري (كلاود) به بهترين نحو انجامپذير است و پس از آن ميتوان نتايج محاسبات را به خروجي نمايشگرها ارسال كرد. باوجود چنين رويكردي ممكن است AMD پردازندههاي گرافيكي Navi 20 را كه تا سال ۲۰۲۱ عرضه خواهد شد، به اين قابليت مجهز سازد.
پردازندهي گرافيكي Navi كه قدرت پردازش گرافيكي كارتهاي سري RX 5700 را تأمين ميكند، با فناوري ساخت ۷ نانومتري شركت تايواني TSMC توليد شده و مانند پردازندههاي نسل سوم رايزن از استاندارد ارتباطي PCIe 4.0 همراهي ميكند. بنابراين كارتهاي گرافيك سري RX 5700 شركت AMD اولين سري كارتهاي گرافيكي خواهد بود كه با نصب روي اسلات توسعهي نسل چهارم PCIe از تمام ظرفيت پهناي باند آن به خوبي همراهي خواهد كرد. پردازندهي گرافيكي Navi با بهرهمندي از موتورهاي Radeon Media و Radeon Display تمامي نيازهاي استريمرها و توليدكنندگان محتوا را به خوبي برآورده ساخته و آنان را به سمت مجموعهاي از تكنولوژيهاي جديد نمايشگر رهنمون ميسازد.
پردازندههاي گرافيكي Navi اگرچه ميراثدار معماري استقرار يافتهي GCN هستند، بهلطف معماري جديد RDNA بهبودها و تحولات زيادي را تجربه كردهاند. به عبارت ديگر Navi را ميتوان عصارهي دو معماري GCN و RDNA دانست. AMD بهخوبي ميداند كه GCN همچنان راه حلي بسيار خوب براي اجراي وظايف محاسباتي سنگين است؛ وظايفي كه در آن توان عملياتي بالا و توازي كاري نقشي كليدي ايفا ميكند. پردازندهي گرافيكي Vega 64 با خصوصيات درخورتوجه خود در صدد غلبه بر كارت Geforce GTX 1080 بود، اما موفق به اين كار نشد. علت ناكامي اين كارت در غلبه بر پرچمدار رقيب اين بود كه تراشهي Vega كه با معماري GCN توليد ميشود، در به كارگيري زرادخانهي هستهها و حافظهي كش خود چندان مؤثر عمل نميكند. در نقطهي مقابل پردازندههاي گرافيكي Navi در اين دو حوزه عملكرد بهتري دارند؛ چرا كه بنا بهگفتهي AMD اين تراشههاي گرافيكي با تركيب جديد و كاراتري از واحدهاي محاسباتي (CU)، سلسله مراتب حافظهي كش و پايپلاينهاي گرافيكي ارائه خواهد شد كه در ادامهي اين مقاله به مطالعه اين ويژگيها خواهيم پرداخت.
در اولين گام بهتر است نگاهي به دياگرام بلوكبندي پردازندهي گرافيكي Navi 10 داشته باشيم. اين پردازندهي گرافيكي در كارت گرافيك RX 5700 XT (با پيادهسازي كامل توان عملياتي) و در كارت گرافيك RX 5700 (با توان عملياتيِ كاهش يافته) بهكار رفته است.
پردازندهي گرافيكي Navi 10 دربرگيرندهي ۴۰ واحد محاسباتي (در قالب ۲۰ واحد دوگانه) است كه هر واحد شامل ۶۴ پردازندهي جرياني يا شيدر است و در مجموع ۲۵۶۰ هستهي محاسباتي در قلب اين پردازنده فعاليت ميكند. درست است كه تعداد اين هستهها در مقايسه با تراشهي گرافيكي كارتهاي Vega 64 و Vega 56 (با داشتن به ترتيب ۴۰۹۶ و ۳۵۸۴ پردازنده جرياني) كاهش يافته است، اما اين بار با طراحي جديد و پر بازدهتري در هر CU با معماري RDNA روبهرو هستيم. هر CU در طراحي تراشهي Navi 10 شامل يك واحد اسكالر اضافي (كه وظيفه آن اجراي محاسبات برداري رياضي است) و يك زمانبند (scheduler) اضافي است كه با تركيب اين دو نرخ اجراي دستورالعملها (Instruction Rate) نسبت به نسل قبل تا دو برابر افزايش مييابد. چنين تركيبي براي اجراي بارهاي كاري از نوع گيمينگ و پردازش محيطهاي گرافيكي نسبت به GCN بسيار موثرتر عمل ميكند.
كاهش تأخير، بهبود عملكرد Single-Threading و ايجاد سازگاري بيشتر با پردازش مبتني بر گيم از اهداف اصلي معماري RDNA است
در معماري جديد چيدمان SIMD-ها نيز دچار دگرگوني شگرف شده است. SIMD رشتهاي از هستههاي محاسبهگر منطقي (ALU) است كه هر كدام از اين هستهها يك آيتم كاري يا ترد از دستورالعمل صادرشده را در يك سيكل كلاك اجرا ميكند. در معماري قديمي GCN هر واحد محاسباتي دربرگيرندهي چهار SIMD16 (داراي ۱۶ هسته) و در معماري جديد RDNA هر CU دربردارندهي دو SIMD32 (داراي ۳۲ هسته) است. هر SIMD در معماري جديد RDNA يك واحد اسكالر و يك زمانبند مخصوص به خود دارد؛ اين در حالي است كه در طراحي GCN يك واحد اسكالر و يك زمانبند درميان تمام SIMD-ها به اشتراك گذارده شده و اين يكي از نقاط قوت معماري جدي به شمار ميرود.
در معماري GCN هر دستورالعمل (در پيچيدهترين شرايط) بر جبههي موجي با ۶۴ ترد (Wave64) بار شده و براي اجرا به يك SIMD16 واگذار ميشود. در اين شرايط هر دستورالعمل در طي چهار سيكل كلاك ميان ALU-ها توزيع شده، بهطور كامل اجرا ميشود. بنابراين SIMD در معماري قديمي قادر به پردازش يك دستورالعمل در يك سيكل كلاك واحد نيست. در اين حالت در هر سيكل كلاك تنها از ۲۵ درصد ظرفيت هستههاي منطقي موجود در هر واحد محاسباتي استفاده ميشود و لذا ميزان بهكارگيري (Utilisation) منابع چندان رضايت بخش نيست. در عوض در معماري جديد RDNA دستورالعملي با ۶۴ آيتم كاري بهصورت دو جبههي موج هر يك با ۳۲ ترد (Wave32) بهطور همزمان بين ۲ واحد SIMD32 توزيع ميشود. در اين حالت تمامي آيتمهاي كاري در يك سيكل كلاك پردازش ميشود. بدين ترتيب زمان انتظار براي دريافت نتايج پردازش كاهش يافته و از سويي ۱۰۰ درصد منابع واحد محاسباتي براي اجراي بهينهي تردهاي پردازشي بهكارگيري ميشود.
بهطور خلاصه ميتوان گفت معماري RDNA، با سادهسازي دستورالعملهاي صادر شده، به شيوهاي تأثيرگذار از يك معماري متمركز بر اجراي محاسبات سنگين، تبديل به يك معماري سازگار با كدهاي گيمينگ (Game-Freindly) ميشود. محاسبات در اين معماري خردتر شده و بهجاي عرضهي دستورالعمل در جبهههاي موج ۶۴ تايي، هر دستورالعمل بر يك جبههي ۳۲ تايي (يا در پيچيدهترين حالت بر دو جبههي ۳۲ تايي) بارگذاري شده و طي يك سيكل كلاك در SIMD32-ها اجرا ميشود. كامپايلر در اين معماري همچنان امكان انتخاب نوع دستورالعمل و شكل اجراي آن را دارد. اين واحد ميتواند دستورالعملها را بهصورت Wave32 فراخواني كرده يا دستورالعملي بهصورت Wave64 را براي اجرا به دو SIMD32 موكول كند و انتخاب يكي از اين دو شيوه بستگي به حجم پردازش و بار كاري پردازنده دارد.
در معماري جديد RDNA منابع پردازش دو واحد محاسباتي (CU) در مجاورت يكديگر قرار گرفته و با بهرهگيري از توازي كاري مازاد، شيوهي عملكرد اين دو واحد تطبيق و تركيب پذير بوده، امكان بارگذاري و اجراي گروههاي كاري بزرگتري وجود داشته و درنهايت از ميزان تأخير كاسته ميشود. بهطور كلي ميتوان گفت كه در معماري RDNA هدف اساسي كاهش تأخير، بهبود عملكرد پردازش Single-Threading و بهينهسازي راندمان حافظهي كش در مقايسه با معماري GCN است. در معماري جديد در هر سيكل كلاك و در هر واحد محاسباتي ميزان كار مفيد بيشتري انجام ميپذيرد.
در معماري RDNA با تغيير چيدمان واحدهاي محاسباتي شاهد پردازش دستورالعملي با ۶۴ ترد در يك سيكل كلاك هستيم
شايد اين سؤال پيش بيايد كه با وجود دهها هزار ترد پردازشي در محاسبات گرافيكي، چرا تمركز اين معماري بر پردازش Single-Threading است. در پاسخ بايد گفت كه پر كردن واحدهاي محاسباتي ماشيني با معماري GCN با طيف گستردهاي از بارهاي كاري متنوع و با وجود هزاران ترد منتظر پردازش كار آساني نيست. به همين دليل با تغييرات بارزي در معماري RDNA روبهرو هستيم كه باعث ميشود تمامي اجزاي محاسبهگر ماشين همزمان با اجراي تردهاي موازي درگير شوند و اين بهمعناي اجراي يك ترد توسط هر پردازندهي منطقي در يك سيكل كلاك (به عبارتي در واحد زمان) بدون معطل ماندن هيچ يك از هستهها است. با اين فرض كه دستورالعملهاي صادر شده وابستگي زيادي به يكديگر نداشته باشد و با داشتن ۲ واحد اسكالر و ۲ واحد زمانبند در هر CU و بازآرايي بهينهي واحدهاي SIMD، به سطح عملكرد بالاتر و پايداري بيشتري در معماري RDNA دست خواهيم يافت.
AMD در معماري گرافيكي جديد خود با الگوبرداري از پردازندههاي نسل سوم رايزن، حافظه كش L1 اختصاصي را به تراشهي Navi اضافه كرده و پهناي باند بارگذاري را از نزديكترين حافظهي كش (L0) به ALU دو برابر كرده است. در اين جا هدف كاهش تأخير در دسترسي به حافظهي كش در هر سطحي است. به عبارت ديگر در اين معماري پهناي باند مؤثر افزايش مييابد؛ چرا كه دادههاي مورد نياز بهجاي آنكه از حافظههاي فريم بافر كندتر واكشي شود، در سطوح مختلف كش پردازنده جايگذاري شده و از آنجا با سرعت بيشتري فراخواني ميشود.
AMD تصريح كرده است كه RDNA در سراسر پايپلاين از انديشه متخصصين فشردهسازي رنگ با بهبودهايي روبهرو است. در محيطهاي گرافيكي دادههاي گرافيكي از هر نوع و در هر محلي فشردهسازي ميشود تا از ميزان پهناي باند درگير كاسته شود. معماري RDNA الگوريتم فشردهسازي رنگ دلتا (DCC) را بهبود بخشيده و اكنون شيدرها امكان خواندن و نوشتن مستقيم دادههاي رنگ فشرده را دارند. بخش نمايشگر در اين معماري قادر است بهصورت مستقيم دادههاي فشردهي ذخيره شده روي سيستم حافظه را بخواند. در اينجا نيز هدف افزايش پهناي باند در دسترس و كاهش توان مصرفي نسبت به معماري نسل قبل GCN است.
معماري RDNA بهبودهاي ديگري نيز نسبت به آنچه گفته شد، با خود به همراه دارد. در مجموع معماري جديد در مقايسه با GCN چابكتر، موثرتر، كم مصرفتر و با كدهاي گيمينگ سازگارتر است. روي كاغذ، خروجي نهايي افزايش توان محاسباتي و پهناي باند معماري RDNA نسبت به GCN افزايش نرخ فريم در محيطهاي بازي خواهد بود.
اگر بخواهيم نگاهي آماري به ميزان برتري RDNA در مقايسه با GCN داشته باشيم، شركت سازنده مدعي است كه در سرعت كلاك يكسان معماري جديد ۲۵ درصد سطح عملكرد بهتري ارائه ميكند. با اين وجود با درانديشه متخصصينگرفتن فناوري ساخت تراشهي ۷ نانومتري Navi و امكان افزايش بيشتر سرعت كلاك نسبت به تراشههاي Vega، معماري RDNA در يك مبناي قياسي CU به CU تا ۵۰ درصد سريعتر از GCN است. بنا به ادعاي AMD بهرهوري تواني (سطح عملكرد به ازاي هر وات توان مصرفي) تراشهي گرافيكي Navi 10 تا ۵۰ درصد بيشتر از GCN است.
مروري بر كارتهاي گرافيك مبتني بر Navi 10
شركت AMD در كارت گرافيك RX 5700 XT تمام توان محاسباتي پردازندهي گرافيكي Navi 10 را عملياتي كرده و مقداري از منابع اين تراشه را در كارت ضعيفتر RX 5700 غيرفعال كرده است. تراشهي Navi 10 مورد استفاده در اين دو كارت سطح مقطعي معادل ۲۵۱ ميليمتر مربع داشته و با فناوري ساخت ۷ نانومتري TSMC ساخته ميشود. AMD در اين فضاي كوچك ۱۰ ميليارد ترانزيستور به كار برده است.
تراشههاي Navi نيز به مانند نسل سوم پردازندههاي رايزن از استاندارد ارتباطي PCIe 4.0 همراهي ميكند. با همراهي از اين استاندارد پهناي باند اسلات محل نصب كارت ۲ برابر استاندارد PCIe 3 خواهد بود. چنين پهناي باندي براي بازيهاي امروزي چندان قابل استفاده نيست؛ اما شايد به ابزار مناسبي در دست توليدكنندگان محتوا براي اجراي رزولوشنهاي بسيار بالا و پردازش مجموعههاي سنگين داده تبديل شود.
كارت گرافيك فيزيكي، PCB نسبتا بزرگي به طول ۱۰.۵ اينچ دارد كه فضايي معادل دو اسلات را روي برد اشغال ميكند. در اين كار از يك فن دمنده براي خنككنندگي استفاده ميشود كه در شرايط ايدهآل خاموش است. دندانهي اضافي در لبهي كارت بيشتر جنبه زيبايي داشته و كاركنان AMD ميگويند اين دندانه يك "كنتور تواني" است. در ميان درگاههاي خروجي اين دو كارت، درگاه USB نوع C ديده نميشود؛ هرچند باتوجهبه نوع معماري امكان همراهي از چنين درگاهي وجود دارد. پهناي باس كنترلر حافظه در هر دو كارت ۲۵۶ بيت است كه با تراشههاي حافظهي GDDR6 با سرعت 14GB/s كار ميكند. پهناي باند حافظه در مجموع به ۴۴۸ گيگابايت بر ثانيه ميرسد.
تفاوت كليدي ميان دو كارت RX 5700 XT و RX 5700 اين است كه كارت قويتر XT داراي ۴۰ واحد محاسباتي و ۲۵۶۰ پردازندهي جرياني است؛ درحاليكه مدل معموليتر مجهز به ۳۶ واحد محاسباتي و ۲۳۰۴ پردازندهي جرياني است. البته سطوح مختلف سرعت كلاك در كارت RX 5700 در مقايسه با RX 5700 XT كمتر است و لذا سطح عملكرد محدودتري دارد.
يكي از اهداف اصلي معماري در تراشههاي Navi دستيابي به سرعت كلاك بالاتري در مقايسه با پردازندههاي گرافيكي Vega است. نگاهي به اعداد فركانس ارائه شده توسط AMD چنين گزارهاي را در كارتهاي گرافيك جديد تأييد ميكند. سرعت كلاك پايه و بوست كارت گرافيك RX 5700 XT به ترتيب ۱۶۰۵ و ۱۹۰۵ مگاهرتز است و اين اعداد در كارت RX 5700 به ترتيب ۱۴۶۵ و ۱۷۲۵ مگاهرتز است.
AMD در كارتهاي مبتني بر پردازندههاي گرافيكي Navi سرعت كلاك سومي را نيز با نام كلاك گيم معرفي كرده است. كلاك گيم تخميني محافظه كارانه از حد فركانسي است كه ميتوان از يك كارت Navi انتظار داشت. ميتوان گفت اين عدد سرعت كلاك مدانديشه متخصصين در بارگذاري معمولي (گيمينگ) است كه انتظار دستيابي به آن وجود دارد. AMD ميخواهد به متخصصان مبتدي ديدي از سرعت كلاكي بدهد كه در زمان اجراي گيم بايد انتظار آن را داشته باشند. سرعت كلاك گيم در كارت RX 5700 XT معادل ۱۷۵۵ مگاهرتز و در مدل RX 5700 برابر با ۱۶۲۵ مگاهرتز است.
توان محاسباتي كارتهاي گرافيك RX 5700 XT و RX 5700 به ترتيب ۹ و ۷.۵ ترافلاپس است. اين اعداد با صرفانديشه متخصصين از مزاياي معماري RDNA در مقايسه با GCN، بالاتر از كارت RX 590 بوده، اما در سطحي پايينتر از كارتهاي RX Vega 64 يا RX Vega 56 قرار دارد. توان طراحي حرارتي مدل RX 5700 XT معادل ۲۲۵ وات و توان طراحي حرارتي RX 5700 برابر با ۱۸۰ وات است. منطقي است كه تصور كنيم انطباق و مشابهت بخشهايي از معماري جديد با معماري GCN باعث ميشود كه كارتهاي گرافيك Navi همچنان توان مصرفي بيشتري نسبت به كارتهاي انويديا داشته باشند. توان مورد نياز هر دو كارت با تركيبي از كانكتورهاي تغذيه ي ۸ پين و ۶ پين تأمين ميشود.
كارت RX 5700 XT و RX 5700 در بيشتر عناوين گيم و در رزولوشن 1440p به ترتيب در مقايسه با RTX 2070 و RTX 2060 عملكرد بهتري دارند
AMD براساس آزمايشهايي كه خود به عمل آورده مدعي است كه RX 5700 XT در برخي عناوين گيم و بالاترين سطوح عملياتي API كمي سريعتر از كارت RTX 2070 انويديا عمل ميكند. براساس نمودارهاي به نمايش در آمده توسط شركت سازنده، كارت RX 5700 XT در بازي Battlefield 5 در رزولوشن 1440p و با تنظيمات گرافيكي Ultra تا ۲۲ درصد سريعتر از RTX 2070 كار كرده و در بازي Shadow of the Tomb Raider در همان رزولوشن و بالاترين سطح تنظيمات گرافيكي با اختلاف ۳ درصد از كارت تورينگ باز ميماند.
در سوي ديگر اين آوردگاه AMD تصويري از نتايج آزمايش كارت RX 5700 در مقايسه با RTX 2060 ارائه كرده است. براساس اين تصوير اين كارت توانسته در تمامي عناوين (ازجمله عنوان Shadow of the Tomb Raider) و در رزولوشن 1440p كارت رقيب را از پيش رو بردارد.
با نگاهي دقيقتر به سطح عملكرد اين دو كارت گرافيك مبتني بر Navi 10 مشاهده ميشود كه هر دوي آنها از كارت Vega 56 در سطح عملكرد پيشي گرفته و در حد و اندازه يك كارت Vega 64 ظاهر ميشوند. هيچ كدام از اين كارتها از انديشه متخصصين سطح عملكرد با كارت پرچمدار فعلي AMD با نام Radeon VII با قلب تپندهي Vega 20 و حافظههاي گرافيكي بسيار سريع HBM2 برابري نميكند. اما آنچه حائز اهميت است اين است كه دستيابي به چنين سطح عملكردي با تراشهي فشردهتر و بهرهوري تواني بيشتر انجام پذيرفته است. پردازندههاي گرافيكي Navi آمده است تا با تركيب معماري تميزتر و كاراتر، سلسله مراتب حافظهي كش هوشمندانهتر و فناوري ساخت فشردهتر AMD را به جايگاه شايستهي خود از انديشه متخصصين سطح عملكرد بازگرداند.
پردازندهي گرافيكي Navi 10 هيچگاه با هدف سركوب پردازندههاي پرچمدار Geforce طراحي نشده و حتي به گرد پاي RTX 2080 Ti هم نميرسد؛ اما در بازهي ارزشي ۲۵۰ تا ۴۰۰ يورو، كارتهاي مبتني بر اين تراشه جانشين كارتهاي فعلي Vega شده و تهديدي براي ميانردههاي انويديا به حساب ميآيد. البته نبايد از ياد برد كه انويديا ردهي جديدي از كارتهاي گرافيك سري RTX را با نام Super در دست ساخت دارد كه بهزودي وارد بازار سختافزار شده و جايگزين كارتهاي فعلي RTX 2000 شده و سطح عملكرد تمامي اينكارتها را از ميانرده تا پرچمدار ارتقا خواهد داد. در اين صورت شايد غلبهي كارتهاي Navi بر برخي ميانردههاي RTX 2000 در حال جايگزيني، چندان درخورتوجه نباشد. البته بايد منتظر نتايج عملكرد تمامي اين كارتها توسط مطالعهگران و در جريان آزمايشهاي مستقل ماند.
عرضهي هر دو كارت Navi 10 در تاريخ هفتم ژوئيه طي مراسمي رسمي در لس آنجلس آغاز خواهد شد. AMD براي كارت RX 5700 ارزشي معادل ۳۷۹ دلار در انديشه متخصصين گرفته و يك برچسب ارزش ۴۴۹ دلاري بر كارت قويتر RX 5700 XT كوبيده است. اين شركت همچنين خبر از عرضهي نسخهي 50th Anniversary كارت گرافيك RX 5700 XT داده است كه در آن از آبكاري طلا در اطراف فن و روي قاب كارت استفاده شده است. اين كارت با فركانس هاي بالاتر ۱۶۸۰، ۱۸۳۰ و ۱۹۸۰ مگاهرتز و با ارزش ۴۹۹ دلار (۵۰ دلار گرانتر از مدل مرجع) در دسترس علاقمندان قرار خواهد گرفت.
هم انديشي ها