اينتل معماري تراشه‌هاي مجتمع گرافيكي نسل ۱۱ خود را رونمايي كرد

يك‌شنبه ۴ فروردين ۱۳۹۸ - ۱۱:۰۵

مطالعه 7 دقيقه

اينتل در وب‌سايت خود از جزييات معماري پردازنده‌‌هاي گرافيكي مجتمع Gen11 كه قرار است در آينده‌ي نزديك همراه‌با پردازنده‌هاي ۱۰ نانومتري Ice Lake ارائه شود، رونمايي كرد.

تبليغات

شركت اينتل به يك‌باره و بي هيچ مراسم و تشريفاتي، در وب‌سايت خود از ريز معماري پردازنده‌هاي گرافيكي مجتمع نسل ۱۱ (Gen11) رونمايي كرد. در اسناد ارائه‌شده توسط اينتل، جزئيات درخورتوجهي در مورد تراشه‌ي گرافيكي جديد اين شركت كه همراه‌با پردازنده‌هاي ۱۰ نانومتري Ice Lake در آينده‌ي نزديك عرضه خواهند شد، ارائه شده است.

مقاله‌هاي مرتبط:

رمزگشايي از داستان دنباله‌دار پردازنده‌هاي Lake اينتل

عزم جزم اينتل براي ورود به بازار كارت گرافيك

اينتل پردازنده‌ي گرافيكي نسل ۱۱ جديد خود را در مراسم Architecture Day معرفي كرد و تصريح كرد كه تيم مهندسي پردازنده‌ي گرافيكي نسل ۱۱ به‌سختي در حال كار روي اين تراشه‌هاست تا سطح عملكردي چشمگير نسبت به تراشه‌هاي گرافيكي نسل‌هاي قبلي اين شركت ايجاد كند‌. هدف از ساخت چنين تراشه‌اي رسيدن به قدرت محاسباتي يك ترافلاپس در محاسبات اعشاري ۳۲ بيتي و ۲ ترافلاپس در پردازش مشابه ۱۶ بيتي همراه‌با توان مصرفي پايين‌تر در تراشه‌هاي گرافيكي مجتمع اينتل است. اخيرا شواهدي در مورد سطح عملكرد درخورتوجه اين تراشه در محيط‌هاي گرافيكي واقعي روي شبكه‌ي اينترنت منتشر شده است.

با درانديشه متخصصينگرفتن اطلاعات و ارقام ارائه‌شده توسط شركت اينتل در اين اسناد، مي‌توان به‌طور مستدل عملكرد خام اين تراشه‌هاي مجتمع گرافيكي را در محدوده‌ي هسته‌هاي Radeon Vega 8 دانست كه همراه‌با پردازنده‌ي Ryzen 3 2200G عرضه مي‌شود. اين سطح عملكرد مترقي، حاكي از بهبود اساسي در موتورهاي گرافيكي پيش‌فرضي است كه اينتل همراه‌با اغلب پردازنده‌هاي جريان اصلي محصولات خود عرضه مي‌كند؛ چنين پردازنده‌ي گرافيكي يكپارچه‌اي مي‌تواند زنگ خطري براي محصولات گرافيكي رده پايين انويديا و AMD به حساب آيد.

اسناد ارائه‌شده توسط اينتل حاكي از آن است كه اين تراشه‌هاي گرافيكي بر پايه‌ي فناوري ساخت ۱۰ نانومتري با ترانزيستورهاي نسل سوم FinFET توليد شده است. همان‌طور كه انتظار مي‌رفت، اين تراشه‌ها از تمامي APIهاي مهم همراهي مي‌كند. اينتل همراهي از ۴ حافظه‌ي ۳۲ بيتي LPDDR4/DDR4 را به اين پردازنده‌ها اضافه كرده كه پيشرفت چشمگيري نسبت به همراهي تراشه‌هاي گرافيكي نسل ۹ از دو حافظه‌ي ۶۴ بيتي LPDDR4/DDR4 به حساب مي‌آيد.در تراشه‌هاي گرافيكي نسل ۹ اينتل از چيدماني ماژولار شامل ۳ برش‌ فرعي (Sub-Slice) كه هر يك ميزبان ۸ واحد اجرايي (EU) است، استفاده شده است. شركت اينتل ‏Intel اين بار در طراحي نسل ۱۱ اين تراشه‌هاي گرافيكي تا ۸ برش فرعي ايجاد كرده كه در اكثر نسخه‌هاي GT2 در مجموع دربرگيرنده‌ي ۶۴ واحد اجرايي يا EU است؛ اما ممكن است در طراحي برخي نسخه‌هاي تراشه اين ميزان تعديل شود.در چنين حالتي قابليت محاسباتي تراشه‌ي جديد تا ۲.۶۷ برابر تراشه‌هاي گرافيكي نسل ۹ افزايش مي‌يابد. تراشه‌ي جديد همچنين قادر به انتقال ۲ پيكسل در هر كلاك است.

شكل زير نشان‌دهنده‌ي دياگرام ابتدائي بلوك‌هاي يك پردازنده‌ي نسل بعدي Ice Lake است؛ همان‌طور كه ديده مي‌شود قسمت‌هاي مختلف SOC (سيستم روي يك تراشه) شامل هسته‌هاي پردازنده، هسته‌هاي پردازنده‌ي گرافيكي، LLC (آخرين سطح حافظه‌ي كش) و عوامل كارگزار سيستم (شامل PCIe، كنترلر حافظه و كنترلر نمايشگر) ازطريق يك حلقه‌ي اتصال‌دهنده‌ي داخلي به يكديگر وصل شده و با هم در ارتباط هستند.

چنين چيدماني گوياي آن است كه اينتل از يك اتصال داخلي Ring Bus براي اتصال ساختارهاي مختلف در تراشه استفاده مي‌كند. مسئله‌ي قابل‌توجه در اين طراحي اين است كه آخرين سطحِ حافظه‌ي كش (LLC) در ميان هسته‌هاي پردازنده و تراشه‌ي گرافيكي به اشتراك گذارده‌ شده كه باعث حذف فرايند نقل و انتقال داده‌ها به واحدهاي متناظر مي‌شود. در طراحي اين SOC از دامنه‌هاي كلاك متعددي استفاده شده كه به هر هسته‌ي پردازنده‌ي اصلي، تراشه‌ي گرافيكي مجتمع و حلقه‌ي اتصال داخلي، دامنه‌ي كلاك معيني قابل تخصيص است.

تراشه‌ي مجتمع گرافيكي نسل ۱۱ از رندرينگ Tile و همچنين حالت رندرينگ فوري همراهي مي‌كند؛ در اين حالت در خلال برخي بارهاي كاري رندرينگ، از ميزان تقاضاي حافظه كاسته مي‌شود.

در شكل زير، سلسله‌مراتب حافظه در يك تراشه‌ي Ice Lake و حداكثر پهناي باند متناظر ميان اجزا نشان داده شده است. حركت اينتل به سمت همراهي از حافظه‌ي LPDDR4 متضمن افزايش چشمگير پهناي باند و در عين حال كاهش توان مصرفي است. نوآوري راستين در اين تراشه در طراحي حافظه‌ي اشتراكي نهفته است كه تقاضا براي كپي‌كردن داده‌ها را ازطريق بافرها كاهش مي‌دهد.

GTI (كه مخفف Graphics Technology Interface يا رابط فناوري گرافيكي است) پردازنده‌ي گرافيكي را به بخش‌هاي ديگر تراشه‌ي SOC شامل حافظه‌ي LLC و DRAM متصل كرده است. شركت اينتل در اين نسخه سطح عملكرد را از ۳۲ بايت در هر كلاك به ۶۴ بايت در هر كلاك در عمليات نوشتن ارتقا داده، و صف‌بندي‌هاي داخلي را با هدف كاهش تأخير و بهبود پهناي باند بازآرايي و اصلاح كرده است.

در اين شكل ديده مي‌‌شود كه پردازنده‌ي گرافيكي (GPU) قادر به خواندن و نوشتن در حلقه‌ي اتصال داخلي با سرعت ۶۴ بايت به ازاي هر كلاك است، درحالي‌كه پردازنده‌ي اصلي (CPU) فقط مي‌تواند ۳۲ بايت به ازاي هر كلاك در اين رينگ بنويسد يا از آن بخواند؛ بنابراين پردازنده‌ي گرافيكي مسير (Pathway) سريع‌تري به آخرين سطح حافظه‌ي كش اشتراكي (L3) در دسترس خود دارد. علاوه‌بر اين، پردازنده‌ي گرافيكي ۳ مگابايت كش سطح ۳ داخلي اختصاصي در اختيار دارد كه به‌صورت واسطه‌اي ميان برش‌هاي فرعي و GTI عمل مي‌كند.

در تصوير زير، نمايي از برش‌هاي تراشه‌ي گرافيكي نسل ۱۱ ارائه شده است. هر برش‌ تراشه ميزبان يك واحد 3D Fixed Function Geometry، هشت برش فرعي شامل واحدهاي EU و يك برش مشترك (Common Slice) است كه بلوك‌هاي عامل ثابت را در بر داشته و اقدام به نوشتن در برش كش L3 مي‌كند. اينتل زيرسيستم حافظه را با ۴ برابر كردن حافظه‌ي كش سطح ۳ اختصاصي به ميزان ۳ مگابايت بهبود بخشيده و براي بهبود و عدم تداخل در توازيِ كاري (Parallelism) حافظه‌ي محلي اشتراكي (SLM) مجزايي براي هر برش فرعي در انديشه متخصصين گرفته است. به‌علاوه طراحي جديد، دربرگيرنده‌ي الگوريتم‌هاي فشرده‌سازي حافظه است.

ساير بخش‌هاي ارتقاءيافته در معماري پردازنده‌ي گرافيكي جديد شامل يك موتور HEVC Quick Sync Video كاهش‌دهنده‌ي ۳۰ درصدي بيت ريت در مقايسه با نسل ۹ (در كيفيت تصوير مشابه يا بهتر)، همراهي از استريم ويدئوي 4K و 8K چندگانه با توان مصرفي كمتر و نيز همراهي از فناوري Adaptive Sync است. عمق بيت در رمزگشايي ويدئويي VP9 از ۸ به ۱۰ بيت افزايش يافته تا اين بار از ويدئوهاي HDR نيز همراهي به عمل آيد.

در مطالعه عميق‌تر تراشه‌ي گرافيكي نسل جديد مي‌توان ديد كه هر برش ميزبان ۸ برش فرعي است كه هر كدام ۸ واحد اجرايي يا EU را در بر دارد. هر زيربرش‌ دربرگيرنده‌ي يك واحد Thread Dispatcher محلي و كش‌هاي دستورالعمل مربوط‌به خود براي تغذيه‌ي آن است. يك حافظه‌ي محلي اشتراكي، واحد نمونه‌برداري بافت سه‌بعدي و واحد ديتاپورت هر يك از اين برش‌هاي فرعي را تكميل مي‌كند.

با نگاهي دقيق‌تر به طراحي حافظه‌ي محلي اشتراكي (SLM) كه ۸ واحد اجرايي را در هر برش فرعي تغذيه مي‌كند، مشخص مي‌شود كه اينتل SLM را به اين دليل را در برش فرعي وارد كرده است كه رقابت را در ديتاپورت به هنگام تلاش واحدهاي EU براي دسترسي همزمان به كش سطح ۳ كاهش دهد. نزديكي بيشتر SLM به واحدهاي EU همچنين به كاهش تأخير و بازدهي بوست‌ها كمك مي‌كند.

با ورود به درون هر يك از واحدهاي اجرايي EU چند رشته‌اي (Multi-threaded)، مي‌توان يك جفت واحد محاسبه‌ي اعشاري SIMD (يا ALU-ها) در هر كدام مشاهده كرد؛ اما در عمل هر يك از اين واحدها هم از عمليات اعشاري و هم از عمليات صحيح همراهي مي‌كند. اينتل مي‌گويد اين واحدهاي ALU قادر به انجام چهار عمليات اعشاري يا صحيح ۳۲ بيتي يا ۸ عمليات اعشاري ۱۶ بيتي است. اين مقدار مساوي است با ۱۶ عمليات FP32 به ازاي هر كلاك يا ۳۲ عمليات FP16 در هر كلاك.

مقاله رو دوست داشتي؟

انديشه متخصصينت چيه؟

ابوالفضل رحيمي

تبليغات

جديد‌ترين مطالب روز

مقاله رو دوست داشتي؟

انديشه متخصصينت چيه؟

ابوالفضل رحيمي

هم انديشي ها