اينتل معماري تراشههاي مجتمع گرافيكي نسل ۱۱ خود را رونمايي كرد
شركت اينتل به يكباره و بي هيچ مراسم و تشريفاتي، در وبسايت خود از ريز معماري پردازندههاي گرافيكي مجتمع نسل ۱۱ (Gen11) رونمايي كرد. در اسناد ارائهشده توسط اينتل، جزئيات درخورتوجهي در مورد تراشهي گرافيكي جديد اين شركت كه همراهبا پردازندههاي ۱۰ نانومتري Ice Lake در آيندهي نزديك عرضه خواهند شد، ارائه شده است.
اينتل پردازندهي گرافيكي نسل ۱۱ جديد خود را در مراسم Architecture Day معرفي كرد و تصريح كرد كه تيم مهندسي پردازندهي گرافيكي نسل ۱۱ بهسختي در حال كار روي اين تراشههاست تا سطح عملكردي چشمگير نسبت به تراشههاي گرافيكي نسلهاي قبلي اين شركت ايجاد كند. هدف از ساخت چنين تراشهاي رسيدن به قدرت محاسباتي يك ترافلاپس در محاسبات اعشاري ۳۲ بيتي و ۲ ترافلاپس در پردازش مشابه ۱۶ بيتي همراهبا توان مصرفي پايينتر در تراشههاي گرافيكي مجتمع اينتل است. اخيرا شواهدي در مورد سطح عملكرد درخورتوجه اين تراشه در محيطهاي گرافيكي واقعي روي شبكهي اينترنت منتشر شده است.
با درانديشه متخصصينگرفتن اطلاعات و ارقام ارائهشده توسط شركت اينتل در اين اسناد، ميتوان بهطور مستدل عملكرد خام اين تراشههاي مجتمع گرافيكي را در محدودهي هستههاي Radeon Vega 8 دانست كه همراهبا پردازندهي Ryzen 3 2200G عرضه ميشود. اين سطح عملكرد مترقي، حاكي از بهبود اساسي در موتورهاي گرافيكي پيشفرضي است كه اينتل همراهبا اغلب پردازندههاي جريان اصلي محصولات خود عرضه ميكند؛ چنين پردازندهي گرافيكي يكپارچهاي ميتواند زنگ خطري براي محصولات گرافيكي رده پايين انويديا و AMD به حساب آيد.
اسناد ارائهشده توسط اينتل حاكي از آن است كه اين تراشههاي گرافيكي بر پايهي فناوري ساخت ۱۰ نانومتري با ترانزيستورهاي نسل سوم FinFET توليد شده است. همانطور كه انتظار ميرفت، اين تراشهها از تمامي APIهاي مهم همراهي ميكند. اينتل همراهي از ۴ حافظهي ۳۲ بيتي LPDDR4/DDR4 را به اين پردازندهها اضافه كرده كه پيشرفت چشمگيري نسبت به همراهي تراشههاي گرافيكي نسل ۹ از دو حافظهي ۶۴ بيتي LPDDR4/DDR4 به حساب ميآيد.در تراشههاي گرافيكي نسل ۹ اينتل از چيدماني ماژولار شامل ۳ برش فرعي (Sub-Slice) كه هر يك ميزبان ۸ واحد اجرايي (EU) است، استفاده شده است. شركت اينتل Intel اين بار در طراحي نسل ۱۱ اين تراشههاي گرافيكي تا ۸ برش فرعي ايجاد كرده كه در اكثر نسخههاي GT2 در مجموع دربرگيرندهي ۶۴ واحد اجرايي يا EU است؛ اما ممكن است در طراحي برخي نسخههاي تراشه اين ميزان تعديل شود.در چنين حالتي قابليت محاسباتي تراشهي جديد تا ۲.۶۷ برابر تراشههاي گرافيكي نسل ۹ افزايش مييابد. تراشهي جديد همچنين قادر به انتقال ۲ پيكسل در هر كلاك است.
شكل زير نشاندهندهي دياگرام ابتدائي بلوكهاي يك پردازندهي نسل بعدي Ice Lake است؛ همانطور كه ديده ميشود قسمتهاي مختلف SOC (سيستم روي يك تراشه) شامل هستههاي پردازنده، هستههاي پردازندهي گرافيكي، LLC (آخرين سطح حافظهي كش) و عوامل كارگزار سيستم (شامل PCIe، كنترلر حافظه و كنترلر نمايشگر) ازطريق يك حلقهي اتصالدهندهي داخلي به يكديگر وصل شده و با هم در ارتباط هستند.
چنين چيدماني گوياي آن است كه اينتل از يك اتصال داخلي Ring Bus براي اتصال ساختارهاي مختلف در تراشه استفاده ميكند. مسئلهي قابلتوجه در اين طراحي اين است كه آخرين سطحِ حافظهي كش (LLC) در ميان هستههاي پردازنده و تراشهي گرافيكي به اشتراك گذارده شده كه باعث حذف فرايند نقل و انتقال دادهها به واحدهاي متناظر ميشود. در طراحي اين SOC از دامنههاي كلاك متعددي استفاده شده كه به هر هستهي پردازندهي اصلي، تراشهي گرافيكي مجتمع و حلقهي اتصال داخلي، دامنهي كلاك معيني قابل تخصيص است.
تراشهي مجتمع گرافيكي نسل ۱۱ از رندرينگ Tile و همچنين حالت رندرينگ فوري همراهي ميكند؛ در اين حالت در خلال برخي بارهاي كاري رندرينگ، از ميزان تقاضاي حافظه كاسته ميشود.
در شكل زير، سلسلهمراتب حافظه در يك تراشهي Ice Lake و حداكثر پهناي باند متناظر ميان اجزا نشان داده شده است. حركت اينتل به سمت همراهي از حافظهي LPDDR4 متضمن افزايش چشمگير پهناي باند و در عين حال كاهش توان مصرفي است. نوآوري راستين در اين تراشه در طراحي حافظهي اشتراكي نهفته است كه تقاضا براي كپيكردن دادهها را ازطريق بافرها كاهش ميدهد.
GTI (كه مخفف Graphics Technology Interface يا رابط فناوري گرافيكي است) پردازندهي گرافيكي را به بخشهاي ديگر تراشهي SOC شامل حافظهي LLC و DRAM متصل كرده است. شركت اينتل در اين نسخه سطح عملكرد را از ۳۲ بايت در هر كلاك به ۶۴ بايت در هر كلاك در عمليات نوشتن ارتقا داده، و صفبنديهاي داخلي را با هدف كاهش تأخير و بهبود پهناي باند بازآرايي و اصلاح كرده است.
در اين شكل ديده ميشود كه پردازندهي گرافيكي (GPU) قادر به خواندن و نوشتن در حلقهي اتصال داخلي با سرعت ۶۴ بايت به ازاي هر كلاك است، درحاليكه پردازندهي اصلي (CPU) فقط ميتواند ۳۲ بايت به ازاي هر كلاك در اين رينگ بنويسد يا از آن بخواند؛ بنابراين پردازندهي گرافيكي مسير (Pathway) سريعتري به آخرين سطح حافظهي كش اشتراكي (L3) در دسترس خود دارد. علاوهبر اين، پردازندهي گرافيكي ۳ مگابايت كش سطح ۳ داخلي اختصاصي در اختيار دارد كه بهصورت واسطهاي ميان برشهاي فرعي و GTI عمل ميكند.
در تصوير زير، نمايي از برشهاي تراشهي گرافيكي نسل ۱۱ ارائه شده است. هر برش تراشه ميزبان يك واحد 3D Fixed Function Geometry، هشت برش فرعي شامل واحدهاي EU و يك برش مشترك (Common Slice) است كه بلوكهاي عامل ثابت را در بر داشته و اقدام به نوشتن در برش كش L3 ميكند. اينتل زيرسيستم حافظه را با ۴ برابر كردن حافظهي كش سطح ۳ اختصاصي به ميزان ۳ مگابايت بهبود بخشيده و براي بهبود و عدم تداخل در توازيِ كاري (Parallelism) حافظهي محلي اشتراكي (SLM) مجزايي براي هر برش فرعي در انديشه متخصصين گرفته است. بهعلاوه طراحي جديد، دربرگيرندهي الگوريتمهاي فشردهسازي حافظه است.
ساير بخشهاي ارتقاءيافته در معماري پردازندهي گرافيكي جديد شامل يك موتور HEVC Quick Sync Video كاهشدهندهي ۳۰ درصدي بيت ريت در مقايسه با نسل ۹ (در كيفيت تصوير مشابه يا بهتر)، همراهي از استريم ويدئوي 4K و 8K چندگانه با توان مصرفي كمتر و نيز همراهي از فناوري Adaptive Sync است. عمق بيت در رمزگشايي ويدئويي VP9 از ۸ به ۱۰ بيت افزايش يافته تا اين بار از ويدئوهاي HDR نيز همراهي به عمل آيد.
در مطالعه عميقتر تراشهي گرافيكي نسل جديد ميتوان ديد كه هر برش ميزبان ۸ برش فرعي است كه هر كدام ۸ واحد اجرايي يا EU را در بر دارد. هر زيربرش دربرگيرندهي يك واحد Thread Dispatcher محلي و كشهاي دستورالعمل مربوطبه خود براي تغذيهي آن است. يك حافظهي محلي اشتراكي، واحد نمونهبرداري بافت سهبعدي و واحد ديتاپورت هر يك از اين برشهاي فرعي را تكميل ميكند.
با نگاهي دقيقتر به طراحي حافظهي محلي اشتراكي (SLM) كه ۸ واحد اجرايي را در هر برش فرعي تغذيه ميكند، مشخص ميشود كه اينتل SLM را به اين دليل را در برش فرعي وارد كرده است كه رقابت را در ديتاپورت به هنگام تلاش واحدهاي EU براي دسترسي همزمان به كش سطح ۳ كاهش دهد. نزديكي بيشتر SLM به واحدهاي EU همچنين به كاهش تأخير و بازدهي بوستها كمك ميكند.
با ورود به درون هر يك از واحدهاي اجرايي EU چند رشتهاي (Multi-threaded)، ميتوان يك جفت واحد محاسبهي اعشاري SIMD (يا ALU-ها) در هر كدام مشاهده كرد؛ اما در عمل هر يك از اين واحدها هم از عمليات اعشاري و هم از عمليات صحيح همراهي ميكند. اينتل ميگويد اين واحدهاي ALU قادر به انجام چهار عمليات اعشاري يا صحيح ۳۲ بيتي يا ۸ عمليات اعشاري ۱۶ بيتي است. اين مقدار مساوي است با ۱۶ عمليات FP32 به ازاي هر كلاك يا ۳۲ عمليات FP16 در هر كلاك.
هم انديشي ها