پردازنده گرافيكي AMD Instinct MI100 با معماري CDNA معرفي شد
AMD ساعاتي پيش، از پردازندهي گرافيكي هفت نانومتري جديد خود با نام اينستينكت ام آي ۱۰۰ (AMD Instinct MI100) پردهبرداري كرد. پردازندهي گرافيكي Instinct MI100 نخستين پردازندهي گرافيكي با معماري CDNA (كه بهطور ويژه بر رايانش متمركز است) محسوب ميشود. معماري جديد CDNA حداكثر ۱۱٫۵ ترافلاپس (TFLOPS) قدرت پردازشي FP64 ارائه ميدهد و همين موضوع باعث ميشود Instinct MI100 نخستين پردازندهي گرافيكي دنيا باشد كه به قدرت FP64 بيشتر از ۱۰ ترافلاپس دست مييابد.
بهرهمندي از قدرت پردازشي ۱۱٫۵ ترافلاپس نشان ميدهد كه Instinct MI100 نسبتبه نسل قبل يعني MI50 بهميزان سه برابر قويتر شده است. AMD ميگويد پردازندهي گرافيكي جديدش بهلطف معماري CDNA ميتواند قدرت پردازشي ۲۳٫۱ ترفلاپس FP32 ارائه دهد. اعداد يادشده اعلام ميكنند پردازندهي گرافيكي Instinct MI100 در زمينهي قدرت پردازشي FP64 و FP32 قويتر از تراشهي پرقدرت A100 امپر انويديا است. البته با درانديشه متخصصينگرفتن ديگر فرمتهاي عددي، پردازندهي جديد AMD در پشت پردازندهي موردمباحثه انويديا جاي ميگيرد.
در انديشه متخصصين داشته باشيد كه Instinct MI100 مخصوص ديتاسنترها است. همانطور كه از پردازندههاي گرافيكي ديتاسنتر انتظار ميرود، Instinct MI100 از رابط مدرن PCIe 4.0 همراهي ميكند تا بتواند وظايف مربوط به هوش مصنوعي و رايانش با قدرت زياد (HPC) را انجام دهد.
پردازندهي موردمباحثه همچنين از نسل دوم فناوري اينفينيتي فبريك (Infinity Fabric) AMD كه پهناي باند نظيربهنظير I/O بين پردازندههاي گرافيكي را دو برابر ميكند، بهرهمند است. اينفينيتي فبريك به پردازندههاي گرافيكي AMD امكان ميدهد فضايي متشكلاز حافظهي يكپارچه را با پردازندهي مركزي (CPU) بهاشتراك بگذارند. اين، قابليتي بسيار كليدي و پرمزيت براي AMD است. تيم قرمز امروزه تنها توليدكنندهي پردازندهي مركزي در دنيا است كه ميتواند پردازندههاي گرافيكي كلاس ديتاسنتر توليد و به مشتريان عرضه كند.
كارت گرافيك ديتاسنتر AMD ازطريق سه پيوند اينفينيتي فبريك، به مجموع ۳۴۰ گيگابايتبرثانيه توان عملياتي دست پيدا ميكنند و بهگونهاي طراحي شده است تا بتوان آن را درون بستههاي چهارتايي جاي داد (حداكثر دو بسته بهازاي هر سرور)؛ هر يك از اين بستهها از حداكثر ۵۵۲ گيگابايتبرثانيه پهناي باند نظيربهنظير I/O همراهي ميكند.
پردازنده گرافيكي Instinct MI100 AMD با قويترين ابررايانهي دنيا در سال ۲۰۰۰، قابلقياس است
پردازندهي گرافيكي Instinct MI100 از فناوري جديد Matrix Core AMD نيز همراهي ميكند. اين فناوري بهروشي پيچيده ميتواند قدرت پردازشي را در فرمتهاي تك دقتي و چند دقتي نظير FP32 و FP16 و bFloat 16 و INT8 و INT4 بهبود بخشد. بهلطف اين فناوري، قدرت پردازشي FP32 به ۴۶٫۱ ترافلاپس افزايش پيدا ميكند.
پردازندهي گرافيكي جديد AMD مجهز به ۳۲ گيگابايت حافظهي HBM2 است كه در قالب چهار بستهي حافظه جاي گرفتهاند. اين بستهها دركنار يكديگر به پهناي باند تجميعشدهي ۱٫۲۳ ترابايتبرثانيه دست پيدا ميكنند. AMD ميگويد پردازندهي گرافيكي جديدش درمقايسهبا پردازندهي گرافيكي A100 انويديا، ۱٫۸ تا ۲٫۱ برابر حداكثر قدرت پردازشي بهازاي هر دلار (Peak Performance Per Dollar) بيشتر دارد. AMD همچنين اعلام كرد پلتفرم متن باز (Open Source) توسعهدهندهي ROCm 4.0 از اين پس داراي كامپايلري متن باز است و از OpenMP 5.0 و HIP و PyTorch و Tensorflow همراهي ميكند.
مقايسهي مشخصات متخصص پردازندههاي گرافيكي ديتاسنتر | ||||||
---|---|---|---|---|---|---|
نام پردازندهي گرافيكي | حداكثر سرعت كلاك | تعداد پردازندههاي جرياني | توان طراحي حرارتي | حافظهي HBM2 | پهناي باند حافظه | رابط PCIe |
AMD Instinct MI100 با ليتوگرافي ۷ نانومتري | ۱٬۵۰۲ مگاهرتز | ۷٬۶۸۰ (معادل ۱۲۰ واحد CU) | ۳۰۰ وات | ۳۲ گيگابايت | ۱٫۲۳ ترابايتبرثانيه | PCIe 4.0 |
AMD Instinct MI50 با ليتوگرافي ۷ نانومتري | ۱٬۷۲۵ مگاهرتز | ۳٬۸۴۰ (معادل ۶۰ واحد CU) | ۳۰۰ وات | ۳۲ گيگابايت | ۱٫۰۲۴ ترابايتبرثانيه | PCIe 4.0 |
(Nvidia A100 (PCIe با ليتوگرافي ۷ نانومتري | ۱٬۴۱۰ مگاهرتز | ۶٬۹۱۲ | ۲۵۰ وات | ۴۰ گيگابايت | ۱٫۵۵۵ ترابايتبرثانيه | PCIe 4.0 |
(Nvidia A1000 (HGX با ليتوگرافي ۷ نانومتري | ۱٬۴۱۰ مگاهرتز | ۶٬۹۱۲ | ۴۰۰ وات | ۴۰ گيگابايت | ۱٫۵۵۵ ترابايتبرثانيه | PCIe 4.0 |
پردازندهي گرافيكي جديد AMD براي ديتاسنتر داراي توان طراحي حرارتي ۳۰۰ وات است و در فرم فاكتور استاندارد PCIe كارت اضافهكردني (AIC) عرضه ميشود. اين پردازندهي گرافيكي داراي دو كانكتور هشت پين است. با درانديشه متخصصينگرفتن تمركز روي پردازشهاي ديتاسنتر، خبري از خروجي تصوير در پردازندهي گرافيكي جديد AMD نيست. بهعلاوه اين پردازنده كه از سيستم خنككنندهي پسيو بهره ميگيرد، داراي حفاظ I/O پشتي است كه روي آن صفحهي مشبك بزرگي براي جريان يافتن هوا ديده ميشود.
AMD در نسل پيشين پردازندههاي گرافيكي ديتاسنتر حداكثر سرعت كلاك را روي ۱٬۷۲۵ مگاهرتز تنظيم كرده بود، اما تصميم گرفته است در نسل جديد، آن را تا ۱٬۵۰۲ مگاهرتز پايين بياورد. اين درحالي است كه بر اساس اطلاعات رسمي، پردازندهي گرافيكي Instinct MI100 نسبتبه نسل قبل دو برابر واحد رايانشي بيشتر (۱۲۰) دارد. AMD همچنين پهناي باند حافظه را بهبود بخشيده و آن را به ۱٫۲۳ ترابايتبرثانيه رسانده است.
بهبودهاي اعمالشده در معماري CDNA (كه در ادامه به آنها اشاره ميكنيم) باعث ميشوند پردازندهي گرافيكي جديد AMD بتواند ۱٫۷۴ برابر توان عملياتي FP64 و FP32 بيشتر ارائه دهد. تعجببرانگيزتر آنكه همين بهبودها به افزايش ۶٫۹۷ برابري قدرت پردازشي FP16 منتهي شدهاند. تمامي اين بهبودها بهلطف فناوري جديد Matrix Core بهدست آمدهاند. Matrix Core واحدهاي رايانشي مجهز به موتور متريكس كور (Matrix Core Engine) را كه براي ديتاتايپهاي تركيبي طراحي شدهاند بهبود ميبخشد.
توان پردازنده گرافيكي AMD Instinct MI100 برابربا ۳۰۰ وات است
پردازندهي گرافيكي AMD MI100 در زمينهي توان عملياتي FP64 و FP32 بهميزان تقريبا ۱۵ درصد بهتر از A100 انويديا ظاهر ميشود؛ بااينحال پردازندهي انويديا ازلحاظ FP32 ماتريكس و FP16 و INT4 و INT8 و bFloat16 عملكرد بسيار بهتري دارد.
AMD ادعا ميكند كه MI100 رقيب ASCI White (سريعترين ابررايانهي دنيا در سال ۲۰۰۰ كه ۱۰۶ تن وزن داشت و ۱۲٫۳ ترافلاپس قدرت ارائه ميداد) محسوب ميشود. مزيت MI1000 نسبتبه ابررايانهي ۶ مگاواتي ASCI White اين است كه توان را تا ۳۰۰ وات كاهش ميدهد، صرفا ۱٫۱۶ كيلوگرم وزن دارد و به قدرت ۱۱٫۵ ترافلاپس دست پيدا ميكند.
معماري CDNA
AMD تصميم گرفته است معماري پردازندههاي گرافيكي خود را به دو خانوادهي RDNA (براي وظايف متمركز بر پردازشهاي گرافيكي نظير بازي كردن) و CDNA (براي وظايف كاري رايانشي نظير HPC يا پردازشهاي هوش مصنوعي) تقسيم كند. AMD با اين رويكرد در تلاش است برخي بهبودهاي خاص را در صرفا در يك معماري اعمال كند، بهبودهايي كه متخصصد خاصي براي معماري ديگر ندارند.
بدين ترتيب معماري CDNA بسياري از مشخصههاي گرافيكيمحور معماري RDNA نظير Rasterization و Tesselation و كشهاي گرافيكي و بلندينگ موتور نمايشگر را ندارد. CDNA همچنان بخشهايي از مدار منطقي را براي ديكُد HEVC و H.264 و VP9 حفظ ميكند تا پردازشهاي مربوط به يادگيري ماشين كه به تشخيص سوژه ارتباط دارند، بهتر انجام شوند.
همانطور كه بالاتر اشاره كرديم، Instinct MI100 نخستين پردازندهي گرافيكي دنيا با معماري CDNA است و بههمراه رابط PCIe 4.0 با پيوند ۱۶ گيگاترنسفربرثانيهاي به پردازندهي مركزي (۳۲ گيگابايتبرثانيه بهصورت دوجهتي)، عرضه ميشود.
AMD ابعاد Die پردازنده گرافيكي جديد خود را اعلام نكرد؛ اما ميدانيم MI1000 مجهز به ۱۲۰ واحد رايانشي است
AMD ابعاد داي (Die) هفت نانومتري MI100 را اعلام نكرده است و تعداد دقيق ترانزيستورها را نيز نميدانيم. بااينحال ميدانيم كه ۱۲۰ واحد رايانشيِ بهبوديافتهي پردازندهي گرافيكي موردمباحثه در قالب چهار موتور رايانشي پخش شدهاند. هر يك از واحدهاي رايانشي داراي يك موتور متريكس كور است كه ميتواند توان عملياتي محاسباتي را بهبود بخشد.
واحد اجرايي ماتريكس دستورالعملهاي MFMA را مديريت ميكند و تعداد دفعات خوانده شدن فايلهاي رجيستر را كاهش ميدهد. كش سطح دوم (L2 Cache) اشتراكي بهصورت فيزيكي شامل ۳۲ لايه است (دو برابر بيشتر از MI50) و يك مجموعهي پيوندي ۱۶ جهتي بهحساب ميآيد. بهطور كلي ۳۲ لايهي موردمباحثه ميتوانند حداكثر توان عملياتي تجميعشدهي ۶ ترابايتبرثانيه ارائه دهند. كنترلرهاي حافظه از بستههاي چهار يا هشتتايي ECC HBM2 با نرخ ۲٫۴ گيگاترنسفربرثانيه همراهي ميكنند تا توان عملياتي تجميعشده ازلحاظ تئوري به ۱٫۲۳ ترابايتبرثانيه برسد؛ يعني ۲۰ درصد سريعتر از نسل قبل.
نسل دوم اينفينيتي فبريك
فناوري اينفينيتي فبريك AMD كه ارتباط بين پردازندهي مركزي و پردازندهي گرافيكي را برقرار ميسازد نشان داده كه مزاياي متعدد و كليدي بههمراه ميآورد و باعث شده است AMD بتواند قراردادهاي باارزشي با برخي شركتها امضا كند. اينفينيتي فبريك امكان ايجاد وابستگي بين حافظهي پردازندهي مركزي و گرافيكي را فراهم ميكند تا تأخير كاهش يابد و قدرت پردازشي بيشتر ارائه شود.
اينفينيتي فبريك همچنين ميزان مصرف انرژي را كاهش ميدهد، زيرا تعداد دفعات حركت دادهها در سيستم كم ميشود. پيوندهاي نسل دومي اينفينيتي فبريك با نرخ ۲۳ گيگاترنسفربرثانيه بهصورت ۱۶ بيت فعاليت ميكنند و از اين حيث كاملا شبيه به نسل قبل هستند؛ اما نسل جديد از پيوند سوم هم همراهي ميكند تا امكان دستيابي به سيستمهاي متشكلاز چهار پردازندهي گرافيكي فراهم شود. نسل جديد اينفينيتي فبريك در بستههاي متشكلاز چهار پردازندهي گرافيكي كاركرد مناسبتري دارد و پهناي باند نظيربهنظير I/O دوبرابر بيشتر ارائه ميدهد.
AMD ميگويد تا پايان سال جاري ميلادي سيستمهاي مجهز به پردازندهي گرافيكي Instinct MI100 كه توسط شركتهايي مثل دل و گيگابايت و HPE و لنوو ساخته شدهاند به بازار ميآيند.
هم انديشي ها