پردازنده گرافيكي AMD Instinct MI100 با معماري CDNA معرفي شد

سه‌شنبه ۲۷ آبان ۱۳۹۹ - ۲۱:۱۵
مطالعه 7 دقيقه
مرجع متخصصين ايران
AMD Instinct MI100 پردازنده‌ي گرافيكي جديدي است كه براي ديتاسنتر طراحي شده و با بهره‌گيري از معماري CDNA به قدرت ۱۱٫۵ ترافلاپس FP64 دست پيدا مي‌كند.
تبليغات

AMD ساعاتي پيش، از پردازنده‌ي گرافيكي هفت نانومتري جديد خود با نام اينستينكت ام آي ۱۰۰ (AMD Instinct MI100) پرده‌برداري كرد. پردازنده‌ي گرافيكي Instinct MI100 نخستين پردازنده‌ي گرافيكي با معماري CDNA (كه به‌طور ويژه بر رايانش متمركز است) محسوب مي‌شود. معماري جديد CDNA حداكثر ۱۱٫۵ ترافلاپس (TFLOPS) قدرت پردازشي FP64 ارائه مي‌دهد و همين موضوع باعث مي‌شود Instinct MI100 نخستين پردازنده‌ي گرافيكي دنيا باشد كه به قدرت FP64 بيشتر از ۱۰ ترافلاپس دست مي‌يابد.

بهره‌مندي از قدرت پردازشي ۱۱٫۵ ترافلاپس نشان مي‌دهد كه Instinct MI100 نسبت‌به نسل قبل يعني MI50 به‌ميزان سه برابر قوي‌تر شده است. AMD مي‌گويد پردازنده‌ي گرافيكي جديدش به‌لطف معماري CDNA مي‌تواند قدرت پردازشي ۲۳٫۱ ترفلاپس FP32 ارائه دهد. اعداد يادشده اعلام مي‌كنند پردازنده‌ي گرافيكي Instinct MI100 در زمينه‌ي قدرت پردازشي FP64 و FP32 قوي‌تر از تراشه‌ي پرقدرت A100 امپر انويديا است. البته با درانديشه متخصصينگرفتن ديگر فرمت‌هاي عددي، پردازنده‌ي جديد AMD در پشت پردازنده‌ي موردمباحثه انويديا جاي مي‌گيرد. 

مرجع متخصصين ايران نماي سه رخ پردازنده گرافيكي AMD Instinct MI100

در انديشه متخصصين داشته باشيد كه Instinct MI100 مخصوص ديتاسنترها است. همان‌طور كه از پردازنده‌هاي گرافيكي ديتاسنتر انتظار مي‌رود، Instinct MI100 از رابط مدرن PCIe 4.0 همراهي مي‌كند تا بتواند وظايف مربوط به هوش مصنوعي و رايانش با قدرت زياد (HPC) را انجام دهد.

پردازنده‌ي موردمباحثه همچنين از نسل دوم فناوري اينفينيتي فبريك (Infinity Fabric) AMD كه پهناي باند نظيربه‌نظير I/O بين پردازنده‌هاي گرافيكي را دو برابر مي‌كند، بهره‌مند است. اينفينيتي فبريك به پردازنده‌هاي گرافيكي AMD امكان مي‌دهد فضايي متشكل‌از حافظه‌ي يكپارچه را با پردازنده‌ي مركزي (CPU) به‌اشتراك بگذارند. اين، قابليتي بسيار كليدي و پرمزيت براي AMD است. تيم قرمز امروزه تنها توليدكننده‌ي پردازنده‌ي مركزي در دنيا است كه مي‌تواند پردازنده‌هاي گرافيكي كلاس ديتاسنتر توليد و به مشتريان عرضه كند.

كارت گرافيك ديتاسنتر AMD ازطريق سه پيوند اينفينيتي فبريك،‌ به مجموع ۳۴۰ گيگابايت‌برثانيه توان عملياتي دست پيدا مي‌كنند و به‌گونه‌اي طراحي شده‌ است تا بتوان آن‌ را درون بسته‌هاي چهارتايي جاي داد (حداكثر دو بسته به‌ازاي هر سرور)؛ هر يك از اين بسته‌ها از حداكثر ۵۵۲ گيگابايت‌برثانيه پهناي باند نظيربه‌نظير I/O همراهي مي‌كند. 

پردازنده گرافيكي Instinct MI100 AMD با قوي‌ترين ابررايانه‌ي دنيا در سال ۲۰۰۰، قابل‌قياس است

پردازنده‌ي گرافيكي Instinct MI100 از فناوري جديد Matrix Core AMD نيز همراهي مي‌كند. اين فناوري به‌روشي پيچيده مي‌تواند قدرت پردازشي را در فرمت‌هاي تك دقتي و چند دقتي نظير FP32 و FP16 و bFloat 16 و INT8 و INT4 بهبود بخشد. به‌لطف اين فناوري، قدرت پردازشي FP32 به ۴۶٫۱ ترافلاپس افزايش پيدا مي‌كند.

پردازنده‌ي گرافيكي جديد AMD مجهز به ۳۲ گيگابايت حافظه‌ي HBM2 است كه در قالب چهار بسته‌ي حافظه جاي گرفته‌اند. اين بسته‌ها دركنار يكديگر به پهناي باند تجميع‌شده‌ي ۱٫۲۳ ترابايت‌برثانيه دست پيدا مي‌كنند. AMD مي‌گويد پردازنده‌ي گرافيكي جديدش درمقايسه‌با پردازنده‌ي گرافيكي A100 انويديا، ۱٫۸ تا ۲٫۱ برابر حداكثر قدرت پردازشي به‌ازاي هر دلار (Peak Performance Per Dollar) بيشتر دارد. AMD همچنين اعلام كرد پلتفرم متن باز (Open Source) توسعه‌دهنده‌ي ROCm 4.0 از اين پس داراي كامپايلري متن باز است و از OpenMP 5.0 و HIP و PyTorch و Tensorflow همراهي مي‌كند.

مقايسه‌ي مشخصات متخصص پردازنده‌هاي گرافيكي ديتاسنتر

نام پردازنده‌ي گرافيكي

حداكثر سرعت كلاك

تعداد پردازنده‌هاي جرياني

توان طراحي حرارتي

حافظه‌ي HBM2

پهناي باند حافظه

رابط PCIe 

AMD Instinct MI100 با ليتوگرافي ۷ نانومتري

۱٬۵۰۲ مگاهرتز

۷٬۶۸۰ (معادل ۱۲۰ واحد CU)

۳۰۰ وات

۳۲ گيگابايت

۱٫۲۳ ترابايت‌برثانيه

PCIe 4.0

AMD Instinct MI50 با ليتوگرافي ۷ نانومتري

۱٬۷۲۵ مگاهرتز

۳٬۸۴۰ (معادل ۶۰ واحد CU)

۳۰۰ وات

۳۲ گيگابايت

۱٫۰۲۴ ترابايت‌برثانيه

PCIe 4.0

(Nvidia A100 (PCIe با ليتوگرافي ۷ نانومتري

۱٬۴۱۰ مگاهرتز

۶٬۹۱۲

۲۵۰ وات

۴۰ گيگابايت

۱٫۵۵۵ ترابايت‌برثانيه

PCIe 4.0

(Nvidia A1000 (HGX با ليتوگرافي ۷ نانومتري

۱٬۴۱۰ مگاهرتز

۶٬۹۱۲

۴۰۰ وات

۴۰ گيگابايت

۱٫۵۵۵ ترابايت‌برثانيه

PCIe 4.0

پردازنده‌ي گرافيكي جديد AMD براي ديتاسنتر داراي توان طراحي حرارتي ۳۰۰ وات است و در فرم فاكتور استاندارد PCIe كارت اضافه‌كردني (AIC) عرضه مي‌شود. اين پردازنده‌ي گرافيكي داراي دو كانكتور هشت پين است. با درانديشه متخصصينگرفتن تمركز روي پردازش‌هاي ديتاسنتر، خبري از خروجي تصوير در پردازنده‌ي گرافيكي جديد AMD نيست. به‌علاوه اين پردازنده كه از سيستم خنك‌كننده‌ي پسيو بهره مي‌گيرد، داراي حفاظ I/O پشتي است كه روي آن صفحه‌ي مشبك بزرگي براي جريان يافتن هوا ديده مي‌شود.

AMD در نسل پيشين پردازنده‌هاي گرافيكي ديتاسنتر حداكثر سرعت كلاك را روي ۱٬۷۲۵ مگاهرتز تنظيم كرده بود، اما تصميم گرفته است در نسل جديد، آن را تا ۱٬۵۰۲ مگاهرتز پايين بياورد. اين درحالي است كه بر اساس اطلاعات رسمي،‌ پردازنده‌ي گرافيكي Instinct MI100 نسبت‌به نسل قبل دو برابر واحد رايانشي بيشتر (۱۲۰) دارد. AMD همچنين پهناي باند حافظه را بهبود بخشيده و آن را به ۱٫۲۳ ترابايت‌برثانيه رسانده است.

مرجع متخصصين ايران نماي پشت و جلو پردازنده گرافيكي AMD Instinct MI100

بهبودهاي اعمال‌شده در معماري CDNA (كه در ادامه به آن‌ها اشاره مي‌كنيم) باعث مي‌شوند پردازنده‌ي گرافيكي جديد AMD بتواند ۱٫۷۴ برابر توان عملياتي FP64 و FP32 بيشتر ارائه دهد. تعجب‌برانگيزتر آن‌كه همين بهبودها به افزايش ۶٫۹۷ برابري قدرت پردازشي FP16 منتهي شده‌اند. تمامي اين بهبودها به‌لطف فناوري جديد Matrix Core به‌دست آمده‌اند. Matrix Core واحدهاي رايانشي مجهز به موتور متريكس كور (Matrix Core Engine) را كه براي ديتاتايپ‌هاي تركيبي طراحي شده‌اند بهبود مي‌بخشد. 

توان پردازنده گرافيكي AMD Instinct MI100 برابربا ۳۰۰ وات است

پردازنده‌ي گرافيكي AMD MI100 در زمينه‌ي توان عملياتي FP64 و FP32 به‌ميزان تقريبا ۱۵ درصد بهتر از A100 انويديا ظاهر مي‌شود؛ بااين‌حال پردازنده‌ي انويديا ازلحاظ FP32 ماتريكس و FP16 و INT4 و INT8 و bFloat16 عملكرد بسيار بهتري دارد.

AMD ادعا مي‌كند كه MI100 رقيب ASCI White (سريع‌ترين ابررايانه‌ي دنيا در سال ۲۰۰۰ كه ۱۰۶ تن وزن داشت و ۱۲٫۳ ترافلاپس قدرت ارائه مي‌داد) محسوب مي‌شود. مزيت MI1000 نسبت‌به ابررايانه‌ي ۶ مگاواتي ASCI White اين است كه توان را تا ۳۰۰ وات كاهش مي‌دهد، صرفا ۱٫۱۶ كيلوگرم وزن دارد و به قدرت ۱۱٫۵ ترافلاپس دست پيدا مي‌كند.

معماري CDNA

AMD تصميم گرفته است معماري پردازنده‌هاي گرافيكي خود را به دو خانواده‌ي RDNA (براي وظايف متمركز بر پردازش‌هاي گرافيكي نظير بازي كردن) و CDNA (براي وظايف كاري رايانشي نظير HPC يا پردازش‌هاي هوش مصنوعي) تقسيم كند. AMD با اين رويكرد در تلاش است برخي بهبودهاي خاص را در صرفا در يك معماري اعمال كند، بهبودهايي كه متخصصد خاصي براي معماري ديگر ندارند.

بدين ترتيب معماري CDNA بسياري از مشخصه‌هاي گرافيكي‌محور معماري RDNA نظير Rasterization و Tesselation و كش‌هاي گرافيكي و بلندينگ موتور نمايشگر را ندارد. CDNA همچنان بخش‌هايي از مدار منطقي را براي ديكُد HEVC و H.264 و VP9 حفظ مي‌كند تا پردازش‌هاي مربوط به يادگيري ماشين كه به تشخيص سوژه ارتباط دارند، بهتر انجام شوند.

همان‌طور كه بالاتر اشاره كرديم، Instinct MI100 نخستين پردازنده‌ي گرافيكي دنيا با معماري CDNA است و به‌همراه رابط PCIe 4.0 با پيوند ۱۶ گيگاترنسفربرثانيه‌اي به پردازنده‌ي مركزي (۳۲ گيگابايت‌برثانيه به‌صورت دوجهتي)، عرضه مي‌شود.

AMD ابعاد Die پردازنده گرافيكي جديد خود را اعلام نكرد؛ اما مي‌دانيم MI1000  مجهز به ۱۲۰ واحد رايانشي است

AMD ابعاد داي (Die) هفت نانومتري MI100 را اعلام نكرده است و تعداد دقيق ترانزيستورها را نيز نمي‌دانيم. بااين‌حال مي‌دانيم كه ۱۲۰ واحد رايانشيِ بهبوديافته‌ي پردازنده‌ي گرافيكي موردمباحثه در قالب چهار موتور رايانشي پخش شده‌اند. هر يك از واحدهاي رايانشي داراي يك موتور متريكس كور است كه مي‌تواند توان عملياتي محاسباتي را بهبود بخشد.

واحد اجرايي ماتريكس دستورالعمل‌هاي MFMA را مديريت مي‌كند و تعداد دفعات خوانده شدن فايل‌هاي رجيستر را كاهش مي‌دهد. كش سطح دوم (L2 Cache) اشتراكي به‌صورت فيزيكي شامل ۳۲ لايه است (دو برابر بيشتر از MI50) و يك مجموعه‌ي پيوندي ۱۶ جهتي به‌حساب مي‌آيد. به‌طور كلي ۳۲ لايه‌ي موردمباحثه مي‌توانند حداكثر توان عملياتي تجميع‌شده‌ي ۶ ترابايت‌برثانيه ارائه دهند. كنترلرهاي حافظه از بسته‌هاي چهار يا هشت‌تايي ECC HBM2 با نرخ ۲٫۴ گيگاترنسفربرثانيه همراهي مي‌كنند تا توان عملياتي تجميع‌شده‌ ازلحاظ تئوري به ۱٫۲۳ ترابايت‌برثانيه برسد؛ يعني ۲۰ درصد سريع‌تر از نسل قبل.

نسل دوم اينفينيتي فبريك

مرجع متخصصين ايران نمونه اي از متخصصد اينفينيتي فبريك / Infinity Fabric اي ام دي

فناوري اينفينيتي فبريك AMD كه ارتباط بين پردازنده‌ي مركزي و پردازنده‌ي گرافيكي را برقرار مي‌سازد نشان داده كه مزاياي متعدد و كليدي به‌همراه مي‌آورد و باعث شده است AMD بتواند قراردادهاي باارزشي با برخي شركت‌ها امضا كند. اينفينيتي فبريك امكان ايجاد وابستگي بين حافظه‌ي پردازنده‌ي مركزي و گرافيكي را فراهم مي‌كند تا تأخير كاهش يابد و قدرت پردازشي بيشتر ارائه شود.

اينفينيتي فبريك همچنين ميزان مصرف انرژي را كاهش مي‌دهد، زيرا تعداد دفعات حركت داده‌ها در سيستم كم مي‌شود. پيوندهاي نسل دومي اينفينيتي فبريك با نرخ ۲۳ گيگاترنسفربرثانيه به‌صورت ۱۶ بيت فعاليت مي‌كنند و از اين حيث كاملا شبيه به نسل قبل هستند؛ اما نسل جديد از پيوند سوم هم همراهي مي‌كند تا امكان دستيابي به سيستم‌هاي متشكل‌از چهار پردازنده‌ي گرافيكي فراهم شود. نسل جديد اينفينيتي فبريك در بسته‌هاي متشكل‌از چهار پردازنده‌ي گرافيكي كاركرد مناسب‌تري دارد و پهناي باند نظير‌به‌نظير I/O دوبرابر بيشتر ارائه مي‌دهد. 

AMD مي‌گويد تا پايان سال جاري ميلادي سيستم‌هاي مجهز به پردازنده‌ي گرافيكي Instinct MI100 كه توسط شركت‌هايي مثل دل و گيگابايت و HPE و لنوو ساخته‌ شده‌اند به بازار مي‌آيند.

تبليغات
جديد‌ترين مطالب روز

هم انديشي ها

تبليغات

با چشم باز خريد كنيد
اخبار تخصصي، علمي، تكنولوژيكي، فناوري مرجع متخصصين ايران شما را براي انتخاب بهتر و خريد ارزان‌تر راهنمايي مي‌كند
ورود به بخش محصولات