// چهار شنبه, ۲۸ اردیبهشت ۱۴۰۱ ساعت ۲۳:۰۱

همه چیز در مورد کارت های گرافیک نسل جدید انویدیا در سال 2022

نسل بعدی کارت‌های گرافیک گیمینگ انویدیا در ماه‌های آینده عرضه خواهد شد. چه اطلاعاتی از آن‌ها داریم و چه راندمانی را باید انتظار داشته باشیم؟

نیمه‌ی دوم سال ۲۰۲۲ میلادی موعد عرضه‌ی پردازنده‌ها و کارت‌های گرافیکی جدید است و شرکت‌های انویدیا و AMD هر دو برنامه‌های از پیش تعیین‌شده‌ای برای معرفیِ نسل جدید کارت‌‌‌‌های گرافیکِ مخصوص بازی خود به بازار محصولاتِ پی‌سی دارند. این دو شرکت رقیب تلاش دارند که با عرضه‌ی محصولات جدید، سهم خود را از بازار کارت‌های گرافیک رده مصرف‌کننده افزایش داده و مشتریان بیشتری را جذب کنند. این مهم مشخصا با افزایش کارایی و در کنارش معرفی امکانات جذاب و تأثیرگذار میسر خواهند شد که معیارهای راندمان، مصرف و قیمت را نیز در بر‌می‌گیرد. در اینجا قصد داریم گزیده‌ای از اطلاعات نسبتا معتبر و تایید شده از نسل آتی محصولات سری جیفورس شرکت انویدیا را با هم مرور کنیم.

مشخصات فنی RTX 4000

مدتی است که می‌توان گفت مشخصات کلی معماری گرافیکی Ada Lovelace انویدیا تقریبا آشکار شده و جزئیاتش هم کمابیش پنهان نیست. اکنون حتی اطلاعات فنی برخی کارت‌های گرافیکی قدرت گرفته از این معماری را هم در اختیار داریم و می‌دانیم که مثلا مدل‌‌های RTX 4080 ،RTX 4090 و RTX 4070 قرار است با چه تراشه‌هایی و با چه مقدار از حافظه عرضه شوند.

بلاک دیاگرام یک واحد TPC از معماری گرافیکی انویدیا Ada Lovelace

بلاک دیاگرام یک واحد TPC از معماری گرافیکی انویدیا Ada Lovelace شامل ۲ واحد SM

در مقام مقایسه‌ی اجزای تشکیل‌دهنده‌ی این GPU، می‌خواهیم AD102 را به‌عنوان تراشه‌ی پرچم‌دار با انواع تراشه‌‌های همرده از نسل‌های دیگر از تیم سبز مقایسه کنیم. در اینجا پرچمدارهای مخصوص بازی شامل GA102 از نسل آمپر و TU102 از نسل تورینگ را درکنار تراشه‌ی مخصوص پردازش‌‌های سنگین یعنی GH100 و GA100 برای مقایسه در نظر می‌گیریم.

تراشه‌ی گرافیکی AD102 تا تعداد ۱۲ واحد GPC (مخفف Graphics Processing Clusters) را شامل خواهد شد که نسبت به GA102 از نسل آمپر در کارت گرافیکِ RTX 3090 که از ۷ واحد GPC تشکیل شده، به میزان ۷۰ درصد افزایش داشته است. همچنین هر GPC به نوبه‌ی خود شامل ۶ واحد TPC (مخفف Texture Processing Clusters) بوده و هر TPC نیز ۲ واحد SM (مخفف Streaming Multiprocessor) را در برخواهد گرفت که همان ترکیب به‌کار رفته در تراشه‌های همرده‌ی فعلی است. هر واحد SM هم به چهار قسمت مجزا یا Sub-Core تقسیم می‌شود که تا اینجا تعداد SM و Sub-Core با تراشه‌های فعلی یکسان است. اما از اینجا به بعد تفاوت‌ها آشکار می‌شود. تعداد واحدهای پردازش اعشاری FP32 در اینجا ۱۲۸ واحد به ازای هر SM است، اما واحدهای پردازش INT32 برخلاف معماری آمپر مستقل شده‌اند و درکنار FP32 مجموعا ۱۹۲ واحد ترکیبی از هسته‌های FP32+INT32 را تشکیل داده‌اند.

مقایسه بلاک دیاگرام یک واحد SM بین معماری آمپر و Ada Lovelace انویدیا

بنابراین با محاسبات بالا، اگر برای هر SM تعداد ۱۲۸ واحد FP32 داشته باشیم و از آنجایی که کلا ۱۴۴ واحد SM در هر AD102 با واحدهای کاملا فعال داریم، در نتیجه مجموعا ۱۸۴۳۲ هسته‌ی پردازشی FP32 خواهیم داشت (۱۲۸ ضرب‌در ۱۴۴) که نسبت به ۱۰۷۵۲ واحد در GA102 به میزان ۵۰ درصد بیشتر است.

نام تراشه	NVIDIA AD102	NVIDIA GA102	NVIDIA TU102
معماری تراشه	Ada Lovelace	Ampere	Turing
مدل تراشه	GA102-300	GA102-200	GA102-200
پروسه‌ی ساخت	TSMC 4N	SAMSUNG 8nm	TSMC 12nm
کارت گرافیک	RTX 4090	RTX 3090 Ti	RTX 2080 Ti
هسته‌های CUDA	16128	10752	4608
تعداد SM	126	84	72
حافظه کش L2	96MB	6MB	6MB
توان محاسباتی	90TFLOPs~	40TFLOPs	16TFLOPs
ظرفیت حافظه	24GB GDDR6X	24GB GDDR6X	11GB GDDR6
سرعت حافظه	24Gbps	21Gbps	11Gbps
رابط حافظه	384bit	384bit	384bit
پهنای باندِ حافظه	1152GB/s	1.008GB/s	616GB/s
اتصالات برق	16Pin PCIe 5.0	8+8Pin	8+8Pin
توان حرارتی	450W	350W	250W
تاریخ عرضه	?July 2022	Sep 2020	Sep 2018

اما اطلاعات جدید نشان می‌‌دهد که تراشه‌ی کامل برای عرضه‌ی RTX 4090 Ti کنار گذاشته خواهد شد و تراشه‌ی RTX 4090 با ۱۸ واحد SM غیرفعال شده، تنها به ۱۲۶ واحد SM محدود خواهند شد و تعداد ۱۶۱۲۸ واحد پردازشی FP32 را با ۲۴ گیگابایت حافظه‌ی GDDR6X درکنار خود جای خواهد داد. البته گفته می‌شود که این تراشه‌ی تضعیف شده، در فرکانس کاری‌ نهاییِ خود خواهد توانست راندمانی دو برابر بیشتر از RTX 3090 تولید کند. هر چند که مشخص نیست این افزایش راندمان در بخش سایه‌زن‌های سنتی (Rasterization) اتفاق خواهد افتاد یا در بخش رهگیری پرتو (Ray Tracing) یا هر دو.

حالا اگر به سراغ حافظه‌ی کش برویم، اینجا هم بخش دیگری است که انویدیا بهبود بزرگی را نسبت به تراشه‌های گرافیکی آمپر فعلی به‌وجود آورده است. واحدهای پردازش گرافیکی آدا لاولِیس در هر SM به میزان ۱۹۲ کیلوبایت حافظه‌ی کش سطحِ یک را در خود جای خواهند داد که ۵۰ درصد بیشتر از ۱۲۸ کیلوبایت کش L1 در معماری آمپر است. این میزان به مجموع ۴.۵ مگابایت حافظه‌ی کش L1 در تراشه‌ی سطح بالای AD102 منتهی خواهد شد. از سوی دیگر حافظه‌ی کش سطح دوم یا همان L2 هم متحول شده و براساس اطلاعات فاش شده، به ۹۶ مگابایت افزایش خواهد یافت. این میزان افزایش ۱۶ برابری را نسبت به کش L2 در معماری آمپر نشان می‌دهد که تنها ۶ مگابایت حافظه‌ی کش L2 دارند. این حافظه برای تمام بخش‌های GPU به‌صورت اشتراکی قابل استفاده خواهد بود.

سرانجام واحدهای ROP (مخفف Raster Operations Pipeline) را داریم که از ۱۶ واحد به ازای هر GPC در معماری آمپر، به ۳۲ واحد در معماری Lovelace ارتقا پیدا کرده‌اند. با این توصیف در پرچم‌دارِ این نسل یعنی AD102 باید شاهد ۳۸۴ واحد ROP باشیم که در سریع‌ترین تراشه‌ی گرافیکی آمپر یعنی RTX 3090 Ti تنها ۱۱۲ واحد بود.

همچنین جدیدترین و چهارمین نسلِ واحدهای شتاب‌‌دهنده‌ی AI یعنی هسته‌های Tensor و سومین نسل واحدهای مخصوص رهگیری پرتو (Ray Tracing) هم در معماری جدید Ada Lovelace برای سری RTX 40xx پیاده‌سازی شده‌اند که طبیعتا به افزایش راندمان DLSS و پردازش‌های رهگیری پرتو کمک خواهند کرد.

در مجموع آنچه که معماری Ada Lovelace در AD102 ارائه می‌کند را می‌توان در موارد زیر خلاصه کرد:

افزایش دو برابری واحدهای GPC (نسبت به آمپر)
۵۰ درصد افزایش در تعداد هسته‌ها (نسبت به آمپر)
افزایش ۵۰ درصدی ظرفیت حافظه‌ی کش سطح یک (نسبت به آمپر)
افزایش ۱۶ برابری ظرفیت حافظه‌ی کش سطح دو (نسبت به آمپر)
دو برابر شدن تعداد واحدهای ROP (نسبت به آمپر)
نسل چهارم واحدهای Tensor و نسل سوم واحدهای RT

دستگاه مخصوص پروسه تولید و ساخت تراشه ها با ویفر سیلیکونی

فناوری ساخت تراشه‌های جدید

انویدیا از مدت‌ها پیش درصدد فرآهم کردن شرایط بهتر برای تولید محصولات جدیدش با فناوری ساخت بالاتر و بازدهی بهتر بوده و به همین جهت تمرکزش را به مذاکره و توافق با شرکت TSMC معطوف کرده است. اخبار سال گذشته حاکی از این بود که انویدیا برخلاف‌ نسل آمپر دیگر به شرکت سامسونگ متکی نخواهد بود و در سال ۲۰۲۲ میلادی قرار است شرکت TSMC با فناوری جدیدتر به یگانه تولید کننده‌ی پردازنده‌های انویدیا تبدیل شود. همچنین گفته شده که انویدیا برای تولید محصولات نسل Lovelace به پروسه‌ی ساخت اختصاصی خودش با نام 4N در ابعاد ۴ نانومتری مهاجرت کرده، درحالی‌که قبلا گفته می‌شد این محصولات را با فناوری ساخت ۵ نانومتری تولید خواهد کرد. همچنین انویدیا قرار است برای تثبیتِ تولید در فناوری 4N، مبلغی بالغ بر ۱۰ میلیارد دلار در طی قراردادش به TSMC پرداخت کند.

توان مصرفی

موضوع توان مصرفی کارت‌های گرافیکی نسل 40xx انویدیا به بحثی داغ در ماه‌های گذشته تبدیل شده است. برخی از اطلاعات تایید نشده اما نسبتا معتبر به نهایی شدن توان مصرفی ۶۰۰ واتی برای کارت گرافیک RTX 4090 Ti و توان ۴۵۰ واتی برای RTX 4080/RTX 4090 با برد مرجع تاکید دارند و ازاین‌رو اکنون مطمئن هستیم که کارت‌های نسل جدید قطعا بسیار پرمصرف‌تر از نسل فعلی خواهند بود و به منابع تغذیه‌ی قویتر نیز نیاز خواهند داشت. حتی بسیاری از کارشناسان تخمین می‌زنند که ممکن است برخی از مصرف‌کنندگان خانگی مخصوصا در امریکای شمالی با این میزان توانِ مورد نیاز مشکلاتی داشته باشند، چرا که حداکثر خروجی کنتور رایج برق خانگی در این مناطق ۱۵ یا ۲۰ آمپر برق مستقیمِ AC با استاندارد ۱۱۰ ولت است که محدودیت‌هایی را برای بیشینه‌ی میزان مصرف لوازم خانگی در این سطح ایجاد می‌کند (استاندارد برق ۲۲۰ ولت برای تأمین توان مشابه تنها به نیمی از این شدت جریان بر مبنای آمپر نیاز دارد).

کانکتور جدید برق PCIe 5.0 دارای ۱۶ پین برق و سیگنال

کانکتور جدید برق PCIe 5.0 با ترکیب ۴+۱۲ پین و توان تأمین برق تا سقف ۶۰۰ وات

اگر تنها ۶۰۰ وات برای یک کارت گرافیک و حدود ۹۰۰ وات برای یک پی‌سی گیمینگ (رسیدن به سطح ۱۰۰۰ وات برای جهش‌های آنی در مصرف برق در این‌گونه سیستم‌ها دور از انتظار نیست) نیاز باشد، اگر لوازم خانگی و تجهیزات صوتی و تصویری دیگر نیز لحاظ شوند، ممکن است میزان کل جریانی که از کنتور برق اصلی کشیده می‌شود به‌راحتی به حداکثر خروجی ممکن نزدیک شده یا حتی از توان آن فراتر رود. در این صورت احتمالا برخی کاربران با روشن کردن چنین سیستم‌هایی حتی با خارج شدن فیوز اصلی کنتور برق از مدار مواجه شوند.

با این توصیف وقتی انویدیا تصمیم گرفته که برای شکست نخوردن از RX 7900 XT یا هر نامی که برای آن در نظر گرفته شده، توان مصرفی پرچمدارش را تا سطح ۶۰۰ وات افزایش دهد، در مورد RTX 4080 هم پیش‌بینی می‌شود که بر مبنای راندمانی که باید دربرابر رقیب مستقیمش یعنی RX 7800 از AMD داشته باشد، انویدیا تصمیم بگیرد توان مصرفی آن را هم تا سطح ۴۵۰ وات افزایش دهد یا اگر راندمان کافی باشد، حداکثر توان مصرفی آن را به ۳۵۰ وات و مشابه با پرچمدارهای نسل آمپر محدود سازد. مدل‌های رده‌ی کارت RTX 4070 هم احتمالا به ۳۵۰ وات یا کمتر اکتفا کنند و در عین حال بتوانند از مدل‌های RX 7600 در راندمان برتر بوده یا دست‌کم همتراز عمل کنند. در هر حال انویدیا گزینه‌های متعددی روی میز آماده دارد که در پاسخ به برآوردش از عملکردِ معماری RDNA3 از AMD، می‌تواند آن‌ها را در ترکیب قویتر یا ضعیفتر انتخاب کرده و سقف توان مصرفیِ آن‌ها را نیز تغییر دهد.

جمع بندی

از جزئیات فنی محصولات نسل آدا لاولِیس که گذر کنیم، در آخر این تنها راندمان و قدرت معماری جدید است که باعث ایجاد تمایز و برتریِ آن نسبت به فناوری‌های نسل گذشته و ایجاد اشتیاق و انگیزه در کاربران برای خرید کارت‌های گرافیک نسل جدید خواهد شد. باتوجه‌به اطلاعت فنی مشخص شده تا به امروز، انتظار داریم که کارت‌‌های گرافیک نسل GeForce RTX 40xx بین ۶۰ تا ۱۱۰ درصد افزایش راندمان را در بازی‌ها نسبت به GeForce RTX 30xx و نسل آمپر به ارمغان آورند. اگر بخواهیم به‌صورت خاص در مورد RTX 4090 صحبت کنیم، برآورد می‌شود که با همین ۱۲۶ واحد SM که در جدیدترین اخبار و در آستانه‌ی تولید تجاری تراشه‌‌های AD102 به بیرون درز کرده، حداقل باید انتظار راندمان دو برابری را نسبت به RTX 3090 معمولی داشته باشیم که رسیدن به این میزان راندمان قطعا به کمک بهبودهای معماری Lovelace، افزایش تصاعدی ظرفیت حافظه‌ی کش و البته افزایش فرکانس کاری دور از واقعیت نخواهد بود.

لوگوی انویدیا RTX و نشان نسل جدید کارت گرافیک Ada Lovelace

همچنین مشخص شده که این نسل از کارت‌های گرافیکی هم همچنان از استاندارد PCIe 4.0 برای ارتباط با پردازنده و بخش‌های دیگر سیستم بهره خواهند گرفت و شاید انویدیا ضرورتی به مهاجرت به استاندارد PCIe 5.0 در این نسل ندیده است. اما برای سهولت در تأمین توان کارت گرافیکی از منبع تغذیه استفاده از کانکتور برق ۱۶ پین با استاندارد PCIe 5.0 و شبیه به آنچه که در کارت‌های RTX 3090 Ti بکار رفته بود به استاندارد کارت‌های پرچم‌دار این نسل نیز مبدل شود. در پایان حافظه‌ی گرافیکی در این نسل نیز همچنان برمحورِ GDDR6X برای مدل‌های بالارده استوار خواهد بود و در مدل‌های میان‌رده و پایین‌تر هم از GDDR6 استفاده خواهد شد. در مدل پرچم‌دار NVIDIA GeForce RTX 4090 نیز همچنان از ۲۴ گیگابایت حافظه‌ی پرسرعت GDDR6X استفاده خواهد شد، ولی برای RTX 4080 احتمالا ۱۶ گیگابایت حافظه و برای RTX 4070 هم ۱۲ گیگابایت GDDR6X در نظر گرفته شده است. هنوز هیچ اخباری مبنی بر تولید یا استفاده از GDDR7 در نسل جدید منتشر نشده، بنابراین بعید است که در استفاده از انواع حافظه نسبت به آنچه که اکنون می‌دانیم تغییری ایجاد شود.

نظر شما در رابطه با نسل جدید کارت‌های گرافیکی جیفورس انویدیا چیسه؟ نظرات خود را با ما در میان بگذارید.