Gigabyte GeForce RTX 3060 Ti Gaming OC GPU Review - Ampere Architecture

Σελίδα 2 από 8: Ampere Architecture

 

 

 

Για την Ampere αρχιτεκτονική αναφερθήκαμε εκτενώς στην παλαιότερη παρουσίαση των RTX 30 Series της NVIDIA που μπορείτε να διαβάσετε εδώ – αλλά με την RTX 3060 Ti δημοσιεύουμε μερικά συμπληρωματικά στοιχεία. Το lineup περιλαμβάνει πλέον τέσσερις GPUs, με τις RTX 3060 Ti και RTX 3070 να μοιράζονται τον ίδιο πυρήνα με εμφανή διαφορά στον αριθμό των ενεργών CUDA cores.

 

ga102 diagramΟ μεγαλύτερος GA102 πυρήνας της NVIDIA και οι 10752 CUDA cores του. Σημειώνεται ότι η RTX 3090 διαθέτει 10496 CUDA cores, οπότε αυτό αφήνει ανοικτό το ενδεχόμενο για μια ισχυρότερη κάρτα γραφικών στο μέλλον. 

 

Οι shading cores που ακούνε στο όνομα CUDA Cores αλλάζουν και αποκτούν διπλάσιο FP32 processing για διεργασίες 32-bit floating point, που αποτελούν το σημαντικότερο μέρος των σημερινών graphics workloads. Στην γενιά των Turing η NVIDIA αναφέρει πως σε κάθε SM ενσωμάτωνε δύο data paths (όπως και στην Ampere), όμως μόνο το ένα ήταν σχεδιασμένο να τρέχει FP32 μαθηματικούς υπολογισμούς, ενώ το άλλο αναλάμβανε integer, όμως η απόφαση έφερε την NVIDIA σε ένα σταυροδρόμι με μια εύκολη επιλογή: Το 2ο datapath θα τρέχει τόσο FP32 workloads όσο και INT32, ανάλογα με την εφαρμογή και οι επιδόσεις σε FP16 θα παραμείνουν ίδιες με αυτές της Turing γενιάς. Οπότε με τον διπλασιασμό των FP32 μονάδων τα κέρδη κατά το gaming θα είναι σημαντικά.

Inside an SM

 

Οι 2ης γενιάς RT Cores έχουν πλέον καλύτερο έλεγχο της ουράς δεδομένων ενώ ο παραλληλισμός σε σχέση με την Turing αυξάνουν δραματικά τις επιδόσεις με το RTX On. Οι μονάδες επεξεργασίας διπλασιάζονται και πλέον το shading γίνεται παράλληλα με τον υπολογισμό των ακτίνων στη σκηνή. Είναι δηλαδή μια Async compute μέθοδος επεξεργασίας, όπου σε αντίθεση με τον ανταγωνισμό, εδώ διαθέτει αποκλειστικές μονάδες για τη κάθε εργασία.

2nd gen rt core

RTCore Ampere vs Turing

 

Οι 3ης γενιάς Tensor cores υποστηρίζουν πλέον αρκετά νέα data types για ταχύτερη εκτέλεση και αυξημένη αποδοτικότητα από την γενιά των Turing και είναι αυτές οι μονάδες που οδηγούν το AI κομμάτι των GPUs. Το διπλάσιο επίσης throughput των Tensor Cores βοηθάει στο NVIDIA DLSS για ‘AI αναλύσεις’ έως 8K, μεταξύ πολλών ακόμη λειτουργιών. Αυτοί οι πυρήνες μπορούν να προγραμματιστούν από την εφαρμογή που πιθανόν έχουμε γράψει, επιταχύνοντας workloads που ενσωματώνουν γραμμική άλγεβρα, που είναι η βάση του σύγχρονου AI. Αυτοί οι πυρήνες είναι υπεύθυνοι για την επιτάχυνση του feature DLSS, το οποίο έχει ήδη φτάσει στη 2η γενιά του και χάρη στο neural network των καρτών, μπορεί να βελτιώσει την ποιότητα και να εξάγει μια υψηλότερης ανάλυσης εικόνα, συγκρίσιμη με το αποτέλεσμα που λαμβάνουμε στην εγγενή ανάλυση. Είναι ένας τρόπος να τρέξουμε ένα παιχνίδι σε 4K τρέχοντάς το σε 1440p, για παράδειγμα, χωρίς να χάσουμε ευκρίνεια (σε πολλές περιπτώσεις χάνουμε πολύ μικρό ποσοστό ποιότητας), ενώ το σημαντικότερο, το framerate μας είναι υψηλότερο σε σύγκριση με το rendering σε πραγματική 4K ανάλυση.

ampere frames rt and tensor

 

Το τρίτης γενιάς NVLink μπαίνει στο προσκήνιο και συναντάται μόνο στην RTX 3090, όπου η NVIDIA σημειώνει το bandwidth των 112.5 GB/s μεταξύ δύο GPUs. Επιπλέον, τριπλές και τετραπλές κάρτες γραφικών δεν υποστηρίζονται σε αυτή τη γενιά, ωστόσο όσον αφορά πιο κρίσιμα workloads, κάποιες εφαρμογές ή/και benchmarks ενδέχεται να μπορούν να αξιοποιήσουν παραπάνω από μια GPUs για την επιτάχυνση υλικού. Μαζί με αυτό, το PCIe Gen 4 αυξάνει το bandwidth που μπορούν να μεταφέρουν οι κάρτες από και προς το PCI Express slot επιταχύνοντας τη μεταφορά δεδομένων και στο νέο πρότυπο RTX I/O για ταχύτατα loading times στα παιχνίδια, φορτώνοντας άμεσα τα assets χωρίς την χρήση του CPU που προσθέτει latency στη διαδικασία. 

Τα περιφερειακά υποσυστήματα που απαρτίζουν τις νέες Ampere κάρτες αναφέρονται και στις μνήμες όπου εδώ βλέπουμε την ύπαρξη των GDDR6X, στις RTX 3080 και RTX 3090 και μόνο. Αυτού του τύπου οι μνήμες αυξάνουν τις ταχύτητες μεταφοράς δεδομένων στα 19 Gbps (19.5Gbps στην RTX 3090), ενώ μέσω του 320-bit memory bus στην RTX 3080, το bandwidth διπλασιάζεται έναντι της RTX 2080 Super. Αυτό επιτυγχάνεται χάρη στο PAM4 signaling (Pulse-Amplitude Modulation 4) που επιτρέπει την αποστολή δύο bit σε κάθε clock edge και με το ειδικό encoding scheme το σήμα διαιρείται σε τέσσερα ξεχωριστά σήματα, καθένα από αυτά αποτελούμενο από 2-bit δεδομένων. Αυτή η έξυπνη τεχνική αυξάνει το bandwidth των μνημών στα 936GB/s στη μεγάλη GPU, μια αύξηση 52% σε σχέση με τον πυρήνα TU102 της RTX 2080 Ti. Η RTX 3070 εξακολουθεί και χρησιμοποιεί τον κλασικό τύπο GDDR6 που τρέχει στα 14Gbps για όλα τα μοντέλα με δυνατότητα υπερχρονισμού σε μικρά επίπεδα προς αύξηση των επιδόσεων. 

gddr6x signaling

 

Το RTX IO είναι σίγουρα ένα σημαντικό feature που δεν κάνει ακόμα αισθητή τη παρουσία του, όμως θα παίξει σημαντικό ρόλο στο gaming και στα μελλοντικά παιχνίδια που θα το υποστηρίξουν. Η NVIDIA βασιζόμενη στο DirectStorage API της Microsoft φέρνει ταχύτατους χρόνους φόρτωσης και στόχος της τεχνολογίας είναι η ενσωμάτωση και στις Turing κάρτες γραφικών, ενώ πρόκειται για μια τεχνική που στέκεται 'επάνω' στο DirectX 12 API που σημαίνει ότι διαθέτει κάποιες NVIDIA only μεθόδους για να επιτύχει το καλύτερο αποτέλεσμα. Το DirectStorage της Microsoft, ένα από τα APIs που θα δούμε στις νέες κονσόλες Xbox Series S/X και στις επερχόμενες GPUs της AMD και στόχος του είναι να αποδεσμεύσει αρκετά τον επεξεργαστή (CPU) από το επιπλέον φορτίο μιλώντας πιο άμεσα στη μνήμη της κάρτας γραφικών για δεδομένα που ανακαλούνται συχνά από το μέσο αποθήκευσης, είτε αυτό είναι SSD, είτε HDD. Με το συνεχώς αυξανόμενο μέγεθος των αρχείων στα παιχνίδια, τα σχετικά requests είναι πολυάριθμα και δημιουργούν πρόβλημα στους επεξεργαστές, κάτι που θέλουν να αποφύγουν οι game developers, όχι μόνο στο PC αλλά κυρίως στις κονσόλες, όπου η ιπποδύναμη είναι σαφέστερα - ακόμη και σήμερα - μικρότερη σε σχέση με ένα high end PC. Το feature προσφέρει lossless αποσυμπίεση των δεδομένων στη GPU ελαφραίνοντας έως και 20 φορές το φορτίο που θα είχε σε διαφορετική περίπτωση ο επεξεργαστής.

rtxio

Φεύγοντας αρκετά από τα της αρχιτεκτονικής, η NVIDIA αυξάνει τα gaming features στην Ampere με την είσοδο του NVIDIA Reflex, μιας τεχνικής για μείωση του input latency που εφαρμόζεται κυρίως σε competitive τίτλους, όπου το κάθε καρέ και το κάθε millisecond μετράνε. Επί της ουσίας το Reflex μειώνει δραματικά το latency συνδυάζοντας τις επιδόσεις της GPU μαζί με game optimizations για το εκάστοτε game. Για την πιο σωστή μέτρηση αυτού του latency η NVIDIA απέστειλε σε αρκετούς reviewers και το ειδικό latency analyzer, ένα 3D printed εργαλείο το οποίο μετράει αρκετά σωστά το διάστημα από το κλικ μέχρι την εμφάνιση της αντίδρασης στην οθόνη, για πιο ακριβή συμπεράσματα. 

reflex brief

 

NVIDIA Broadcast. Το συγκεκριμένο είναι μια σουίτα εφέ για τον streamer, αλλά και για όσους χρειάζονται μια ιδανική λύση για να βελτιώσουν την εικόνα και τον ήχο τους σε conferences και video calls, όπως επιτάσσει η εποχή της πανδημίας. Με τη βοήθεια του RTX, το Broadcast παρεμβαίνει στην webcam και το μικρόφωνό μας προσφέροντας τη δυνατότητα αλλαγής ή αφαίρεσης του background, της αλλαγής του με μια εικόνα της επιλογής μας, ενώ στο μικρόφωνο μειώνει δραματικά τους εξωτερικούς θορύβους του περιβάλλοντος. Όλες αυτές τις βελτιώσεις τις πραγματοποιεί αξιοποιώντας τους Tensor cores που υπάρχουν στις RTX κάρτες γραφικών χωρίς να υπάρχει επιπλέον load στην ουρά του rendering, για την πιο αποδοτική χρήση της GPU. Τέλος, η δυνατότητα εγκατάστασης Studio drivers υπάρχει και σε αυτή τη γενιά και έτσι μπορούμε να έχουμε ειδικά optimizations για δημοφιλείς εφαρμογές αρκετά γρήγορα και μερικές από αυτές περιλαμβάνουν: Rendering, Video editing και πολλές ακόμη που εντάσσονται στον χώρο του creativity. Ο τομέας όπου η NVIDIA εμφανίζεται ταχύτερη παραμένει αυτός των επαγγελματικών εφαρμογών, εκεί όπου υπάρχουν optimizations για το DaVinci Resolve της Blackmagic Design, το Blender και το Adobe Premiere Pro μεταξύ πολλών ακόμη.

 

nvidia broadcast app screenshot 001

 

Με το DLSS 2.0 η NVIDIA προσφέρει αυξημένη ποιότητα εικόνας και χρησιμοποιεί καλύτερες τεχνικές για την βελτίωσή της ενώ πλέον υποστηρίζεται από αρκετά παιχνίδια όπως το Control μετά από σχετικό update (DLSS 1 σε DLSS 2), το Call of Duty Modern Warfare και μερικά ακόμα, σε μια λίστα που μεγαλώνει ολοένα και περισσότερο. Επιπλέον έχει κάνει την εμφάνισή του σε παιχνίδια όπως το F1 2020, εκεί όπου η NVIDIA υπόσχεται μέχρι και 1.5x μεγαλύτερα framerates σε GPUs όπως η RTX 2060 Super σε όλες τις αναλύσεις, ενώ η παραπάνω GPU μπορεί να τρέξει και 4K με 60FPS αρκετά σταθερά, επηρεάζοντας ελαφρώς την ποιότητα της εικόνας. Σε games όπως το MechWarrior 5: Mercenaries η βελτίωση των FPS έρχεται χωρίς εμφανή μείωση της ποιότητας που σημαίνει ότι μπορούμε να πάρουμε αξιοπρεπή αποτελέσματα με καλύτερο framerate, ταυτόχρονα.

 

upresNGX

dlssresultf12020

dlssf12020 2

mechwarrior dlss

 

 

 

 

 

Testing Methodology
Σελίδα

high end, amd, gaming, gigabyte, performance, gpu, review, 4K Gaming, RTX 3060 Ti, 170hz, 3060 ti gaming oc, m27q gaming monitor, kvm monitor, qhd gaming

stavros

Members
2020-12-08T16:07:11Z

Με ray tracing δοκιμάστηκε ?

zinaclegg

Members
2021-03-25T03:09:05Z

πραγματικα φαινεται οτι καλυτερο η καρτα.

happy wheels

Διαβάστε περισσότερα στο Φόρουμ...