Nvidias Vice President zu Volta: Transferrate wichtiger als mehr Speicher

Volta ist die erste GPU, die sich für HPC- und Deep-Learning-Anwendungen gleichermaßen eignet, sagt Nvidias Vice President Ian Buck.

Nvidia hatte auf der GPU Technology Conference die künftige GPU-Generation Volta vorgestellt, die für Anwendungen im Bereich der Künstlichen Intelligenz (A.I./Deep Learning/Machine Learning) optimiert ist. Wir hatten auf der GTC die Möglichkeit, kurz mit Nvidias Vice President Ian Buck zu sprechen, der den Bereich Accelerated Computing verantwortet.

Ian Buck: Volta ist die erste GPU, die sich gleichermaßen gut für High-Performance-Computing- und für AI-Anwendungen eignet; und dabei sowohl fürs Trainieren also auch fürs Inferencing neuronaler Netzwerke. Mittlerweile gibt es eine Vielzahl von GPU-beschleunigten HPC-Anwendungen, wir haben derzeit mehr als 450 auf dem Schirm.

Die Volta-GPU erreicht 7,5 TFlops an FP64-Rechenleistung für HPC und dank der neuen Tensor-Kerne bis zu 120 TFlops bei Deep Learning. Viele unserer Supercomputing-Kunden interessieren sich für eine Möglichkeit, Vorteile aus beiden Faktoren zu ziehen: Etwa physikalische Simulationen ablaufen zu lassen und sie mit künstlicher Intelligenz weiter zu beschleunigen – oder AI gar zum Analysieren der Ergebnisse zu verwenden.

Die Tensor-Kerne gehören zu der wichtigsten Neuerung im Volta-Design. Unabhängig davon scheint das Volta-Design im Vergleich mit Pascal altvertraut.

Volta gründet auf einer neuen Architektur. Wir haben bereits in die GPU-Architekturen Maxwell und Pascal Optimierungen für Deep-Learning-Berechnungen eingebracht. Pascal hatte wesentlich mehr FP16-Rechenleistung für das Inferencing neuronaler Netzwerke. Doch Volta bietet eine im Vergleich zu Pascal komplett neue Architektur.

Der Speicherausbau hat sich bei der Volta-Rechenkarte Tesla V100 im Vergleich zu vorherigen Generationen nicht erhöht – der HPC-Markt giert jedoch nach immer mehr Speicher. Wie passt das zusammen?

Klar, Speichergröße ist wichtig, doch auch die Transferrate. Wenn Sie die Rechenleistung erhöhen, müssen Sie auch die Transferrate erhöhen – deswegen ist Stacked-Speicher so bedeutend für HPC- und AI-Anwendungen. Ältere GPUs nutzten noch GDDR-Speicher; wir führten High Bandwidth Memory 2 mit Pascal ein. Auf dem Volta-Interposer sitzen vier HBM2-Stacks. Daten müssen zwischen GPU und Speicher nur noch wenige Milimeter zurücklegen was die Leistungsaufnahme auf ein Achtel reduziert und die Transferrate auf 900 GByte/s erhöht.

Die Speichergröße haben wir bei 16 GByte belassen, da unsere Analysen zum Training und Inferencing zeigten, dass die Größe in Kombination mit der hohen Transferrate ausreicht, um die GPU dauerhaft auslasten zu können.

Was lässt sich mit der höheren Rechenleistung bewerkstelligen?

Die höhere Rechenleistung erlaubt es Forschern, mit größeren neuronalen Netzen arbeiten. Das könnte zu neuen Diensten führen, die so bisher nicht möglich waren.

Im Bereich der Bild- und Spracherkennung gibt es bereits K.I.-Anwendungen mit übermenschlichen Fähigkeiten. In der Echtzeit-Sprachübersetzung steckt aber noch viel Potenzial – solche Netzwerke sind jedoch äußerst komplex: Sie sind rund 10 Mal größer als Bilderkennungs-Netzwerke und brauchen zum Training sehr viel Zeit. Volta kann für solche Netzwerke zumindest das Inferencing in Echtzeit stemmen – ein typischer CPU-Server wäre damit überfordert.

Quelle: heise.de/