dpa-AFX Compact | EQS-News: WEKA maximiert die Token -Produktion bei geringeren Kosten pro Token auf NVIDIA BlueField-4 STX (deutsch)

WEKA maximiert die Token -Produktion bei geringeren Kosten pro Token auf NVIDIA BlueField-4 STX

^
EQS-News: WEKA / Schlagwort(e): Sonstiges/Produkteinführung
WEKA maximiert die Token -Produktion bei geringeren Kosten pro Token auf
NVIDIA BlueField-4 STX

16.03.2026 / 21:35 CET/CEST
Für den Inhalt der Mitteilung ist der Emittent / Herausgeber verantwortlich.

---------------------------------------------------------------------------

Die Integration von NeuralMesh und Augmented Memory Grid in NVIDIA STX
steigert die Token-Produktion um das 6,5-Fache bei gleicher GPU-Kapazität
und senkt die Kosten für Inferenzberechnungen in KI-gesteuerten Unternehmen
drastisch

SAN JOSE, Kalifornien und CAMPBELL, Kalifornien, 16. März 2026 /PRNewswire/
-- Von der GTC 2026: WEKA, auf KI-Speicher- und Speichersysteme
spezialisierte Unternehmen gab heute die Integration seiner
NeuralMesh(TM)-Software
in die NVIDIA STX-Referenzarchitektur bekannt. Die bahnbrechende
Speichererweiterungstechnologie Augmented Memory Grid(TM) von WEKA, die auf
NeuralMesh läuft, wird NVIDIA STX unterstützen, um kontextbezogenen Speicher
mit hohem Durchsatz für agentenbasierte KI-Fabriken bereitzustellen und so
das Schlussfolgern mit langem Kontext über Sitzungen, Tools und Aufgaben
hinweg nahtlos zu ermöglichen. Durch den Einsatz von NVIDIA Vera Rubin
NVL72, NVIDIA BlueField-4und NVIDIA Spectrum-X Ethernet wird die auf NVIDIA
STX basierende NeuralMesh-Lösung eine geschätzte Steigerung der Token-Rate
pro Sekunde für den Kontextspeicher um das 4- bis 10-fache erzielen und
gleichzeitig einen Lese- und Schreibdurchsatz von mindestens 320 GB bzw. 150
GB pro Sekunde für KI-Workloads unterstützen - mehr als doppelt so viel wie
bei herkömmlichen KI-Speicherplattformen.

WEKA and NVIDIA unlock cost-efficient AI inference at scale

Lösung des Poblems der Inferenzkosten durch eine gemeinsame
KV-Cache-Infrastruktur
Die Skalierung agentischer Systeme, insbesondere für Anwendungen im Bereich
der Softwareentwicklung, macht eine harte Realität deutlich: Die
Wirtschaftlichkeit heutiger KI-Systeme entscheidet sich auf der Ebene der
Speicherinfrastruktur. Jede groß angelegte Inferenzflotte stößt an die
Speichergrenze: Der begrenzte High-Bandwidth-Memory (HBM) auf der GPU ist
schnell erschöpft, der Key-Value (KV)-Cache wird geleert, der Kontext geht
verloren und das System ist gezwungen, bereits abgeschlossene Arbeit zu
wiederholen. Diese architektonische Ineffizienz lässt die Inferenzkosten in
die Höhe schnellen. Die Lösung ist eine gemeinsame KV-Cache-Infrastruktur,
die den Kontext über Agenten, Benutzer und Sitzungen hinweg
aufrechterhält.truktur entschieden. Sie eliminiert redundante Berechnungen,
sichert den Token-Durchsatz und gewährleistet eine vorhersehbare Leistung.
Ohne eine gemeinsame KV-Cache-Infrastruktur wird jede Zunahme an
gleichzeitigen Benutzern und Agenten zu einer Belastung - die Kosten
steigen, die Benutzererfahrung verschlechtert sich, und der Betrieb der
Inferenzflotte wird umso schwieriger, je größer sie wird. Mit STX für den
Kontext-Speicher stellt NVIDIA einen Entwurf vor, um diese zentralen
Inferenz-Engpässe zu beheben.

Speicherung im Kontext-Speicher: Die Grundlage für agentenbasierte
KI-Fabriken
Mit gemeinsam entwickelten WEKA-Lösungen auf Basis der NVIDIA
STX-Architektur können KI-Clouds, Unternehmen und Entwickler von KI-Modellen
die Infrastruktur bereitstellen, die sie benötigen, um GPUs mit maximaler
Produktivität zu betreiben, eine hohe Token-Produktionsrate
aufrechtzuerhalten und groß angelegte Inferenz energie- und
kosteneffizienter zu gestalten.

Führende KI-Innovatoren und Cloud-Anbieter wie Firmustransformieren bereits
ihre Inferenz-Ökonomie mit Augmented Memory Grid auf NeuralMesh.

"KI in der realen Welt läuft nicht im Labor - sie unterliegt
Leistungsbeschränkungen, Kühlungsgrenzen und einer unerbittlichen
Arbeitslast. Firmus ist für genau das ausgelegt. In Kombination mit der
NVIDIA-KI-Infrastruktur liefert das WEKA Augmented Memory Grid bis zu
6,5-mal mehr Token pro Sekunde und eine 4-mal schnellere TTFT im großen
Maßstab, was beweist, dass wir mit dem gleichen GPU-Platzbedarf mehr
Leistung erzielen können. Mit NeuralMesh und Augmented Memory Grid,
integriert in unsere NVIDIA-konforme AI Factory und die NVIDIA
STX-Referenzarchitektur, werden wir in der Lage sein, das schnellste
Kontext-Speichernetzwerk für vorhersehbare und effiziente Inferenz im großen
Maßstab bereitzustellen", sagte Daniel Kearney, Chief Technology Officer bei
Firmus.

NeuralMesh und NVIDIA STX: Speziell für agentenbasierte KI entwickelt:
NeuralMesh ist das intelligente, adaptive Speichersystem von WEKA, das auf
über 170 Patenten basiert. Es wird auf der
Full-Stack-STX-Referenzarchitektur laufen und die Speicherlösung der
nächsten Generation bereitstellen, die Unternehmen benötigen, um
hochleistungsfähige KI-Datendienste zu standardisieren und die Ergebnisse
agentischer KI zu beschleunigen. Das Augmented Memory Grid von WEKA ist eine
speziell entwickelte Speichererweiterungsschicht, die den KV-Cache außerhalb
des GPU-Speichers bündelt und dort dauerhaft speichert, wodurch lang
andauernde Sitzungen stabil bleiben und die Parallelität hoch bleibt, auch
wenn die Inferenz-Workloads zunehmen. Das Augmented Memory Grid, das
erstmals auf der GTC 2025 vorgestellt wurde und heute für NeuralMesh-Kunden
allgemein verfügbar ist, wurde gemeinsam mit Supermicro auf NVIDIA Grace-
CPUs und BlueField-3-DPUs validiert und bietet zahlreiche Vorteile, die die
Wirtschaftlichkeit von KI verbessern, darunter:

* Schnellere Benutzererfahrungen: Das Augmented Memory Grid auf NeuralMesh
sorgt für eine 4- bis 20-fache Verbesserung der
"Time-to-First-Token"-Zeit und hält KI-Agenten und -Anwendungen unter
realer Last reaktionsfähig.

* Mehr Umsatz mit derselben Hardware: 6,5-mal mehr Token pro GPU
bereitstellen - ohne zusätzliche Infrastruktur.

* Nachhaltige Leistung bei Skalierung: Augmented Memory Grid sorgt für
hohe KV-Cache-Trefferraten, selbst wenn Sessions, Agenten und
Kontextfenster wachsen - und verhindert so den Leistungsabfall, der bei
reinen DRAM-Architekturen auftritt.

* GPU-native Effizienz: Die BlueField-4-Integration entlastet die CPU vom
Speicherdatenpfad, hält die GPUs voll produktiv und beseitigt
I/O-Engpässe.

"Mit den Fortschritten bei den Coding-LLMs erleben wir eine beispiellose
Verbreitung von Anwendungsfällen für Agentic AI im Software-Engineering, wo
die Produktivität um das 100- bis 1000-Fache steigt. Da Coding-Assistenten
wiederholt Aufrufe an weitgehend unveränderte Codebasen und Prompts senden,
nutzt das Augmented Memory Grid von WEKA zwischengespeicherten Kontext
wieder, anstatt redundantes Vorfüllen zu erzwingen - selbst wenn
Kontextfenster auf unglaubliche Längen anwachsen. Dies sorgt für eine
deutliche Verkürzung der Reaktionszeiten und erhöht die Anzahl der
gleichzeitigen Nutzer, die auf derselben Infrastruktur laufen, erheblich",
sagte Liran Zvibel, Mitbegründer und CEO von WEKA. "WEKA hat diesen Bedarf
an Kontextspeicher bereits vor über einem Jahr erkannt und Augmented Memory
Grid auf der GTC 2025 vorgestellt. Nun eröffnet NVIDIA STX Unternehmen die
Möglichkeit, ihre Speicher- und Speichererweiterungsinfrastruktur auf der
hochmodernen NVIDIA Vera Rubin-Architektur zu betreiben, einschließlich
NVIDIA BlueField-4 und NVIDIA Spectrum-X Ethernet. Der Einsatz von Augmented
Memory Grid auf NeuralMesh für NVIDIA STX liefert extreme Leistung und
Effizienz, was sich direkt in einer bahnbrechenden Wirtschaftlichkeit der KI
niederschlägt."

Verfügbarkeit

Das Augmented Memory Grid von WEKA ist ab heute mit NeuralMesh kommerziell
verfügbar.

Für Unternehmen, die sich heute nicht mit der Speicherproblematik befassen,
wird es morgen schwerer und teurer sein, ihre Kapazitäten zu erweitern. Mit
zunehmendem Arbeitsaufkommen und immer größeren Kontextfenstern sehen sich
reine DRAM-Architekturen mit einem sich verschärfenden Kostenproblem
konfrontiert: Jeder zusätzliche gleichzeitige Nutzer oder jede zusätzliche
Sitzung erhöht den Aufwand für Neuberechnungen, die Leerlaufzeit der GPU und
die Betriebskosten. Unternehmen, die bereits jetzt auf einen persistenten
KV-Cache setzen, werden einen strukturellen Kosten- und Leistungsvorteil
gegenüber denen haben, die damit warten.

Weitere Informationen über NeuralMesh finden Sie im Internet:
weka.io/NeuralMesh.
Weitere Informationen über Augmented Memory Grid finden Sie im Internet:
weka.io/augmented-memory-grid.

Unternehmen können mehr erfahren unter weka.io/nvidia oder WEKA auf der GTC
2026 am Stand Nr. 1034 besuchen.

Informationen zu WEKA
WEKA verändert die Art und Weise, wie Unternehmen KI-Workflows erstellen,
ausführen und skalieren, mit NeuralMesh(TM) by WEKA®, seinem intelligenten,
adaptiven Mesh-Speichersystem. Im Gegensatz zu herkömmlichen
Dateninfrastrukturen, die mit zunehmender Arbeitslast langsamer und
anfälliger werden, wird NeuralMesh bei Skalierung immer schneller,
leistungsfähiger und effizienter. Es passt sich dynamisch an KI-Umgebungen
an und bietet so eine flexible Grundlage für Innovationen im Bereich der
Unternehmens-KI und der agentenbasierten KI. NeuralMesh genießt das
Vertrauen von 30 % der Fortune-50-Unternehmen und unterstützt führende
Unternehmen, KI-Cloud-Anbieter und KI-Entwickler dabei, GPUs zu optimieren,
KI schneller zu skalieren und Innovationskosten zu senken. Erfahren Sie mehr
unter www.weka.io oder verbinden Sie sich mit uns auf LinkedIn und X.

WEKA und das W-Logo sind eingetragene Marken von WekaIO, Inc. Andere hier
genannte Markennamen können Marken der jeweiligen Eigentümer sein.

WEKA: The Foundation for Enterprise AI

Foto - https://mma.prnewswire.com/media/2934399/WEKA_and_NVIDIA.jpg
Logo - https://mma.prnewswire.com/media/1796062/WEKA_v1_Logo_new.jpg

Cision View original content:
https://www.prnewswire.com/de/pressemitteilungen/weka-maximiert-die-token--produktion-bei-geringeren-kosten-pro-token-auf-nvidia-bluefield-4-stx-302714741.html

---------------------------------------------------------------------------

16.03.2026 CET/CEST Veröffentlichung einer Corporate News/Finanznachricht,
übermittelt durch EQS News - ein Service der EQS Group.
Für den Inhalt der Mitteilung ist der Emittent / Herausgeber verantwortlich.

Die EQS Distributionsservices umfassen gesetzliche Meldepflichten, Corporate
News/Finanznachrichten und Pressemitteilungen.
Originalinhalt anzeigen:
https://eqs-news.com/?origin_id=a5d1044b-2177-11f1-8534-027f3c38b923&lang=de

---------------------------------------------------------------------------

2292282 16.03.2026 CET/CEST

°

EQS-News: WEKA maximiert die Token -Produktion bei geringeren Kosten pro Token auf NVIDIA BlueField-4 STX (deutsch)

Weitere Artikel in Kolumnen

Weitere Artikel in Ad hoc-Mitteilungen

Weitere Artikel in Ad hoc-Dienstleister

Weitere Artikel in Pflichtmitteilungen