SiFive wzmacnia sztuczną inteligencję dzięki procesorom X160, X180, X280 Gen 2, X390 Gen 2 i XM Gen 2

  • Nowa rodzina SiFive Intelligence Gen 2: X160/X180 do przetwarzania brzegowego, X280/X390 do zaawansowanego wektoryzacji i XM z silnikiem macierzowym.
  • Obsługa formatów RVA23, RVV 1.0 i BF16/MXFP8/MXFP4; interfejsy VCIX/SSCI do podłączania koprocesorów z bezpośrednim dostępem do rejestrów.
  • Płyta X390 Gen 2 skaluje się do 4 spójnych rdzeni z wydajnością do 1 TB/s; XM Gen 2 osiąga 64 TFLOPS FP8 na klaster i przekracza 4 PFLOPS w trybie wieloklastrowym.
  • Własności intelektualne są już licencjonowane; pierwsze układy scalone na nich mają zostać wyprodukowane w drugim kwartale 2026 roku.

Rodzina SiFive Intelligence Gen 2

Nowa partia adresów IP z SiFive Przybywa z mocną podstawą i powołaniem do objęcia wszystkiego: od IoT i robotyka do serca centra danychFirma prezentuje drugą generację rodziny Intelligence, która wyróżnia się pięcioma kluczowymi elementami: X160 Gen 2, X180 Gen 2, X280 Gen 2, X390 Gen 2 i XM Gen 2, wszystkie oparte na architekturze RISC-V i skoncentrowane na nowoczesnych obciążeniach AI.

Nie jest przypadkiem, że ta aktualizacja została ogłoszona na forum referencyjnym, takim jak Szczyt AI Infra:Rynek dąży do rozwiązań bardziej konfigurowalnych, skalowalnych i wydajnych, a SiFive reaguje na to, integrując silniki skalarne, wektorowe i macierzowe w ramach jednej strategii. Ponadto firma dąży do skrócenia czasu i kosztów projektowania dzięki dobrze sprzężonym blokom IP i nowym interfejsy koprocesora zoptymalizowane w celu przyspieszenia rozwoju.

Co wnosi druga generacja SiFive Intelligence

W tej odsłonie SiFive udoskonala swoją formułę, łącząc elastyczność i wydajność na wat. Rodzina Intelligence Gen 2 konsoliduje heterogeniczne podejście obliczeniowe, które integruje wydajne rdzenie skalarne z Wektory RVV 1.0 a w przypadku XM silnik matryca własne, wszystko ze strategią pamięci zaprojektowaną w celu ograniczenia przepustowości i redukcji wąskich gardeł.

Firma podtrzymuje swoją filozofię projektowania Modułowa i dodaje dwie ścieżki sprzęgające akceleratory: rozszerzenie interfejsu koprocesora wektorowego (VCIX) i interfejs koprocesora skalarnego (SSCI). Interfejsy te umożliwiają akceleratorom bezpośredni dostęp Rejestry procesora, upraszczając oprogramowanie, zmniejszając opóźnienia i zwiększając efektywność przetwarzania danych podczas integracji zewnętrznych koprocesorów lub specjalistycznych silników.

W obliczu prognoz, które według Deloitte, przewidujemy wzrost 20% obciążeń AI we wszystkich dziedzinach technologicznych i do 78% w zakresie przetwarzania brzegowegoRuch SiFive ma sens. Celem jest oferowanie gotowych do licencji części, które umożliwią producentom OEM i dostawcom usług chmurowych budowę Platformy sztucznej inteligencji modułowe i przyszłościowe.

Oprócz sprzętu firma podejmuje ważny krok w ekosystemie oprogramowania: aby przyspieszyć wprowadzanie produktów na rynek, SiFive udostępnianie jako oprogramowanie open source Bibliotekę jądra SiFive. Ta inicjatywa uzupełnia projekt interfejsów VCIX/SSCI i ma na celu rozwój Stosy AI szybciej i taniej.

X160 i X180 Gen 2: wydajność dla Edge i IoT

Nowe X160 Gen 2 (32 bity) i X180 Gen 2 (64-bitowe) są przeznaczone do scenariuszy z ograniczoną mocą i przestrzenią, takich jak Urządzenia IoT, drony y robotyka autonomicznaObsługują 128-bitowe rejestry wektorowe i 64-bitową ścieżkę danych, co pozwala im na wydajną pracę. formaty liczb popularne w sztucznej inteligencji, takie jak INT8 i BF16.

Pod względem skalowania oba można podzielić na: klastry do czterech rdzeni, osiągając bardzo atrakcyjną równowagę między wydajnością a zużyciem energii. Takie podejście pozwala na dostosowanie mocy do każdego zastosowania bez poświęcania efektywność energetyczna tego wymaga krawędź.

Fakt, że integrują 128-bitowe wektory w tym „lekkim” zakresie, ujawnia intencję SiFive: przeprowadzenie obliczeń Naprawdę użyteczna sztuczna inteligencja do czujników, kontrolerów i robotów działających na bateriach lub przy ograniczonym budżecie termicznym, bez obciążania kosztów lub powierzchnia krzemowa.

Do zastosowań wymagających przetwarzania wizji maszynowej, klasyfikacji sygnałów lub inteligentny monitoringte rdzenie oferują dokładnie odpowiedni zestaw możliwości wektorowych z dużą (64-bitową) ścieżką danych i obsługą typy o zmniejszonej precyzji które mają znaczenie w wnioskowaniu.

X280 Gen 2: Dojrzała, zoptymalizowana pod kątem krawędzi wektoryzacja

seria X280 pochodzi już z pierwszej generacji, która została bardzo dobrze wdrożona w dziedzinie sztucznej inteligencji/uczenia maszynowego, a przegląd X280 Gen 2 podwaja się na krawędzi z mikroarchitekturą 8 etapów, podwójna emisja, w kolejności i superskalarne. Ten rdzeń jest wielordzeniowy i dostosowany do obliczeń AI/ML na brzegu sieci z szerokimi rozszerzeniami wektorowymi, zaprojektowanymi do RVV 1.0 i ich własne Rozszerzenia inteligencji SiFive.

Konkretnie, X280 Gen 2 oferuje przetwarzanie wektorowe z 512-bitowy VLEN i 256-bitowy DLEN, konfiguracja umożliwiająca efektywną paralelizację typowych operacji wizyjnych, dźwiękowych i lekkich modeli. Ta szerokość wektora, wraz z rozszerzeniami specyficznymi dla SiFive, przyspiesza krytyczne jądra które określają wydajność rzeczywistych aplikacji.

Kolejną kluczową zmianą jest uproszczenie hierarchii pamięci: warstwa pamięci została usunięta. Pamięć podręczna L3 na korzyść Współdzielony L2 do 1 MB na klaster. Dzięki tej decyzji SiFive dąży do zmniejszenia opóźnień i złożoności, stawiając na większą i bardziej elastyczną pamięć podręczną L2, która przynosi szczególne korzyści obciążenia wnioskowania ze średnimi seriami roboczymi.

Na poziomie ISA nowa przesyłka przyjmuje RVA23, która wprowadza natywne wsparcie dla nowych formatów w sztucznej inteligencji, takich jak BF16, MXFP8 y MXFP4Ten ostatni został niedawno wybrany przez OpenAI dla dystrybucji modeli o otwartej wadze, co podkreśla znaczenie oferowania kompaktowych typów danych o dobrej wierności wnioskowanie na dużą skalę.

Dzięki możliwości obsługi wielu rdzeni i orientacji brzegowej procesor X280 Gen 2 idealnie wpasowuje się w rozwiązania mobilne, infrastruktura i motoryzacyjnym, gdzie jego pierwsza generacja już odniosła sukces. Dla tych, którzy muszą połączyć niskie opóźnienia z ograniczonym zużyciem energii, stanowi bardzo solidną bazę. aplikacje wbudowane IA.

X390 Gen 2: Kiedy ściskanie każdego wektora ma znaczenie

W przypadku scenariuszy wymagających większej siły wektorowej, X390 Gen 2 Stanowi on znaczący krok naprzód w stosunku do pierwotnego X280: dzięki pojedynczemu rdzeniowi zapewnia już 4× poprawa w obliczeniach wektorowych dzięki podwojeniu długości wektora i dodaniu dwie wektorowe jednostki ALU pracując równolegle.

Architektonicznie jest to również projekt 8 etapów, podwójna emisja, w kolejności i superskalarna, ale tutaj są one włączone dwie jednostki wektorowe z 1024-bitowym VLEN i 512-bitowym DLEN. Rezultatem jest platforma, która znacząco przyspiesza intensywne operacje w szerokość wektora, otwierając drzwi do bardziej wymagających modeli i jąder.

Płyta główna X390 Gen 2 jest skalowalna do spójne kompleksy 4-jądrowei opcjonalnie może zawierać interfejs VCIX Aby ściśle łączyć zaprojektowane przez klienta akceleratory AI lub inne koprocesory. Ta bliskość zmniejsza obciążenie komunikacyjne i ułatwia integrację. silniki zewnętrzne bez zbędnych „opłat” programowych.

W konfiguracjach czterordzeniowych SiFive mówi o osiągnięciu do 1 TB/s efektywnej przepustowości, co czyni z płyty X390 Gen 2 idealnego kandydata do pełnienia funkcji Jednostka sterująca przyspieszeniem (ACU) aby działać jako autonomiczny silnik AI. Ta wszechstronność pozwala na budowę wszystkiego, od hybrydowych stosów akceleracyjnych po czyste rurociągi sztucznej inteligencji na RISC‑V.

Nie jest przypadkiem, że konstrukcje X280 i X390 znalazły zastosowanie w dużych projektach technologicznych: można je już było zobaczyć w aplikacjach takich firm jak Google o swoich TPUgdzie symbioza między kontrolą, przetwarzaniem wstępnym/końcowym i twardym przyspieszeniem jest kluczowa dla wydajności produkcja.

XM Gen 2: blok macierzy skalowalny do centrum danych

seria XM Gen 2 reprezentuje „blok tłuszczu” dla lekkich obciążeń treningowych i wnioskowania na dużą skalę: integra Czterordzeniowy procesor X390 Gen 2 obok silnika obliczenia macierzowe Opracowane przez SiFive. Ta kombinacja umożliwia wysoce wydajne przetwarzanie mieszane skalarno-wektorowo-macierzowe przy użyciu pamięci.

Każdy klaster XM Gen 2 może dostarczyć do 64 TFLOPS w FP8 przy częstotliwości 2 GHz, a projekt jest przeznaczony do układania w stosy w konfiguracjach wieloklastrowy które razem przekraczają 4 PFLOPSDzięki modułowemu podejściu można łatwo tworzyć niestandardowe akceleratory centra danych o różnym profilu zużycia i wydajności.

SiFive podkreśla również, że XM Gen 2 jest zdecydowanie dostrojony do LLM-ów i podtrzymuje tradycję firmy w zakresie wydajności na wat. Ścisła integracja trzech domen obliczeniowych (skalarnej, wektorowej i macierzowej) pozwala na wykorzystanie przepustowość pamięci bardzo wydajne i minimalizują konieczność powtarzania kopii i przenoszenia danych.

Dla zespołów, które potrzebują fundamentu, na którym można budować niestandardowe akceleratory, XM Gen 2 działa jako plan Gotowy do licencjonowania: bloki X390 Gen 2 zapewniają wydajne wektorowanie i kontrolę, podczas gdy silnik macierzowy skaluje przepustowość tam, gdzie jest to potrzebne Gęstość MAC.

Interfejsy VCIX i SSCI: przyspieszenie bez tarcia

Przybycie VCIX (Rozszerzenie interfejsu koprocesora wektorowego) i SSCI (Interfejs koprocesora skalarnego) to jeden z wyróżników tej generacji. Oba interfejsy umożliwiają akceleratorom i koprocesorom bezpośredni dostęp do Rejestry procesora, co zmniejsza stos oprogramowania pośredniczącego, obniża opóźnienia i poprawia ogólne wykorzystanie podsystem pamięci.

W praktyce oznacza to krótszy czas klejenia i więcej użytecznego czasu obliczeniowego: zespoły mogą dołączać akceleratory wektorowe lub specjalistyczne bez konieczności ponownego wyważania otwartych drzwi, stabilne protokoły i zoptymalizowaną ścieżkę danych. W połączeniu z otwarciem Biblioteka jądra SiFive, tarcie w osiąganiu funkcjonalnych prototypów znacząco spada.

W przypadku obciążeń z fazami wstępnego przetwarzania, planowania i przetwarzania końcowego (np. rurociągi wizja i wnioskowanie), to bezpośrednie połączenie z rejestrami znacznie upraszcza orkiestrację. Rdzenie RISC-V mogą precyzyjnie sterować przepływem, delegując „ciężką pracę” koprocesory które działają z najniższą możliwą karą.

Wdrożenie RVA23 i obsługa nowych formatów

SiFive dostosowuje swoje IP do specyfikacji RVA23, klucz do przyszłości oprogramowania RISC-V zorientowanego na sztuczną inteligencję. Ten krok umożliwia obsługę takich typów danych, jak BF16, MXFP8 y MXFP4, coś szczególnie cennego, gdy rynek zmierza w kierunku mieszane precyzje i dynamika.

Wsparcie MXFP4 nie jest kaprysem: zostało wybrane przez OpenAI do dystrybucji modeli o otwartej wadze, dzięki czemu bezpośrednie przyspieszenie do tego formatu zmniejsza liczbę konwersji i wąskie gardła we współczesnych wdrożeniach. W wnioskowaniu na dużą skalę liczy się każdy cykl i każdy bajt.

zgodność z RVV 1.0 na X280 i rozszerzenie VLEN/DLEN na X390 zapewniają, że biblioteki, kompilatory i Ramy może łatwo zmieścić sprzęt. Przyspiesza to adopcję w ekosystemach, w których cykle walidacji i konserwacji oprogramowania są zazwyczaj najkrótsze. kosztowny.

Wydajność, pamięć i praktyczna skalowalność

Przekrojową zaletą rodziny Intelligence Gen 2 jest sposób, w jaki zarządza przepustowość i ruch danych. Rekonfiguracja pamięci podręcznej w X280 Gen 2 (żegnaj L3, witaj współdzielony L2 do 1 MB) i połączenie Podwójne wektorowe jednostki ALU W płycie X390 Gen 2 umożliwiają one utrzymanie wysokich wartości bez popadania w przedwczesne nasycenie.

Dane do 1 TB / s W czterech konfiguracjach X390 Gen 2 dobrze to ilustruje ambicje projektowe: nie wystarczy mieć dużo FLOPS-ów, jeśli nie są one zasilane wydajnie. W XM Gen 2 integracja macierzowo-wektorowa i topologia wieloklastrowa wzmacniają tę ideę, minimalizując liczbę przeskoków i kopie pośrednie.

Dla zespołów inżynieryjnych oznacza to rozwiązania, które skalują się „czysto”: można zacząć od małe skupiska dla POC i rozwijać się w kierunku wdrożeń wieloklastrowych bez konieczności ponownego przemyślenia całej architektury danych i spójność.

Przykłady zastosowań: od czujników do centrów danych

Na krawędzi X160/X180 Gen 2 umożliwia zastosowanie sztucznej inteligencji inteligentne czujniki, sterowanie lotem dronów i robotów mobilnych, gdzie budżety mocy i koszty jednostkowe mają kluczowe znaczenie. Obsługa INT8 i BF16 wraz ze 128-bitowymi rejestrami wektorowymi przyspiesza sploty, filtrów i jąder wizji o dużej wydajności.

Krok wyżej, X280 Gen 2 pasuje do bram i systemy wbudowane które wymagają większej gęstości wektorów, czy to w przypadku analiz w czasie rzeczywistym, wstępnego przetwarzania danych w sieciach 5G/6G, czy zaawansowanych funkcji w przemyśle motoryzacyjnym. Koncentruje się na RVV 1.0 a współdzielona pamięć podręczna L2 otwiera drogę do potoków wnioskowania o niskim opóźnieniu.

W zakresie wysokiej wydajności X390 Gen 2 nadaje się do pełnienia funkcji mózgu akceleratory zewnętrzne (ACU) lub bezpośrednio jako samodzielny silnik wektorowy, z zaletą jasnej ścieżki dodawania koprocesorów za pośrednictwem VCIXUłatwia to tworzenie rozwiązań hybrydowych, w których kontrola i intensywne obliczenia współistnieją w bardziej eficiente.

Wreszcie XM Gen 2 to wisienka na torcie w przypadku obciążeń na dużą skalę, gdzie TFLOPY na wat i łatwość skalowania. Będąc „dopracowanym” dla LLM, jest szczególnie atrakcyjny w przypadku wnioskowania na dużych modelach i w niektórych fazach lekki trening lub dostrajania w centrach danych.

Dostępność i plan działania

Firma SiFive potwierdziła, że ​​wszystkie te adresy IP są już dostępny w celu uzyskania licencji, co umożliwi partnerom natychmiastowe rozpoczęcie integracji. Jeśli chodzi o produkty komercyjne, pierwsze układy oparte na tych IP spodziewane są w drugi kwartał 2026 roku, rozsądny horyzont dla złożonych projektów z certyfikaty i wyczerpującej walidacji.

To okno czasowe pasuje do przewidywanego wzrostu popytu na urządzenia krawędziowe i centrum danychi daje zespołom przestrzeń do rozwijania swoich stosów oprogramowania poprzez budowanie na nich Biblioteka jądra SiFive i w standaryzacji interfejsów proponowanych przez markę.

Podsumowanie specyfikacji i kluczowych cech

Aby umieścić każdy element na swoim miejscu, warto przypomnieć sobie najbardziej charakterystyczne cechy rodziny. X160/X180 Gen 2 jest skierowany do niskie zużycie z umiarkowanym wektorowaniem; X280 Gen 2 wzmacnia przewagę dzięki RVV 1.0 i współdzielonemu L2; X390 Gen 2 zwiększa szerokość wektora i równoległość; a XM Gen 2 dodaje własny silnik macierzowy przeznaczony do LLM i skalowania wieloklastrowego.

  • X160/X180 Generacja 2: 32/64-bitowe, 128-bitowe rejestry wektorowe, 64-bitowa ścieżka danych, obsługa INT8 i BF16, klastry po 4, skupienie na IoT/robotyce wydajność maksymalny.
  • X280 Gen 2: 8-etapowy, podwójny, w kolejności, superskalarny; VLEN 512/DLEN 256; RVV 1.0 + rozszerzenia inteligencji SiFive; hierarchia z Współdzielony L2 do 1 MB na klaster.
  • X390 Gen 2: 8-etapowy, dwuetapowy, w kolejności, superskalarny; podwójna wektorowa jednostka ALU; VLEN 1024/DLEN 512; skalowalny do 4 spójne rdzenie; Opcjonalny VCIX; do 1 TB/s w konfiguracji 4-rdzeniowej.
  • XM Gen 2:4 × X390 Gen 2 + silnik macierzy SiFive; do 64 TFLOPS FP8 przy 2 GHz na klaster; skalowalność powyżej 4 PFLOPS w trybie wieloklastrowym; wysoce dostrojony do LLM i wysokiej wydajności na wat.

Dlaczego to ma teraz znaczenie: oprogramowanie, standardy i ekosystem

Zapowiedzi sprzętowe są istotne, gdy towarzyszą im: solidne oprogramowanie i standardów. Przyjęcie RVA23, jawne wsparcie dla formatów takich jak MXFP8/MXFP4/BF16 i wydanie Biblioteka jądra SiFive Popierają tę propozycję, aby biblioteki i frameworki mogły z niej korzystać bez przeszkód.

Zaangażowanie w przejrzyste interfejsy (VCIX i SSCI) zmniejsza również „czynnik ryzyka” dla tych, którzy planują integrację własne akceleratoryW czasach, w których różnicowanie jest napędzane przez specyficzne jądra i zastrzeżone modele, posiadanie czystej ścieżki do rekordów i ścieżki danych niskie opóźnienie robi różnicę.

Dodano do wstępna trakcja w sektorach jako automobilowy, infrastruktura i rozwiązania mobilne, które weszły już do ekosystemu dużych firm, takich jak GoogleSiFive wysyła sygnał, że RISC‑V nie jest już tylko alternatywą, ale dojrzałą platformą do obsługi obciążeń Produkcja AI.

Wszystko to ma miejsce dodatkowo wtedy, gdy dostawcy dążą do autonomii technologicznej, zrównoważonych kosztów i elastyczności licencjeModułowa formuła Intelligence Gen 2 wpisuje się w potrzebę tworzenia dokładnie tego, co jest potrzebne, ani więcej, ani mniej, i skalowania, gdy firma tego potrzebuje. wymagać.

Mimo że każdy przypadek użycia będzie miał swój własny schemat blokowy, spójność projektowa pomiędzy X160/X180, X280, X390 i XM pozwala na łączenie części bez „niespodzianek” i z oczywistą ścieżką optymalizacji. wydajność/zużycieTaka spójność pozwala na krótsze cykle rozwoju i mniejszą liczbę przeróbek.

Patrząc całościowo, rodzina Intelligence Gen 2 z łatwością obejmuje cały zakres: od czujnik który wymaga podstawowej sztucznej inteligencji aż do szafy, która wymaga skalowalnych PFLOPS, przechodząc przez bramy i kontrolery, które organizują akceleratory zewnętrzny. Jest to ruch zgodny z panującym w branży trendem w kierunku architektur heterogenicznych i komponowalnych.

Dla każdego, kto chce zbudować nowoczesną platformę AI, dostępne są tutaj elementy konstrukcyjne, które łączą dojrzała wektoryzacja, wydajne przetwarzanie macierzowe i ekosystem oprogramowania, który nie zaczyna od zera. Dodaj do tego nacisk ze strony nowych standardów i prognozy wzrostu w obszarze rozwiązań brzegowych, a wszystko będzie do siebie pasować. rozsądek.

SiFive wprowadza na rynek sprzęt RISC‑V AI, który jest praktyczny i dobrze przemyślany: konfigurowalny tam, gdzie powinien być, wydajny w tym, co ważne, i z coraz bardziej solidnym mostem do oprogramowania. Z dostępnymi już licencjami i pierwszymi wdrożeniami na krzemie zaplanowanymi na 2026 rok, jest to propozycja z potencjałem do budowy dzisiejszych platform dla Mañana.

Czym jest RISC-V RVA23?
Podobne artykuł:
RISC-V RVA23: Wszystko o profilu zmieniającym procesory