Nowa rodzina Rdzenie ramienia C1 oznacza znaczącą zmianę w ekosystemie urządzeń mobilnych i ultraprzenośnych, zastępując znany Cortex wyraźniejszym naciskiem na stałą wydajność i efektywność. Ta generacja oferuje Platforma Lumex i z oczywistym celem: przyspieszenie działania sztucznej inteligencji w samym urządzeniu, bez narażania baterii ani obniżania temperatury.
Oprócz zmiany nazwy propozycja łączy Architektura Armv9.3-A, gruntowną przebudowę podsystemu pamięci i znaczące zwiększenie możliwości obliczeń macierzowych. Rezultatem jest znaczna poprawa wydajności przy niższym zużyciu energii, a także plan rozwoju dla smartfonów, tabletów, laptopów i urządzeń typu wearable.
Architektura i nowe funkcje rdzeni Arm C1

Seria C1 podzielona jest na cztery warianty: C1-Ultra (maksymalna wydajność) C1-Premium (wysoka wydajność na mniejszej powierzchni), C1-Pro (równowaga) i C1-Nano (maksymalna wydajność). Każdy producent może łączyć te bloki w heterogeniczne klastry, aby tworzyć układy SoC dostosowane do różnych zakresów i zastosowań, z konfiguracjami do 14 rdzeni.
Arm udoskonalił zarówno front-end, jak i back-end, w tym usprawnienia predykcji, pamięci podręcznej i wykonywania poza kolejnością. Dzięki nowemu połączeniu i wydajniejszej (obciążającej dane) współdzielonej pamięci podręcznej, Komórki SLC), platforma oferuje średnie wzrosty rzędu 15% w codziennym użytkowaniu, które skalują się do +30% przy wymagających obciążeniach i osiągają szczyty sięgające 45% w wielordzeniowych.
Wsparcie pamięci ewoluuje wraz z LPDDR6 Aby zmniejszyć zużycie energii i opóźnienia, zachowując jednocześnie kompatybilność z pamięcią LPDDR5X przy prędkościach do 9600 MT/s. Ta baza pamięci, wraz z przeprojektowaniem klastra, zapewnia stałą wydajność i reakcję w warunkach obciążenia termicznego.
C1-Ultra: maksymalny poziom wydajności
Jako rdzeń najwyższej klasy, C1-Ultra Jego celem są flagowe układy SoC i zadania o wysokim zapotrzebowaniu, takie jak fotografia obliczeniowa, duże modele AI czy mobilne gry AAA. W porównaniu z Cortex-X925, Arm mówi o +25% w pojedynczym wątku, wartość ta pomaga zwiększyć ogólną wydajność w połączeniu z większą liczbą rdzeni w klastrze.
Front-end poprawia przepustowość L1 instrukcji i dokładność prognozowania, podczas gdy zaplecze zwiększa okno wykonywania poza kolejnością o około 25%, osiągając około 2.000 instrukcje Jednocześnie. Ponadto pojemność danych L1 została podwojona do 128 KB, a prędkość odczytu L1 przyspieszona o około 33%.
C1-Premium: wysoka wydajność na mniejszej powierzchni
W przypadku urządzeń premium, które nie wymagają absolutnego maksimum, C1-Premium utrzymuje architekturę bardzo zbliżoną do Ultra, ale z 35% redukcji powierzchniZostał zaprojektowany z myślą o zachowaniu równowagi między wydajnością a ceną, umożliwiając tworzenie bardziej kompaktowych konstrukcji bez znaczącej utraty parametrów technicznych.
C1-Pro: Równowaga i mięśnie wielordzeniowe
W segmencie centralnym C1-Pro zastępuje Cortex‑A725 +11% wydajności przy takim samym zużyciu i z ulepszeniami wydajności, które osiągają do 26% mniej energii przy tej samej wydajnościW branży gier Arm podaje zyski rzędu + 16% w tej klasie jąder.
Klucze znajdują się w bardziej wydajnym interfejsie użytkownika (udoskonalona predykcja statyczna i Znacznie większy BTB) oraz back-end o większej przepustowości w warstwie L1D i niższym opóźnieniu w warstwie L2, gdy prognoza jest prawidłowa. Predyktor został również dostrojony, aby przyspieszyć reakcję w rzeczywistych scenariuszach.
C1-Nano: wydajność ponad wszystko
Do lekkich zadań i ekstremalnych oszczędności, C1-Nano zwiększa wydajność o około 26% w porównaniu z poprzednikiem (zachowując praktycznie nienaruszony obszar, ~+2% w porównaniu z A520). Etapy predykcji i pobierania zostały rozdzielone, aby szybciej dostarczać instrukcje do L1 i skrócić czas oczekiwania na nieudane predykcje.
Ponadto, przetwarzanie wektoroweNapędy są wyłączane, gdy potok danych zostaje zablokowany, a ruch pomiędzy pamięcią L3 i DRAM zostaje zmniejszony (średnio o około 21% i do 39% przy pewnych obciążeniach), co zmniejsza zużycie energii i poprawia reakcję.
C1-DSU: Elastyczne klastry i niższe zużycie
Nowy C1‑DSU koordynuje połączenie rdzeni w ramach współdzielonej pamięci podręcznej L3 i wypełnia lukę z resztą układu SoC (pamięcią RAM, GPU itp.). W porównaniu z poprzednimi wersjami, projekt zmniejsza typowe zużycie energii systemu o około 11% i wpływ pamięci o ~7%, w oparciu o tryby takie jak L3 Szybka drzemka aby zminimalizować straty, gdy nie jest używany.
Kolejnym kluczowym elementem jest integracja Akceleratory SME2 jako elementy zewnętrzne w stosunku do rdzenia: w C1-Ultra i C1-Premium ich obecność jest obowiązkowa, natomiast w C1-Pro i C1-Nano Jest to opcjonalne, w zależności od projektu producenta. Każdy rdzeń w klastrze może uzyskać do nich dostęp, jeśli jest dostępny, co umożliwia bardzo zróżnicowane kombinacje (np. 2× C1‑Ultra + 6× C1‑Pro z jednym lub dwoma akceleratorami SME2 lub skromniejsze kombinacje łączące Pro i Nano).
Platforma Lumex obejmuje również nową generację procesorów graficznych. Chociaż w tym artykule skupimy się na procesorach, Mali G1 wraz z ~20% poprawą wydajności grafiki, podwaja przepustowość śledzenia promieni i zmniejsza koszty energii na klatkę o około 9%, co poprawia wydajność gier wykorzystujących przede wszystkim GPU oraz zadań związanych ze sztuczną inteligencją.
SME2 i rola procesora w sztucznej inteligencji

Duży skok w dziedzinie sztucznej inteligencji wiąże się z SME2 (rozszerzenie skalowalnej macierzy 2), który przyspiesza mnożenie macierzy, multipredykaty i nowe typy danych (w tym kompaktowe precyzje, takie jak 2b/4b), a także koordynuje się z SVE2 w celu zaawansowanej wektoryzacji. W liczbach zagregowanych Arm mówi o średnia poprawa 3,7x ze spadkiem konsumpcji bliskim 27%.
W praktyce firma wykazała skrócenie opóźnień 4,7x w rozpoznawaniu mowy (Whisper Base), przyspieszenia 2,4–2,8x w Tekst na mowę i duże wzrosty w generowaniu tokenów dla LLM (np. Gemma 3), które są bliskie × 5Uruchamianie na procesorze pozwala uniknąć transferów do innych akceleratorów, co skraca czas oczekiwania i zapewnia większą responsywność.
W przypadku małych lub interaktywnych obciążeń centralną rolę ponownie odgrywa procesor: MŚP2Wiele codziennych zadań (lokalna poprawa jakości obrazu, segmentacja, klasyfikacja, efekty kamery czy dźwięk) jest wykonywanych szybciej, z mniejszym obciążeniem i bez korzystania z sieci. Gdy zapotrzebowanie rośnie, procesor graficzny (GPU) lub zewnętrzny NPU może nadal przejmować kontrolę, ale procesor (CPU) nie stanowi już wąskiego gardła.
Dostępne jest również wsparcie oprogramowania: istnieje integracja w Linux i Android 16, zoptymalizowane łańcuchy narzędzi i biblioteki (KleidiAI) oraz zgodność z silnikami takimi jak Unity i Unreal EngineDzięki temu aplikacje i gry będą mogły szybciej wdrażać te usprawnienia, gdy tylko pojawią się pierwsze komercyjne układy SoC.
Platforma Lumex CSS łączy wszystkie elementy (procesor C1, procesor graficzny Mali G1, połączenia i pamięć) w gotowe do produkcji projekty 3 nm, telemetria sprzętowa i Kompatybilność systemu ARM z LPDDR6. Dzięki temu partnerzy mogą przyspieszyć swoje projekty mobilne i laptopowe dzięki skalowalnym klastrom do 14 rdzeni i możliwościom sztucznej inteligencji na urządzeniu.
Ramię C1 łączy trwałe osiągi, wydajność i prawdziwy impuls dla sztucznej inteligencji na procesorach dzięki SME2; oferują elastyczność C1-DSU w dostosowywaniu klastrów do każdej gamy produktów i stanowią solidną podstawę dla kolejnej fali mobilnych i przenośnych układów SoC, które mają równoważyć moc, autonomię i możliwości sztucznej inteligencji, bez ciągłej zależności od chmury.