Architecture des prcesseurs ARM

4SE03

Tarik Graba

2025-2026

Introduction

ARM

ARM: Société britannique spécialisée dans la conception de processeurs
- Existe sous ce nom depuis 1990
- Filiale du groupe japonais SoftBank depuis 2016
Dès l’origine, l’ambition est de produire des cœurs de processeurs RISC 32 bits basse consommation.

Modèle Économique

ARM ne fabrique pas de processeurs mais conçoit des IPs.
- IP: Intellectual Property
Les clients de ARM sont les fabricants de circuits
En plus des cœurs de processeurs ARM fourni/contribue:
- intégration/conception de circuits
  - bibliothèques ASIC,
  - GPU, Caches, réseau sur puce
- support logiciel
  - Compilateurs, OS

Plusieurs types de licences existent en fonction des besoins des clients:

bloc matériel pour l’intégration,
- ceux-ci ciblent généralement une technologie de fabrication précise. Ils permettent une intégration simple mais ne sont pas personnalisables;
source RTL (Verilog),
- qui demandent un effort plus important pour l’intégration, mais permettent un certain niveau de personnalisation pour se différencier des produits concurrents;
architecture,
- qui permettent le plus de liberté mais concerne très peu d’acteurs qui ont les ressources suffisantes pour concevoir des cœurs à partir des seules spécifications.

Familles

Trois grandes familles modernes
- Cortex-A: processeurs Aplicatifs (Smartphone, PC, Serveurs)
- Cortex-M: cœurs pour Microcontrôleur
- Cortex-R: cœurs pour systèmes temps Réel fortement contraint (Avionique, Automotive…)
Les cœurs historiques
- ARM7, ARM9, ARM11

Profil A:
- Support des systèmes d’exploitation “standards” (Linux, Android, MacOS, Windows).
  - Support de MMU (Memory Managment Unit) et des adresses virtuelles.
- Haute performance sans contrainte de temps réel.
Profil M:
- Applications bare-metal ou système d’exploitation temps réel.
- Pas d’adresses virtuelles.
- Conçus pour gérer en temps réel des entrées/sorties, des périphériques et réagir à des évènements.
Profil R:
- Orienté temps réel fort avec garantie de service.
- Il est possible d’avoir des modes redondants avec vérification d’intégrité.

Les cœurs historiques ne sont plus supposés être utilisés dans de nouveaux produits, mais on peut encore les rencontrer dans des équipements industriels.

Historiquement ARM ne concevait que des processeurs 32 bits. En 2011, avec l’architecture Armv8-A, ARM propose des cœurs 64 bits applicatifs. Vu les objectifs de ce cours, nous nous limiterons aux cœurs 32 bits.

Produits

Plusieurs fabricants:

ST
- STM32
- MPU
NXP
- ARM based Processors and Microcontrollers
Microchip/Atmel
- SAM familly
Qualcom, Broadcom, Apple, Allwinner…

En utilisant l’architecture ARM, ces fabricants de composant profitent d’un environnement logiciel commun et mature. Ils évitent ainsi de devoir développer et maintenir un cœur de processeur et des outils logiciels associés.

Leurs produits se différencient par les par les périphériques spécifiques ajoutés autour des cœurs et l’architecture des systèmes.

Microprocesseur/Microcontrôleur

Un processeur

lit séquentiellement des instructions et des données à partir d’une mémoire
décode les instructions
fait des calculs sur des données en internes
écrit des données en mémoire

Microcontroleur (MCU:Microcontroller Unit)

Regroupe dans le même circuit:

un cœur de processeur
des mémoires (RAM/ROM)
des périphériques (entrée/sorties, timers…)

Architecture des processeurs ARM (32 bits)

Architecture Load/Store 32 bits

Processeur RISC 32 bits

16 registres

Architecture Load/Store

Instructions pour charger les données de/vers la mémoire
Calculs sur les données dans les registres

Comme les autres processeurs RISC, les processeurs ARM ont une architecture Load/Store. Les données sur lesquelles les calculs sont effectués doivent d’abord être copiées de la mémoire vers les registres internes.

Les instructions de calcul ne peuvent opérer que sur des sonnées déjà présentes dans les registres. Le résultat est aussi stocké dans un registre interne. Seul le contenu d’un registre peut être réécrit en mémoire.

Granularité mémoire et endianess

Le plus petit élément adressable en mémoire et l’octet (8 bits).
Il faut avoir une convention d’adresse pour les 4 octets d’un l’accès à un mot de 32 bits (endianess).
Les ARM modernes sont souvent little-endian (octet de poids faible d’un mot de 32 bits est à l’adresse la plus basse).

La majorité des processeurs ARM “communs” sont little-endian.

Notez aussi qu’il y a une contrainte d’alignement et que les adresses des mots de 32 bits sont multiples de 4.

le premier mot se trouve à l’adresse 0,
le deuxième à l’adresse 4,
le troisième à l’adresse 8,
le quatrième à l’adresse 12 (0xc) et ainsi de suite.

Pour certains cœurs (historiques, Cortex-M ou R), il est possible d’avoir des modèles bigendian (pratique pour certaines applications réseau).

Pour certains cœurs (les Cortex-A), il existe des mécanismes pour intervertir l’ordre des octets durant les accès mémoire.

Modèle historique ARM7TDMI

l’ARM7 a été produit entre 1993 et 2001 (source wikipedia).

l’ARM7TDMI est la dernière évolution (doc de référence)

Premier processeur ARM utilisé dans des téléphones portables

Très proche des processus ARM modernes

Modes
Thumb/interworking…

Ce processeur a une architecture moderne, tout en étant suffisamment simple et documentée pour présenter le fonctionnement des processeurs ARM.

Aussi, elle permettra de mieux saisir la notion d’Architecture telle qu’utilisée par ARM.

Micro-architecture

Architecture Von Neuman
- Bus partagé pour les instructions et les données
16 registres
Barrel Shifter en plus de l’ALU
Interface de debug standard

Le banc de registres est composé de 16 registres (r0 à r15). Le registre pointant vers l’instruction à récupérer en mémoire est le registre r15. Il est appelé PC pour Program Counter.

Le banc de registres possède une entrée et deux sorties. Ceci implique qu’à un moment donné, on peut:

lire le contenu de deux registres,
écrire dans un seul registre.

Les sorties du banc de registres vont vers l’ALU (Arithmetic and Logic Unit). Une des entrées passe par un Barrel Shifter ce qui permet d’appliquer des décalages et rotations sur une des entrées de l’ALU.

La mémoire est connectée au processeur par un bus avec:

une adresse sur 32 bits,
un bus de données bidirectionnel sur 32 bits,
un ensemble de signaux de contrôle (non représentés) ici.

Comme le bus est partagé pour les instructions et les données, en interne, il est relié au:

registre d’instruction qui contient l’instruction qui vient d’être lue,
le registre de données en lecture (celle qui vient d’être lue),
le registre de données en écriture (celle qui sera écrite).

De plus, ce cœur de processeur inclu une interface de debug standard (Embeded ICE) permettant la prise de contrôle du flot d’exécution par un développeur logiciel.

Pipeline (3 étages)

Les instructions sont exécutées en 3 cycles d’horloge.

FETCH
DECODE
EXECUTE

Pour permettre d’augmenter la fréquence de fonctionnement, chaque instruction est découpée en 3 étapes.

lire l’instruction en mémoire (FETCH),
décoder l’instruction (DECODE),
exécuter l’instruction (EXECUTE).

Comme les ressources nécessaires à ces 3 étapes sont différentes, on peut les utiliser en parallèle pour des instructions différentes.

Ceci s’appelle le Pipeline et permet, théoriquement, d’exécuter une instruction à chaque cycle.

En régime permanent, nous avons l’exécution d’une instruction par cycle (IPC).

Pipeline (stall)

Que se passe-t-il quand on lit ou écrit des données en mémoire?
Le pipline est figé (stall) et attente de la fin de l’accès aux données.

Comme l’ARM7 ne possède qu’une seule interface pour accéder aux données et aux instructions, en cas de lecture ou d’écriture, on ne peut pas lire une nouvelle instruction.

Le nombre d’instructions par cycle IPC va donc baisser.

D’autres instructions peuvent produire des ruptures de pipeline, par exemple les sauts dans les programmes qui nécessitent d’abandonner les instructions en cours puisque qu’on va reprendre l’exécution ailleurs dans le code.

Pipeline (exemple)

Pour cet exemple, on suppose que le programme (la suite d’instructions) commence à l’adresse 0x20000000.

La première étape consiste donc à récupérer cette instruction. On présente donc l’adresse de la première instruction (ici ldr) Cette adresse est contenue dans un registre interne du processeur le compteur programme ou PC.

L’instruction ldr r0,[r8,0x10] demande à lire ce qui se trouve à l’adresse r8+16 dans le registre r0.

Notez qu’en même temps le compteur programme est incrémenté pour préparer la suite.

Pour les processeurs ARM, les adresses des instructions doivent être alignées. C’est-à-dire multiples de la taille de l’instruction en octet (ici 4).

Pipeline (exemple)

Durant ce cycle, l’adresse de la seconde instruction est présentée. La première instruction est en phase de décodage. On identifie que:

c’est une lecture en mémoire,
que l’adresse doit être calculée à partir de la valeur du registre r8.

Pipeline (exemple)

L’adresse de la 3 instruction est présentée. En même temps la deuxième instruction est décodée.

L’exécution de la 1e instruction commence. Comme c’est une lecture en mémoire, on doit d’abord calculer l’adresse. Dans un processeur ARM7, ce calcul utilise l’ALU qui.

Ici, l’adresse est calculée à partir de la valeur du registre r8 et de la valeur 16 qui a été récupérée à partir de l’instruction dans la phase précédente (on parle de valeur immédiate).

Le pipeline est mis en pause (stall) mettant en attente l’exécution des autres instructions.

Pipeline (exemple)

L’adresse calculée (ici 0x10000010) est présentée sur le bus pour lire la donnée en mémoire.

La donnée sera récupérée à la fin du cycle.

Pipeline (exemple)

La donnée est écrite dans le registre r0.

Pipeline (exemple)

Finalement, l’exécution des instructions suivantes peut reprendre.

Ici, l’instruction add r1,r0,r4, lsl #2 calcul la somme entre le contenu de r0 et r4 décalé à gauche de 2 positions.

Une version annimée

Mode Thumb

Le T du ARM7TDMI veut dire qu’il supporte le mode Thumb.

Encodage 16-bits des instructions
- Réduire la taille du code en mémoire
Réduction des performances
- Toutes les instructions ne sont pas disponibles
- Tous les registres ne sont pas accessibles
- Certaines combinaisons (immédiats, registres sources/destinations) ne sont plus disponibles
Le PC avance de 2 en 2

La réduction de la taille du programme est possible car les instructions les plus communes (celles qu’on rencontre souvent dans un programme) sont favorisées et ont un encodage 16 bits dédié.

Pour les autres, elles doivent être décomposées en une série d’instructions 16 bits.

Mode Thumb2

Pour les architectures modernes, le mode Thumb-2 a été développé.

Mixte d’instructions 16 bits et 32 bits
Le meilleur des deux mondes.

La figure est tirée de White Paper: An Introduction to the ARM Cortex-M3 Processor. Elle représente les performances et tailles relatives pour le programme de test Dhrystone sur un Cortex-M3. Le document date d’octobre 2006.

Dans les documentations récentes d’ARM ainsi que les outils associés (compilateurs, assembleur…) seul le terme Thumb est utilisé bien que l’encodage puisse être différent en fonction du processeur cible.

Évolutions (ARM9)

Pipeline à 5 étages.
- FETCH, DECODE, EXEC, MEM, WB (4SE01)
- permet d’augmenter la fréquence de fonctionnement
Architecture Harvard
- interfaces séparées pour les données et les instructions
- évite de figer le pipeline pour les lectures/écritures
Support les mêmes instructions que l’ARM7
- Compatibilité binaire

Plus sur les détails de l’architecture de l’ARM9TDMI sur le site de référence d’ARM.

Compatibilité logicielle et notion d’Architecture

ARM7TDMI vs ARM9TDMI

Micro-architecture différente
- Performances
- Taille du cœur
- IPC…
Compatibilité binaire
- Mêmes instructions (ISA:Instruction Set Architecture)
- Même modèle programmeur
- Même convention d’appel

Architectures

Learn the architecture - Introducing the Arm architecture (sur le site d’ARM).

Notez aussi l’existence de:

l’ARMv8-A pour les processeurs 64 bits et
l’ARMv8-M pour les microcontrôleurs avec de nouveaux modes de sécurité.

et les Cortex-A?

Processeurs applicatifs
- MMU permettant l’isolation de processus (adresses virtuelles)
IPC élevé (plus que 1)
- Micro-architecture Superscalaire
  - Plusieurs flux d’exécution en parallèle
- Exécution spéculative
- Prédiction de branchement

Exemple: le Cortex A9

Pipeline à 8 étages
Superscalaire
- Plusieurs unités d’exécution en parallèle
Exécution spéculative
- et prédiction de branchement

Cortex-M

Microcontroleurs

Exclusivement Thumb
Contrôleur d’interruptions intégré (NVIC)
- Jusqu’à 256 interruptions externes
- Gestion matérielle de la sauvegarde de contexte
Architecture commune pour le support logiciel
- Timer standard pour les OS temps réel
- Carte mémoire
- Indépendant du modèle/fabricant

Le document suivant donne, de façon synthétique, une description des Cortex-M:

White paper: ARM Cortex-M for Beginners

Notez qu’il existe une nouvelle famille de Cortex-M (ARMv8-M) avec des fonctions supplémentaires liées à la sécurité.

Familles

ARMv6-M : Cortex M0/M0+ et M1
- Exclusivement Thumb 16 bits
- Microcontrôleur basic
ARMv7-M : Cortex M3, M4 et M7
- Thumb 16 bits et Thumb 32 bits
- Microcontrôleur haute performance
- Extensions DSP et SIMD
- Extensions virgule flottante
- inclus ARMv6-M
ARMv8-M : Cortex M23, M33 …
- TrustZone version M

Exemple Cortex-M4

Cortex-M4 :
- Depuis 2010
- Architecture Harvard
- Pipeline à 3 étages
- ARMv7-m
  - Thumb 16 et 32 bits
  - Extensions DSP/SIMD
- Unité de Debug
- Unité de protection mémoire (MPU)

Système sur puce

Structure/Bus/protocole/Carte mémoire

Des périphériques autour du cœur du processeur.

Mémoires internes (SRAM, FLASH)
Timer, UART, GPIO…
DMA, autres…

Un Système sur puce (SOC pour System On Chip)

Pour les Cortex-M, les plages d’adresses attribuées aux périphériques sont standardisées. Par exemple, le code qui sera exécuté au démarrage est toujours à l’adresse 0.

Aussi, certains éléments du cœur (le contrôleur d’interruption par exemple), sont mappés en mémoire et ont une adresse standard (PPB pour Private Peripheral Bus).

Pour la construction de ces systèmes, ARM a imposé des protocoles de bus. Les cœurs utilisent le protocole AMBA (Advanced Microcontroller Bus Architecture) et sur les microcontrôleurs, on retrouve souvent des modules utilisant les protocoles:

AHB (Advanced High-performance Bus) et
APB (Advanced Peripheral Bus)

Plus d’informations sur le protocole AMBA sur le site de référence.

Exemple le STM32-L475

Le STM32-L475 est un microcontrôleur avec:

un Cortex-M4 tournant à 80 MHz
un bus principal (AHB) pour l’accès aux mémoires (internes et externes)
des bus AHB pour certains périphériques rapides
des bus APB pour les périphériques lents

C’est le microcontrôleur que nous utiliseront en TD.

Ressources supplémentaires

Retour au sommaire du cours

Introduction

ARM

Modèle Économique

Familles

Produits

Microprocesseur/Microcontrôleur

Un processeur

Microcontroleur (MCU:Microcontroller Unit)

Architecture des processeurs ARM (32 bits)

Architecture Load/Store 32 bits

Granularité mémoire et endianess

Modèle historique ARM7TDMI

Micro-architecture

Pipeline (3 étages)

Pipeline (stall)

Pipeline (exemple)

Pipeline (exemple)

Pipeline (exemple)

Pipeline (exemple)

Pipeline (exemple)

Pipeline (exemple)

Mode Thumb

Mode Thumb2

Évolutions (ARM9)

Compatibilité logicielle et notion d’Architecture

Architectures

et les Cortex-A?

Exemple: le Cortex A9

Cortex-M

Microcontroleurs

Familles

Exemple Cortex-M4

Système sur puce

Structure/Bus/protocole/Carte mémoire

Exemple le STM32-L475

Ressources supplémentaires

Architecture des processeurs ARM (32 bits)