IA en local

Presenter Notes

Plan

Presenter Notes

But

Contrôle de l'architecture
Prix
Confidentialité

Presenter Notes

Matériel

GPU vs CPU
Delphine et Natacha
Spéc matériel

Presenter Notes

Choisir le modèle

Spécification
Limite matérielle
Devstral Small 2
Qwen 3.5

Presenter Notes

Déploiement

Ollama
Configuration
Pull auto llm
Pas assez de VRAM
API

Presenter Notes

Tests

Poser une question
Décrire une image
AI assistant Jetbrains

Presenter Notes

RAG

Explication
Pourquoi

Presenter Notes

Cas Pratique

Besoin
Limites

Presenter Notes

Vectorisation

Présentation rapide TF-IDF
Similarité Cosinus
Formules
Embedding

Presenter Notes

Base de données vectorielles

Présentation Qdrant
Collections
Requête

Presenter Notes

Exemple vectorisation

Données
Vectorisation
Requêtes

Presenter Notes

Cas pratique : préparation

Extraction des données
Vectorisation
Envoi en base

Presenter Notes

Cas pratique : utilisation

Vectorisation de la question
Requêtes qdrant
Fabrication question
Requête à qwen

Presenter Notes

Erreurs IA

Idempotence
Erreurs

Presenter Notes

Conclusion

Presenter Notes

But

Presenter Notes

But

Contrôle de l'architecture
Prix
Confidentialité

Presenter Notes

Contrôle de l'architecture

Les plus

Administration complète
Gestion du nombre de requêtes
Customisation complètes

Les moins

Gestion du matériel
Connaissances bas niveau requises
Plus de travail

Presenter Notes

Prix

Les plus

Pas de tarification exhorbitantes
Pas de limites de requêtes

Les moins

Matériel couteux

Presenter Notes

Confidentialité

Les informations sont confidentielles
Aucun accès au cloud
Pas de sorti hors de France
Compatible RGPD à 100%

Presenter Notes

Matériel

Presenter Notes

Matériel

GPU vs CPU
Delphine et Natcha
Spéc matériel

Presenter Notes

GPU vs CPU

gpu vs cpu

Presenter Notes

Delphine et Natacha

Delphine

i7-6700K (4 cœurs, 8 threads) ± 4.20GHz
16Go DDR4
Nvidia Geforce RTX 4060 OC (8G) Ada Lovelace

Natacha

i9-12900K (16 cœurs, 24 threads) ± 5GHz, ± 3.20GHz
64Go DDR5
Pas de carte graphique

Presenter Notes

Spéc matériel

Vérification

Port PCI Express pour la carte graphique
Vérifier la compatibilité
Vérifier la configuration du port dans le BIOS
Plus récente -> plus de débit

Exemple

Mauvaise config (mode gen 2), passage à gen3 -> bande passante doublée
Résultats ? le llm se charge plus rapidement

Presenter Notes

Choisir le modèle

Presenter Notes

Choisir le modèle

Sépcification
Limite matérielle
Devstral Small 2
Qwen 3.5

Presenter Notes

Spécification

Savoir ce que le modèle prend en entrée (image, texte, …)
Est-il multilingue ?
Quelle est sa spécialité ?
Sa taille
La taille du contexte

Presenter Notes

Limite matérielle

Taille

La taille du modèle est la principale limite
Si taille > VRAM -> passage en mode CPU uniquement

Pour calculer à peu près

Taille modèle + 1Go + 1Go (var) < VRAM

Solution

Carte avec plus de VRAM
Plusieurs cartes en parallèle (pas encore testé)

Presenter Notes

Devstral Small 2

Spec

Taille : 15GB
Nombre de paramètres : 24B
Entrée : texte, image

Presenter Notes

Tests

Explication du code suivant :

import serial
arduino = serial.Serial(port='/dev/ttyACM0', baudrate=9600)

Delphine

Impossible, pas assez de VRAM

Natacha

Solution correcte
Temps : 5m20s -> trop long
Tous les cœurs à 100%, ± 98°C

Presenter Notes

Qwen 3.5

Spec

Taille: 3.4GB
Nombre de paramètres: 4.66B
Entrée : texte, image

Presenter Notes

Tests

Explication du code suivant :

import serial
arduino = serial.Serial(port='/dev/ttyACM0', baudrate=9600)

Table of Contents	t
Exposé	ESC
Full screen slides	e
Presenter View	p
Source Files	s
Slide Numbers	n
Toggle screen blanking	b
Show/hide slide context	c
Notes	2
Help	h

Les plus

Les moins

Les plus

Les moins

Delphine

Natacha

Vérification

Exemple

Taille

Pour calculer à peu près

Solution

Spec

Delphine

Natacha

Spec

Delphine

Natacha

Table of Contents

Help