IA en local

Presenter Notes

Presenter Notes

Plan

Presenter Notes

But

  • Contrôle de l'architecture
  • Prix
  • Confidentialité

Presenter Notes

Matériel

  • GPU vs CPU
  • Delphine et Natacha
  • Spéc matériel

Presenter Notes

Choisir le modèle

  • Spécification
  • Limite matérielle
  • Devstral Small 2
  • Qwen 3.5

Presenter Notes

Déploiement

  • Ollama
  • Configuration
  • Pull auto llm
  • Pas assez de VRAM
  • API

Presenter Notes

Tests

  • Poser une question
  • Décrire une image
  • AI assistant Jetbrains

Presenter Notes

RAG

  • Explication
  • Pourquoi

Presenter Notes

Cas Pratique

  • Besoin
  • Limites

Presenter Notes

Vectorisation

  • Présentation rapide TF-IDF
  • Similarité Cosinus
  • Formules
  • Embedding

Presenter Notes

Base de données vectorielles

  • Présentation Qdrant
  • Collections
  • Requête

Presenter Notes

Exemple vectorisation

  • Données
  • Vectorisation
  • Requêtes

Presenter Notes

Cas pratique : préparation

  • Extraction des données
  • Vectorisation
  • Envoi en base

Presenter Notes

Cas pratique : utilisation

  • Vectorisation de la question
  • Requêtes qdrant
  • Fabrication question
  • Requête à qwen

Presenter Notes

Erreurs IA

  • Idempotence
  • Erreurs

Presenter Notes

Conclusion

Presenter Notes

Presenter Notes

But

Presenter Notes

But

  • Contrôle de l'architecture
  • Prix
  • Confidentialité

Presenter Notes

Contrôle de l'architecture

Les plus

  • Administration complète
  • Gestion du nombre de requêtes
  • Customisation complètes

Les moins

  • Gestion du matériel
  • Connaissances bas niveau requises
  • Plus de travail

Presenter Notes

Prix

Les plus

  • Pas de tarification exhorbitantes
  • Pas de limites de requêtes

Les moins

  • Matériel couteux

Presenter Notes

Confidentialité

  • Les informations sont confidentielles
  • Aucun accès au cloud
  • Pas de sorti hors de France
  • Compatible RGPD à 100%

Presenter Notes

Presenter Notes

Matériel

Presenter Notes

Matériel

  • GPU vs CPU
  • Delphine et Natcha
  • Spéc matériel

Presenter Notes

GPU vs CPU

gpu vs cpu

Presenter Notes

Delphine et Natacha

Delphine

  • i7-6700K (4 cœurs, 8 threads) ± 4.20GHz
  • 16Go DDR4
  • Nvidia Geforce RTX 4060 OC (8G) Ada Lovelace

Natacha

  • i9-12900K (16 cœurs, 24 threads) ± 5GHz, ± 3.20GHz
  • 64Go DDR5
  • Pas de carte graphique

Presenter Notes

Spéc matériel

Vérification

  • Port PCI Express pour la carte graphique
  • Vérifier la compatibilité
  • Vérifier la configuration du port dans le BIOS
  • Plus récente -> plus de débit

Exemple

  • Mauvaise config (mode gen 2), passage à gen3 -> bande passante doublée
  • Résultats ? le llm se charge plus rapidement

Presenter Notes

Presenter Notes

Choisir le modèle

Presenter Notes

Choisir le modèle

  • Sépcification
  • Limite matérielle
  • Devstral Small 2
  • Qwen 3.5

Presenter Notes

Spécification

  • Savoir ce que le modèle prend en entrée (image, texte, …)
  • Est-il multilingue ?
  • Quelle est sa spécialité ?
  • Sa taille
  • La taille du contexte

Presenter Notes

Limite matérielle

Taille

  • La taille du modèle est la principale limite
  • Si taille > VRAM -> passage en mode CPU uniquement

Pour calculer à peu près

  • Taille modèle + 1Go + 1Go (var) < VRAM

Solution

  • Carte avec plus de VRAM
  • Plusieurs cartes en parallèle (pas encore testé)

Presenter Notes

Devstral Small 2

Spec

  • Taille : 15GB
  • Nombre de paramètres : 24B
  • Entrée : texte, image

Presenter Notes

Tests

Explication du code suivant :

import serial
arduino = serial.Serial(port='/dev/ttyACM0', baudrate=9600)

Delphine

  • Impossible, pas assez de VRAM

Natacha

  • Solution correcte
  • Temps : 5m20s -> trop long
  • Tous les cœurs à 100%, ± 98°C

Presenter Notes

Qwen 3.5

Spec

  • Taille: 3.4GB
  • Nombre de paramètres: 4.66B
  • Entrée : texte, image

Presenter Notes

Tests

Explication du code suivant :

import serial
arduino = serial.Serial(port='/dev/ttyACM0', baudrate=9600)

Delphine

  • Solution correcte
  • Temps : 30s
  • GPU à 75%,
  • VRAM à 80%

Natacha

  • Solution correcte
  • Temps: 5m35s -> Trop long
  • Tous les cœurs à 100%, ± 98°C

Presenter Notes

Presenter Notes

Choisir le modèle (conclusion)

  • Devstral Small 2 est trop gourmand
  • Qwen est utilisable sur carte graphigue
  • Qwen supporte aussi les images -> llm retenu

Presenter Notes