Documentation Index
Fetch the complete documentation index at: https://docs.lighton.ai/llms.txt
Use this file to discover all available pages before exploring further.
Commencer
1. Créer un Nouvel Import WebScraper
Pour créer un nouvel import :- Naviguez vers la section Sources de Données
- Cliquez sur “Ajouter une Nouvelle Source de Données” ou sélectionnez une source de données WebScraper existante
- Cliquez sur ”+ Nouvel Import” pour configurer un nouvel import
Configuration de Base
Configuration URL
- URL de Départ : L’URL spécifique où l’exploration commencera. C’est le point d’entrée pour le scraper.
- Exemple :
https://fr.wikipedia.org/wiki/Intelligence_artificielle
- Exemple :
Paramètres d’Exploration
- Profondeur Max d’Exploration : Contrôle à quelle profondeur l’explorateur naviguera depuis l’URL de départ.
- 0 : Explore seulement l’URL de départ
- 1 : Inclut les pages directement liées depuis l’URL de départ
- 2 : Inclut les liens de ces liens directs
- 3 : Va trois niveaux de profondeur (maximum)
Configuration Avancée
- Pages Max : Limite le nombre total de pages explorées.
- Activez “Limiter Pages Max” pour définir une limite spécifique
- Recommandé pour les grands sites web pour éviter un crawling excessif
Pertinence du Contenu
- Mots-clés de Pertinence : Mots-clés qui déterminent quelles pages sont plus importantes à explorer.
- Les pages contenant ces mots-clés reçoivent une priorité plus élevée
- Séparez plusieurs mots-clés avec des virgules
- Exemple :
IA, apprentissage automatique, réseaux de neurones
- Poids des Mots-clés : À quel point prioriser fortement les pages avec des mots-clés.
- 0.0 : Ignorer complètement les mots-clés
- 1.0 : Prioriser les mots-clés au-dessus de tous les autres facteurs
- 0.7 : (Par défaut) Équilibre la correspondance des mots-clés avec d’autres facteurs
Modèles d’URL
- Modèles d’URL à Inclure : Restreint quelles URLs seront explorées basées sur des modèles.
- Utilisez
*comme joker - Exemple :
/produits/*correspond à toutes les pages dans le répertoire produits - Utilisez
*seul ou laissez vide pour inclure toutes les URLs - Séparez plusieurs modèles avec des virgules
- Utilisez
- Modèles d’URL à Exclure : Spécifiez les modèles d’URL qui ne doivent PAS être explorés.
- Exemple :
/admin/*, /login/exclut les pages admin et la page de connexion - Séparez plusieurs modèles avec des virgules
- Exemple :
Sélection de Contenu
- Sélecteur CSS de Contenu : Sélecteur CSS qui définit quel contenu extraire des pages.
- Cela limite à la fois la portée d’exploration et d’extraction de contenu—tout contenu en dehors de ces sélecteurs sera ignoré.
- Exemple :
article.content,.main,.data-container
- Éléments à Exclure : Sélecteur CSS pour les éléments à supprimer du traitement.
- Cela fonctionne comme le Sélecteur CSS de Contenu mais en inverse—les éléments spécifiés seront exclus de la génération markdown et de l’exploration.
- Exemple :
#ads, .cookiespour supprimer les publicités et cookies
- Éléments Cibles : Sélecteurs CSS pour l’extraction de contenu spécifique.
- Ces éléments seront utilisés pour la génération markdown tout en permettant à l’explorateur de traiter tous les liens de page et médias.
- Exemple :
article.content,.main,.data-container
- Balises à Exclure : Balises HTML à ignorer pendant l’extraction de contenu.
- Ces balises seront ignorées pendant la génération markdown mais toujours vérifiées pour les liens explorables.
- Exemple :
nav
Paramètres de Proxy
- Activer Proxy : Basculer pour utiliser un serveur proxy pour les requêtes de web scraping
- Lorsqu’activé, des champs de configuration de proxy supplémentaires apparaîtront
Paramètres d’Import
- Espace de Travail : Sélectionnez l’espace de travail où le contenu scrapé sera importé
- Fréquence (minutes) : Définissez à quelle fréquence le scraper doit s’exécuter
- Définissez à 0 pour déclenchement manuel uniquement
Bonnes Pratiques
- Commencer Petit : Commencez avec une profondeur d’exploration faible et des pages limitées pour tester
- Affiner Graduellement : Étendez votre configuration après confirmation des résultats initiaux
- Utiliser la Sélection de Contenu : Appliquez des sélecteurs HTML et CSS pour spécifier quel contenu extraire et traiter des pages
- Utiliser les Mots-clés de Pertinence : Pour les grands sites, utilisez des mots-clés pour prioriser le contenu
- Respecter les Règles du Site Web : Évitez l’exploration agressive qui pourrait surcharger les sites
- Vérifier les Résultats : Examinez régulièrement le contenu importé pour assurer la qualité
Dépannage
- Résultats Vides : Vérifiez les modèles d’URL et les sélecteurs de contenu
- Trop de Contenu : Réduisez la profondeur max ou les pages, ou ajoutez des modèles de sélection/exclusion
- Contenu Non Pertinent : Affinez les sélecteurs CSS pour cibler des zones de contenu spécifiques
- Échecs d’Import : Vérifiez les règles robots.txt du site ou essayez d’utiliser un proxy
Exemple de Configuration
Pour explorer les articles Wikipedia sur l’IA :- URL de Départ :
https://fr.wikipedia.org/wiki/Intelligence_artificielle - Profondeur Max d’Exploration : 1
- Pages Max : 20
- Mots-clés de Pertinence :
apprentissage automatique, réseau de neurones, apprentissage profond - Poids des Mots-clés : 0.7
- Sélecteur CSS de Contenu :
main - Élément à Exclure :
.sidebar,.vector-column-end,.vector-page-toolbar,.vector-body-before-content,.navigation-not-searchable