Portail
Portail
Forum
Forum
ConnexionNom d’utilisateurMot de passe
Se connecter automatiquement à chaque visite    
S’enregistrer
S’enregistrer
Se connecter pour vérifier ses messages privés
Se connecter pour vérifier ses messages privés
Web invisible

 
Poster un nouveau sujet   Répondre au sujet    Hbalbladi Index du Forum -> Nacha6 ha houwa cha6 -> Dar l3ajaza (discussion générale)
Sujet précédent :: Sujet suivant  
Auteur Message
zZZz
bdah l7ma9
bdah l7ma9

Hors ligne

Inscrit le: 08 Juil 2006
Messages: 60
sexe:
devise: La solitude est bonne aux grands esprits et mauvaise aux petits. La solitude trouble les cerveaux qu'elle n'illumine pas
Localisation: SDF
Point(s): 60
Moyenne de points: 1,00

MessagePosté le: 10/07/2006 13:56:45    Sujet du message: Web invisible Répondre en citant

Le "web invisible" (deep web, hidden web) désigne la partie du web non accessible aux moteurs de recherche classiques. Le web invisible comprend des bases, banques de données et bibliothèques en ligne gratuites ou payantes...

Une partie du web est non accessible aux moteurs parce que :
- les documents sont trop volumineux pour être entièrement indexés,
- des pages sont protégées par l'auteur (balise meta qui stoppe le robot),
- des pages sont générées seulement dynamiquement, lors d'une requête par exemple,
- le format des documents n'est pas reconnu par les moteurs (de moins en moins vrai avec un moteur comme Google...).
Chris Sherman et Gary Price, "search engines' US experts", proposent dans leur ouvrage "The Invisible Web" de distinguer 4 types de web
Le web invisible est vaste puisque selon les estimations, très variables et difficiles, les meilleurs moteurs n'indexent que 3 à 10% du web. Voir à ce sujet les différentes études sur la taille du web

Les 4 types de web distingués par Chris Sherman et Gary Price :

- The Opaque Web : les pages qui pourraient être indexées par les moteurs mais qui ne le sont pas (limitation d'indexation du nombre de pages d'un site, fréquence d'indexation, liens absents vers des pages ne permettant donc pas un crawling)
- The Private Web : les pages webs disponibles mais volontairement exclues par les webmasters (mot de passe, metatags ou fichiers dans la page pour que le robot du moteur ne l'indexe pas).
- The Proprietary web : pages seulement accessibles pour les personnes qui s'identifient. Le robot ne peut donc pas y accéder.
- The Truly Invisible Web : contenu qui ne peut être indexé pour des raisons techniques. Ex : format inconnu par le moteur (Google est l'un des rares moteurs à reconnaître autant de formats), pages générées dynamiquement (incluent des caractères comme ? et &).
Cliquez pour agrandir...
Cliquez pour agrandir...

Plutôt que le web visible et invisible, l'étude de BrightPlanet préfère évoquer, le surface web et deep web (web profond). En effet, pour cette société, le problème n'est pas tant la visibilité que l'accessibilité par les moteurs. Il y a un web de surface que les moteurs parviennent à indexer et un web profond que leur technologie ne parvient pas à encore à explorer mais qui est visible à partir d'autres types d'outils (répertoires sélectifs, bases de données..). On pourrait donc comparer le web à un gigantesque iceberg (en perpétuelle expansion) avec un volume de ressources immergées beaucoup plus important que les ressources de surface. En se basant sur les études Bright Planet et Cyveillance, on pourrait imaginer que le web visible dépassait fin décembre 2002 les 64 milliards de pages (dans l'hypothèse d'un doublement de taille tous les 6 mois) ou "seulement" les 15 milliards de pages (dans l'hypothèse d'une stabilisation de sa croissance). Ces mêmes études permettent également de dire que le web invisible serait 260 fois plus vaste que le web visible. Ces chiffres ne sont évidement que des hypothèses. Mais l'étude Bright Planet apporte une information intéressante plus précise : les 60 sites les plus importants représentent à eux seuls plus de 40 fois le volume du web visible. Ce sont des sites scientifiques (NASA), des bases de donées (Lexis Nexis, Dialog), des sites universitaires (Berkeley), de médias et presse (USAToday), de commerce en ligne (e-bay), des sites internes de grosses sociétés (UPS, Fedex)...

Source google


ZzZZZZZZZZZZzzzzzzzzzzzZZzzzz


Revenir en haut
Publicité






MessagePosté le: 10/07/2006 13:56:45    Sujet du message: Publicité

PublicitéSupprimer les publicités ?
Revenir en haut
Montrer les messages depuis:   
Poster un nouveau sujet   Répondre au sujet    Hbalbladi Index du Forum -> Nacha6 ha houwa cha6 -> Dar l3ajaza (discussion générale) Toutes les heures sont au format GMT
Page 1 sur 1

 
Sauter vers:  

Portail | Index | Panneau d’administration | Créer un forum | Forum gratuit d’entraide | Annuaire des forums gratuits | Signaler une violation | Conditions générales d'utilisation
Powered by phpBB © 2001, 2017 phpBB Group
iCGstation v1.0 Template By Ray © 2003, 2004 iOptional

Traduction par : phpBB-fr.com