Hello!

Inspiré(e) de prendre part à la discussion ? Ou de poser une question ou demander de l’aide ?

Alors bienvenues dans les grands sujets des forums de La Bulle : m’inscrire.

Cette partie du forum n’est pas compatible avec les bloqueurs publicitaires

Félicitations à vous, de préférer les accès payants plutôt que la gratuité par la publicité, c’est honnorable et cohérent de votre part. Malheureusement, l’accès payant par micropaiement (qui serait d’environ 1 cent pour 20 pages consultées) n’est pour l’instant pas encore mis en place, et l’accès gratuit sans publicité, est réservé aux membres actif(ve)s du forum. En attendant, si vous souhaitez poursuivre votre visite chez nous, vous pouvez ajouter le site à votre liste blanche, ou encore mieux, désactiver le bloqueur partout. Pour ajouter le site à votre liste blanche, pour Firefox (similaire pour les autres navigateurs), rendez‑vous en bas à gauche de la fenêtre de votre navigateur, et cliquez sur le menu comme dans l’exemple de l’image ci‑dessous, puis rechargez la page, en appuyant sur F5.

Swoogle : moteur de recherche sémantique
Auteur Message
Administrateur
Avatar de l’utilisateur
  • Genre : Télétubbie
  • Messages : 22200
Jeu 9 Jan 2014 03:53
Message Swoogle : moteur de recherche sémantique
Présentation rapide. Le web sémantique est une utopie ou l’avenir du web (et même au delà du web, plus généralement des ensembles de documents) selon les points de vue. Il repeose sur RDF (Resource Description Framework), une sorte de langage pour exprimer les relations entre les choses. RDF a besoin d’ontologies pour représenter les relations entre les choses (on peut comparer les ontologies aux axiomes et objets de base des théories mathématiques). Il existe plusieurs ontologies, définies par des standards. Certaines sont plus courantes que les autres, pour des raisons pratiques ou autres. Il existe par exemples une ontologie des réseaux sociaux, nommée FOAF (Friend Of A Friend), ou une ontologie des ressources numériques, nommée Dublin Core.

Ce langage sémantique et ses ontologies, a pour vocation de permettre l’expression de faits et relations qui ne sont pas exprimables avec les formats de données classiques, qui ne permette que de stocker des données, ne sont que des conteneurs (ex. les fichiers), sans rien pour permettre leur interprétation d’une manière générale ; et c’est la raison pour laquelle, par exemple, les robots d’indexation des moteurs de recherche, peinent à comprendre les pages qu’ils indexent et à répondre correctement aux requêtes qui leur sont faites (dit plus crûment, ils ne comprennent rien à ce qu’ils indexent, et n’en ont qu’une vision statistique et non‑pas sémantique). Ce langage et ses ontologies sont donc en partie destinées aux robots et logiciels, pour leur permettre d’interpréter les choses et de mieux répondre à nos requêtes.

Peu de sites web (et aucun système de fichiers pour l’instant) font usage de ces annotations sémantiques, mais il en est quelques uns au moins.

Il existe un moteur de recherche qui est capable d’exploiter ces annotations sémantiques, de faire des recherches parmi les sites web les utilisant, et il s’appel Swoogle :

swoogle.umbc.edu

Logo de Swoogle :

Logo de Swoogle

Contrairement aux apparences (nom et logo), il ne semble en aucune manière lié à Google, n’est pas une n‑ième page de recherche, façade, déléguant les recherches à Google.

Il est hébergé sur les serveurs d’une université du Maryland, aux États‑Unis : University of Maryland, Baltimore County (umbc.edu).

J’ai découvert l’existence de ce moteur de recherche en consultant une page d’un wiki dédié au web sémantique, précisément une page sur un « index swoogle », qui est en fait un index de la popularité des ontologies (c’est à dire un classement des ontologies les plus utilisées en pratique) d’après l’index du moteur de recherche Swoogle : Property:Swoogle hits (semanticweb.org)

Image
Hibou57

« La perversion de la cité commence par la fraude des mots » [Platon]
Profil Site Internet
Bavard impénitent
Bavard impénitent
Avatar de l’utilisateur
  • Genre : Garçon
  • Age : 63
  • Localisation : Lyon
  • Messages : 591
Jeu 9 Jan 2014 18:26
Message Re: Swoogle : moteur de recherche sémantique
Je viens d'essayer, c'est pas top Déçu(e) ou triste

à moins d'utiliser des termes spécifiques en anglais ?
Profil
Administrateur
Avatar de l’utilisateur
  • Genre : Télétubbie
  • Messages : 22200
Jeu 9 Jan 2014 21:54
Message Re: Swoogle : moteur de recherche sémantique
Youplaa a écrit : 
Je viens d'essayer, c'est pas top Déçu(e) ou triste

Oui, c’est en fait un peu normal. J’espère que je ne me suis pas trop emballé en postant ce topic. D’abord Swoogle est expérimental, ensuite ça concerne des types de documents que les navigateurs ne savent pas encore afficher nativement (et les documents eux‑mêmes n’aident pas), et les requêtes ont un format spécial, qui n’est pas encore assez intuitif.

Youplaa a écrit : 
à moins d'utiliser des termes spécifiques en anglais ?

Voilà, c’est ça (et comme une nouille, j’ai oublié de le préciser). Le mode d’emploi est ici : Swoogle Manual.

Il parle de la recherche dans les documents et de la recherche dans les ontologies. Par défaut, Swoogle se met sur la recherche dans les ontologies, et pour aller sur la recherche dans les documents, il faut cliquer sur le lien « document », qui devient alors noir, indiquant que c’est le mode sélectionné : Swoogle pour la recherche dans les documents.

Ensuite, il faut suivre la synthax particulière décrite dans le mode d’emploi. Sans risque, un exemple extrait du manuel : recherche de “def:food. Ça recherche les documents RDF définissant le mot “food(nourriture). On peut remarquer que pour une recherche sur “def:nourriture”, il ne trouve rien. Sûrement que pour l’instant il n’existe que quelques sites universitaires en Anglais, qui utilisent cette technique, et aucune source en français.

La mauvaise nouvelle, c’est que les documents renvoyés, ne sont pas directement lisibles dans les navigateurs. Ça pourrait l’être de deux manières expliquées plus loin, mais ça ne l’est pas apparemment dans les résultats qui ressortent. Pour “def:food”, chez moi le premier lien n’est pas accessible, il ne s’ouvre pas. Le second s’ouvre, mais c’est un gros fichier RDF (pas HTML) qui s’ouvre et que la navigateur affiche comme du texte brute, laborieusement et en ramant énormément, parce qu’il n’est pas fait pour ça.

Un exemple d’extrait issu du second lien :

Source XML : 

<rdf:Description rdf:about="http://morpheus.cs.umbc.edu/aks1/ontosem.owl#squash">
<rdf:type rdf:resource="http://www.w3.org/2002/07/owl#Class"/>
<rdfs:label> "the fleshy fruit of various plants of the gourd family, eaten as a vegetable"</rdfs:label>
<rdfs:subClassOf rdf:resource="http://morpheus.cs.umbc.edu/aks1/ontosem.owl#vegetable-foodstuff"/>
</rdf:Description>

Si le navigateur l’affichait correctement, on pourrait y lire que le “squash(cucurbitacée) est une plante comestible de la famille des “gourds(courges), et que cette définition rentre la sous‑classe des plantes comestibles. Le fichier contient d’autres définitions de cette forme, à propos de la nourriture.

Là, c’était une requête pour une définition, une requête que Google connait aussi, mais dont il détermine les réponses parfois empiriquement, en essayant de deviner si une page définit ou pas un mot. On peut faire d’autres types de recherche que Google ne propose pas, comme chercher des documents qui parlent de choses liées à une autre, par exemple la recherche “pop:person”, renvoie dans ses résultats, un document à peu prêt aussi barbare que celui plus haut, sur le vocabulaire de la photographie, qui est une chose qui peut identifier des “person(gens).

C’est expérimental encore, même si RDF existe depuis 1999.

Je disais plus haut que les navigateurs pourraient afficher correctement les documents renvoyés, et ceci de deux manières. D’abord les auteurs des documents pourraient leur associer un style spécial, qui transforme les documents XML en HTML, et que les navigateurs comprennent. L’autre manière, c’est d’ajouter ces textes étranges en RDF, directement dans des pages HTML normales. Mais dans ce dernier cas, je ne sais pas si Swoogle sait les extraire.

En plus de ça, il semble être victime d’une chose dont était victime Google à ses débuts… les liens cassés, les liens renvoyant vers des sites tombés HS depuis, ou renvoyant des erreurs. Google les filtre, Swoogle ne semble pas les filtrer ni repasser pour vérifier si les URL indexées sont toujours OK.

Image
Hibou57

« La perversion de la cité commence par la fraude des mots » [Platon]
Profil Site Internet
Administrateur
Avatar de l’utilisateur
  • Genre : Télétubbie
  • Messages : 22200
Ven 20 Fév 2015 10:10
Message Re: Swoogle : moteur de recherche sémantique
Swoogle, présenté dans le premier message, repose sur les triplets RDF, pour la représentation des choses et des relations entre elles, et sur SPARQL, pour les requêtes.

L’INSEE, le site officiel des statistiques de la société et de l’économie française, se met expérimentalement à ces deux standards elle aussi, en proposant une recherche par requêtes SPARQL, comme Swoogle le fait, tout en laissant à chacun(e) le soin de formuler des requêtes sur les données, avec l’implémentation SPARQL de son choix, car il est possible de télécharger les données RDF sour forme d’archives ZIP (ce que je n’ose pas tester, parce que ça doit être volumineux …).

La page d’accueil de cette expérimentation : Espace RDF de l’INSEE (rdf.insee.fr). La page de recherche à l’aide de requêtes SPARQL : rdf.insee.fr/sparql. Attention, comme l’a fait remarqué Youplaa, « ça n’est pas commode », ça n’a rien à voir avec des requêtes « en langage naturel » sur Google (j’ai mis des guillemets, parce qu’il est irréaliste de croire que Google comprend les requêtes qu’on lui fait).

Image
Hibou57

« La perversion de la cité commence par la fraude des mots » [Platon]
Profil Site Internet
cron