Catégories
Plugin et site web

Développement pour le Web sémantique – Smashing Magazine

A propos de l'auteur

Frederick O'Brien est un journaliste indépendant qui se conforme à la plupart des stéréotypes britanniques. Ses intérêts incluent la littérature américaine, le graphisme, le développement durable…
Plus à propos
Frédéric

Le rêve d'un Internet lisible par machine est aussi vieux que l'Internet lui-même, mais ce n'est que ces dernières années qu'il semble vraiment possible. Alors que les principaux sites Web progressent vers la collecte de données de leur contenu, le moment est venu de prendre le train en marche.

En juillet, la Wikimedia Foundation a annoncé Abstract Wikipedia, une tentative de balisage des connaissances indépendantes du langage. À bien des égards, c'est l'aboutissement de décennies d'accumulation, au cours desquelles le rêve d'un Web sémantique n'a jamais vraiment décollé, mais n'a jamais tout à fait disparu non plus.

En fait, le Web sémantique se développe et, à mesure qu'il renouvelle sa mission, nous avons tous tout à gagner à intégrer un balisage sémantique dans nos sites Web, qu'il s'agisse de blogs personnels ou de géants des médias sociaux. Que vous vous souciez des expériences Web sophistiquées, du référencement ou de la lutte contre la tyrannie des monopoles du Web, le Web sémantique mérite notre attention.

Les avantages du développement pour le Web sémantique ne sont pas toujours immédiats ou visibles, mais chaque site qui le fait renforce les fondations d'un Internet ouvert, transparent et décentralisé.

Le Web sémantique

Qu'est-ce que le Web sémantique exactement? Il s'agit d'un site Web lisible par machine, fournissant par le biais de métadonnées «un cadre commun qui permet aux données d'être partagées et réutilisées au-delà des limites des applications, des entreprises et des communautés».

L'idée est aussi ancienne que le World Wide Web lui-même. Plus vieux, en fait. C'était un point central de la proposition de Tim Berners-Lee de 1989. Comme il l'a souligné, non seulement les documents devraient former des sites Web, mais les données à l'intérieur eux aussi devraient:

Schéma de la proposition World Wide Web de Tim Berners-Lee au CERN
Un diagramme de la proposition originale de Sir Tim Berners-Lee pour le World Wide Web. (Grand aperçu)

Le Web sémantique a parcouru une route difficile au cours des décennies qui ont suivi. Depuis le début du millénaire, il s'est transformé en plusieurs concepts – données ouvertes, graphiques de connaissances – tous signifiant effectivement la même chose: des réseaux de données.

Comme le résume le W3C, il s'agit «d'une extension du Web actuel dans lequel l'information reçoit une signification bien définie, permettant aux ordinateurs et aux personnes de mieux travailler en coopération».

Aaron Swartz s'exprimant devant une foule
Aaron Swartz s'exprimant en 2012. Photographie de Daniel J. Sieradski. (Grand aperçu)

L'idée a eu sa juste part de défenseurs. Le hacktiviste Internet Aaron Swartz a écrit un livre manuscrit sur le Web sémantique appelé Un Web programmable. Il y écrit:

«Les documents ne peuvent pas vraiment être fusionnés, intégrés et interrogés; ils servent principalement d'instances isolées à visualiser et à examiner. Mais les données sont protéiformes, capables de prendre la forme qui convient le mieux à vos besoins. »

Pour diverses raisons, le Web sémantique n'a pas décollé de la même manière que le Web, bien qu'il rattrape son retard. Plusieurs balises ont tenté de s'emparer du manteau au fil des ans – RDFa, OWL et Schema pour n'en nommer que quelques-unes – bien qu'aucune ne soit devenue la norme, par exemple, HTML ou CSS. La barrière à l'entrée était trop élevée.

Cependant, le rêve du Web sémantique a perduré et, à mesure que de plus en plus de sites l’intègrent dans leurs conceptions, il y a de plus en plus de raisons de se joindre à la fête. Plus il y a de sites à bord, plus le Web sémantique devient fort.

Lectures complémentaires

Savoir sans frontières

Avant d'entrer dans les mauvaises herbes de Comment pour concevoir pour le Web sémantique, il vaut la peine de creuser un peu plus Pourquoi. Qu'importe que les données soient connectées? Les documents connectés ne suffisent-ils pas?

Il y a plusieurs raisons pour lesquelles le Web sémantique continue d'être poussé par ceux qui se soucient d'un Internet gratuit et ouvert. Comprendre ces raisons est essentiel au processus de mise en œuvre. Il ne devrait pas s'agir de «mangez vos légumes, utilisez un balisage sémantique». Le Web sémantique est quelque chose en quoi croire et faire partie.

Les avantages du Web sémantique comprennent:

  • Expériences Web plus riches et plus sophistiquées
  • Contourner les silos de contenu et les monopoles Internet
  • Amélioration de la lisibilité et du classement des moteurs de recherche
  • Démocratisation de l'information

La plupart d'entre eux peuvent être attribués à un principe fondamental du Web sémantique: un langage universel pour les données. Bien qu'Internet ait déjà fait des merveilles pour la communication internationale, il est indéniable que certains pays l'ont bien mieux que d'autres. Prenez les langues utilisées sur le Web par rapport aux langues utilisées dans le monde réel, par exemple. Les yeux d'aigle parmi vous pourront peut-être déceler un léger déséquilibre dans les données ci-dessous…

Diagramme à barres comparant les langues parlées en ligne et dans la vraie vie
La proportion de langues utilisées sur le Web ne correspond pas à celles utilisées dans le monde réel. (Grand aperçu)

L'utopie sans frontières du Web n'est pas aussi proche que cela pourrait le sembler à ceux d'entre nous à l'intérieur de la bulle anglophone. Est-ce quelque chose pour châtier quelqu'un? Pas nécessairement, mais c'est quelque chose à affronter. Cela souligne l'importance du balisage qui comble ces lacunes. En enrichissant les données du Web, nous soulageons ses langages.

C'est le nœud du Résumé Wikipedia récemment annoncé, qui tentera de découpler les articles de la langue dans laquelle ils se trouvent être écrits. La directrice exécutive de Wikimedia, Katherine Maher, écrit: «En utilisant du code, les volontaires pourront traduire ces 'articles' abstraits en leurs propres langues. En cas de succès, cela pourrait permettre à chacun de lire sur n'importe quel sujet de Wikidata dans sa propre langue. »

Résumé Le créateur de Wikipédia, Denny Vrandečić, est un défenseur du Web sémantique depuis des années, reconnaissant son potentiel à libérer un potentiel inexploité en ligne. La suppression des barrières nationales est essentielle à ce processus.

«Quelle que soit la langue dans laquelle vous publiez votre contenu, vous allez manquer d'inclure la grande majorité des gens dans le monde. Le Web nous a donné cette merveilleuse opportunité d'avoir une portée mondiale – mais en nous appuyant sur une seule langue ou un petit ensemble de langues, nous gaspillons cette opportunité. Bien que l'objectif le plus important soit de créer un bon contenu en premier lieu, vous invitez davantage de personnes à participer au développement d'un meilleur contenu en étant indépendant de la langue. Cela vous aide à réduire les obstacles à la contribution et à la consommation, et cela permet à beaucoup plus de gens de bénéficier de cet effort. »

– Denny Vrandečić, créateur de Wikipedia abstrait

La visualisation des données au cours de la pandémie COVID-19 en est un exemple opportun. Le virus a fait des ravages indicibles dans le monde entier, mais il a également été un moment propice pour les réseaux de données ouverts, permettant à de superbes applications Web, à des rapports et plus encore d'être courants sur le Web.

Page d'accueil de ncovid2019.live
Le tableau de bord ncovid2019.live a été réalisé par le lycéen américain Avi Schiffman et extrait des données de l'OMS, du CDC et du COV19. (Grand aperçu)

Et bien sûr, lorsque les données sont transparentes et facilement accessibles, cela facilite l'identification des anomalies… ou de la pure tromperie. Un accès public généralisé au type d'informations ci-dessus serait impensable il y a encore 20 ans. Maintenant, nous nous y attendons et sentons un rat quand il nous est refusé. Les données sont puissant, et si nous le voulons, peut être utilisé pour de bon.

De même, sortir des silos de contenu – une caractéristique de l'expérience Web moderne – éloigne le pouvoir des monopoles Web comme Google, Facebook et Twitter. Nous sommes tellement habitués aux plates-formes tierces de déchiffrer et de présenter des informations que nous oublions qu'elles ne sont pas strictement nécessaires.

«Si nous avions des formats partagés, des protocoles partagés, nous pourrions encore nous retrouver avec certains fournisseurs jouant un rôle important sur certains marchés – pensez à Gmail pour les e-mails – mais tout le monde est libre de passer à un autre fournisseur et le marché reste compétitif.»

– Denny Vrandečić, créateur de Wikipedia abstrait

Le Web sémantique est sans silo; il est libre, ouvert et abstrait, permettant une communication entre différentes langues et plates-formes qui serait autrement beaucoup plus difficile.

Contenu en ligne contenant des données

La conception pour le Web sémantique se résume à un contenu en ligne contenant des données – regarder votre contenu et voir ce qui peut (et devrait) être abstrait. Qu'est-ce que cela signifie en termes pratiques, au-delà du fait de convenir vaguement que cela vaut la peine de le faire? Ça dépend:

  1. Si vous démarrez un projet à partir de zéro, intégrez des considérations sur le Web sémantique à ce que vous faites. Au fur et à mesure qu'un site Web prend forme, intégrez un balisage sémantique à son ADN.
  2. Si vous mettez à jour ou reconstruisez un projet, évaluez ce qui pourrait être tissé dans le Web sémantique qui ne l’est pas actuellement, puis mettez en œuvre.

Les deux cas correspondent essentiellement à un contenu de saisie de données. Dans cette section, nous allons passer en revue quelques exemples d'abstraction de données et comment elle peut rendre le contenu meilleur, plus intelligent et plus largement disponible.

Résumé des informations

Concevoir et développer pour le Web sémantique signifie regarder du contenu en ligne avec votre chapeau de données. La plupart d'entre nous vivent le Web comme une série de documents ou de pages de connexion; ce que vous voulez faire avec le Web sémantique, ce sont des informations de connexion. Cela signifie évaluer votre contenu pour les points de données, puis ajuster la conception en fonction de ce que vous trouvez.

Le défenseur du Web sémantique James Hendler décrit particulièrement bien ce processus avec son éthique DIVE. (SE PLONGER dans les données, hein? Hein?). Il se décompose comme suit:

  • Découvrir
    Trouvez des ensembles de données et / ou du contenu (y compris en dehors de votre propre organisation).
  • Intégrer
    Liez les relations à l'aide d'étiquettes significatives.
  • Valider
    Fournir des contributions aux systèmes de modélisation et de simulation.
  • Explorer
    Développer des approches pour transformer les données en connaissances exploitables.

Développer pour le Web sémantique consiste en grande partie à avoir une vue d'ensemble de ce que vous faites et de la façon dont cela se nourrit potentiellement d'expériences Web infiniment plus riches. Comme le dit Hendler, l'objectif est la connaissance exploitable.

Cela peut vraiment s'appliquer à presque tous les types de contenu Web, mais commençons par un exemple courant: recettes. Supposons que vous gériez un blog de cuisine, avec de nouvelles recettes tous les jeudis. Si vous êtes français et que vous publiez une recette de soufflé éclatante sur votre blog personnel en texte brut, cela n’est utile que pour ceux qui savent lire le français.

Cependant, en implémentant un balisage sémantique, le blog peut être transformé en un ensemble de données de recette lisible par machine. La syntaxe existe pour les termes de cuisson à résumer. Schema, par exemple, qui peut fonctionner avec Microdata, RDFa ou JSON-LD, a un balisage comprenant:

  • temps de préparation
  • temps de cuisson
  • recette
  • recette Ingrédient
  • coût estimé
  • nutrition, se décomposant en calories et en matières grasses
  • appropriéForDiet.

Je pourrais continuer. La gamme complète d'options, avec des exemples, peut être consultée sur Schema.org. En les ajoutant au format de publication, le format de la recette n'a pas du tout besoin de changer – vous mettez simplement les informations en termes que les ordinateurs peuvent comprendre.

Capture d'écran d'une recette de tarte au cottage BBC
En convertissant le contenu éditorial en données, les recettes de la BBC augmentent massivement leur utilité potentielle. (Cliquez pour un grand aperçu)

Par exemple, tout ce qui est surligné en bleu dans la recette BBC ci-dessus a également reçu un balisage sémantique – du temps de cuisson au contenu nutritionnel. Vous pouvez voir ce qui se passe sous le capot en saisissant l'URL de la recette dans le test de résultats enrichis de Google. Notez la fonctionnalité «Ajouter à la liste de courses», un exemple de connexion rendue possible par l'implémentation du Web sémantique. Un bon contenu devient des données utilisables.

La plupart d'entre nous ont croisé ce genre de sophistication via les résultats de recherche, mais les applications sont beaucoup plus larges que cela. Le balisage sémantique des recettes facilite la recherche et l'utilisation des sites Web par les assistants à domicile. Les ingrédients répertoriés peuvent être commandés au supermarché local. Les recettes peuvent être filtrées de toutes sortes de manières – pour les régimes, les allergies, la religion, le coût, etc. Ou disons que vous aviez un nombre limité d’ingrédients dans la maison. Avec une base de données, vous pouvez saisir ces ingrédients et voir quelles recettes correspondent à la facture.

L'éventail des possibilités est vraiment illimité. Comme l'a dit Swartz, les données sont protéiformes. Une fois que vous l'avez, vous pouvez l'utiliser de toutes sortes de façons étranges et merveilleuses. Cette pièce ne parle pas de ces façons étranges et merveilleuses mais plutôt de les rendre possibles. La conception pour le Web sémantique rend la conception ultérieure infiniment plus riche.

Voici un exemple plus personnel pour montrer ce que je veux dire. Un couple d'amis et moi organisons un petit webzine musical comme passe-temps. Bien que nous publions l’article ou l’interview étrange, le «principal événement» est notre critique hebdomadaire d’albums, dans laquelle nous attribuons à trois une partition, choisissons les morceaux préférés et rédigions des résumés. Cela fait plus de cinq ans que nous y travaillons, ce qui signifie que nous avons près de 250 avis, ce qui signifie énormément de données potentielles. Nous n'avons pas réalisé à quel point nous n'avons pas commencé à refondre le site.

J'en ai parlé dans un article sur l'intégration de données structurées dans le processus de conception. En disséquant nos critiques, nous avons réalisé qu'elles étaient pleines d'informations qui pouvaient recevoir un balisage sémantique. Artistes, noms d'album, illustrations, date de sortie, partitions individuelles, scores globaux, type de sortie, etc. De plus – et c’est là que ça devient vraiment excitant – nous avons réalisé que nous pouvions nous connecter à une base de données existante: MusicBrainz.

Cette approche bidirectionnelle est au cœur du Web sémantique. Lorsque notre site Web de musique sera relancé, ce sera sa propre source de données ouverte avec des milliers de points de données uniques. La connexion à une base de données musicale existante donnera à nos propres données plus de contexte – et de potentiel. Des milliers de points de données deviennent des dizaines de milliers de points de données, peut-être plus.

Graphique montrant comment le balisage sémantique se connecte sur une critique d'album
Avec un simple balisage sémantique, des pages Web apparemment inoffensives peuvent devenir le centre d'un énorme réseau d'information. (Grand aperçu)

Le graphique ci-dessus ne fait qu'effleurer la surface de la quantité d'informations qui seront connectées aux pages d'avis. Le contenu est le même qu'avant, ce n'est que maintenant qu'il est connecté à un écosystème de métadonnées – le Giant Global Graph, comme Berners-Lee l'appelait autrefois.

Développer pour le Web sémantique signifie identifier vos propres données, les baliser, puis déterminer comment elles se connectent à d'autres données. Parce que c'est le cas. C'est toujours le cas. Et ce processus est la façon dont cela …

Illustration montrant comment les données sémantiques se connectent entre les pages Web
(Grand aperçu)

… Avec le temps devient ceci…

Le cloud de données ouvertes lié
Le Linked Open Data Cloud, une visualisation constamment mise à jour de l'état des données liées en ligne. (Grand aperçu)

La deuxième image est The Linked Open Data Cloud, une visualisation constamment mise à jour des données connectées du Web. Cette ruche rouge de connexions, ce sont les sciences; le reste a du chemin à parcourir. C’est là que nous intervenons.

Ressources Web sémantiques utiles

Brancher

L'idéal du Web sémantique est la connexion. Créez des données, partagez des données, demandez des données. Faites partie d'un écosystème d'information. Lorsque vous créez des données originales, c'est parfait. Partagez-le. Lorsque les données existent déjà et que vous souhaitez les utiliser, intégrez-les.

Voici quelques-unes des ressources de données disponibles:

En effet, là où des bases de données comme celles-ci existent, j’irais jusqu'à dire que la bonne chose à faire serait de les mettre à jour là où elles manquent d’informations. Pourquoi le garder pour vous? Devenez contributeur, défenseur du Web sémantique.

la mise en oeuvre

En ce qui concerne l'intégration du Web sémantique dans vos sites, je ne préconise certainement pas le balisage manuel, doc-par-doc. Qui a le temps pour ça? Le plus souvent, la solution consiste à standardiser un format et à en créer un modèle.

Templating est la grande opportunité ici. Combien de personnes ont vraiment le temps de baliser toutes ces informations manuellement? Cependant, si vous avez des entrées personnalisées, vous obtenez le meilleur des deux mondes. Le contenu peut être rempli d'informations conviviales et les informations existent sous forme de données prêtes à servir quel que soit le but qui vous vient à l'esprit.

Prenez, par exemple, un générateur de site statique comme Eleventy, qui a récemment bénéficié d'un peu d'amour de la part de la communauté des développeurs. Vous écrivez un article, l'exécutez dans un modèle et vous êtes en or. Alors pourquoi ne pas incorporer le balisage sémantique dans le modèle lui-même?

Comme Eleventy, la nouvelle version de notre site Webzine de musique utilise Markdown pour ses publications. Bien que nous ayons les mêmes anciens articles de texte que nous avons toujours fait, chaque révision comprend désormais également les entrées de métadonnées suivantes, qui sont ensuite extraites dans le modèle:

Entrées de métadonnées dans un document Markdown
L'incorporation d'entrées de métadonnées dans des modèles permet de convertir le contenu en données et ajoute au plus quelques minutes à tout téléchargement de publication. (Grand aperçu)

Avec les détails de l'auteur dans le corps de l'article et des informations génériques sur le site Web, cela se traduit ensuite par le balisage sémantique suivant:

Là où auparavant il n'y avait que du texte, sur chaque page de critique, il y aura désormais également des versions lisibles par machine de ce que les lecteurs voient lorsqu'ils visitent le site. Les mots sont toujours là, le contenu a à peine changé – il vient d’être fouillé. Des résultats de recherche riches aux pages de statistiques d'examen interactives, cela augmente considérablement ce qui est possible. La route à parcourir est large et ouverte. Cela nous donne également un enjeu dans l’avenir de MusicBrainz. En connectant leurs données à nos propres données, nous voulons à notre tour voir que cela fonctionne bien et ferons notre part pour nous assurer que c'est le cas.

Le balisage sémantique approprié dépend de la nature d'un site Web, mais il y a de fortes chances qu'il existe. Commencez par les entrées évidentes (date, auteur, type de contenu, etc.) et progressez dans les mauvaises herbes du contenu. La première étape pourrait être aussi simple qu'une hCard (une sorte de carte d'identité numérique) pour votre site Web personnel. Imprimez des captures d'écran des pages et commencez à annoter. Vous serez étonné de la quantité de contenu pouvant être consultée par les données.

Au-delà de l'imagination

La conception et le développement pour le Web sémantique est une pratique qui remonte aux idéaux fondateurs d’Internet. Que vous appréciiez la visualisation de données belle et informative, que vous souhaitiez des résultats de recherche plus sophistiqués, que vous souhaitiez supprimer le pouvoir des monopoles du Web ou simplement croire en une information libre et ouverte, le Web sémantique est votre allié.

Aaron Swartz a clôturé son manuscrit avec un appel à l'espoir:

«Le Web sémantique est basé sur le pari, un pari que donner au monde des outils pour collaborer et communiquer facilement mènera à des possibilités si merveilleuses que nous pouvons à peine les imaginer maintenant.

Résumé Wikipedia Denny Vrandečić fait écho à ces sentiments aujourd'hui en disant:

«Il est nécessaire de disposer d'une infrastructure Web qui facilitera l'interopérabilité entre les services, ce qui nécessite un ensemble commun de normes pour la représentation des données et des protocoles communs entre les fournisseurs.»

Le Web sémantique a boité assez longtemps pour qu'il soit clair qu'un langage de solution miracle n'apparaîtra probablement pas, mais il y en a assez maintenant pour que le rêve fondateur de Berners-Lee soit une réalité pour la plupart du Web. Chacun de nous peut être un porte-parole dans son propre quartier.

Soyez meilleur, exigez mieux

Comme l'a dit Tim Berners-Lee, le Web sémantique est une culture autant qu'un obstacle technique. Dans une conférence TED de 2009, il l'a bien résumé: créer des données liées, demander des données liées. C’est plus vrai que jamais. Le World Wide Web est aussi ouvert et connecté et aussi bon que nous le forçons à l'être. Chaque fois que vous créez quelque chose en ligne, demandez-vous: "Comment cela peut-il se connecter au Web sémantique?" Les réponses ajouteront de nouvelles dimensions aux choses que nous créons et créeront de nouvelles possibilités incroyablement merveilleuses pour les années à venir.

Éditorial fracassant(ra, yk, il)

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *