Il y a un peu moins d’un mois, j’ai lu l’entretien d’Olivier Brillanceau, directeur général de la Société des Auteurs des arts visuels et de l’image Fixe (Saif) à propos de la taxe Google. Dans cet entretien, j’ai découvert que la France souhaite créer une taxe qui a pour but de faire payer Google et tous les autres moteurs de recherche qui indexeront les sites d’informations français. Ce sont spécifiquement les médias français qui souhaitent faire instaurer cette taxe, ils sont d’ailleurs soutenus par Aurélie Filippetti, ministre de la culture.
Ce qui devait arriver arriva, Google menace purement et simplement de désindexer les sites des médias français afin de ne pas avoir à payer cette taxe. Et, comme tout est prévisible dans cette histoire, la première réaction de la presse française pour dénoncer « le chantage de Google » est apparu avec un article écrit par Laurent Joffrin, qui avait déjà démontré sa méconnaissance du Web en proposant de réguler les courriels parce qu’on y écrit des choses erronées.
Que reprochent les médias français à Google? De ne pas respecter les droits d’auteur. Aux dires d’Olivier Brillanceau, Nathalie Collin et d’autres, en indexant les sites Web, Google ne fait que purement et simplement copier le contenu et utilise ce contenu pour gagner de l’argent avec des publicités. À propos des images, il estiment également que Google ne respecte pas les droits d’auteur en constituant une immense banque accessible gratuitement par chacun.
Ce qui m’a plus marqué est d’avoir noté que les personnes qui proposent la création de cette loi ne connaissent ni le Web ni le fonctionnement des moteurs de recherche. Premièrement, l’indexation et la copie sont deux procédés différents. Indexer un texte est un processus complexe qui consiste à découper un texte de manière à optimiser les recherches sur celui-ci. On va, par exemple, y supprimer tous les mots outils (le, la, du…), classer les mots en fonction de leur fréquence d’apparition, les classer par famille (les verbes conjugués vont être liés à leur infinitif par exemple), etc.
À partir de cet index, un moteur de recherche va pouvoir déterminer quels contenus correspondent le mieux à la recherche. Ce n’est pas une copie du contenu en tant que tel, un index n’est pas humainement lisible et ne permet pas non plus de restituer le texte original. Il permet simplement de savoir que tel fichier ou telle page Web correspondent le mieux à une recherche. Quand vous utilisez un moteur de recherche, vous n’y trouvez pas du contenu, vous trouvez le lien auquel appartient le contenu et vous êtes redirigés vers le site éditeur de contenu. Idem pour Google Image, vous ne trouvez pas en copie l’image hébergée par Google mais par le site Web éditeur.
On pourrait à défaut parler de la mise en cache de Google, mais celle-ci est temporaire puisque cette sauvegarde disparaît au bout de quelques jours si la page n’existe plus ou sur demande du webmestre du site. Cette cache n’est pas accessible intuitivement (beaucoup de personnes n’ont jamais compris ce lien « en cache » à coté des résultats de recherche) et il n’y a aucune publicité dans son contenu. Le cache de Google est là pour répondre à des besoins exceptionnels, par exemple, si le site éditeur du contenu indexé est inaccessible. Et de toute façon, ça n’est pas ça qu’on lui reproche.
Deuxièmement, Google n’est pas maître du Web, ni son garant, c’est d’abord et avant tout une entreprise privée qui vit du Web et ce, même si elle a également énormément d’influence sur son développement. L’indexation de son contenu par Google n’est pas une obligation mais un service offert par Google. Et ce service est gratuit, Google ne se fait pas payer pour améliorer votre position (contrairement à la croyance populaire). Si un site ne souhaite pas être indexé par Google ou un autre moteur de recherche, il a de nombreux outils à cet effet.
Le plus connu d’entres eux est le fichier robots.txt qui existait bien avant la création de Google. Ce fichier, à mettre à la racine du site, permet d’indiquer aux principaux robots ce qu’il peuvent ou non indexer. Cela fonctionne autant pour les pages Web, que pour les images ou les fichiers en tout genre. Mais ce n’est pas un fichier de sécurité, le robot pourrait tout à fait l’ignorer. Mais Google le respecte et ne présentera aucun résultat dans son moteur que vous lui auriez interdit.
De plus, Google ne pirate pas votre site pour l’indexer, son robot ne fait qu’indexer le contenu accessible à un utilisateur anonyme. En d’autres termes, si Google indexe une page que seuls des utilisateurs autorisés peuvent voir, c’est que vous n’avez pas sécurisé l’accès et que n’importe qui peut de toute façon la voir, que cette personne soit bienveillante ou non. Si une photo ou un texte est accessible par Google, c’est que tout le monde y a accès et peut en faire une copie.
Pour éviter ce problème, il faut donc en limiter la visibilité à des personnes spécifiques s’étant connectées sur le site Internet. Comme il est difficile de vendre une image sans la montrer, une méthode classique consiste à mettre un filigrane dans l’image de présentation. Elle peut être également de moins bonne qualité que l’originale. Ainsi, le visiteur devra acheter l’image pour accéder à l’originale de manière sécurisée.
Dans les outils proposés par Google, il y a les outils webmestre qui permettent de nombreuses choses comme demander l’indexation ou la désindexation de pages spécifiques ou d’un site complet. Il est aussi possible d’avoir tout de même des statistiques sur le taux d’apparition de votre site dans les résultats et son classement. Car en plus de vous indexer, Google apporte un grand nombre d’outils et de documentation simples et complètes, en plusieurs langues, pour améliorer votre référencement. Cela a même donné naissance à un métier, celui de référenceur (ou SEO) qui aide les entreprises à améliorer leur position dans les résultats de recherche. Il y a des entreprises qui payent pour être référencées le mieux possible, mais ce n’est pas Google qu’elles payent pour ça, ce sont des consultants ou des entreprises spécialisées.
Ainsi, si Google gagne de l’argent grâce à vous, il en apporte aux sites en augmentant significativement leurs visites et en apportant gratuitement les moyens d’améliorer cette visibilité. Grâce à Google, combien d’entreprises ou de particuliers n’ayant pas les moyens de s’offrir des campagnes publicitaires ont réussi à obtenir un grand nombre de visites sur leurs sites, leur permettant ainsi de développer leurs activités grâce aux publicités présentes sur le site ou en faisant connaître leurs produits et services au plus grand nombre à moindres frais?
Et combien gagnent les sites d’informations français grâce à l’indexation de Google? Combien de manque à gagner cela représenterait si ce n’était pas le cas? Combien ces journaux et entreprises devraient dépenser en publicité pour que leur contenu puisse profiter de la même visibilité? Si Laurent Joffrin ne comprend pas grand chose au Web, il n’est pas pour autant fou et sait pertinemment que la désindexation du Nouvel Obs dans les moteurs de recherche serait une perte monstrueuse de visites qui mettrait son journal en grande difficulté. De là à réclamer à une entreprise privée de vous offrir un service gratuit et en plus de vous payer…
On peut reprocher beaucoup de choses à Google : de ne pas respecter la vie privée ou d’avoir le monopole sur beaucoup trop de domaines, écrasant la concurrence. Mais son moteur de recherche reste indubitablement lié au dynamisme du Web. La relation entre Google et les sites indexés est interdépendante, Google a besoin d’indexer les sites pour exister et les sites ont besoin d’être indexés pour (mieux) exister. Ne pas avoir compris cela, c’est ne pas avoir compris une part importante de l’économie du Web. Si les médias français sont en difficulté, c’est probablement parce qu’ils n’ont pas encore trouvé quel modèle économique adopter pour s’intégrer au Web.
Au final, le cœur du problème n’est donc pas l’argent que Google gagne grâce aux publicités mais plutôt l’argent que n’arrivent pas à gagner les sites d’informations français. Probablement parce que ces sites sont pour la plupart présents sur le Web de façon gratuite. Ce choix repose non pas sur le désir d’offrir un nouveau service à leurs lecteurs mais parce qu’il en allait de leur survie. Les journaux papiers se vendent de plus en plus difficilement face à la concurrence numérique. Ils n’ont donc pas nécessairement compris les médias numériques ou réfléchi aux meilleures stratégies pour optimiser leur profit. Ils restent malheureusement encore coincés dans un modèle économique seulement applicable au format traditionnel.