Nouveaux projets robots.txt Open Source

Lundi 21 septembre 2020

L'année dernière, nous avons lancé l'analyseur.txt et l'outil de mise en correspondance des fichiers robots.txt que nous utilisons dans nos systèmes de production dans le monde Open Source. Depuis, de nouveaux utilisateurs s'en sont servis pour créer d'autres outils, contribuer à la bibliothèque Open Source (ce qui a permis d'améliorer efficacement nos systèmes de production ; merci !) et publier de nouvelles versions de langages tels que golang et rust pour aider les développeurs à créer de nouveaux outils.

Sachant que la saison des stagiaires se termine chez Google, nous souhaitions mettre en avant deux nouvelles versions du fichier robots.txt qui ont été rendues possibles par deux stagiaires de l'équipe Open Source dédiée à la recherche : Andreea Dutulescu et Ian Dolzhanskii.

Test de spécification du fichier robots.txt

Tout d'abord, nous lançons un framework de test pour les développeurs d'analyseurs robots.txt, créé par Andreea. Le projet fournit un outil de test qui permet de vérifier si un analyseur robots.txt respecte le protocole d'exclusion des robots ou dans quelle mesure. Il n'existe actuellement aucun moyen officiel et complet d'évaluer la précision d'un analyseur. C'est pourquoi Andreea a créé un outil qui peut être utilisé pour créer des analyseurs robots.txt conformes au protocole.

Analyseur et outil de mise en correspondance de fichiers robots.txt pour Java

Deuxièmement, nous lançons un port Java officiel correspondant à l'analyseur robots.txt et créé par Ian. Java est le troisième langage de programmation le plus utilisé sur GitHub. Il est également très utilisé par Google. Il n'est donc pas surprenant qu'il s'agisse du port de langage le plus demandé. L'analyseur est une traduction exacte de l'analyseur C++ en termes de fonctions et de comportement. Il a fait l'objet de tests approfondis afin d'assurer la parité avec un grand nombre de règles du fichier robots.txt. Les équipes prévoient déjà d'utiliser l'analyseur robots.txt Java dans les systèmes de production de Google. Nous espérons que cet outil vous sera également utile.

Comme d'habitude, vos contributions dans le cadre de ces projets sont les bienvenues. Si vous avez développé une solution avec l'analyseur de fichier robots.txt C++ ou avec ces nouvelles versions, contactez-nous afin que nous puissions vous aider à faire passer le message. Si vous avez trouvé un bug, aidez-nous à le résoudre en créant un problème sur GitHub ou en effectuant directement une demande d'extraction. Si vous avez des questions ou des commentaires sur ces projets, contactez-nous sur Twitter.

Nous avons été ravis d'accueillir Andreea et Ian, et nous aurions aimé qu'ils restent plus longtemps parmi nous. Leurs contributions nous permettent d'améliorer Internet et nous espérons les accueillir à nouveau un jour chez Google.