Новые проекты с открытым исходным кодом для работы с файлами robots.txt

Понедельник, 21 сентября 2020 г.

В прошлом году мы открыли исходный код инструмента для анализа и сопоставления файлов robots.txt, который используется в наших системах. После этого пользователи приняли участие в работе над библиотекой с открытым исходным кодом (и тем самым улучшили работу наших систем, за что мы им благодарны), а также выпустили новые версии инструмента на языках golang и rust, что упрощает разработчикам создание новых инструментов.

В Google заканчивается сезон стажировки, и мы хотели обратить ваше внимание на два новых проекта, связанных с файлами robots.txt и реализованных благодаря стажерам, которые работали в нашей команде, – Андреа Дутулеску (Andreea Dutulescu) и Яну Должанскому (Ian Dolzhanskii).

Тестирование файлов robots.txt

Первый проект – фреймворк для тестирования, который создала Андреа Дутулеску. Он предназначен для тех, кто занимается разработкой парсеров файлов robots.txt. Фреймворк позволяет определить, соответствует ли файл robots.txt стандартам исключений для роботов (Robots Exclusion Protocol) и в какой степени. В настоящее время не существует официального метода всесторонней проверки таких парсеров на соответствие указанным стандартам. Поэтому Андреа создала инструмент, который упрощает эту задачу.

Java-версия инструмента для анализа и сопоставления файлов robots.txt

Второй проект – портирование парсера файлов robots.txt, написанного на C++, на язык Java, которое выполнил Ян Должанский. Java – третий по популярности язык программирования на GitHub. Google также часто его использует, поэтому неудивительно, что портирование на Java было особенно актуальным. Портированный парсер является точной Java-копией оригинала, написанного на C++. Все функции сохранены в нем в исходном виде, а сам инструмент был тщательно протестирован на большом корпусе правил для файлов robots.txt. Наши команды уже планируют использовать Java-версию парсера в рабочих системах Google. Надеемся, что она пригодится и вам.

Мы приглашаем вас к участию в этих проектах. Если вы применяли в своих разработках парсер файлов robots.txt, написанный на C++, или упомянутые выше новые инструменты, сообщите нам, чтобы мы рассказали об этом другим пользователям. Если вы обнаружили ошибку, сообщите о ней в трекере GitHub Issues или с помощью прямого pull-запроса, и мы постараемся устранить ее. Если у вас есть вопросы или комментарии, вы можете связаться с нами в Твиттере.

Мы были рады сотрудничать с Яном и Андреа, и нам жаль, что их стажировка подошла к концу. Они внесли вклад в улучшение интернета, и мы надеемся снова увидеть их в Google в будущем.