새로운 오픈소스 robots.txt 프로젝트

2020년 9월 21일 월요일

작년에 Google은 프로덕션 시스템에서 사용하는 robots.txt 파서 및 일치자를 오픈소스로 공개했습니다. 이후 개발자들이 이를 활용한 새 도구를 빌드하고 오픈소스 라이브러리에 참여(프로덕션 시스템을 실질적으로 개선함)했으며 개발자의 새 도구 빌드를 용이하게 만드는 golangrust 같은 새로운 언어 버전을 출시했습니다.

Google의 인턴 시즌이 끝남에 따라 검색 오픈소스팀에서 일하는 두 인턴(안드레아 두툴레스쿠, 이안 돌잔스키)이 제작한 robots.txt 관련 두 가지의 신규 출시를 집중적으로 알아보겠습니다.

Robots.txt 사양 테스트

먼저, Google은 안드레아가 만든 robots.txt 파서 개발자를 위한 테스트 프레임워크를 출시합니다. 프로젝트는 robots.txt 파서가 로봇 제외 프로토콜을 준수하는지 여부 또는 어느 정도 준수하는지 검증할 수 있는 테스트 도구를 제공합니다. 현재 파서의 정확성을 평가할 수 있는 공식적이고 철저한 방법은 없습니다. 따라서 안드레아는 프로토콜을 따르는 robots.txt 파서를 만드는 데 사용할 수 있는 도구를 빌드했습니다.

자바 robots.txt 파서 및 일치자

둘째, Google은 이안이 만든 공식 C++ robots.txt 파서 자바 포트를 출시합니다. 자바는 GitHub에서 세 번째로 가장 많이 사용되는 프로그래밍 언어로, Google에서도 널리 사용되고 있으므로 가장 많이 요청된 언어 포트인 것은 당연합니다. 파서는 기능 및 동작 측면에서 C++ 파서를 일대일로 변환하며 대규모 robots.txt 규칙을 기준으로 철저한 패리티 테스트를 거쳤습니다. 이미 Google 프로덕션 시스템에서 자바 robots.txt 파서를 사용할 계획이며 개발자도 유용하게 활용하시기 바랍니다.

평소와 같이 언제든지 이 프로젝트에 참여해 주시기 바랍니다. C++ robots.txt 파서 또는 이러한 신규 출시를 사용하여 무언가를 빌드하시면 Google에 알려 주시기 바랍니다. 더 많은 개발자에게 알리는 데 도움을 드릴 수 있습니다. 버그를 발견하면 GitHub에서 이슈를 개설하거나 pull 요청으로 직접 참여하여 Google에서 버그를 수정할 수 있도록 도와주세요. 이 프로젝트에 대한 질문이나 의견이 있으면 Twitter에서 팔로우하세요.

안드레아와 이안과 함께 일해서 정말 즐거웠습니다. 두 사람의 인턴십이 끝난다니 아쉽습니다. 두 사람의 참여로 더 나은 인터넷을 만드는 데 도움이 되며 두 사람이 다시 Google에 합류할 수 있기를 바랍니다.