CriticGPT wyłapuje błędy, krytykuje, punktuje nieścisłości i jest bezwzględne dla ChatGPT. W OpenAI stworzyli AI do kontroli AI

OpenAI zaprezentowało CriticGPT, model AI analizujący i wykrywający błędy w kodzie generowanym przez ChatGPT.

tech
Andrzej Krzemiński28 czerwca 2024
Źrodło fot. Andrew Neel, Unsplash
i

W czwartek OpenAI zaprezentowało CriticGPT, model badawczy zajmujący się identyfikowaniem błędów w kodzie generowanym przez ChatGPT. Głównym celem nowego AI jest sprawienie, aby sztuczna inteligencja zachowywała się w sposób bardziej ludzki, zgodny z oczekiwaniami użytkowników. Pomóc ma w tym „Reinforcement Learning from Human Feedback” (RLHF), czyli sposób nauki na podstawie informacji zwrotnej od ludzi.

Cel powstania CriticGPT

Jak opisano w artykule badawczym OpenAI, zatytułowanym „LLM Critics Help Catch LLM Bugs”, CriticGPT ma być asystentem AI dla osób, które korzystają z kodów generowanych przez ChatGPT. Oparty na GPT-4 LLMS CriticGPT analizuje kod i wskazuje znajdujące się w nim błędy, które mogły wcześniej pozostać niezauważone.

Proces nauki nowego AI

Rozwój CriticGPT polegał na szkoleniu sztucznej inteligencji na dużej liczbie danych zawierających kody źródłowe z błędami. Trenerzy byli odpowiedzialni za modyfikowanie kodów generowanych przez ChatGPT i celowe wprowadzanie do nich błędów, a następnie przekazywanie CriticGPT informacji o tym, jak je odkryli i wyeliminowali. Dzięki takiemu szkoleniu, model AI nauczył się identyfikować i naprawiać różne problemy pojawiające się podczas kodowania.

Źródło: OpenAI
Źródło: OpenAI

Podczas testów, CriticGPT potrafił wyłapywać zarówno błędy celowo wstawione przez badaczy, jak i te występujące naturalnie w kodach generowanych przez ChatGPT. Oba modele od OpenAI mogą wykrywać błędy generowane przez człowieka, jednak badacze zauważyli, że w 63% przypadków CriticGPT robi to znacznie lepiej i generuje mniej fałszywych alarmów.

Naukowcy opracowali również nową technikę nazwaną „Force Sampling Beam Search”, która pomaga CriticGPT pisać bardziej szczegółowe recenzje kodu. Badacze mogli dostosować dokładność AI w zależności od swoich oczekiwań.

Źródło: OpenAI
Źródło: OpenAI

Największym zaskoczeniem dla badaczy był fakt, że CriticGPT potrafił znaleźć błędy w próbkach kodów, które wcześniej zostały ocenione przez testerów jako bezbłędne. Wszystkie poprawki sugerowane przez AI zostały przyjęte, co idealnie obrazuje możliwości programu w wyłapywaniu nawet najmniejszych, normalnie niezauważalnych błędów.

Limity CriticGPT

Podobnie jak wszystkie modele sztucznej inteligencji, CriticGPT ma swoje ograniczenia. W oficjalnym oświadczeniu OpenAI zaznaczyło najważniejsze problemy, z jakimi boryka się ich nowy program.

  • CriticGPT został wytrenowany na krótkich odpowiedziach, dawanych przez ChatGPT. Nowe AI nie radzi sobie obecnie z dłuższymi, bardziej skomplikowanymi zadaniami.
  • Program jest najbardziej skuteczny w identyfikowaniu prostych błędów i ma problem z poprawnym rozpoznaniem tych rozproszonych po całym kodzie.
  • Program ma czasami „halucynacje” i wprowadza poprawki do kodu, który jest poprawnie napisany.
  • Jeśli zadanie jest złożone, CriticGPT nie będzie w stanie poprawnie ocenić, jaki jest dokładnie problem.

Następne kroki

OpenAI ma w planach zintegrowanie innych modeli, podobnych do CriticGPT, z „Reinforcement Learning from Human Feedback”. Twórcy uważają, że taki kierunek pozwoli w przyszłości na tworzenie lepszych i bardziej rozbudowanych narzędzi.

Andrzej Krzemiński

Andrzej Krzemiński

Do GRYOnline.pl dołączył w maju 2024 roku, rozpoczynając swoją przygodę z profesjonalnym pisaniem w dziale technologicznym. Jest miłośnikiem eksperymentalnego hip-hopu oraz książek psychologicznych i filozoficznych, które kolekcjonuje. W wieku 7 lat kuzyn wprowadził go w świat gier i od tego czasu nie może się od nich oderwać. W przeszłości spędzał długie godziny na grach multiplayer, takich jak League of Legends, Valorant i Rainbow Six: Siege. Obecnie skupia się na strategiach, produkcjach indie i j-RPG. Jest największym fanem japońskich gier, w szczególności twórczości studia Atlus z serią gier Persona na czele oraz gry Nier: Automata. W tym roku planuje rozpocząć studia na Uniwersytecie Jagiellońskim.

Najlepsze sztuczki na ładowanie telefonu komórkowego? Ten test pokazał, że jedna z nich to nieporozumienie

Najlepsze sztuczki na ładowanie telefonu komórkowego? Ten test pokazał, że jedna z nich to nieporozumienie

Zakazali telepracy i zmusili go do powrotu do biura. Odpłacił swojemu szefowi pięknym za nadobne

Zakazali telepracy i zmusili go do powrotu do biura. Odpłacił swojemu szefowi pięknym za nadobne

Gry AAA rozczarowują na iPhonie i iPadzie. Popularność dużo poniżej oczekiwań

Gry AAA rozczarowują na iPhonie i iPadzie. Popularność dużo poniżej oczekiwań

Walkman budził niegdyś pożądanie jak dziś najnowszy iPhone. Właśnie kończy 45 lat, a ja wciąż miło go wspominam

Walkman budził niegdyś pożądanie jak dziś najnowszy iPhone. Właśnie kończy 45 lat, a ja wciąż miło go wspominam

Zamrożenie karty graficznej w wielkiej kostce lodu może być kuszące, ale to nie jest najlepszy system chłodzenia dla komputera

Zamrożenie karty graficznej w wielkiej kostce lodu może być kuszące, ale to nie jest najlepszy system chłodzenia dla komputera