Test redakcji
Wielki test czatbotów 2026: ChatGPT kontra Claude, Gemini i Le Chat

Dwadzieścia zadań, cztery modele i dwa zaskoczenia. Sprawdź, kto wygrał.
Do testu zaprosiliśmy cztery modele, które najczęściej pojawiają się w polskich firmach: ChatGPT od OpenAI, Claude od Anthropic, Gemini od Google i Le Chat od francuskiego Mistrala. Każdy dostał ten sam zestaw dwudziestu zadań, od streszczania długiego raportu, przez pisanie kodu, po analizę tabeli i redakcję pisma po polsku. Korzystaliśmy z płatnych planów każdego z dostawców, żeby porównać to, co użytkownik faktycznie kupuje.
Jak testowaliśmy
Metodologia była prosta i jawna. Dwoje redaktorów oceniało każdą odpowiedź według wcześniej spisanych kryteriów: poprawność, przydatność, zgodność z poleceniem i jakość języka. Punktowaliśmy w skali od jednego do pięciu, uśredniając oceny obojga, a przypadki sporne omawialiśmy wspólnie. Zależało nam na powtarzalności, więc każdy model dostawał identyczny prompt, bez podpowiadania i bez wielu podejść do tego samego zadania.
Zadania rozłożyliśmy na kilka kategorii. Redakcja i pisanie po polsku, praca z kodem, analiza danych z tabeli, rozumowanie i logika, praca na długim dokumencie oraz codzienne drobiazgi w rodzaju szybkiego maila czy streszczenia notatki. Taki rozrzut miał pokazać nie jednego mistrza od wszystkiego, tylko mocne i słabe strony każdego modelu w konkretnych rolach. Do każdej kategorii przygotowaliśmy po kilka zadań o rosnącej trudności, żeby oddzielić modele radzące sobie z prostym poleceniem od tych, które nie tracą głowy przy bardziej zakręconym.
Wyniki testu
Pierwsze zaskoczenie dotyczyło polszczyzny. Różnice w jakości języka okazały się mniejsze, niż zakładaliśmy, a w zadaniach redakcyjnych stawka biegła łeb w łeb. Wszystkie cztery modele piszą dziś poprawną, naturalną polszczyzną, potykając się co najwyżej na specjalistycznym żargonie i sztywnej frazeologii urzędowej. Jeszcze dwa lata temu tak wyrównana czołówka byłaby nie do pomyślenia.
W programowaniu jeden model wyraźnie się wysforował. Claude dawał najczystszy kod, najlepiej tłumaczył swoje decyzje i najrzadziej wymagał poprawek po pierwszym podejściu, zwłaszcza przy zadaniach rozłożonych na kilka plików. ChatGPT deptał mu po piętach i bywał lepszy w niszowych bibliotekach, a Gemini i Le Chat radziły sobie solidnie, choć częściej trzeba było je naprowadzać na właściwy trop.
Podobnie wyglądała praca na długich dokumentach. Przy streszczaniu obszernego raportu i wyłuskiwaniu z niego konkretów najlepiej wypadały modele z dużym oknem kontekstu, które nie gubiły wątku w połowie tekstu. Gemini błyszczał, gdy materiału było naprawdę dużo, a Claude imponował trzymaniem struktury i wiernością wobec źródła, bez dorabiania rzeczy, których w dokumencie nie było.
W analizie tabel i codziennych drobiazgach obraz się wyrównywał. Do szybkiego maila, przeformułowania akapitu czy prostego zestawienia liczb każdy z modeli w zupełności wystarczał, a decydowała wygoda: tempo odpowiedzi, wpięcie w pakiet biurowy i to, jak blisko masz narzędzie w codziennym obiegu. Tu Gemini korzystał z osadzenia w ekosystemie Google, a ChatGPT z dojrzałego, wygodnego interfejsu. Przy tabelach liczył się dodatkowo tryb pracy z kodem i arkuszem, bo najlepsze wyniki dawały modele, które zamiast zgadywać, przeliczały dane krok po kroku.
Ile to kosztuje
Drugie zaskoczenie przyszło z kosztami. Model, który wypadł najlepiej w programowaniu, wcale nie był najdroższy, a stawki wszystkich czterech dostawców za plan dla jednej osoby są dziś zbliżone. Największą niespodziankę sprawił najtańszy uczestnik: Le Chat zaskoczył solidnością tam, gdzie nikt tego nie oczekiwał, i przy wielu prostych zadaniach okazał się w zupełności wystarczający, mimo niższego rachunku.
Dla kogo który model
Dla kogo zatem który? Do kodu i długich, wymagających dokumentów sięgnij po Claude. Jeśli żyjesz w narzędziach Google i cenisz duży kontekst oraz multimodalność, naturalnym wyborem jest Gemini. ChatGPT to najbezpieczniejszy wszechstronny domyślny wybór z najbogatszym ekosystemem, a Le Chat kusi prostotą, tempem i ceną tych, którym w zupełności wystarczą codzienne, powtarzalne zadania. Warto też pamiętać o prywatności danych, bo europejski dostawca bywa łatwiejszy do zaakceptowania w firmach wyczulonych na to, gdzie trafiają ich dokumenty.
Najważniejszy morał jest prosty: zwycięzca zależy od tego, co robisz. Zamiast szukać uniwersalnego numeru jeden, warto dopasować model do swoich zadań i przetestować dwa najlepsze na własnych danych, bo to one, a nie ranking, najlepiej pokażą różnicę. Nasze zestawienie jest punktem wyjścia, a nie wyrokiem. Pełną punktację rozpisujemy w tabeli poniżej.