niedziela, 5 lipca 2026

Test redakcji

Wielki test czatbotów 2026: ChatGPT kontra Claude, Gemini i Le Chat

Patryk RabaAktualizacja: lipiec 2026

Dwadzieścia zadań, cztery modele i dwa zaskoczenia. Sprawdź, kto wygrał.

Spis treści
  1. Jak testowaliśmy
  2. Wyniki testu
  3. Ile to kosztuje
  4. Dla kogo który model

Do testu zaprosiliśmy cztery modele, które najczęściej pojawiają się w polskich firmach: ChatGPT od OpenAI, Claude od Anthropic, Gemini od Google i Le Chat od francuskiego Mistrala. Każdy dostał ten sam zestaw dwudziestu zadań, od streszczania długiego raportu, przez pisanie kodu, po analizę tabeli i redakcję pisma po polsku. Korzystaliśmy z płatnych planów każdego z dostawców, żeby porównać to, co użytkownik faktycznie kupuje.

Jak testowaliśmy

Metodologia była prosta i jawna. Dwoje redaktorów oceniało każdą odpowiedź według wcześniej spisanych kryteriów: poprawność, przydatność, zgodność z poleceniem i jakość języka. Punktowaliśmy w skali od jednego do pięciu, uśredniając oceny obojga, a przypadki sporne omawialiśmy wspólnie. Zależało nam na powtarzalności, więc każdy model dostawał identyczny prompt, bez podpowiadania i bez wielu podejść do tego samego zadania.

Zadania rozłożyliśmy na kilka kategorii. Redakcja i pisanie po polsku, praca z kodem, analiza danych z tabeli, rozumowanie i logika, praca na długim dokumencie oraz codzienne drobiazgi w rodzaju szybkiego maila czy streszczenia notatki. Taki rozrzut miał pokazać nie jednego mistrza od wszystkiego, tylko mocne i słabe strony każdego modelu w konkretnych rolach. Do każdej kategorii przygotowaliśmy po kilka zadań o rosnącej trudności, żeby oddzielić modele radzące sobie z prostym poleceniem od tych, które nie tracą głowy przy bardziej zakręconym.

Wyniki testu

Pierwsze zaskoczenie dotyczyło polszczyzny. Różnice w jakości języka okazały się mniejsze, niż zakładaliśmy, a w zadaniach redakcyjnych stawka biegła łeb w łeb. Wszystkie cztery modele piszą dziś poprawną, naturalną polszczyzną, potykając się co najwyżej na specjalistycznym żargonie i sztywnej frazeologii urzędowej. Jeszcze dwa lata temu tak wyrównana czołówka byłaby nie do pomyślenia.

W programowaniu jeden model wyraźnie się wysforował. Claude dawał najczystszy kod, najlepiej tłumaczył swoje decyzje i najrzadziej wymagał poprawek po pierwszym podejściu, zwłaszcza przy zadaniach rozłożonych na kilka plików. ChatGPT deptał mu po piętach i bywał lepszy w niszowych bibliotekach, a Gemini i Le Chat radziły sobie solidnie, choć częściej trzeba było je naprowadzać na właściwy trop.

Podobnie wyglądała praca na długich dokumentach. Przy streszczaniu obszernego raportu i wyłuskiwaniu z niego konkretów najlepiej wypadały modele z dużym oknem kontekstu, które nie gubiły wątku w połowie tekstu. Gemini błyszczał, gdy materiału było naprawdę dużo, a Claude imponował trzymaniem struktury i wiernością wobec źródła, bez dorabiania rzeczy, których w dokumencie nie było.

W analizie tabel i codziennych drobiazgach obraz się wyrównywał. Do szybkiego maila, przeformułowania akapitu czy prostego zestawienia liczb każdy z modeli w zupełności wystarczał, a decydowała wygoda: tempo odpowiedzi, wpięcie w pakiet biurowy i to, jak blisko masz narzędzie w codziennym obiegu. Tu Gemini korzystał z osadzenia w ekosystemie Google, a ChatGPT z dojrzałego, wygodnego interfejsu. Przy tabelach liczył się dodatkowo tryb pracy z kodem i arkuszem, bo najlepsze wyniki dawały modele, które zamiast zgadywać, przeliczały dane krok po kroku.

Ile to kosztuje

Drugie zaskoczenie przyszło z kosztami. Model, który wypadł najlepiej w programowaniu, wcale nie był najdroższy, a stawki wszystkich czterech dostawców za plan dla jednej osoby są dziś zbliżone. Największą niespodziankę sprawił najtańszy uczestnik: Le Chat zaskoczył solidnością tam, gdzie nikt tego nie oczekiwał, i przy wielu prostych zadaniach okazał się w zupełności wystarczający, mimo niższego rachunku.

Dla kogo który model

Dla kogo zatem który? Do kodu i długich, wymagających dokumentów sięgnij po Claude. Jeśli żyjesz w narzędziach Google i cenisz duży kontekst oraz multimodalność, naturalnym wyborem jest Gemini. ChatGPT to najbezpieczniejszy wszechstronny domyślny wybór z najbogatszym ekosystemem, a Le Chat kusi prostotą, tempem i ceną tych, którym w zupełności wystarczą codzienne, powtarzalne zadania. Warto też pamiętać o prywatności danych, bo europejski dostawca bywa łatwiejszy do zaakceptowania w firmach wyczulonych na to, gdzie trafiają ich dokumenty.

Najważniejszy morał jest prosty: zwycięzca zależy od tego, co robisz. Zamiast szukać uniwersalnego numeru jeden, warto dopasować model do swoich zadań i przetestować dwa najlepsze na własnych danych, bo to one, a nie ranking, najlepiej pokażą różnicę. Nasze zestawienie jest punktem wyjścia, a nie wyrokiem. Pełną punktację rozpisujemy w tabeli poniżej.