OpenAI vs Anthropic vs Gemini vs open-source — jak wybrać model LLM do swojej aplikacji?
Praktyczny przewodnik po wyborze modelu LLM: kiedy OpenAI, kiedy Claude, kiedy Gemini, a kiedy open-source. Z tabelą porównawczą, drzewem decyzyjnym i kodem routera multi-model.
Otwierasz stronę z cennikiem OpenAI, Anthropic i Google jednocześnie i stwierdzasz, że każdy dostawca twierdzi, że ma "najlepszy model na świecie". GPT-4o, GPT-4o-mini, o3-mini, Claude Sonnet, Claude Haiku, Gemini 2.0 Flash, Gemini 1.5 Pro, Llama 3.3, Qwen 2.5, Mistral — lista rośnie, a każdy nowy model jest ogłaszany jako przełom.
Dobra wiadomość: decyzja nie musi być trudna. Żaden model nie jest najlepszy do wszystkiego — każdy ma swoją niszę. Oto jak znaleźć właściwy dla twojego zadania, bez czytania 50 benchmarków.
| Kryterium | OpenAI | Anthropic | Google Gemini | Open-source |
|---|---|---|---|---|
| Structured JSON | Natywne JSONSchema | Przez SDK (Instructor) | Tak | Zależy od modelu |
| Hallucination rate | Niski | Najniższy | Średni | Wysoki (7B), niski (70B+) |
| Kontekst | 128k tokenów | 200k tokenów | 1M tokenów | 128k tokenów |
| Multimodal | Obraz | Obraz | Obraz + video + audio | Modele wizyjne |
| Cena input / 1M | $0.15–$2.50 | $0.25–$3.00 | $0.075–$1.25 | ~$0 (GPU CAPEX) |
| Fine-tuning | Płatny | Brak publicznego | Brak | Pełna kontrola |
| GDPR self-host | Nie | Nie | Nie | Tak |
Jak nie myśleć o wyborze modelu?
Większość zespołów popełnia te same błędy, zanim dochodzi do właściwego wyboru:
- Pogoń za benchmarkami — MMLU, HumanEval, MT-Bench mierzą ogólną inteligencję, nie twój przypadek użycia. Model wygrywający benchmarki może przegrywać na twoich danych
- Lojalność wobec jednego dostawcy — vendor lock-in to ryzyko finansowe i techniczne; żaden z liderów nie utrzymał pozycji przez więcej niż rok
- Jeden model do wszystkiego — to jak używanie Ferrari do miasta i ciężarówki na autostradzie; potrzebujesz floty dostosowanej do zadania
- Ignorowanie latencji — model 2× droższy, ale 3× szybszy może mieć lepszy całkowity koszt dla aplikacji czasu rzeczywistego
- Brak testów na własnych danych — 30-minutowy eval na 50 twoich przykładach warte więcej niż tydzień czytania raportów porównawczych
OpenAI — ekosystem i structured outputs
OpenAI zbudowało najdojrzalszy ekosystem dla deweloperów: Assistants API, Batch API, natywne structured outputs z walidacją JSONSchema, function calling rozwijany od najdłuższego czasu. Integracje z LangChain, LlamaIndex, Instructor, DeepEval — praktycznie każde narzędzie AI ma OpenAI jako pierwszego obywatela.
Gdzie OpenAI prowadzi:
- Structured outputs — natywna gwarancja zgodności z JSONSchema, zero błędów struktury JSON. Nie "prawie zawsze JSON", lecz naprawdę zawsze
- GPT-4o-mini — za $0.15/1M tokenów wejściowych najtańszy model klasy "wystarczająco dobry" dla 80% zadań
- Batch API — 50% zniżki na asynchroniczne zadania offline: klasyfikacja e-maili, analiza dokumentów, generowanie raportów w nocy
- Function calling i agenty — najbardziej dojrzałe i przewidywalne API, idealne dla systemów wieloagentowych
- Reasoning — o3-mini — zadania wymagające wieloetapowego rozumowania: matematyka, planowanie, analiza logiczna
Kiedy OpenAI nie jest optymalnym wyborem:
- Analiza dokumentów powyżej 100 stron — 128k kontekst vs 1M w Gemini 1.5 Pro
- Dane z wymaganiami GDPR dot. lokalizacji geograficznej
- Fine-tuning na specjalistycznej domenie — droższy i mniej elastyczny niż open-source
Anthropic Claude — jakość instrukcji i bezpieczeństwo
Claude wyróżnia się w dwóch obszarach: precyzyjne wykonywanie długich i złożonych instrukcji systemowych, oraz konsekwentnie najniższy hallucination rate wśród modeli komercyjnych w testach na danych faktuałnych.
Gdzie Claude prowadzi:
- Hallucination rate — w benchmarkach TruthfulQA i wewnętrznych testach RAG wielokrotnie najniższy spośród modeli komercyjnych
- Coding — Claude Sonnet to preferowany model wśród seniorów do code review i generowania złożonego kodu wieloplikowego
- Złożone instrukcje systemowe — potrafi wiernie przestrzegać 5000-tokenowego system promptu przez całą wieloturową rozmowę
- Analiza dokumentów — 200k kontekstu przy pełnej jakości (GPT-4o traci precyzję powyżej ~64k tokenów)
- Bezpieczeństwo — wbudowane Constitutional AI odmawia niebezpiecznych żądań bez potrzeby dodatkowego guardrailingu
Kiedy Claude nie jest optymalnym wyborem:
- Natywna walidacja JSON — potrzebny dodatkowy SDK jak Instructor lub schema prompting
- Koszt prostych zadań — Claude Sonnet droższy od GPT-4o-mini o rząd wielkości
- Brak Batch API i części zaawansowanych funkcji dostępnych u OpenAI
Google Gemini — kontekst i multimodalność
Gemini ma jedną przewagę, której żaden inny komercyjny model nie pobija: okno kontekstu 1 miliona tokenów w Gemini 1.5 Pro. To równoważnik 1500 stron dokumentów, całej bazy kodu projektu lub 20 godzin transkrypcji — w jednym wywołaniu.
Gdzie Gemini prowadzi:
- Długi kontekst — jedyny model z natywnym 1M oknem tokenu bez kompromisów jakościowych na poziomie retrieval
- Gemini Flash — $0.075/1M tokenów input, najszybszy i najtańszy model klasy "dobry" na rynku, idealny do klasyfikacji
- Multimodal — tekst, obraz, video i audio w jednym API call bez osobnych endpointów
- Google Workspace — natywne połączenie z Google Drive, Gmail, BigQuery bez dodatkowych integracji
- Cena przy dużych kontekstach — przy 128k+ kontekście Gemini 1.5 Pro tańszy niż GPT-4o przy porównywalnej jakości
Kiedy Gemini nie jest optymalnym wyborem:
- Natywna walidacja structured outputs (słabsza niż OpenAI)
- Mniejszy ekosystem narzędzi — LangChain, DeepEval, Instructor mają Gemini jako drugiego obywatela
- Aplikacje wymagające ścisłej powtarzalności i deterministycznych wyników
Open-source — prywatność, kontrola i skala
Open-source to nie "tańszy GPT" — to inny trade-off: pełna kontrola danych, możliwość fine-tuningu na własnej domenie, zero kosztów API przy self-hostingu od pewnej skali.
Wiodące modele:
- Llama 3.3 70B — w wielu zadaniach porównywalny z GPT-4o-mini, otwarte wagi, działa na A100 lub 4× RTX 4090
- Qwen 2.5 — silny w kodzie i matematyce, dobry structured outputs przez vLLM z gramatyką JSON
- Mistral Large/Small — europejski dostawca, pełna kontrola GDPR, silny w językach europejskich
Gdzie open-source prowadzi:
- Prywatność danych — prompty i dane NIE opuszczają twojej infrastruktury — kluczowe dla medycyny, prawa, finansów
- Fine-tuning — pełna kontrola: LoRA lub QLoRA na własnych danych, bez zgody i kosztów dostawcy
- Koszt przy skali — powyżej ~10M tokenów/miesiąc GPU server vs API kosztuje dramatycznie mniej
- Deployment edge i offline — AI bez internetu: mobilne aplikacje, urządzenia IoT, sieci izolowane
Kiedy open-source nie jest optymalnym wyborem:
- Małe zespoły bez DevOps — zarządzanie GPU kosztuje czas inżynierów, nie tylko pieniądze
- Jakość krytyczna dla biznesu — modele 70B wciąż słabsze od GPT-4o przy złożonych zadaniach wieloetapowych
- Szybki prototyp — konfiguracja vLLM/Ollama zajmuje godziny, API OpenAI działa w 5 minut
/// PORÓWNANIE DOSTAWCÓW LLM
Każdy dostawca ma inną niszę — żaden nie jest najlepszy do wszystkiego
Wybór powinien wynikać z wymagań zadania, nie z popularności
Który model do jakiego zadania?
| Zadanie | Model | Dlaczego | Koszt/1M input |
|---|---|---|---|
| Chatbot FAQ | GPT-4o-mini | Wystarczająca jakość, najtańszy wśród OpenAI | $0.15 |
| Structured JSON z walidacją | GPT-4o | Natywna JSONSchema, zero błędów struktury | $2.50 |
| Analiza PDF powyżej 100 stron | Gemini 1.5 Pro | Jedyny z 1M kontekstem | $1.25 |
| Code review i generowanie kodu | Claude Sonnet | Najniższy hallucination, złożone instrukcje | $3.00 |
| Klasyfikacja e-maili / dokumentów | Gemini Flash | Najtańszy model klasy "wystarczający" | $0.075 |
| Reasoning — matematyka, planowanie | o3-mini | Specjalizacja wieloetapowego rozumowania | $1.10 |
| Dane wrażliwe — medyczne, prawne | Llama 3.3 70B self-host | Zero wycieku danych, pełna kontrola | ~$0 GPU |
| Fine-tuning domenowy | Llama lub Qwen | Otwarte wagi, LoRA na własnych danych | GPU CAPEX |
/// DRZEWO DECYZYJNE: KTÓRY MODEL?
5 pytań zamiast benchmarków
Odpowiedz na pierwsze pasujące pytanie — to twój model startowy do testu
Strategia multi-model — nie wybieraj jednego
Najlepsze produkcyjne aplikacje AI nie używają jednego modelu. Używają routera: tani model klasyfikuje zadanie, drogi model obsługuje złożone przypadki. Architektura kosztuje jeden dodatkowy komponent, ale zwraca 60–80% redukcji kosztów.
Przykładowy podział przy 1M wywołań/miesiąc:
- 70% zapytań → GPT-4o-mini ($0.15/1M) — FAQ, klasyfikacja, proste generowanie
- 25% zapytań → GPT-4o ($2.50/1M) — structured outputs, złożone konteksty
- 5% zapytań → Claude Sonnet ($3.00/1M) — code review, decyzje wysokiego ryzyka
Koszt łączny: $0.15 × 0.70 + $2.50 × 0.25 + $3.00 × 0.05 = $0.88/1M tokenów zamiast $3.00 przy jednym modelu. Oszczędność 71%.
# model_router.pyfrom enum import Enumfrom openai import OpenAIfrom anthropic import Anthropicfrom dataclasses import dataclassclass TaskType(Enum): FAST_CHEAP = "fast" STRUCTURED_JSON = "structured" REASONING = "reasoning" CODE_REVIEW = "code"@dataclassclass ModelConfig: provider: str model: str max_tokens: intROUTING_TABLE = { TaskType.FAST_CHEAP: ModelConfig("openai", "gpt-4o-mini", 4096), TaskType.STRUCTURED_JSON: ModelConfig("openai", "gpt-4o", 8192), TaskType.REASONING: ModelConfig("openai", "o3-mini", 16384), TaskType.CODE_REVIEW: ModelConfig("anthropic", "claude-sonnet-4-6", 8192),}def classify_task(user_message: str) -> TaskType: keywords_code = ["review", "kod", "funkcja", "bug", "refactor", "code"] keywords_math = ["oblicz", "calculate", "solve", "optimize", "plan"] keywords_json = ["dane", "json", "lista", "tabela", "format", "schema"] msg = user_message.lower() if any(k in msg for k in keywords_code): return TaskType.CODE_REVIEW if any(k in msg for k in keywords_math): return TaskType.REASONING if any(k in msg for k in keywords_json): return TaskType.STRUCTURED_JSON return TaskType.FAST_CHEAPdef route_and_call(user_message: str, system: str = "") -> tuple[str, str]: task = classify_task(user_message) config = ROUTING_TABLE[task] msgs = [{"role": "user", "content": user_message}] if system: msgs = [{"role": "system", "content": system}] + msgs if config.provider == "openai": resp = OpenAI().chat.completions.create( model=config.model, messages=msgs, max_tokens=config.max_tokens) return resp.choices[0].message.content, config.model if config.provider == "anthropic": resp = Anthropic().messages.create( model=config.model, messages=[{"role": "user", "content": user_message}], system=system, max_tokens=config.max_tokens) return resp.content[0].text, config.model raise ValueError("Unknown provider: " + config.provider)
Klasyfikator słownikowy możesz zastąpić GPT-4o-mini jako routerem — koszt $0.002 za 1000 klasyfikacji, lepsza precyzja dla nieoczywistych przypadków.
Najczęstsze błędy przy wyborze modelu
- Decyzja na podstawie benchmarków bez testów własnych — poświęć 1 godzinę na eval 50 własnych przykładów zanim zapłacisz za subskrypcję lub zmienisz dostawcę
- Zaszywanie modelu na twardo w kodzie — nie wpisuj "gpt-4o-2024-11-20" literalnie w 10 miejscach; zapisz w stałej konfiguracyjnej lub zmiennej środowiskowej MODEL_NAME
- Ignorowanie structured outputs — jeśli wyjście musi być JSON, natywny JSONSchema mode OpenAI eliminuje cały kod walidacyjny i retry logic; warto zapłacić więcej
- Niedoszacowanie kosztów latencji — dla chatbota czasu rzeczywistego p95 latency ważniejsze niż cena tokenów
- Self-hosting bez capacity planningu — GPU A100 kosztuje ~$3/h na chmurze; opłacalny powyżej ~5–10M tokenów/miesiąc; poniżej API jest tańsze i prostsze w utrzymaniu
- Brak strategii fallback — co dzieje się gdy OpenAI ma outage? Zaprojektuj fallback provider od pierwszego dnia
Lista kontrolna przed wyborem modelu
- 1.Zdefiniuj zadanie konkretnie: klasyfikacja, generowanie, RAG, structured JSON, reasoning, code review?
- 2.Przetestuj minimum 3 modele na 30–50 własnych przykładach — nie tylko na benchmarkach ogólnych
- 3.Zmierz latency p95 dla twojego przypadku użycia, nie tylko łączną przepustowość
- 4.Wylicz koszt miesięczny przy planowanym wolumenie — porównaj API vs GPU self-host
- 5.Sprawdź wymagania GDPR/HIPAA — czy prompty i dane mogą opuszczać twoją infrastrukturę?
- 6.Zaprojektuj abstrakcję LLMClient — umożliwi zmianę modelu bez refaktoryzacji całego kodu
- 7.Zidentyfikuj podzestaw zadań nadających się na routing do tańszego modelu
- 8.Zaplanuj monitoring jakości — aktualizacja modelu przez dostawcę może zmienić wyniki bez ostrzeżenia
---
Pomagam firmom wybrać i wdrożyć właściwy model LLM — od analizy wymagań i benchmarków na własnych danych po implementację routera multi-model i monitoring jakości. Napisz do mnie — zaczynam od 30-minutowej analizy twojego przypadku użycia i rekomendacji modelu startowego.
/// RELATED_RECORDS
Jak AI czyta faktury z maila i wprowadza je do ERP
AI odczytuje fakturę z załącznika e-mail — PDF, skan lub zdjęcie z telefonu — i wprowadza dane bezpośrednio do ERP bez ręcznego przepisywania. Pełna automatyzacja obiegu faktur kosztowych: od skrzynki mailowej do zaksięgowania dokumentu.
Od czego zacząć wdrażanie AI w firmie?
Wdrażanie AI w firmie zaczyna się nie od wyboru narzędzia, lecz od jednego powtarzalnego procesu, który dziś zabiera najwięcej czasu. Dowiedz się jak krok po kroku wybrać, opisać i zautomatyzować ten proces.
Jak zbudować wewnętrzną bazę wiedzy firmy z AI (RAG w praktyce)
Wewnętrzna baza wiedzy oparta na RAG pozwala stworzyć własnego chatbota firmowego, który odpowiada wyłącznie na podstawie dokumentów Twojej firmy — nie domysłów modelu. Bezpieczne, aktualne, precyzyjne AI z pełną kontrolą nad danymi.
Signal received?
Przerwij
Ciszę
Zainicjuj protokół. Nawiąż połączenie. Zbudujmy coś głośnego.
