POWRÓT_DO_BLOGA
Aktualizacja: AI & Automatyzacja 12 min

Computer Use — AI który obsługuje dowolną aplikację jak człowiek (bez API, bez integracji)

Computer Use to technika, w której agent AI przejmuje kontrolę nad komputerem: robi zrzuty ekranu, analizuje co widzi, a następnie klika, wpisuje tekst i nawiguje — bez żadnego API ani specjalnej integracji. Twój stary ERP z lat 90., portal rządowy bez publicznego API, aplikacja dostępna tylko przez Citrix — agent widzi to samo co pracownik i wykonuje te same kroki. W 2026 roku Claude (Anthropic) i OpenAI Operator to dojrzałe implementacje tej technologii. Dla polskich firm oznacza to jedno: bariery „ten system nie ma API" przestają być wymówką.

Twój legacy ERP z 2003 roku, portal ZUS bez API, stary system rezerwacji, który obsługuje tylko Internet Explorer — AI może to wszystko obsługiwać jak człowiek: klikać, wypełniać formularze, czytać ekran i podejmować decyzje. Computer Use to najważniejsza zmiana w automatyzacji od RPA. Wyjaśniam jak działa, kiedy ma sens zamiast API/n8n, ile kosztuje i dlaczego zastępuje całą klasę narzędzi za $200K+.

Każdy, kto wdraża automatyzacje biznesowe, prędzej czy później trafia na ten sam ścianę. „Świetny pomysł, ale nasz ERP nie ma API." „Chcemy automatyzować zgłoszenia na platformie ZUS, ale nie ma webhooka." „Mamy oprogramowanie z 2005 roku i vendor nie żyje." Przez lata odpowiedź brzmiała: albo droga migracja, albo drogie RPA za 200 tysięcy złotych, albo nic.

Computer Use zmienia tę kalkulację.

Jak to technicznie działa — pętla widzenia, myślenia i działania

Agent Computer Use działa w prostej, powtarzalnej pętli:

/// PĘTLA DZIAŁANIA: COMPUTER USE AGENT

01
Zrzut ekranu
Agent widzi UI jak człowiek
02
Vision + Reason
LLM analizuje co jest na ekranie
03
Akcja
Klik, wpisanie tekstu, scroll, skrót
04
Weryfikacja
Nowy screenshot — czy cel osiągnięty?
05
Pętla lub STOP
Kolejny krok lub zakończenie zadania
0
WYMAGANYCH API
45–65%
PROCESÓW ZAUTOMATYZOWANYCH
~$200K+
KOSZT RPA KTÓRY ZASTĘPUJE

Krok 1 — Zrzut ekranu. Agent robi screenshot aktualnego stanu ekranu. Nie widzi kodu HTML ani struktury DOM — widzi piksele, dokładnie jak człowiek.

Krok 2 — Vision + Reason. Model multimodalny (GPT-4o, Claude 3.5/3.7) analizuje obraz. Identyfikuje przyciski, pola formularza, komunikaty błędów, tabelki z danymi. Rozumie kontekst: „jestem na stronie logowania, muszę wpisać hasło".

Krok 3 — Akcja. Agent wydaje polecenie: kliknij współrzędne (X, Y), wpisz tekst, naciśnij Enter, przewiń stronę, użyj skrótu klawiszowego. Akcja jest wykonywana przez sterownik (pyautogui, playwright, xdotool lub natywne API systemu).

Krok 4 — Weryfikacja. Nowy screenshot. Czy osiągnąłem cel? Czy pojawił się błąd? Czy muszę wykonać kolejny krok?

Pętla trwa, dopóki zadanie nie zostanie zakończone lub agent nie natknie się na blokadę, której nie potrafi obejść (CAPTCHA, dwustopniowa weryfikacja z kodem SMS, niejednoznaczny interfejs).

Kluczowe: agent rozumie co robi, nie wykonuje sztywnego skryptu. Jeśli interfejs nieznacznie się zmienił — przycisk przesunął się o 20 pikseli — agent to zauważy i wykona prawidłową akcję. To fundamentalna różnica od klasycznego RPA.

Computer Use vs API vs n8n vs RPA — kiedy co wybrać?

Nie ma jednego narzędzia do wszystkiego. Każde podejście ma swój kontekst:

PodejścieKiedy stosowaćKosztOdporność na zmiany UIWymaga dev?
API / webhookSystem ma publiczne API (REST, GraphQL)NiskiWysoka — UI nieważneTak (konfiguracja)
n8n / Make / ZapierGotowe konektory, logika przepływuNiski / średniWysokaNie / trochę
RPA (UiPath, Blue Prism)Stabilny UI, duże wdrożenia korporacyjneBardzo wysoki (100–300K+)Niska — kruchyTak + certyfikacja
Computer Use (AI)Brak API, legacy, niestabilny UI, szybki startŚredni (koszty LLM)Wysoka — adaptuje sięMinimalnie
Self-hosted LLM + CUWrażliwe dane, brak chmuryWysoki (GPU)WysokaTak

Zasada kciuka: jeśli system ma API — używaj API. Jeśli nie ma, a dane są wrażliwe i wolumen duży — rozważ Computer Use z self-hosted LLM. Jeśli dane nie są poufne — chmurowy Computer Use (Claude/GPT-4o) jest najszybszą ścieżką.

Gdzie Computer Use naprawdę błyszczy — polskie use cases

Polskie firmy mają wyjątkowo dużo systemów bez API. Oto scenariusze, gdzie Computer Use daje największą wartość:

1. Portale rządowe (ZUS, US, e-Deklaracje) Wprowadzanie danych do systemu ZUS ręcznie zajmuje biurom rachunkowym godziny tygodniowo. Portal e-ZUS nie ma API dla małych firm. Agent Computer Use loguje się, nawiguje do właściwego formularza, wpisuje dane z przygotowanego pliku JSON i potwierdza zgłoszenie. Czas obsługi jednego formularza: 2–4 minuty zamiast 15–20.

2. Legacy ERP bez modułu API Starsze wersje Subiekta, Optimy czy własnych systemów działają przez desktopowy interfejs. Agent widzi okno aplikacji, odczytuje pola, wypełnia je danymi z zamówienia i klika „Zatwierdź". Bez migracji do nowego systemu, bez pracy programisty po stronie ERPa.

3. Portale klientów i dostawców Weryfikacja statusów zamówień na platformach B2B klientów (gdy nie udostępniają API), pobieranie faktur z portali dostawców, raportowanie do sieci handlowych (np. portale Biedronki, Lidla dla dostawców) — wszystkie te zadania agent wykonuje jak zalogowany pracownik.

4. Automatyzacja testów QA Agent przechodzi przez scenariusze testowe aplikacji webowej, klika, wypełnia formularze, weryfikuje czy wynik jest zgodny z oczekiwanym. Tańszy niż Selenium dla niestabilnych UI, bo adaptuje się do zmian.

5. Desk research i zbieranie danych Przeglądanie dziesiątek stron w poszukiwaniu konkretnych informacji (ceny konkurencji, dane z rejestru, statusy dostępności), gdzie scraping HTML jest zablokowany. Agent widzi to, co widzi przeglądarka.

Ograniczenia — czego Computer Use jeszcze nie potrafi dobrze

Uczciwość wymaga wymienienia słabych punktów:

  • CAPTCHA i silna weryfikacja dwuetapowa. Systemy aktywnie broniące się przed botami (reCAPTCHA v3, Cloudflare Turnstile) skutecznie blokują agenty. Nie ma dobrego rozwiązania bez interwencji człowieka.
  • Skomplikowane, dynamiczne UI. Interfejsy z animowanymi canvas, generowanymi SVG czy niestandardowymi komponentami są trudniejsze do analizy przez modele wizyjne.
  • Wolne wykonanie. Pętla screenshot–reason–action trwa 3–8 sekund na krok. Przy procesach wymagających setek interakcji koszt czasowy i finansowy rośnie — API jest zawsze szybsze.
  • Koszty LLM przy dużym wolumenie. Każdy screenshot to kilka tysięcy tokenów wizyjnych. Przy 1000 operacji dziennie koszty API mogą być znaczące — warto liczyć przed wdrożeniem.
  • Bezpieczeństwo i poufność danych. Agent widzi ekran — jeśli na ekranie są dane wrażliwe, trafiają do modelu chmurowego. Dla danych RODO lub tajemnicy handlowej wymagane jest środowisko lokalne (self-hosted LLM + izolowana maszyna wirtualna).

Ile to kosztuje — realny rachunek

Uproszczona kalkulacja dla typowego scenariusza (formularz ZUS, 200 zgłoszeń/miesiąc):

SkładnikSzacunek kosztówUwagi
Budowa agenta (jednorazowo)2 000–6 000 PLNZależy od złożoności UI i liczby scenariuszy
Koszty API LLM (miesięcznie)150–400 PLNClaude/GPT-4o, ~200 operacji, avg. 15 kroków/op.
Infrastruktura (serwer/VPS)50–150 PLN/mscDedykowany desktop VM z przeglądarką
Maintenance (kwartalnie)500–1 500 PLNAktualizacja przy zmianach UI

Porównanie: wdrożenie RPA klasy enterprise (UiPath, Blue Prism) dla tego samego procesu: 60 000–200 000 PLN + licencje roczne. Computer Use nie jest darmowe, ale zmienia rząd wielkości kosztu wejścia.

Przykład z praktyki: portal dostawcy bez API

W zeszłym kwartale klient — firma produkcyjna — musiał codziennie rano sprawdzać statusy zamówień na portalu swojego głównego odbiorcy i aktualizować własny ERP. Portal B2B odbiorcy nie oferował API. Ręczna praca zajmowała 45–60 minut dziennie.

Zbudowałem agenta Computer Use, który o 7:30 loguje się do portalu, przechodzi przez listę zamówień, zbiera statusy i daty dostaw, a następnie przez API własnego ERPa (który API miał) aktualizuje rekordy. Cały przepływ: 8–12 minut, w pełni bez nadzoru.

ROI: zwrot z inwestycji poniżej 3 miesięcy. Pracownik zyskał godzinę dziennie na zadania wymagające faktycznej decyzji.

Computer Use jako warstwa „ostatniej mili"

Najlepsze wdrożenia Computer Use, które buduję, używają tej technologii jako warstwy ostatniej mili — nie zastępują całej architektury, ale wypełniają konkretną lukę.

Schemat: n8n orkiestruje przepływ → API tam gdzie możliwe → Computer Use tam gdzie API nie ma → wynik wraca do systemu przez API. To podejście łączy szybkość i niezawodność API-driven automation z elastycznością agenta wizyjnego.

Najczęściej zadawane pytania — Computer Use

Powiązane artykuły

/// AUTHOR
Paweł Wiszniewski – AI & Web Engineer

Paweł Wiszniewski

SEO & GEO Specialist & AI Engineer

Specjalista SEO/GEO (10 lat) i AI engineer (3 lata). Buduję widoczność w wyszukiwarkach, systemy AI i automatyzacje, które redukują koszty i zwiększają efektywność operacyjną firm.

Signal received?

Przerwij
Ciszę

Zainicjuj protokół. Nawiąż połączenie. Zbudujmy coś głośnego.

> OCZEKIWANIE_NA_SYGNAŁ...