Computer Use — AI który obsługuje dowolną aplikację jak człowiek (bez API, bez integracji)
Computer Use to technika, w której agent AI przejmuje kontrolę nad komputerem: robi zrzuty ekranu, analizuje co widzi, a następnie klika, wpisuje tekst i nawiguje — bez żadnego API ani specjalnej integracji. Twój stary ERP z lat 90., portal rządowy bez publicznego API, aplikacja dostępna tylko przez Citrix — agent widzi to samo co pracownik i wykonuje te same kroki. W 2026 roku Claude (Anthropic) i OpenAI Operator to dojrzałe implementacje tej technologii. Dla polskich firm oznacza to jedno: bariery „ten system nie ma API" przestają być wymówką.
Twój legacy ERP z 2003 roku, portal ZUS bez API, stary system rezerwacji, który obsługuje tylko Internet Explorer — AI może to wszystko obsługiwać jak człowiek: klikać, wypełniać formularze, czytać ekran i podejmować decyzje. Computer Use to najważniejsza zmiana w automatyzacji od RPA. Wyjaśniam jak działa, kiedy ma sens zamiast API/n8n, ile kosztuje i dlaczego zastępuje całą klasę narzędzi za $200K+.
Każdy, kto wdraża automatyzacje biznesowe, prędzej czy później trafia na ten sam ścianę. „Świetny pomysł, ale nasz ERP nie ma API." „Chcemy automatyzować zgłoszenia na platformie ZUS, ale nie ma webhooka." „Mamy oprogramowanie z 2005 roku i vendor nie żyje." Przez lata odpowiedź brzmiała: albo droga migracja, albo drogie RPA za 200 tysięcy złotych, albo nic.
Computer Use zmienia tę kalkulację.
Jak to technicznie działa — pętla widzenia, myślenia i działania
Agent Computer Use działa w prostej, powtarzalnej pętli:
/// PĘTLA DZIAŁANIA: COMPUTER USE AGENT
Krok 1 — Zrzut ekranu. Agent robi screenshot aktualnego stanu ekranu. Nie widzi kodu HTML ani struktury DOM — widzi piksele, dokładnie jak człowiek.
Krok 2 — Vision + Reason. Model multimodalny (GPT-4o, Claude 3.5/3.7) analizuje obraz. Identyfikuje przyciski, pola formularza, komunikaty błędów, tabelki z danymi. Rozumie kontekst: „jestem na stronie logowania, muszę wpisać hasło".
Krok 3 — Akcja. Agent wydaje polecenie: kliknij współrzędne (X, Y), wpisz tekst, naciśnij Enter, przewiń stronę, użyj skrótu klawiszowego. Akcja jest wykonywana przez sterownik (pyautogui, playwright, xdotool lub natywne API systemu).
Krok 4 — Weryfikacja. Nowy screenshot. Czy osiągnąłem cel? Czy pojawił się błąd? Czy muszę wykonać kolejny krok?
Pętla trwa, dopóki zadanie nie zostanie zakończone lub agent nie natknie się na blokadę, której nie potrafi obejść (CAPTCHA, dwustopniowa weryfikacja z kodem SMS, niejednoznaczny interfejs).
Kluczowe: agent rozumie co robi, nie wykonuje sztywnego skryptu. Jeśli interfejs nieznacznie się zmienił — przycisk przesunął się o 20 pikseli — agent to zauważy i wykona prawidłową akcję. To fundamentalna różnica od klasycznego RPA.
Computer Use vs API vs n8n vs RPA — kiedy co wybrać?
Nie ma jednego narzędzia do wszystkiego. Każde podejście ma swój kontekst:
| Podejście | Kiedy stosować | Koszt | Odporność na zmiany UI | Wymaga dev? |
|---|---|---|---|---|
| API / webhook | System ma publiczne API (REST, GraphQL) | Niski | Wysoka — UI nieważne | Tak (konfiguracja) |
| n8n / Make / Zapier | Gotowe konektory, logika przepływu | Niski / średni | Wysoka | Nie / trochę |
| RPA (UiPath, Blue Prism) | Stabilny UI, duże wdrożenia korporacyjne | Bardzo wysoki (100–300K+) | Niska — kruchy | Tak + certyfikacja |
| Computer Use (AI) | Brak API, legacy, niestabilny UI, szybki start | Średni (koszty LLM) | Wysoka — adaptuje się | Minimalnie |
| Self-hosted LLM + CU | Wrażliwe dane, brak chmury | Wysoki (GPU) | Wysoka | Tak |
Zasada kciuka: jeśli system ma API — używaj API. Jeśli nie ma, a dane są wrażliwe i wolumen duży — rozważ Computer Use z self-hosted LLM. Jeśli dane nie są poufne — chmurowy Computer Use (Claude/GPT-4o) jest najszybszą ścieżką.
Gdzie Computer Use naprawdę błyszczy — polskie use cases
Polskie firmy mają wyjątkowo dużo systemów bez API. Oto scenariusze, gdzie Computer Use daje największą wartość:
1. Portale rządowe (ZUS, US, e-Deklaracje) Wprowadzanie danych do systemu ZUS ręcznie zajmuje biurom rachunkowym godziny tygodniowo. Portal e-ZUS nie ma API dla małych firm. Agent Computer Use loguje się, nawiguje do właściwego formularza, wpisuje dane z przygotowanego pliku JSON i potwierdza zgłoszenie. Czas obsługi jednego formularza: 2–4 minuty zamiast 15–20.
2. Legacy ERP bez modułu API Starsze wersje Subiekta, Optimy czy własnych systemów działają przez desktopowy interfejs. Agent widzi okno aplikacji, odczytuje pola, wypełnia je danymi z zamówienia i klika „Zatwierdź". Bez migracji do nowego systemu, bez pracy programisty po stronie ERPa.
3. Portale klientów i dostawców Weryfikacja statusów zamówień na platformach B2B klientów (gdy nie udostępniają API), pobieranie faktur z portali dostawców, raportowanie do sieci handlowych (np. portale Biedronki, Lidla dla dostawców) — wszystkie te zadania agent wykonuje jak zalogowany pracownik.
4. Automatyzacja testów QA Agent przechodzi przez scenariusze testowe aplikacji webowej, klika, wypełnia formularze, weryfikuje czy wynik jest zgodny z oczekiwanym. Tańszy niż Selenium dla niestabilnych UI, bo adaptuje się do zmian.
5. Desk research i zbieranie danych Przeglądanie dziesiątek stron w poszukiwaniu konkretnych informacji (ceny konkurencji, dane z rejestru, statusy dostępności), gdzie scraping HTML jest zablokowany. Agent widzi to, co widzi przeglądarka.
Ograniczenia — czego Computer Use jeszcze nie potrafi dobrze
Uczciwość wymaga wymienienia słabych punktów:
- CAPTCHA i silna weryfikacja dwuetapowa. Systemy aktywnie broniące się przed botami (reCAPTCHA v3, Cloudflare Turnstile) skutecznie blokują agenty. Nie ma dobrego rozwiązania bez interwencji człowieka.
- Skomplikowane, dynamiczne UI. Interfejsy z animowanymi canvas, generowanymi SVG czy niestandardowymi komponentami są trudniejsze do analizy przez modele wizyjne.
- Wolne wykonanie. Pętla screenshot–reason–action trwa 3–8 sekund na krok. Przy procesach wymagających setek interakcji koszt czasowy i finansowy rośnie — API jest zawsze szybsze.
- Koszty LLM przy dużym wolumenie. Każdy screenshot to kilka tysięcy tokenów wizyjnych. Przy 1000 operacji dziennie koszty API mogą być znaczące — warto liczyć przed wdrożeniem.
- Bezpieczeństwo i poufność danych. Agent widzi ekran — jeśli na ekranie są dane wrażliwe, trafiają do modelu chmurowego. Dla danych RODO lub tajemnicy handlowej wymagane jest środowisko lokalne (self-hosted LLM + izolowana maszyna wirtualna).
Ile to kosztuje — realny rachunek
Uproszczona kalkulacja dla typowego scenariusza (formularz ZUS, 200 zgłoszeń/miesiąc):
| Składnik | Szacunek kosztów | Uwagi |
|---|---|---|
| Budowa agenta (jednorazowo) | 2 000–6 000 PLN | Zależy od złożoności UI i liczby scenariuszy |
| Koszty API LLM (miesięcznie) | 150–400 PLN | Claude/GPT-4o, ~200 operacji, avg. 15 kroków/op. |
| Infrastruktura (serwer/VPS) | 50–150 PLN/msc | Dedykowany desktop VM z przeglądarką |
| Maintenance (kwartalnie) | 500–1 500 PLN | Aktualizacja przy zmianach UI |
Porównanie: wdrożenie RPA klasy enterprise (UiPath, Blue Prism) dla tego samego procesu: 60 000–200 000 PLN + licencje roczne. Computer Use nie jest darmowe, ale zmienia rząd wielkości kosztu wejścia.
Przykład z praktyki: portal dostawcy bez API
W zeszłym kwartale klient — firma produkcyjna — musiał codziennie rano sprawdzać statusy zamówień na portalu swojego głównego odbiorcy i aktualizować własny ERP. Portal B2B odbiorcy nie oferował API. Ręczna praca zajmowała 45–60 minut dziennie.
Zbudowałem agenta Computer Use, który o 7:30 loguje się do portalu, przechodzi przez listę zamówień, zbiera statusy i daty dostaw, a następnie przez API własnego ERPa (który API miał) aktualizuje rekordy. Cały przepływ: 8–12 minut, w pełni bez nadzoru.
ROI: zwrot z inwestycji poniżej 3 miesięcy. Pracownik zyskał godzinę dziennie na zadania wymagające faktycznej decyzji.
Computer Use jako warstwa „ostatniej mili"
Najlepsze wdrożenia Computer Use, które buduję, używają tej technologii jako warstwy ostatniej mili — nie zastępują całej architektury, ale wypełniają konkretną lukę.
Schemat: n8n orkiestruje przepływ → API tam gdzie możliwe → Computer Use tam gdzie API nie ma → wynik wraca do systemu przez API. To podejście łączy szybkość i niezawodność API-driven automation z elastycznością agenta wizyjnego.
Najczęściej zadawane pytania — Computer Use
Powiązane artykuły
/// RELATED_RECORDS
Jak AI czyta faktury z maila i wprowadza je do ERP
AI odczytuje fakturę z załącznika e-mail — PDF, skan lub zdjęcie z telefonu — i wprowadza dane bezpośrednio do ERP bez ręcznego przepisywania. Pełna automatyzacja obiegu faktur kosztowych: od skrzynki mailowej do zaksięgowania dokumentu.
Od czego zacząć wdrażanie AI w firmie?
Wdrażanie AI w firmie zaczyna się nie od wyboru narzędzia, lecz od jednego powtarzalnego procesu, który dziś zabiera najwięcej czasu. Dowiedz się jak krok po kroku wybrać, opisać i zautomatyzować ten proces.
Jak zbudować wewnętrzną bazę wiedzy firmy z AI (RAG w praktyce)
Wewnętrzna baza wiedzy oparta na RAG pozwala stworzyć własnego chatbota firmowego, który odpowiada wyłącznie na podstawie dokumentów Twojej firmy — nie domysłów modelu. Bezpieczne, aktualne, precyzyjne AI z pełną kontrolą nad danymi.
Signal received?
Przerwij
Ciszę
Zainicjuj protokół. Nawiąż połączenie. Zbudujmy coś głośnego.
