Dokum.ai OCR document automation

Krzywe skany, scalone komórki i raporty finansowe, które łamią zwykłe parsery.

Scenariusz, który (niestety) znasz

Jest 16:30. Deadline raportu wisi w powietrzu gęstym od kofeiny. Otrzymujesz kluczowy dokument – oczywiście w formacie PDF. Otwierasz go, widzisz idealną tabelkę z wynikami finansowymi, zaznaczasz ją z nadzieją w sercu, wciskasz Ctrl+C, przechodzisz do Excela, wciskasz Ctrl+V i…

Katastrofa.

Zamiast pięknych kolumn masz "zupę" tekstową w jednej komórce. Liczby są wymieszane z nagłówkami, daty zamieniły się w dziwne symbole, a separator tysięczny został potraktowany jak koniec akapitu. Zamiast analizować dane, spędzasz kolejne dwie godziny na "czyszczeniu" komórek, przeklinając pod nosem twórcę formatu PDF. Brzmi znajomo?

Dlaczego to jest takie trudne? (Czyli dlaczego Twój komputer jest zagubiony)

Dla nas tabela to oczywistość: linie pionowe, poziome, nagłówek, dane. Dla komputera, zwłaszcza w przypadku starszych plików lub skanów, to często tylko zbiór przypadkowych znaków zawieszonych w próżni.

Oto co najczęściej "łamie" standardowe parsery:

Brak warstwy tekstowej: Skan to po prostu zdjęcie (bitmapa). Komputer nie "wie", że tam są litery, dopóki nie użyje OCR.
Krzywe skany: Wystarczy, że kartka w skanerze była przekrzywiona o 2 stopnie. Dla prostego algorytmu, który szuka linii prostych, wiersz nr 1 nagle wjeżdża w wiersz nr 2.
Brak metadanych: PDF został stworzony, by wyglądać dobrze na wydruku, a nie przechowywać strukturę danych. Często nie ma tam informacji "tu zaczyna się nowa kolumna".

Level Hard: Skomplikowane layouty i "kreatywne" raporty

Prawdziwe schody zaczynają się jednak tam, gdzie kończą się proste faktury. Mówimy o dokumentacji technicznej, wielostronicowych sprawozdaniach finansowych czy skomplikowanych umowach.

Tanie narzędzia typu "unstructured data extraction" kompletnie wykładają się na:

Scalonych komórkach: Nagłówek obejmujący trzy kolumny (np. "Wyniki Q1-Q3 2023") zazwyczaj zostaje przypisany tylko do pierwszej kolumny, psując przesunięcie całej reszty danych.
Układach wieloszpaltowych: Jeśli tekst na stronie biegnie w dwóch kolumnach, prosty parser przeczyta go linijka po linijce od lewej do prawej, mieszając treść z lewej szpalty z tą z prawej. Efekt? Całkowity bełkot.
Tabelach bez krawędzi: Wiele nowoczesnych raportów rezygnuje z linii w tabelach na rzecz "czystego designu". Dla człowieka to czytelne. Dla bota – to tylko luźne słowa rozrzucone na białym tle.

W tym momencie większość analityków się poddaje i otwiera drugi monitor, by zacząć żmudne, ręczne przepisywanie.

Laptop na biurku wyświetlający pasek postępu automatyzacji zadań, obok filiżanki kawy i notatnika

Dokum: Oczy, które rozumieją tabelę

Tu wchodzi Dokum. Nie próbujemy zgadywać tekstu na ślepo. Nasze narzędzie działa inaczej. Wykorzystuje zaawansowane algorytmy wizyjne (Computer Vision), które "patrzą" na dokument tak, jak Ty.

Rozpoznajemy strukturę: Widzimy, gdzie kończy się jedna komórka, a zaczyna druga – nawet jeśli linie są niewyraźne lub ich nie ma.
Zachowujemy relacje: Rozumiemy hierarchię nagłówków. Wiemy, że podkategoria należy do kategorii głównej, dzięki czemu struktura JSON lub Excela, którą otrzymasz, odzwierciedla logikę dokumentu, a nie tylko jego tekst.
Korygujemy błędy: Krzywy skan? Plama po kawie na marginesie? Nasze algorytmy potrafią odsiać szum i wyprostować dane, zanim trafią do Twojej bazy.

To koniec walki z formatowaniem. To powrót do tego, co robisz najlepiej – analizy danych.

Gotowy odzyskać swój czas?

Masz dość ręcznego przepisywania tabelek i naprawiania błędów po zwykłym OCR?

Masz dość ręcznego przepisywania tabelek? Wrzuć najtrudniejszy PDF do Dokum i zobacz różnicę.

Piekło tabel w PDF-ach: Jak wyciągnąć dane bez siwienia ze stresu?

TL;DR

Scenariusz, który (niestety) znasz

Dlaczego to jest takie trudne? (Czyli dlaczego Twój komputer jest zagubiony)

Level Hard: Skomplikowane layouty i "kreatywne" raporty

Dokum: Oczy, które rozumieją tabelę

Gotowy odzyskać swój czas?