NAJNOWSZA WERSJA DOCSQUALITY JUŻ DOSTĘPNA!

Dzięki postępowi technologicznemu sztucznej inteligencji (AI), zaciera się bariera pomiędzy informacją ustrukturyzowaną (bazami danych, tabelami, plikami danych) a informacją zawartą w języku naturalnym. Rośnie więc zapotrzebowanie na innowacyjne systemy, zdolne do przetwarzania, analizy i ekstrakcji wartościowych informacji zawartych w dokumentach. Zadania te coraz częściej są realizowane przez tzw. duże modele językowe (LLM) działające w ramach platform chmurowych, takich jak AWS, Google Cloud Platform (GCP), Microsoft oraz OpenAI.

Wychodząc naprzeciw tym potrzebom udostępniliśmy nową wersję naszego rozwiązania do monitorowania jakości dokumentów cyfrowych DocsQuality.

Nową wersję wzbogaciliśmy o wyliczenie wartości OCRIndex – umożliwia ona użytkownikom sprawdzenie, czy plik PDF przekazany do modelu LLM, albo systemu obiegu dokumentów, zostanie poprawnie przetworzony przez silnik programu optycznego rozpoznawania znaków (OCR).

Naprzeciw oczekiwaniom. Nowa funkcjonalność DocsQuality

OCRIndex to miara liczbowa pokazująca, jak dobrze oprogramowanie OCR potrafi odczytać tekst z dokumentów elektronicznych, w tym zdjęć lub zeskanowanych pism. Bierze on pod uwagę jakość obrazu, zwłaszcza charakterystykę czcionki i wykrywa wady dokumentu, takie jak kompresja, rozmycie, kontrast itp. Wyższy wskaźnik OCR sugeruje większe prawdopodobieństwo dokładnego rozpoznania znaków.

Metoda wyznaczania wskaźnika OCRIndex

Do wyznaczenia wskaźnika OCRIndex, oprócz istniejących narzędzi OCR, konieczne było zastosowanie autorskiego algorytmu, służącego do rozpoznawania nieczytelnego tekstu (zarówno drukowanego, jak i pisanego). Metoda zastosowana w DocsQuality służy do wyznaczenia indeksu OCR dla pojedynczej strony analizowanego dokumentu. Wynik wskazywany jest w skali od 1 do 100. 

OCRIndex można rozumieć jako procent tekstu znajdującego się w źródłowym dokumencie, który po poddaniu analizie, zostanie prawidłowo przekonwertowany na łańcuch znaków. Optymalną wartością jest więc 100 np. dla dokumentów zapisanych w formacie wektorowym (np. vector PDF). Natomiast w przypadku, gdy silnik OCR nie radzi sobie z odczytem dokumentu,  OCRIndex wyniesie 0.

Przygotowanie danych treningowych

Jednym z podstawowym problemów w analizie jakości słabych wizualnie dokumentów jest ocena, czy w procesie OCR, zostały pominięte fragmenty zawierające wartościową informację. Aby wyliczyć wskaźnik OCRIndex nasz zespół wykorzystał zestaw wyselekcjonowanych dokumentów, zawierających zarówno czytelne oraz nieczytelne ciągi znaków (drukowane i jak napisane pismem odręcznym). Każdy obraz dokumentu został poddany analizie w systemach OCR takich jak Tessaract oraz Document Intelligence Studio w taki sposób, aby wynik analizy zawierał zarówno wykryty tekst, jak i obszary, w którym łańcuchy znaków nie zostały zidentyfikowane przez silnik OCR (Fig).

Następnie dane te zostały poddane procesowi oceny wizualnej, mającej na celu ewaluację stopnia, w jakim dokument został prawidłowo poddany procesowi OCR. Dla każdego dokumentu, ekspert oceniał na skali od 0 do 10, jaki procent tekstu został prawidłowo przeanalizowany przez oba programy. Określony przez eksperta OCRIndex stanowił średnią wartość z najczęściej stosowanych systemów OCR. W celu wsparcia pracy eksperta, DocsQuality dostarczał dodatkowe informacje o obszarach dokumentu, które system uznał za nieczytelne. Kluczowym ulepszeniem OCRIndex jest fakt, że DocsQuality jest teraz w stanie zidentyfikować tekst w analizowanym dokumencie, który mógłby zostać pominięty przez silnik OCR.

Komentarz Andrzeja Chybickiego CEO Inero Software

Wśród naszych klientów i partnerów widzimy coraz większe zainteresowanie zautomatyzowanym przetwarzaniem informacji zawartych w plikach PDF. Dokumenty takie często są dostarczane bądź jako skany lub zdjęcia, przez co w niektórych przypadkach proces ich analizy z wykorzystaniem systemów OCR czy LLM może powodować błędy.

Dzięki OCRIndex użytkownicy są teraz w stanie szybko i automatycznie weryfikować czy dany dokument może być poddany automatycznemu „OCRowaniu” czy może jednak wymaga nadzoru specjalisty. W ten sposób zaoszczędzamy czas oraz unikamy błędów jakie wynikają z wdrożenia do obiegu dokumentów o niskiej wizyjnej jakości.

Andrzej Chybicki

DocsQuality jest przez nas oferowane w ramach usług Europejskich Hubów Cyfrowych, których beneficjentem może być każde małe i średnie przedsiębiorstwo, zarejestrowane na terenie RP. Dzięki PDIH firmy zainteresowane kwestią efektywnego przetwarzania dokumentacji mogą otrzymać bezpłatnie usługi konsultacji oraz wdrożenia usług z obszaru inteligentnego przetwarzania dokumentów. Po więcej informacji, wystarczy kliknąć TU.

WYELIMINUJ NIECZYTELNE DOKUMENTY Z FIRMOWEGO REPOZYTORIUM
Dokumentacja stanowi podstawę prawidłowego funkcjonowania większości organizacji. Ułatwia komunikację, zapewnia spójność działania, pomaga...
>>>
NAJLEPSZE PRAKTYKI W ZARZĄDZANIU DOKUMENTAMI I ARCHIWIZACJI: ROLA CZYTELNOŚCI
W miarę rozwoju organizacji, zapewnienie dostępu do archiwalnych danych, wniosków i dokumentacji staje...
>>>

Chcesz poznać lepiej DocsQuality? Porozmawiajmy

Stale pracujemy nad rozwojem DocsQuality. Daj nam znać, jakie funkcje chcesz wkrótce zobaczyć!