Als Kolumnist geziemt es sich eigentlich nicht, über sein eigenes Business zu schreiben. Hat das Magazin aber das Thema Dokumente, kann ich eigentlich gar nicht anders. Mit meiner Firma Parashift arbeiten wir an einer technologischen Lösung zur versatilen Extraktion von Daten aus Dokumenten. Das Thema hält mich Tag und Nacht auf Trab. Es sei mir also verziehen.
Dokumentenextraktion ist nicht gelöst, jedenfalls nicht so wie es unsere Zeit verlangt
Als ich mich das erste Mal mit der Dokumentenextraktion auseinandergesetzt habe, benötigten wir eine Lösung für das Auslesen von vielen verschiedenen Dokumenten. Meine ersten Anfragen bei etablierten Anbietern ergaben damals, dass das gar kein Problem sei. Je mehr wir uns allerdings mit den Lösungen auseinandersetzten, desto klarer wurde, dass die Definition von «Das Problem ist gelöst» aus Sicht der Anbieter ganz erheblich von unserer abwich. Während ich mir eine API vorstellte, an welche ich ein Dokument hinsenden und Ergebnisse zurückbekommen könnte, sprachen die Anbieter von grossen Setups, Lizenzkosten und langwierigen Projekten. Wir konnten uns damals nichts davon leisten.
Ein unglaublich komplexes technisches Problem
Aus purer Not heraus haben wir also begonnen, Technologie für Dokumentenextraktion zu entwickeln. Wer beginnt mit Machine-Learning Dokumentendaten zu extrahieren wird feststellen, dass er anfangs recht schnell gute Resultate erzielen kann. Das ist irreführend, denn erste gute Resultate sind aus technologischer Sicht zwar spannend, haben jedoch nur selten einen hohen Business-Wert. Und, die Herausforderung wird laufend komplexer, je weiter man daran arbeitet. Wir erkannten, dass wir vier Komponenten zusammenbringen müssen um Dokumentenextraktion vollständig zu lösen: eine riesige globale Anzahl von Dokumenten, einen autonom lernenden Machine-Learning-Cluster, die Cloudinfrastruktur um hohe Volumina in verschiedenen Compliance-Zonen verarbeiten zu können und qualitativ hochwertige Lerndaten.
Ein erster Schritt war, diese 4 Komponenten auf einer Plattform zusammenzubringen. Da man Dokumente nicht einfach so kaufen kann und die Massenannotation zu Trainingsdaten viel zu teuer ist, haben wir die 4 Komponenten auch direkt in unser Businessmodell integriert. Heute verstehen wir unser Modell so, dass alle Stakeholder die mit Dokumenten zu tun haben (Kunden, Partner, BPO, Berater), durch die Nutzung unserer Plattform dazu beitragen, dass wir alle dem Ziel der versatilen Dokumentenextraktion in grossen Schritten näher kommen.
Dokumentenextraktion als Game-Changer
Wir sehen bei Kunden immer wieder, wie unglaublich viel Zeit in die manuelle Verarbeitung von Dokumenten fliesst. Wie das Fehlen der autonomen Dokumentenverarbeitung Prozesse blockiert – und viel schlimmer – die Digitalisierungsbestrebungen lähmt. Denn während bei Dokumententypen, welche ein hohes Volumen aufweisen, Unternehmen viel Geld in Lösungen investieren, rechtfertigt sich eine Investition für klein-volumige Dokumententypen fast nie.
Da diese kleinvolumigen Dokumententypen zusammen aber in der Regel mehr als 70 % aller Dokumente eines Unternehmens ausmachen, bleibt der Grossteil an mühsamer, manueller Arbeit übrig. Hätten wir uns nicht über all die Jahre so daran gewöhnt, wir würden diesen Arbeitsaufwand nie akzeptieren. Die Lösung von versatiler, autonomer Dokumentenextraktion wird die Digitalisierung daher entfesseln und einen ganz neuen Grad an Automatisierung ermöglichen.
Artikel auf Social Media teilen: