• Geschlossen

docsafe pdf erkennung

sorsa
Level 1
1 von 9
wann wird die pdf Erkennung verbessert? Ist so leider nicht brauchbar. als pdf gescannte dateien per email an docsafe geschickt können nicht geöffnet werden.
8 Kommentare 8
swisscom-user
Level 1
2 von 9

Liebe Swisscom

 

Eine Community macht Sinn, wenn viele User viel Wissen einbringen und sich gegenseitig so helfen. Ihr als bezahlte Profis könnt euch als Sheriffs betätigen und einschreiten, wenn es notwendig wird.

 

Wenn einige User sich freiwillig mit einem neuen Produkt rumschlagen und ihr diese feedbackende Beta-Tester bei Laune halten sowie damit eure Professionalität unter Beweis stellen wollt, dann müsst ihr wohl oder übel selbst mal Feedback geben. Ein "Bekannt, wir gehen dem nach!" bewahrt euch aber auch uns vor repetitiven Fragen und somit letztendlich unnützem Zeitverlust.

 

Keine Angst, wir beissen nicht - also, nehmt ihr das Problem zur Kenntnis und geht ihr es an?

Sho
Level 3
Level 3
3 von 9

Hallo und ja, wir sind an dem Thema dran.

Es betrifft leider nicht nur selbst gescannte Dokumente, sondern auch pdfs aus externen Quellen. Manchmal sind nicht die pdfs selbst das Problem, sondern andere Elemente im Email.

 

Wir hoffen, dass wir das bald lösen können und entschuldigen uns für den Frust, den diese Problem bei einzelnen von Euch erzeugt.

 

 

francisco.jent
Level 3
4 von 9

Das Problem mit der "PDF-Erkennung" beginnt in den Mail Clients  (die Software, von der aus das Mail an Docafe geschickt wird). Wir haben aufgrund konkreter Anfragen festgestellt, dass einige Mail-Clients ein PDF-Attachment nicht unbedingt mit dem richtigen MIME-Type "application/pdf" an Docsafe übermitteln. Also haben wir eine Übersetzungstabelle eingeführt, die dieses Problem beim Eingehen der Mails zu lösen versucht. Das klappt schon einigermassen.

 

Es gibt aber tausende von Mail Client Versionen. Darum wollen wir diese Tabelle laufend verbessern. Dazu müssen wir konkret wissen, welche PDFs nicht geöffnet werden können, und wo dieses Öffnen scheitert. Vorschlag: Sendet Euren Swisscom-Login-Namen, oder noch besser Eure Docsafe-ID an support.docsafe@swisscom.com und schreibt dazu etwas wie

 

"Ich kann PDFs nicht öffnen, die ich per Mail eingeliefert habe

 

- Docsafe-ID 2345-ABCD-6789-WXYZ

- Problem im Browser... / Mobile-APp Version ...

 

Bitte an Entwicklung weiterleiten"

daffy2
Level 5
5 von 9

@francisco.jent schrieb:

Das Problem mit der "PDF-Erkennung" beginnt in den Mail Clients

...

Also haben wir eine Übersetzungstabelle eingeführt, die dieses Problem beim Eingehen der Mails zu lösen versucht. Das klappt schon einigermassen.

 


Wäre es nicht möglich, automatisch zu erkennen, dass das attachment ein PDF ist http://en.wikipedia.org/wiki/Portable_Document_Format)? Die Email ist ja schon einmal "da", da kann man ja auch den kompletten Scan auch auf dem Inhalt und nicht nur auf den MIME-Abschnitten machen.

 

Wenn ich mir die Argumentation so anschaue, dann kann man gerade prima Dokumente in den Docsafe hochladen, die nicht PDF sind. Alles was man dazu tun müsste, ist als (malicious) client den MIME-Typ explizit falsch zu deklarieren. Und schon ist meine "EXE" hochgelanden 😉

francisco.jent
Level 3
6 von 9

Du kannst in der Tat .exe in Deinen Docsafe laden, malicious oder nicht. Wenn Du sie als PDF deklarierst, wird Dein PDF-Reader sie zu öffnen versuchen - geht vermutlich nicht. Wenn Du sie als ausführbar deklarierst, kannst Du sie wieder herunterladen. So oder so muss ja jemand das .exe öffnen. Weder Docsafe noch Dein Browser wird das tun.

 

Aus unserer Sicht ist es in der Tat einfach, ein PDF zu erkennen. Deshalb haben wir uns auf bestehende Software verlassen- Nun schaffen das aber viele Mail Clients trotzdem nicht. Also machen wir es jetzt selber. Was wir aber nicht tun wollen, ist in's Dokument selber hineinschauen. Das ist geheim.

daffy2
Level 5
7 von 9

@francisco.jent schrieb:

Was wir aber nicht tun wollen, ist in's Dokument selber hineinschauen. Das ist geheim.


Ich verstehe die Perspektive, möchte aber im Kontext der Features von DocSafe eines anbringen:

 

Auf dem Transportweg via Email sind die Daten bereits (unverschlüsselt) durch reichlich Infrastruktur (SMTP Server *intern*) geflossen. Insofern ist strikt positive strukturbasierte content type detection am Ende des Transportswegs - in einem transienten Status - aus meiner Sicht problemlos.

 

In dem Moment, in dem nachhaltig und identifzifierbar persistiert *ist* kann man auch im Kontext von DocSafe eine nachhaltige Verschlüsselung erwarten, im Falle von DocSafe wohl eine Art PKI.

 

Mit der obigen Argumentation ist es im übrigen auch unmöglich eine Indexierung zu erreichen - per definition muss man für ein derartiges (aus meiner Sicht im Kontext DocSafe absolut notwendiges) Feature in das Dokument hineinschauen um den Index für ein einzelnes Dokument zu bauen. Die Kunst, eine indexbasierende, DocSafe-weite Suche zu implementieren besteht dann nur noch darin, die Index-Fragmente (on demand, nach Anmeldung durch einen berechtigten Anwender) effizient zusammenzufügen. Für ein paar 10 Dokumente geht das, für ein paar 100 Dokumente über Nutzergrenzen hinweg ... eehh. 🙂 Und das concurrent über ein paar mehr Sitzungen ... eeehhh 🙂

 

Würde DocSafe eine client-seitige Verschlüsselung erzwingen (und für den Email-Kanal ist das einfach nicht möglich), könnte man anders argumentieren. Das wäre dann der Wuala-Fall in Reinform. 

francisco.jent
Level 3
8 von 9

@daffy2 : Das bedeutet: eine PDF-Erkennung durch Content-Inspection am Ende eines unsichern Kanals wäre eine 'lässliche Sünde'. Es bleibt aber diskutabel, denn für die Unsicherheit des EMail-Kanals ist Docsafe nicht verantwortlich, für seine eigenen Aktivitäten aber schon. Wir tun daher erst mal unser Bestes, die Attachments zweifelsfrei als PDF zu erkennen, ohne hineinzuschauen.

 

Das Thema Indexierung diskutieren wir intern mit genau denselben Prämissen: schafft es Vertrauen, einen geheimen Content zu indizieren? Diese Frage beantworten wir später ...

 

daffy2
Level 5
9 von 9

@francisco.jent schrieb:

 schafft es Vertrauen, einen geheimen Content zu indizieren? 

 


 

Ein letzter Beitrag - und jetzt bin ich voll off-topic, sorry:

 

Es gibt zwei Stufen von "geheim":

 

* total geheim - client-seitige Verschlüsselung mit(!) Offenlegung aller Quellen die zum Neubau des client-seitigen Zugriffs notwendig sind. Das ist die TrueCrypt "source code"-Philosophie gepaart mit der Wuala "cloud"-Philosophie. Absoluter Paranoia-Modus.

 

* geheim gespeichert - persistierte Daten sind verschlüsselt; Vertrauen in die (private betreibende) Organisation und das sozio-ökonomische Umfeld ("Staat") erlauben eine interne Aufbearbeitung der Daten ausschliesslich zum Vorteil eines berechtigten Individuums. Massvolle Paranoia.

 

Dazwischen ist wie "ein wenig schwanger".

 

Ich gehöre in das Camp "massvolle Paranoia". Wer absolut paranoid ist, der darf keine elektronischen Daten speichern; keine elektronischen Daten in einem privaten Netz verfügbar machen; keine elektronischen Daten in die Cloud schieben.

Nach oben