Τα ξερω αυτα επειδη ειχα ασχοληθει με φορολογικούς μηχανισμούς ΕΑΔΦΣΣ και επρεπε να κάνουμε PDF ->text.
Βασικά υπάρχει το εξής ερώτημα σε σχέση με αυτό που κάνει ο wooded. Θέλει κάτι re-usable ή ένα one time hack; Αν θέλει κάτι re-usable πρέπει να απεικονίσει το περιεχόμενο του κειμένου σε μια μορφή που είναι παντελώς agnostic στο που εμφανίζεται τι αλλά να διατηρεί τις γραμματικές συνδέσεις του περιεχομένου. Εννοώ ότι αν το t-l, t-r,b-l, b-r που εκφράζει χωρικά κάτι, θα πρέπει να το κάνει encode σε ένα metasyntax notation, ώστε να μπορεί στο ενδιάμεσο AST να το έχει όπως πρέπει (i.e σαν γραμματική οντότητα), χωρίς να τον απασχολεί αν κάτι είναι 10 χαρακτήρες πιο δεξιά. Απλά θα διατρέξει το δέντρο και θα βρει τα tagged nodes που χρειάζεται.
Αν και νομίζω ότι δεν τον απασχολεί να κάνει κάτι τέτοιο.
Reusable βέβαια.
Ο Adobe το κάνει αλλά με λάθη που και που.
Το site που βρήκα κάνει όμως τέλειο text. Ο Nick που είπε ψάξε για parsers και όχι scrapers βοήθησε.
nick έγραψε: 21 Μάιος 2021, 14:17
Το πρόβλημα ειναι οτι το pdf μπορει να παρουσιασει κειμενο οριζοντια/καθετα/αναποδα με rotation μικρα/μεγαλα γραμματα και οτι φανταστεις.
Τι κειμενο περιμενεις να γραφτει στο notepad π.χ. απο αυτες τις εικονες
Καλά τα δικά μας δεν είναι τέτοια.
Υπάρχουν και σε text αλλού - χωρίς pdf - αλλά με λιγώτερα στοιχεία.
wooded glade έγραψε: 21 Μάιος 2021, 13:56
Η VB μετά την 6.00 έχει ελλείψεις - planned obsolescense του Gates ο οποίος θέλει να μας βάλει και τα εμβόλια.
Στο έχουμε γράψει πολλές φορές ότι πρέπει να σταματήσεις να χρησιμοποιείς αυτή τη μαλακία και να αρχίσεις να γράφεις σε vb.net. Δεν υπάρχει καμία συνωμοσία του Gates, απλά είσαι μαλάκας (φιλικά στο γράφω, μην παρεξηγηθείς).
Αλλά έχει κάνει planned obsolescense ο τσιπάκιας τώρα, τι να λαίμαι. Εσύ έχεις πιαστεί κορόϊδο του τσιπάκια.
Εγώ δεν γράφω vb φίλε μου και από τον τσιπάκια έχω βγάλει πάρα πολλά λεφτά εδώ και χρόνια. Πάντως αυτό:
Ο Gates τη χάλασε εξεπίτηδες επειδή θέλει να μας βάλει εμβόλιο.
δεν το καταλαβαίνω.
Τι σχέση έχει η vb6 με το εμβόλιο; Αν δεν είχε κάνει planned obsolescence θα έγραφες ιό για να καταστρέψεις τα nanobots του εμβολίου σε vb6;
Ενπηρειά και σθένος σου πήρε 6 σελίδες να κάνεις άρνηση απαιτούμενος. Είμαι νεαρή γυναίκα, είμαι νεαρή γυναίκα, είμαι νεαρή γυναίκα, είμαι νεαρή γυναίκα. Ακόμα και οι Ζαίοι δεν χρειάζονται τα δύο χρώματα σαν κυρίες.
Τελικά πήγα να διαβάσω pdf με αυτή τη μέθοδο του online αλλά δεν βγήκε καλό.
Οπτικά φαίνεται καλύτερο από του adobe αλλά όταν το είδα με προσοχή χάνει πολύ - γίνεται κάποιο randomization και δεν μπορείς να ορίσεις bookmarks για το διάβασμα (χειρότερο από adobe).
Λέει κάποιος ότι στα pdf παίζει ρόλο η σειρά που ακολουθεί αυτός που τα γράφει.
Δηλαδή αν η κανονική σειρά αυτών που θέλει να γράψει είναι "Α"-"Β"-"Γ" και αυτός το πάει με μιά σειρά "Γ"-"Β"-"Α", επηρεάζει το internal format of the document και το parsing.
Έχει κι άλλα online converter εκτός από το aspose που βρήκα αλλά δεν καταλαβαίνουν Ελληνικά τα περισσότερα.
Άλλο ;
Με OCR μπας και γίνεται ;