Σελίδα 2 από 4

Re: pdf scraping

Δημοσιεύτηκε: 21 Μάιος 2021, 11:25
από Awesomatic
Το βασικό σου πρόβλημα πρώτα είναι η εξαγωγή από pdf σε text. Αυτό καλό είναι να γίνει από κάποια γλώσσα που έχει καλές σχετικές βιβλιοθήκες (ενδεικτικά python). Μετά θα ασχοληθείς με το parsing στη γλώσσα της επιλογής σου, χώρισε τα πρώτα σε λογικά βήματα και απέφυγε όσο μπορείς να κάνεις πράγματα με το χέρι.

Re: pdf scraping

Δημοσιεύτηκε: 21 Μάιος 2021, 11:27
από wooded glade
nick έγραψε: 21 Μάιος 2021, 11:22
wooded glade έγραψε: 21 Μάιος 2021, 11:17
nick έγραψε: 21 Μάιος 2021, 11:09

Με τι πρόγραμμα κατασκευάστηκε, τι fonts έχει (ισως και embedded) ...
Δεν ξέρω. Θες να στο στείλω ;
Τώρα κατέβασα ένα που λέει weeny pdf2textconverter και δεν εκτελεί απολύτως τίποτα.
Αλλά ο adobe ο ίδιος σώνει σαν text λέμε - μόνο που παρουσιάζει το πρόβλημα.
Εννοω εχει σημασια ποιο προγραμμα κατασκευασε το pdf αρχειο. Πολλα προγράμματα έχουν και custom fonts (π.χ. η ελληνική αλφαβητος ειναι γεωμετρικά σχηματα και μονο το ματι μπορει να τα καταλάβει).
Ιδέα δεν έχω. Αλλά τα Ελληνικά γράμματα βγαίνουν - μόνο που οι θέσεις τους δεν είναι στάνταρ μερικές φορές στο παραγόμενο text, τη σ
στιγμή που όταν το διαβάζεις σαν pdf είναι.


* κάπου είδα που λέει αυτό αν εξηγεί τίποτα:

Producer(ώ M i c r o s o f t ® E x c e l ® f o r O f f i c e 3 6 5)

Re: pdf scraping

Δημοσιεύτηκε: 21 Μάιος 2021, 11:28
από wooded glade
Awesomatic έγραψε: 21 Μάιος 2021, 11:25 Το βασικό σου πρόβλημα πρώτα είναι η εξαγωγή από pdf σε text. Αυτό καλό είναι να γίνει από κάποια γλώσσα που έχει καλές σχετικές βιβλιοθήκες (ενδεικτικά python). Μετά θα ασχοληθείς με το parsing στη γλώσσα της επιλογής σου, χώρισε τα πρώτα σε λογικά βήματα και απέφυγε όσο μπορείς να κάνεις πράγματα με το χέρι.
Τι έκανα με το χέρι ;
Αν θες να πεις ο adobe δεν σώνει καλά, ποιό σώνει ;

Re: pdf scraping

Δημοσιεύτηκε: 21 Μάιος 2021, 11:32
από wooded glade
Βλέπω εδώ ένα σωρό pdf to text converters.
Ένα που κατέβασα δεν εκτελεί αλλά υπάρχουν κι άλλα.
Πάντως η λογική μας είναι ότι ο adobe δεν σώνει καλά, οπόταν ποιό σώνει καλύτερα ;
Η άλλη λογική είναι να διορθώνω τα λαθάκια που το προσπαθώ βέβαια αλλά δεν πετυχαίνει 100%.

Re: pdf scraping

Δημοσιεύτηκε: 21 Μάιος 2021, 11:33
από nick

Re: pdf scraping

Δημοσιεύτηκε: 21 Μάιος 2021, 11:40
από wooded glade
nick έγραψε: 21 Μάιος 2021, 11:33 Κανε μια upload εδω.
https://www.pdftron.com/pdf-tools/article-extraction/
Ε τι ; Αυτό pdf μου ξανάβγαλε (μιά σελίδα από τις 16).

Re: pdf scraping

Δημοσιεύτηκε: 21 Μάιος 2021, 11:49
από vatraxos
klg έγραψε: 21 Μάιος 2021, 10:41
Αρχικά αυτό που θες να κάνεις δεν είναι scraping. Αν δεν μπορείς να βασιστείς στη θέση του πράγματος που θες να κάνεις parse από το pdf, θα πρέπει να κάνεις ένα πιο context-sensitive parsing και να φτιάξεις ένα δέντρο που θα απεικονίζει το περιεχόμενο του pdf, το οποίο θα κάνεις annotate με κάποιο scheme και μετά θα τρέξεις μια αναζήτηση για να βρεις τα tags που αφορούν αυτά που ψάχνεις. (προφανώς τα δύο τελευταία βήματα μπορείς να τα κάνεις merge σε ένα)
Εναλλακτικά, επειδή μάλλον τα spaces δημιουργούν το θέμα, μπορεί να κάνει Find/Replace στο text αναζητώντας διπλό space και αντικαθιστώντας το με μονό. Με αυτό τον τρόπο πολύ γρήγορα θα έχει ένα text χωρίς διπλά, τριπλά spaces κλπ.

Re: pdf scraping

Δημοσιεύτηκε: 21 Μάιος 2021, 11:54
από wooded glade
vatraxos έγραψε: 21 Μάιος 2021, 11:49
klg έγραψε: 21 Μάιος 2021, 10:41
Αρχικά αυτό που θες να κάνεις δεν είναι scraping. Αν δεν μπορείς να βασιστείς στη θέση του πράγματος που θες να κάνεις parse από το pdf, θα πρέπει να κάνεις ένα πιο context-sensitive parsing και να φτιάξεις ένα δέντρο που θα απεικονίζει το περιεχόμενο του pdf, το οποίο θα κάνεις annotate με κάποιο scheme και μετά θα τρέξεις μια αναζήτηση για να βρεις τα tags που αφορούν αυτά που ψάχνεις. (προφανώς τα δύο τελευταία βήματα μπορείς να τα κάνεις merge σε ένα)
Εναλλακτικά, επειδή μάλλον τα spaces δημιουργούν το θέμα, μπορεί να κάνει Find/Replace στο text αναζητώντας διπλό space και αντικαθιστώντας το με μονό. Με αυτό τον τρόπο πολύ γρήγορα θα έχει ένα text χωρίς διπλά, τριπλά spaces κλπ.
Δεν μου φαίνεται να το προκαλούν οι σπάσες.
Αφού λέμε πάνε ανάκατα.
Εκεί που πρέπει να λέει "όνομα" και στην από κάτω σειρά "ποσόν" λέει πάνω το "ποσόν" και από κάτω το "όνομα". Τέτοια λάθη - ενώ την ίδια στιγμή επί του PDF φαίνονται όλα ολόσωστα.

Re: pdf scraping

Δημοσιεύτηκε: 21 Μάιος 2021, 11:56
από vatraxos
Θες να μου στείλεις ένα δείγμα από pdf να το τσεκάρω;

Re: pdf scraping

Δημοσιεύτηκε: 21 Μάιος 2021, 11:59
από wooded glade
vatraxos έγραψε: 21 Μάιος 2021, 11:56 Θες να μου στείλεις ένα δείγμα από pdf να το τσεκάρω;
Ξέρεις απ' αυτά ;

https://www.mediafire.com/file/znux3987 ... b.pdf/file

Re: pdf scraping

Δημοσιεύτηκε: 21 Μάιος 2021, 12:01
από sys3x
Είναι παγίδα Γουντ, μη τσιμπάς.

Re: pdf scraping

Δημοσιεύτηκε: 21 Μάιος 2021, 12:04
από Awesomatic
wooded glade έγραψε: 21 Μάιος 2021, 11:59
vatraxos έγραψε: 21 Μάιος 2021, 11:56 Θες να μου στείλεις ένα δείγμα από pdf να το τσεκάρω;
Ξέρεις απ' αυτά ;

https://www.mediafire.com/file/znux3987 ... b.pdf/file
Αν κατάλαβα καλά θέλεις από σελίδα 6 και κάτω μέχρι πριν το τέλος;

Re: pdf scraping

Δημοσιεύτηκε: 21 Μάιος 2021, 12:08
από dotcom
wooded τον αυγολέμονο τον ξέρεις;

Re: pdf scraping

Δημοσιεύτηκε: 21 Μάιος 2021, 12:09
από vatraxos
wooded glade έγραψε: 21 Μάιος 2021, 11:59
vatraxos έγραψε: 21 Μάιος 2021, 11:56 Θες να μου στείλεις ένα δείγμα από pdf να το τσεκάρω;
Ξέρεις απ' αυτά ;

https://www.mediafire.com/file/znux3987 ... b.pdf/file
Θα ζητήσω βοήθεια από τον ΑΛΟΓΟΜΟΥΡΗΣ αν χρειαστεί.

Re: pdf scraping

Δημοσιεύτηκε: 21 Μάιος 2021, 12:12
από wooded glade
Awesomatic έγραψε: 21 Μάιος 2021, 12:04
wooded glade έγραψε: 21 Μάιος 2021, 11:59
vatraxos έγραψε: 21 Μάιος 2021, 11:56 Θες να μου στείλεις ένα δείγμα από pdf να το τσεκάρω;
Ξέρεις απ' αυτά ;

https://www.mediafire.com/file/znux3987 ... b.pdf/file
Αν κατάλαβα καλά θέλεις από σελίδα 6 και κάτω μέχρι πριν το τέλος;
Ναι από την 5 και μετά.
Ας πάρουμε τους τζόκεϋ.
Είναι όπως βλέπεις οι Ruis S., Αττίκος Κ., Duporte A., Michel M., Bourgois V., Neuville L., της σελίδας 5.
Ο τρίτος, ο Duporte A., στο text βγαίνει εκτός θέσεως. Γιατί ;