Σελίδα 1 από 2

Scraping a pdf

Δημοσιεύτηκε: 25 Ιουν 2020, 18:30
από wooded glade
Θέλω να κάνω scraping από ένα pdf.
Πως γίνεται ;
Όταν είναι html τα κάνω μπλε με το ποντίκι τα στοιχεία που θέλω και μετά paste στο notepad και τα επεξεργάζομαι.
Αλλά το pdf δεν γίνεται μπλε.
Το κάνω download και το ανοίγω με τον adobe (όχι τον pro) και κάνω κάποιο copy-paste αλλά δεν μ' αρέσει γιατί δεν πιάνεται εύκολα το κείμενο με το interface που έχει ο adobe. Άλλος τρόπος ;

Re: Scraping a pdf

Δημοσιεύτηκε: 25 Ιουν 2020, 19:17
από wooded glade
Το κάνει και ο browser.
Πρέπει να κουνήσεις λίγο το ποντίκι πάνω σε κείμενο ώστε να πάρει το σχήμα ενός I-bar και μετά τα κάνει μπλε.
Αλλά είναι αίσχος. Τα πιάνει, μετά τα χάνει, δεν γίνεται τίποτα.

Re: Scraping a pdf

Δημοσιεύτηκε: 25 Ιουν 2020, 19:20
από Yochanan
File-->Save As Text

Re: Scraping a pdf

Δημοσιεύτηκε: 25 Ιουν 2020, 19:25
από wooded glade
Yochanan έγραψε: 25 Ιουν 2020, 19:20 File-->Save As Text
Πως γίνεται αυτό ;
Λέει save as pdf και από κάτω all files.
Πως να το κάνω as text ;

Re: Scraping a pdf

Δημοσιεύτηκε: 25 Ιουν 2020, 19:27
από άγνωστος γνωστός
OCR που μετατρέπει την εικόνα σε κείμενο

Re: Scraping a pdf

Δημοσιεύτηκε: 25 Ιουν 2020, 19:27
από Yochanan
Adobe Reader DC εχει αυτο το option. Δεν ξερω με τι προγραμμα διαβαζεις πδφ - αν θες πες. Αλλα λογικα και εκει που λεει all files αμα βαλεις extension .txt πρεπει να παιξιε.

Re: Scraping a pdf

Δημοσιεύτηκε: 25 Ιουν 2020, 19:28
από Yochanan
άγνωστος γνωστός έγραψε: 25 Ιουν 2020, 19:27 OCR που μετατρέπει την εικόνα σε κείμενο
Εγω δεν καταλαβα οτι ειναι εικονα γιατι λεει το επιλεγει το κειμενο

Re: Scraping a pdf

Δημοσιεύτηκε: 25 Ιουν 2020, 19:31
από foscilis

Re: Scraping a pdf

Δημοσιεύτηκε: 25 Ιουν 2020, 19:32
από wooded glade
Yochanan έγραψε: 25 Ιουν 2020, 19:27 Adobe Reader DC εχει αυτο το option. Δεν ξερω με τι προγραμμα διαβαζεις πδφ - αν θες πες. Αλλα λογικα και εκει που λεει all files αμα βαλεις extension .txt πρεπει να παιξιε.
Από browser έβαλα εγώ extension .txt εκεί που έλεγε .pdf αλλά βγάζει μπουρδουλούμπια τώρα.
Από adobe έκανα copy-paste και έβγαλε text που μπορεί να συμμαζευτεί αλλά όμως μετά μεγίστης δυσκολίας - δεν πιάνει εύκολα όπως π.χ. μπορείς να πιάσεις ένα κείμενο από τη σελίδα του πχόρουμ.

Re: Scraping a pdf

Δημοσιεύτηκε: 25 Ιουν 2020, 19:34
από Yochanan
οκ. δεν στο εξηγησα σωστα. Δοκιμασε να το σωσεις πρωτα απο το μπραουζερ σαν πδφ. Μετα πανε Φιλε-> Σαβε Ασ τεξτ

Re: Scraping a pdf

Δημοσιεύτηκε: 25 Ιουν 2020, 19:40
από wooded glade
Yochanan έγραψε: 25 Ιουν 2020, 19:34 οκ. δεν στο εξηγησα σωστα. Δοκιμασε να το σωσεις πρωτα απο το μπραουζερ σαν πδφ. Μετα πανε Φιλε-> Σαβε Ασ τεξτ
Τώρα θα δω.
Το pdftotext.com που λέει ο προηγούμενος τόκανε αλλά το βλέπω hopeless, το έκανε πολύ εκτός φάσεως ή έχασε και στοιχεία.

Re: Scraping a pdf

Δημοσιεύτηκε: 25 Ιουν 2020, 19:44
από Yochanan
το .τξτ θα σου το σωσει σαν τεξτ απλο. αμα θες να κρατησεις δομη πινακων ειναι αλλη φαση και δεν ξερω πως

Re: Scraping a pdf

Δημοσιεύτηκε: 25 Ιουν 2020, 19:46
από wooded glade
Ναι τόκανε τώρα με save as text από μέσα από τον Αδόβη.
Μπουρδουλουμπέϊσιον σίτυ το έκανε αλλά τώρα επιτυγχάνεται η μορφοποίηση του.

Re: Scraping a pdf

Δημοσιεύτηκε: 25 Ιουν 2020, 19:52
από Yochanan
:smt023

Re: Scraping a pdf

Δημοσιεύτηκε: 01 Αύγ 2020, 11:50
από wooded glade
Το έκανα το scraping.
Αλλά κάποιες λεπτομέρειες με προβληματίζουν.
Για να διαβάσω το παραγόμενο αρχείο κειμένου και να μετατρέψω τα δεδομένα σε μία μορφή που θέλω ακολουθώ κάποια σειρά και διαμορφώνω κάποιους κανόνες ανάγνωσης ώστε η κάθε λέξη να γίνεται αντιληπτό τι αντιπροσωπεύει και να πηγαίνει στη θέση της.
Αλλά μερικές φορές -όχι όλες- λέξεις που τις βλέπω στο pdf δεν βγαίνουν στο κείμενο.
Μερικές άλλες φορές ενώ πάνω στο pdf τα λόγια/αριθμοί είναι στην κανονική τους σειρά, στο κείμενο βγαίνουν ανάκατα.
Γιατί αυτές οι -σπάνιες έστω- αρρυθμίες ;
Χρησιμοποιώ adobe. Υπάρχει κάτι καλύτερο ;