!!! DEVELOPMENT MODE !!!
Scraping a pdf
- wooded glade
- Δημοσιεύσεις: 29284
- Εγγραφή: 02 Απρ 2018, 17:04
Scraping a pdf
Θέλω να κάνω scraping από ένα pdf.
Πως γίνεται ;
Όταν είναι html τα κάνω μπλε με το ποντίκι τα στοιχεία που θέλω και μετά paste στο notepad και τα επεξεργάζομαι.
Αλλά το pdf δεν γίνεται μπλε.
Το κάνω download και το ανοίγω με τον adobe (όχι τον pro) και κάνω κάποιο copy-paste αλλά δεν μ' αρέσει γιατί δεν πιάνεται εύκολα το κείμενο με το interface που έχει ο adobe. Άλλος τρόπος ;
Πως γίνεται ;
Όταν είναι html τα κάνω μπλε με το ποντίκι τα στοιχεία που θέλω και μετά paste στο notepad και τα επεξεργάζομαι.
Αλλά το pdf δεν γίνεται μπλε.
Το κάνω download και το ανοίγω με τον adobe (όχι τον pro) και κάνω κάποιο copy-paste αλλά δεν μ' αρέσει γιατί δεν πιάνεται εύκολα το κείμενο με το interface που έχει ο adobe. Άλλος τρόπος ;
δεν είναι όλα κρού-σμα-τα
- wooded glade
- Δημοσιεύσεις: 29284
- Εγγραφή: 02 Απρ 2018, 17:04
Re: Scraping a pdf
Το κάνει και ο browser.
Πρέπει να κουνήσεις λίγο το ποντίκι πάνω σε κείμενο ώστε να πάρει το σχήμα ενός I-bar και μετά τα κάνει μπλε.
Αλλά είναι αίσχος. Τα πιάνει, μετά τα χάνει, δεν γίνεται τίποτα.
Πρέπει να κουνήσεις λίγο το ποντίκι πάνω σε κείμενο ώστε να πάρει το σχήμα ενός I-bar και μετά τα κάνει μπλε.
Αλλά είναι αίσχος. Τα πιάνει, μετά τα χάνει, δεν γίνεται τίποτα.
δεν είναι όλα κρού-σμα-τα
Re: Scraping a pdf
File-->Save As Text
Κυριάκος ο Χρυσογέννητος, του Οίκου των Μητσοτακιδών, Πρώτος του Ονόματός του, Κύριος των Κρητών και των Πρώτων Ελλήνων, Προστάτης της Ελλάδος, Μπαμπάς της Δρακογενιάς, ο Κούλης του Οίνοπα Πόντου, ο Ατσαλάκωτος, ο Απελευθερωτής από τα Δεσμά των Μνημονίων.
- wooded glade
- Δημοσιεύσεις: 29284
- Εγγραφή: 02 Απρ 2018, 17:04
Re: Scraping a pdf
Πως γίνεται αυτό ;
Λέει save as pdf και από κάτω all files.
Πως να το κάνω as text ;
δεν είναι όλα κρού-σμα-τα
-
άγνωστος γνωστός
- Δημοσιεύσεις: 491
- Εγγραφή: 08 Ιαν 2019, 00:33
Re: Scraping a pdf
OCR που μετατρέπει την εικόνα σε κείμενο
Re: Scraping a pdf
Adobe Reader DC εχει αυτο το option. Δεν ξερω με τι προγραμμα διαβαζεις πδφ - αν θες πες. Αλλα λογικα και εκει που λεει all files αμα βαλεις extension .txt πρεπει να παιξιε.
Κυριάκος ο Χρυσογέννητος, του Οίκου των Μητσοτακιδών, Πρώτος του Ονόματός του, Κύριος των Κρητών και των Πρώτων Ελλήνων, Προστάτης της Ελλάδος, Μπαμπάς της Δρακογενιάς, ο Κούλης του Οίνοπα Πόντου, ο Ατσαλάκωτος, ο Απελευθερωτής από τα Δεσμά των Μνημονίων.
Re: Scraping a pdf
Εγω δεν καταλαβα οτι ειναι εικονα γιατι λεει το επιλεγει το κειμενο
Κυριάκος ο Χρυσογέννητος, του Οίκου των Μητσοτακιδών, Πρώτος του Ονόματός του, Κύριος των Κρητών και των Πρώτων Ελλήνων, Προστάτης της Ελλάδος, Μπαμπάς της Δρακογενιάς, ο Κούλης του Οίνοπα Πόντου, ο Ατσαλάκωτος, ο Απελευθερωτής από τα Δεσμά των Μνημονίων.
- wooded glade
- Δημοσιεύσεις: 29284
- Εγγραφή: 02 Απρ 2018, 17:04
Re: Scraping a pdf
Από browser έβαλα εγώ extension .txt εκεί που έλεγε .pdf αλλά βγάζει μπουρδουλούμπια τώρα.Yochanan έγραψε: 25 Ιουν 2020, 19:27 Adobe Reader DC εχει αυτο το option. Δεν ξερω με τι προγραμμα διαβαζεις πδφ - αν θες πες. Αλλα λογικα και εκει που λεει all files αμα βαλεις extension .txt πρεπει να παιξιε.
Από adobe έκανα copy-paste και έβγαλε text που μπορεί να συμμαζευτεί αλλά όμως μετά μεγίστης δυσκολίας - δεν πιάνει εύκολα όπως π.χ. μπορείς να πιάσεις ένα κείμενο από τη σελίδα του πχόρουμ.
δεν είναι όλα κρού-σμα-τα
Re: Scraping a pdf
οκ. δεν στο εξηγησα σωστα. Δοκιμασε να το σωσεις πρωτα απο το μπραουζερ σαν πδφ. Μετα πανε Φιλε-> Σαβε Ασ τεξτ
Κυριάκος ο Χρυσογέννητος, του Οίκου των Μητσοτακιδών, Πρώτος του Ονόματός του, Κύριος των Κρητών και των Πρώτων Ελλήνων, Προστάτης της Ελλάδος, Μπαμπάς της Δρακογενιάς, ο Κούλης του Οίνοπα Πόντου, ο Ατσαλάκωτος, ο Απελευθερωτής από τα Δεσμά των Μνημονίων.
- wooded glade
- Δημοσιεύσεις: 29284
- Εγγραφή: 02 Απρ 2018, 17:04
Re: Scraping a pdf
Τώρα θα δω.Yochanan έγραψε: 25 Ιουν 2020, 19:34 οκ. δεν στο εξηγησα σωστα. Δοκιμασε να το σωσεις πρωτα απο το μπραουζερ σαν πδφ. Μετα πανε Φιλε-> Σαβε Ασ τεξτ
Το pdftotext.com που λέει ο προηγούμενος τόκανε αλλά το βλέπω hopeless, το έκανε πολύ εκτός φάσεως ή έχασε και στοιχεία.
δεν είναι όλα κρού-σμα-τα
Re: Scraping a pdf
το .τξτ θα σου το σωσει σαν τεξτ απλο. αμα θες να κρατησεις δομη πινακων ειναι αλλη φαση και δεν ξερω πως
Κυριάκος ο Χρυσογέννητος, του Οίκου των Μητσοτακιδών, Πρώτος του Ονόματός του, Κύριος των Κρητών και των Πρώτων Ελλήνων, Προστάτης της Ελλάδος, Μπαμπάς της Δρακογενιάς, ο Κούλης του Οίνοπα Πόντου, ο Ατσαλάκωτος, ο Απελευθερωτής από τα Δεσμά των Μνημονίων.
- wooded glade
- Δημοσιεύσεις: 29284
- Εγγραφή: 02 Απρ 2018, 17:04
Re: Scraping a pdf
Ναι τόκανε τώρα με save as text από μέσα από τον Αδόβη.
Μπουρδουλουμπέϊσιον σίτυ το έκανε αλλά τώρα επιτυγχάνεται η μορφοποίηση του.
Μπουρδουλουμπέϊσιον σίτυ το έκανε αλλά τώρα επιτυγχάνεται η μορφοποίηση του.
δεν είναι όλα κρού-σμα-τα
Re: Scraping a pdf
Κυριάκος ο Χρυσογέννητος, του Οίκου των Μητσοτακιδών, Πρώτος του Ονόματός του, Κύριος των Κρητών και των Πρώτων Ελλήνων, Προστάτης της Ελλάδος, Μπαμπάς της Δρακογενιάς, ο Κούλης του Οίνοπα Πόντου, ο Ατσαλάκωτος, ο Απελευθερωτής από τα Δεσμά των Μνημονίων.
- wooded glade
- Δημοσιεύσεις: 29284
- Εγγραφή: 02 Απρ 2018, 17:04
Re: Scraping a pdf
Το έκανα το scraping.
Αλλά κάποιες λεπτομέρειες με προβληματίζουν.
Για να διαβάσω το παραγόμενο αρχείο κειμένου και να μετατρέψω τα δεδομένα σε μία μορφή που θέλω ακολουθώ κάποια σειρά και διαμορφώνω κάποιους κανόνες ανάγνωσης ώστε η κάθε λέξη να γίνεται αντιληπτό τι αντιπροσωπεύει και να πηγαίνει στη θέση της.
Αλλά μερικές φορές -όχι όλες- λέξεις που τις βλέπω στο pdf δεν βγαίνουν στο κείμενο.
Μερικές άλλες φορές ενώ πάνω στο pdf τα λόγια/αριθμοί είναι στην κανονική τους σειρά, στο κείμενο βγαίνουν ανάκατα.
Γιατί αυτές οι -σπάνιες έστω- αρρυθμίες ;
Χρησιμοποιώ adobe. Υπάρχει κάτι καλύτερο ;
Αλλά κάποιες λεπτομέρειες με προβληματίζουν.
Για να διαβάσω το παραγόμενο αρχείο κειμένου και να μετατρέψω τα δεδομένα σε μία μορφή που θέλω ακολουθώ κάποια σειρά και διαμορφώνω κάποιους κανόνες ανάγνωσης ώστε η κάθε λέξη να γίνεται αντιληπτό τι αντιπροσωπεύει και να πηγαίνει στη θέση της.
Αλλά μερικές φορές -όχι όλες- λέξεις που τις βλέπω στο pdf δεν βγαίνουν στο κείμενο.
Μερικές άλλες φορές ενώ πάνω στο pdf τα λόγια/αριθμοί είναι στην κανονική τους σειρά, στο κείμενο βγαίνουν ανάκατα.
Γιατί αυτές οι -σπάνιες έστω- αρρυθμίες ;
Χρησιμοποιώ adobe. Υπάρχει κάτι καλύτερο ;
δεν είναι όλα κρού-σμα-τα