!!! DEVELOPMENT MODE !!!

Scraping a pdf

Λογισμικό, λειτουργικά συστήματα, προγραμματισμός, hardware, δίκτυα, Internet
Άβαταρ μέλους
wooded glade
Δημοσιεύσεις: 29284
Εγγραφή: 02 Απρ 2018, 17:04

Scraping a pdf

Μη αναγνωσμένη δημοσίευση από wooded glade »

Θέλω να κάνω scraping από ένα pdf.
Πως γίνεται ;
Όταν είναι html τα κάνω μπλε με το ποντίκι τα στοιχεία που θέλω και μετά paste στο notepad και τα επεξεργάζομαι.
Αλλά το pdf δεν γίνεται μπλε.
Το κάνω download και το ανοίγω με τον adobe (όχι τον pro) και κάνω κάποιο copy-paste αλλά δεν μ' αρέσει γιατί δεν πιάνεται εύκολα το κείμενο με το interface που έχει ο adobe. Άλλος τρόπος ;
δεν είναι όλα κρού-σμα-τα
Άβαταρ μέλους
wooded glade
Δημοσιεύσεις: 29284
Εγγραφή: 02 Απρ 2018, 17:04

Re: Scraping a pdf

Μη αναγνωσμένη δημοσίευση από wooded glade »

Το κάνει και ο browser.
Πρέπει να κουνήσεις λίγο το ποντίκι πάνω σε κείμενο ώστε να πάρει το σχήμα ενός I-bar και μετά τα κάνει μπλε.
Αλλά είναι αίσχος. Τα πιάνει, μετά τα χάνει, δεν γίνεται τίποτα.
δεν είναι όλα κρού-σμα-τα
Άβαταρ μέλους
Yochanan
Δημοσιεύσεις: 16962
Εγγραφή: 31 Μαρ 2018, 13:44
Phorum.gr user: Yochanan

Re: Scraping a pdf

Μη αναγνωσμένη δημοσίευση από Yochanan »

File-->Save As Text
Κυριάκος ο Χρυσογέννητος, του Οίκου των Μητσοτακιδών, Πρώτος του Ονόματός του, Κύριος των Κρητών και των Πρώτων Ελλήνων, Προστάτης της Ελλάδος, Μπαμπάς της Δρακογενιάς, ο Κούλης του Οίνοπα Πόντου, ο Ατσαλάκωτος, ο Απελευθερωτής από τα Δεσμά των Μνημονίων.
Άβαταρ μέλους
wooded glade
Δημοσιεύσεις: 29284
Εγγραφή: 02 Απρ 2018, 17:04

Re: Scraping a pdf

Μη αναγνωσμένη δημοσίευση από wooded glade »

Yochanan έγραψε: 25 Ιουν 2020, 19:20 File-->Save As Text
Πως γίνεται αυτό ;
Λέει save as pdf και από κάτω all files.
Πως να το κάνω as text ;
δεν είναι όλα κρού-σμα-τα
άγνωστος γνωστός
Δημοσιεύσεις: 491
Εγγραφή: 08 Ιαν 2019, 00:33

Re: Scraping a pdf

Μη αναγνωσμένη δημοσίευση από άγνωστος γνωστός »

OCR που μετατρέπει την εικόνα σε κείμενο
Άβαταρ μέλους
Yochanan
Δημοσιεύσεις: 16962
Εγγραφή: 31 Μαρ 2018, 13:44
Phorum.gr user: Yochanan

Re: Scraping a pdf

Μη αναγνωσμένη δημοσίευση από Yochanan »

Adobe Reader DC εχει αυτο το option. Δεν ξερω με τι προγραμμα διαβαζεις πδφ - αν θες πες. Αλλα λογικα και εκει που λεει all files αμα βαλεις extension .txt πρεπει να παιξιε.
Κυριάκος ο Χρυσογέννητος, του Οίκου των Μητσοτακιδών, Πρώτος του Ονόματός του, Κύριος των Κρητών και των Πρώτων Ελλήνων, Προστάτης της Ελλάδος, Μπαμπάς της Δρακογενιάς, ο Κούλης του Οίνοπα Πόντου, ο Ατσαλάκωτος, ο Απελευθερωτής από τα Δεσμά των Μνημονίων.
Άβαταρ μέλους
Yochanan
Δημοσιεύσεις: 16962
Εγγραφή: 31 Μαρ 2018, 13:44
Phorum.gr user: Yochanan

Re: Scraping a pdf

Μη αναγνωσμένη δημοσίευση από Yochanan »

άγνωστος γνωστός έγραψε: 25 Ιουν 2020, 19:27 OCR που μετατρέπει την εικόνα σε κείμενο
Εγω δεν καταλαβα οτι ειναι εικονα γιατι λεει το επιλεγει το κειμενο
Κυριάκος ο Χρυσογέννητος, του Οίκου των Μητσοτακιδών, Πρώτος του Ονόματός του, Κύριος των Κρητών και των Πρώτων Ελλήνων, Προστάτης της Ελλάδος, Μπαμπάς της Δρακογενιάς, ο Κούλης του Οίνοπα Πόντου, ο Ατσαλάκωτος, ο Απελευθερωτής από τα Δεσμά των Μνημονίων.
Άβαταρ μέλους
foscilis
Δημοσιεύσεις: 26856
Εγγραφή: 21 Ιουν 2018, 11:42

Re: Scraping a pdf

Μη αναγνωσμένη δημοσίευση από foscilis »

Άβαταρ μέλους
wooded glade
Δημοσιεύσεις: 29284
Εγγραφή: 02 Απρ 2018, 17:04

Re: Scraping a pdf

Μη αναγνωσμένη δημοσίευση από wooded glade »

Yochanan έγραψε: 25 Ιουν 2020, 19:27 Adobe Reader DC εχει αυτο το option. Δεν ξερω με τι προγραμμα διαβαζεις πδφ - αν θες πες. Αλλα λογικα και εκει που λεει all files αμα βαλεις extension .txt πρεπει να παιξιε.
Από browser έβαλα εγώ extension .txt εκεί που έλεγε .pdf αλλά βγάζει μπουρδουλούμπια τώρα.
Από adobe έκανα copy-paste και έβγαλε text που μπορεί να συμμαζευτεί αλλά όμως μετά μεγίστης δυσκολίας - δεν πιάνει εύκολα όπως π.χ. μπορείς να πιάσεις ένα κείμενο από τη σελίδα του πχόρουμ.
δεν είναι όλα κρού-σμα-τα
Άβαταρ μέλους
Yochanan
Δημοσιεύσεις: 16962
Εγγραφή: 31 Μαρ 2018, 13:44
Phorum.gr user: Yochanan

Re: Scraping a pdf

Μη αναγνωσμένη δημοσίευση από Yochanan »

οκ. δεν στο εξηγησα σωστα. Δοκιμασε να το σωσεις πρωτα απο το μπραουζερ σαν πδφ. Μετα πανε Φιλε-> Σαβε Ασ τεξτ
Κυριάκος ο Χρυσογέννητος, του Οίκου των Μητσοτακιδών, Πρώτος του Ονόματός του, Κύριος των Κρητών και των Πρώτων Ελλήνων, Προστάτης της Ελλάδος, Μπαμπάς της Δρακογενιάς, ο Κούλης του Οίνοπα Πόντου, ο Ατσαλάκωτος, ο Απελευθερωτής από τα Δεσμά των Μνημονίων.
Άβαταρ μέλους
wooded glade
Δημοσιεύσεις: 29284
Εγγραφή: 02 Απρ 2018, 17:04

Re: Scraping a pdf

Μη αναγνωσμένη δημοσίευση από wooded glade »

Yochanan έγραψε: 25 Ιουν 2020, 19:34 οκ. δεν στο εξηγησα σωστα. Δοκιμασε να το σωσεις πρωτα απο το μπραουζερ σαν πδφ. Μετα πανε Φιλε-> Σαβε Ασ τεξτ
Τώρα θα δω.
Το pdftotext.com που λέει ο προηγούμενος τόκανε αλλά το βλέπω hopeless, το έκανε πολύ εκτός φάσεως ή έχασε και στοιχεία.
δεν είναι όλα κρού-σμα-τα
Άβαταρ μέλους
Yochanan
Δημοσιεύσεις: 16962
Εγγραφή: 31 Μαρ 2018, 13:44
Phorum.gr user: Yochanan

Re: Scraping a pdf

Μη αναγνωσμένη δημοσίευση από Yochanan »

το .τξτ θα σου το σωσει σαν τεξτ απλο. αμα θες να κρατησεις δομη πινακων ειναι αλλη φαση και δεν ξερω πως
Κυριάκος ο Χρυσογέννητος, του Οίκου των Μητσοτακιδών, Πρώτος του Ονόματός του, Κύριος των Κρητών και των Πρώτων Ελλήνων, Προστάτης της Ελλάδος, Μπαμπάς της Δρακογενιάς, ο Κούλης του Οίνοπα Πόντου, ο Ατσαλάκωτος, ο Απελευθερωτής από τα Δεσμά των Μνημονίων.
Άβαταρ μέλους
wooded glade
Δημοσιεύσεις: 29284
Εγγραφή: 02 Απρ 2018, 17:04

Re: Scraping a pdf

Μη αναγνωσμένη δημοσίευση από wooded glade »

Ναι τόκανε τώρα με save as text από μέσα από τον Αδόβη.
Μπουρδουλουμπέϊσιον σίτυ το έκανε αλλά τώρα επιτυγχάνεται η μορφοποίηση του.
δεν είναι όλα κρού-σμα-τα
Άβαταρ μέλους
Yochanan
Δημοσιεύσεις: 16962
Εγγραφή: 31 Μαρ 2018, 13:44
Phorum.gr user: Yochanan

Re: Scraping a pdf

Μη αναγνωσμένη δημοσίευση από Yochanan »

:smt023
Κυριάκος ο Χρυσογέννητος, του Οίκου των Μητσοτακιδών, Πρώτος του Ονόματός του, Κύριος των Κρητών και των Πρώτων Ελλήνων, Προστάτης της Ελλάδος, Μπαμπάς της Δρακογενιάς, ο Κούλης του Οίνοπα Πόντου, ο Ατσαλάκωτος, ο Απελευθερωτής από τα Δεσμά των Μνημονίων.
Άβαταρ μέλους
wooded glade
Δημοσιεύσεις: 29284
Εγγραφή: 02 Απρ 2018, 17:04

Re: Scraping a pdf

Μη αναγνωσμένη δημοσίευση από wooded glade »

Το έκανα το scraping.
Αλλά κάποιες λεπτομέρειες με προβληματίζουν.
Για να διαβάσω το παραγόμενο αρχείο κειμένου και να μετατρέψω τα δεδομένα σε μία μορφή που θέλω ακολουθώ κάποια σειρά και διαμορφώνω κάποιους κανόνες ανάγνωσης ώστε η κάθε λέξη να γίνεται αντιληπτό τι αντιπροσωπεύει και να πηγαίνει στη θέση της.
Αλλά μερικές φορές -όχι όλες- λέξεις που τις βλέπω στο pdf δεν βγαίνουν στο κείμενο.
Μερικές άλλες φορές ενώ πάνω στο pdf τα λόγια/αριθμοί είναι στην κανονική τους σειρά, στο κείμενο βγαίνουν ανάκατα.
Γιατί αυτές οι -σπάνιες έστω- αρρυθμίες ;
Χρησιμοποιώ adobe. Υπάρχει κάτι καλύτερο ;
δεν είναι όλα κρού-σμα-τα
Απάντηση

Επιστροφή στο “Πληροφορική”