Pereiti prie turinio

PDF dokumentu koregavimas


Rekomenduojami pranešimai

Sveiki,

Gal kas is cia esanciu pades uzvesti ant kelio, siuo metu bandau suprasti PDF dokumentu struktura, viskas einasi gerai, bet strigau vieno vietoje...

Noriu su Java kalba apdoroti tam tikra kieki PDF dokumentu, tai naudoju PDFBox v2 biblioteka.

Bet kai kurie PDF kurie dokumentai yra suzymeti nebegzistuojanciomis svetainemis. (prisegu pavyzdi apacioje). Bandziau pasitelkti ir ChatGPT i pagalba, bet jis man siulo surinkti visa teksta is dokumeno, tuomet standartinemis teksto funkcijomis ieskoti nuorodu ir jas pasalinti, tuomet kurti nauja PDF dokumenta su pakoreguotu tekstu, bet tokio atvejo net nebandziau, nes suprantu, kad visos elektronines schemos issikraipys, jei isvis persikels(ko greiciausiai ir nebus)... (Bandziau ir dar kelis chatGPT pasiulytus variantus, bet nieko nepesiau...)

Man realiai reiktu kazkokiu budu koreguoti esanti dokumenta. Tai seka manau turetu buti tokia

1. Praskanuoti puslapi po puslapio ir ieskoti nuorodu

2. Jas radus, tai tik jas pasalinti is dokumento nelieciant nieko daugiau

Kiek suprantu, kad nors cia realiai tekstas su nuoroda jame, bet PDF ji supranta, kaip kazkoki objekta, kuriame yra tekstas su nuoroda.

Tai kaip galeciau is puslapio istraukti visus esamus objektus ir svarbiausiai is to objekto istraukti esama teksta, tada sulyginti teksta ir jei jis atitinkama mano kriterijus, tai galiu salinti aplamai visa objekta.

Gal atsilieps kokie patyre programuotojai? Ar iseitu tai padaryti su PDFBox v2 biblioteka? Arba gal pasiulysit kokia kita biblioteka, kuri tai galetu padaryti?

 

Dekui uz Jusu laika.

 

 

image.thumb.png.0711f5e2619317841db083d7a699509b.png

Redagavo Dreigas
Nuoroda į pranešimą
Dalintis kituose puslapiuose
  • po 2 savaičių...

Tai tu vistiek turi uzsikrauti visa dokumenta i memory, ir tada jau ieskosi linku pagal regex ar siaip pagal kazkoki prefixa. Tai sita pvz bandei, cia ant greicio paziurejau - https://github.com/chadilukito/Apache-PdfBox-2-Examples/blob/master/ReplaceText.java

 

Cia net apie linkus kalba - https://stackoverflow.com/questions/64762072/how-to-remove-links-from-a-pdf-document-using-pdfbox

Redagavo finansai
Nuoroda į pranešimą
Dalintis kituose puslapiuose

Prisijunkite prie diskusijos

Jūs galite rašyti dabar, o registruotis vėliau. Jeigu turite paskyrą, prisijunkite dabar, kad rašytumėte iš savo paskyros.

Svečias
Parašykite atsakymą...

×   Įdėta kaip raiškusis tekstas.   Atkurti formatavimą

  Only 75 emoji are allowed.

×   Nuorodos turinys įdėtas automatiškai.   Rodyti kaip įprastą nuorodą

×   Jūsų anksčiau įrašytas turinys buvo atkurtas.   Išvalyti redaktorių

×   You cannot paste images directly. Upload or insert images from URL.

Įkraunama...
  • Dabar naršo   0 narių

    Nei vienas registruotas narys šiuo metu nežiūri šio puslapio.

  • Prisijunk prie bendruomenės dabar!

    Uždarbis.lt nariai domisi verslo, IT ir asmeninio tobulėjimo temomis, kartu sprendžia problemas, dalinasi žiniomis ir idėjomis, sutinka būsimus verslo partnerius ir dalyvauja gyvuose susitikimuose.

    Užsiregistruok dabar ir galėsi:

    ✔️ Dalyvauti diskusijose;

    ✔️ Kurti naujas temas;

    ✔️ Rašyti atsakymus;

    ✔️ Vertinti kitų žmonių pranešimus;

    ✔️ Susisiekti su bet kuriuo nariu asmeniškai;

    ✔️ Naudotis tamsia dizaino versija;

    ir dar daugiau.

    Registracija trunka ~30 sek. ir yra visiškai nemokama.

  • Naujausios temos

  • Karštos temos

×
×
  • Pasirinkite naujai kuriamo turinio tipą...