Pereiti prie turinio

Reikia teorinio patarimo dėl XML duomenų išgavimo iš kitų svetainių


Rekomenduojami pranešimai

Turiu tokį projektą, kurio duomenų bazę turi sudaryti info iš kitų svetainių. Kitos svetainės specialiai tam reikalui perduoda duomenis per XML.

 

Viskas atrodo lyg ir paprasta. Turiu gerą idėja kaip padarysiu pastovų "updeita" su Cron Jobs, bet problema kad kiekvienos svetainės XML failas yra mažiausiai 50MB dydžio.

 

Iš pradžių galvojau naujinti kartą per dieną, bet dabar manau max. kartą per savaitę atsinaujinimą daryt.

 

Gal kas turi patarimų kaip optimaliau tuos duomenis pasiimti?

 

Iš anksto dėkoju.

Nuoroda į pranešimą
Dalintis kituose puslapiuose

Bandyk išvengti tuščio bylų siuntimosi, kai jose nėra naujų duomenų, tikrindamas headers (Last Modified, Expires, eTag), ir naudok cache: išsaugok atsisiųstų bylų naujausias kopijas ir atsisiuntęs kitąsyk prieš pradėdamas analizuoti duomenis, patikrink, ar byla pasikeitusi nuo praėjusio karto.

 

http://stackoverflow...for-polling-rss

Nuoroda į pranešimą
Dalintis kituose puslapiuose

Bandyk išvengti tuščio bylų siuntimosi, kai jose nėra naujų duomenų, tikrindamas headers (Last Modified, Expires, eTag), ir naudok cache: išsaugok atsisiųstų bylų naujausias kopijas ir atsisiuntęs kitąsyk prieš pradėdamas analizuoti duomenis, patikrink, ar byla pasikeitusi nuo praėjusio karto.

 

http://stackoverflow...for-polling-rss

 

 

Ok, bet jei aš išsaugosiu duomenu kopija pas save, ja patikrinsiu pries tikrinant svetaineje, ar man vistiek neteks pereiti svetaineje per visus irasus?

Nuoroda į pranešimą
Dalintis kituose puslapiuose

Ok, bet jei aš išsaugosiu duomenu kopija pas save, ja patikrinsiu pries tikrinant svetaineje, ar man vistiek neteks pereiti svetaineje per visus irasus?

 

Nežinau, ar teisingai supratau tavo klausimą, bet aš daryčiau taip kaskart atėjus XML atsisiuntimo laikui:

 

  1. Tikrini bylos headers: jei gauni sėkmingai ir rodo, kad modifikavimo data yra senesnė nei tavo paskutinis tikrinimas - tos bylos net nesisiunti - praleidi
  2. Jei headers negauni ar jie rodo, jog turinys galėjo būti atnaujintas (pvz., expired), tuomet atsisiunti bylą, bet prieš ją atidarydamas (eidamas per visus įrašus iš eilės) į kintamąjį imi atsiųstos bylos dydį ir palygini, ar tos bylos senesnė kopija užima ne idealiai tiek pat baitų. Jeigu tiek pat - reiškia, nieko naujo, ir net neverta jos atsidaryti (sutaupai resursų)

Nuoroda į pranešimą
Dalintis kituose puslapiuose

Kernius, bet problema jog jie nesiunčia niekur Last Modified informacijos XML failuose.

Kas dar blogiau, failai updeitinasi, KIEKVIENA DIENA.

 

Kalbant konkrečiai, kalba eina apie NOVATURO XML.

Jei nera nei id nei timestamp'o, nei datos nera jokios kitos galimybes kaip tik kasdien pvz vidurnakti viska pernauja perasyt. Pats juk supranti jei nera kazko pagal ka galetum orentuotis apie to yraso atnaujinima tu jo neatnaujinsi. Dar ziurint kaip tu viska nori padaryt, kokie butent ten duomenys yra pateikti ? Cia detalumo reik....

Nuoroda į pranešimą
Dalintis kituose puslapiuose

Jei nera nei id nei timestamp'o, nei datos nera jokios kitos galimybes kaip tik kasdien pvz vidurnakti viska pernauja perasyt. Pats juk supranti jei nera kazko pagal ka galetum orentuotis apie to yraso atnaujinima tu jo neatnaujinsi. Dar ziurint kaip tu viska nori padaryt, kokie butent ten duomenys yra pateikti ? Cia detalumo reik....

 

Na, kaip Kernius sakė, galima tikrinti pagal failo dydį. Bet vistiek nujaučiu kad nebus kito sprendimo kaip tik tikrinti kaskart pilnai failus. Teks serverį keisti.

Nuoroda į pranešimą
Dalintis kituose puslapiuose

Prisijunkite prie diskusijos

Jūs galite rašyti dabar, o registruotis vėliau. Jeigu turite paskyrą, prisijunkite dabar, kad rašytumėte iš savo paskyros.

Svečias
Parašykite atsakymą...

×   Įdėta kaip raiškusis tekstas.   Atkurti formatavimą

  Only 75 emoji are allowed.

×   Nuorodos turinys įdėtas automatiškai.   Rodyti kaip įprastą nuorodą

×   Jūsų anksčiau įrašytas turinys buvo atkurtas.   Išvalyti redaktorių

×   You cannot paste images directly. Upload or insert images from URL.

Įkraunama...
  • Dabar naršo   0 narių

    Nei vienas registruotas narys šiuo metu nežiūri šio puslapio.

  • Prisijunk prie bendruomenės dabar!

    Uždarbis.lt nariai domisi verslo, IT ir asmeninio tobulėjimo temomis, kartu sprendžia problemas, dalinasi žiniomis ir idėjomis, sutinka būsimus verslo partnerius ir dalyvauja gyvuose susitikimuose.

    Užsiregistruok dabar ir galėsi:

    ✔️ Dalyvauti diskusijose;

    ✔️ Kurti naujas temas;

    ✔️ Rašyti atsakymus;

    ✔️ Vertinti kitų žmonių pranešimus;

    ✔️ Susisiekti su bet kuriuo nariu asmeniškai;

    ✔️ Naudotis tamsia dizaino versija;

    ir dar daugiau.

    Registracija trunka ~30 sek. ir yra visiškai nemokama.

  • Naujausios temos

  • Karštos temos

×
×
  • Pasirinkite naujai kuriamo turinio tipą...