Pereiti prie turinio

Programos sukūrimas, informacijos paėmimas iš puslapio.


Rekomenduojami pranešimai

Sveiki, noriu pasidomėti ar labai čia sudėtingas reikalas ir kiek maždaug galėtų kainuoti?

 

Reiktų iš dviejų puslapių paimti informaciją kuri yra panašaus pobūdžio ir lyginti ją tarpusavyje, jeigu yra tenkinamos tam tikros sąlygos tada tą informaciją kažkaip išskirti ir surašyti atskiru sąrašu. Informaciją reiktų tikrinti kas keletą minučių. Kokių būdu visa tas būtų atliekama ir kaip informacija būtų pateikiama man?

Nuoroda į pranešimą
Dalintis kituose puslapiuose

Sveikas,

programavimo įkainiai, tarkim 20eur/val:

  • paprasto puslapio scrap`inimas: ~1val
  • sudėtingesnio tipo puslapiuose, kuriuose gal reikia submit`inti formą/prisijungti kaip vartotojui, laikas iki ~5val
  • duomenis reikia kažkur saugoti, kad būtų galima juos sulyginti, duombazės architektūra/field`ų sukūrimas 1-2val (imant paprastus duomenis, nesudėtinga schema)
  • duomenis kažkaip reikės atvaizduoti/tau siunčiant el. paštu, arba kuriant kažkokį admin dashboard`ą (1-4val)
  • ar tikrai tie puslapiai tau leis kas minutę jungtis prie sistemos? Jeigu ne, reikės tikriausiai naudoti įvairius proxy: juos scrapinant pačiam, arba naudojant nupirktus sąrašus ir tai implementuoti į sistemą reikia (2-4val)
  • testavimas = ~2-4val
  • kliento norų išklausymas/aiškinimas/kodo tweakinimas 3-6val

 

Labai paprastai sistemai manau užtektų ~300 EUR

 

P.S. nežinau būtent ką tau scrapinti reikia, gal tavo norai tilptų į kelis kartus mažesnius pinigus :)

Redagavo Mantas
Nuoroda į pranešimą
Dalintis kituose puslapiuose

Tave dominantis dalykas yra vadinamas "web scraping" - t.y. automatinis informacijos paėmimas iš puslapio. Jei tai paprastas web puslapis, tai paėmimas paprastas, tačiau čia gali būti ir sudėtingiausia dalis, nes informacija gali būti atnaujinama visokiais javascript ir pan. O po to sulyginimas tai jau visiškai paprastas dalykas.

Nuoroda į pranešimą
Dalintis kituose puslapiuose

Tave dominantis dalykas yra vadinamas "web scraping" - t.y. automatinis informacijos paėmimas iš puslapio. Jei tai paprastas web puslapis, tai paėmimas paprastas, tačiau čia gali būti ir sudėtingiausia dalis, nes informacija gali būti atnaujinama visokiais javascript ir pan. O po to sulyginimas tai jau visiškai paprastas dalykas.

Nematau skirtumo ar su JS, ar ne informacija atnaujinama. Nes kaip pvz: JS scriptas kreipiasi į kažkokį page iš kurio gauna json formatu duomenis, tai tau tiesiog reikia į tą puslapį ir kreiptis, vietoje to, kad kreiptumeisi į tą puslapį, kuriame suveikia tas js ir atsivaizduoja duomenys.

 

Sunkiausias dalykas manau web-scraping`e yra tada, kai reikia naudotis kažkokias formas/submitinti/login veiksmas, ir captcha kodai :)

Nuoroda į pranešimą
Dalintis kituose puslapiuose

Nematau skirtumo ar su JS, ar ne informacija atnaujinama. Nes kaip pvz: JS scriptas kreipiasi į kažkokį page iš kurio gauna json formatu duomenis, tai tau tiesiog reikia į tą puslapį ir kreiptis, vietoje to, kad kreiptumeisi į tą puslapį, kuriame suveikia tas js ir atsivaizduoja duomenys.

 

Sunkiausias dalykas manau web-scraping`e yra tada, kai reikia naudotis kažkokias formas/submitinti/login veiksmas, ir captcha kodai :)

Yra skirtumas ar su JS informacija atnaujinama jeigu naudoji statiskas scraping'o technologijas ir jos tau duoda tik pakrauta HTML'a, bet neapdirbta JS frameworku, kaip react ar angular. Na, bet aisku cia jau kompetencijos trukumas, jeigu tokie dalykai kelia problemas :) .

 

Beje, jau ir formu submitinimai nebera sudetingi, yra daugybe tiek JS, tiek Python libs'u, kurie labai lengvai integruojasi ir leidzia visiskai simuliuoti userio browsinima is server side, tokiu atveju ir CSRF apsaugos nebaisios ir t.t.

Nuoroda į pranešimą
Dalintis kituose puslapiuose

Yra skirtumas ar su JS informacija atnaujinama jeigu naudoji statiskas scraping'o technologijas ir jos tau duoda tik pakrauta HTML'a, bet neapdirbta JS frameworku, kaip react ar angular. Na, bet aisku cia jau kompetencijos trukumas, jeigu tokie dalykai kelia problemas :) .

 

Beje, jau ir formu submitinimai nebera sudetingi, yra daugybe tiek JS, tiek Python libs'u, kurie labai lengvai integruojasi ir leidzia visiskai simuliuoti userio browsinima is server side, tokiu atveju ir CSRF apsaugos nebaisios ir t.t.

Dėl React ir Angular tiesa, pačios formos submitinimas kaip veiksmas ir CSRF nėra sudėtingas, beveik kiekvienas lib`e tiesiog užtenka paimti form variables ir paeditinus submitinti.Aišku tada dažniausiai užstringama prie teisingų headerio parinkimų. Bet manau tema nėra apie tai :)

Nuoroda į pranešimą
Dalintis kituose puslapiuose
  • Dabar naršo   0 narių

    Nei vienas registruotas narys šiuo metu nežiūri šio puslapio.

×
×
  • Pasirinkite naujai kuriamo turinio tipą...