Programos sukūrimas, informacijos paėmimas iš puslapio.

Rugpjūčio 28, 2018

Sveiki, noriu pasidomėti ar labai čia sudėtingas reikalas ir kiek maždaug galėtų kainuoti?

Reiktų iš dviejų puslapių paimti informaciją kuri yra panašaus pobūdžio ir lyginti ją tarpusavyje, jeigu yra tenkinamos tam tikros sąlygos tada tą informaciją kažkaip išskirti ir surašyti atskiru sąrašu. Informaciją reiktų tikrinti kas keletą minučių. Kokių būdu visa tas būtų atliekama ir kaip informacija būtų pateikiama man?

Rugpjūčio 28, 2018

Sveikas,

programavimo įkainiai, tarkim 20eur/val:

paprasto puslapio scrap`inimas: ~1val
sudėtingesnio tipo puslapiuose, kuriuose gal reikia submit`inti formą/prisijungti kaip vartotojui, laikas iki ~5val
duomenis reikia kažkur saugoti, kad būtų galima juos sulyginti, duombazės architektūra/field`ų sukūrimas 1-2val (imant paprastus duomenis, nesudėtinga schema)
duomenis kažkaip reikės atvaizduoti/tau siunčiant el. paštu, arba kuriant kažkokį admin dashboard`ą (1-4val)
ar tikrai tie puslapiai tau leis kas minutę jungtis prie sistemos? Jeigu ne, reikės tikriausiai naudoti įvairius proxy: juos scrapinant pačiam, arba naudojant nupirktus sąrašus ir tai implementuoti į sistemą reikia (2-4val)
testavimas = ~2-4val
kliento norų išklausymas/aiškinimas/kodo tweakinimas 3-6val

Labai paprastai sistemai manau užtektų ~300 EUR

P.S. nežinau būtent ką tau scrapinti reikia, gal tavo norai tilptų į kelis kartus mažesnius pinigus :)

Redagavo Rugpjūčio 28, 2018 Mantas

Rugpjūčio 28, 2018

Tave dominantis dalykas yra vadinamas "web scraping" - t.y. automatinis informacijos paėmimas iš puslapio. Jei tai paprastas web puslapis, tai paėmimas paprastas, tačiau čia gali būti ir sudėtingiausia dalis, nes informacija gali būti atnaujinama visokiais javascript ir pan. O po to sulyginimas tai jau visiškai paprastas dalykas.

Rugpjūčio 28, 2018

Tave dominantis dalykas yra vadinamas "web scraping" - t.y. automatinis informacijos paėmimas iš puslapio. Jei tai paprastas web puslapis, tai paėmimas paprastas, tačiau čia gali būti ir sudėtingiausia dalis, nes informacija gali būti atnaujinama visokiais javascript ir pan. O po to sulyginimas tai jau visiškai paprastas dalykas.

Nematau skirtumo ar su JS, ar ne informacija atnaujinama. Nes kaip pvz: JS scriptas kreipiasi į kažkokį page iš kurio gauna json formatu duomenis, tai tau tiesiog reikia į tą puslapį ir kreiptis, vietoje to, kad kreiptumeisi į tą puslapį, kuriame suveikia tas js ir atsivaizduoja duomenys.

Sunkiausias dalykas manau web-scraping`e yra tada, kai reikia naudotis kažkokias formas/submitinti/login veiksmas, ir captcha kodai :)

Rugpjūčio 28, 2018

Nematau skirtumo ar su JS, ar ne informacija atnaujinama. Nes kaip pvz: JS scriptas kreipiasi į kažkokį page iš kurio gauna json formatu duomenis, tai tau tiesiog reikia į tą puslapį ir kreiptis, vietoje to, kad kreiptumeisi į tą puslapį, kuriame suveikia tas js ir atsivaizduoja duomenys.

Sunkiausias dalykas manau web-scraping`e yra tada, kai reikia naudotis kažkokias formas/submitinti/login veiksmas, ir captcha kodai :)

Yra skirtumas ar su JS informacija atnaujinama jeigu naudoji statiskas scraping'o technologijas ir jos tau duoda tik pakrauta HTML'a, bet neapdirbta JS frameworku, kaip react ar angular. Na, bet aisku cia jau kompetencijos trukumas, jeigu tokie dalykai kelia problemas :) .

Beje, jau ir formu submitinimai nebera sudetingi, yra daugybe tiek JS, tiek Python libs'u, kurie labai lengvai integruojasi ir leidzia visiskai simuliuoti userio browsinima is server side, tokiu atveju ir CSRF apsaugos nebaisios ir t.t.

Rugpjūčio 28, 2018

Yra skirtumas ar su JS informacija atnaujinama jeigu naudoji statiskas scraping'o technologijas ir jos tau duoda tik pakrauta HTML'a, bet neapdirbta JS frameworku, kaip react ar angular. Na, bet aisku cia jau kompetencijos trukumas, jeigu tokie dalykai kelia problemas :) .

Beje, jau ir formu submitinimai nebera sudetingi, yra daugybe tiek JS, tiek Python libs'u, kurie labai lengvai integruojasi ir leidzia visiskai simuliuoti userio browsinima is server side, tokiu atveju ir CSRF apsaugos nebaisios ir t.t.

Dėl React ir Angular tiesa, pačios formos submitinimas kaip veiksmas ir CSRF nėra sudėtingas, beveik kiekvienas lib`e tiesiog užtenka paimti form variables ir paeditinus submitinti.Aišku tada dažniausiai užstringama prie teisingų headerio parinkimų. Bet manau tema nėra apie tai :)

Prisijungti

Programos sukūrimas, informacijos paėmimas iš puslapio.

Rekomenduojami pranešimai

trops 44

Nuoroda į pranešimą

Dalintis kituose puslapiuose

Mantas 1.182

Nuoroda į pranešimą

Dalintis kituose puslapiuose

simasj 302

Nuoroda į pranešimą

Dalintis kituose puslapiuose

Mantas 1.182

Nuoroda į pranešimą

Dalintis kituose puslapiuose

Bitro 13

Nuoroda į pranešimą

Dalintis kituose puslapiuose

Mantas 1.182

Nuoroda į pranešimą

Dalintis kituose puslapiuose

Dabar naršo 0 narių

Prisijunk prie bendruomenės dabar!

Naujausios temos

Karštos temos

Veiklos srautas

Skelbimai