easy_web_crawler

Web crawler around puppeteer to crawler ajax/java script enabled pages.Check out example folder for how to use

Features!

Support crawling of javascript/ajax pages
url filter
avoid duplicate urls
delay before page load
custom data extraction
build in spider
stop and resume the crawling
fast image download

Documentation

USAGE

var Scraper = require("easy_web_crawler")

async function main() {

    var scraper = new Scraper();
    scraper.startWithURLs("start_url")
    scraper.allowIfMatches(function (url) { <<some true false logic here>> })
    scraper.enableAutoCrawler(true)
    scraper.saveProgressInFile("hello.db")
    scraper.waitBetweenPageLoad(0)
    scraper.callbackOnPageLoad(async function (page) {
        <<logic here>>
    });
    scraper.callbackOnFinish(function (result) {
        console.log(JSON.stringify(result,null,4))
    })
    await scraper.start()
}

main()

License

MIT

Name		Name	Last commit message	Last commit date
Latest commit History 21 Commits
doc		doc
example		example
test		test
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
Repo.js		Repo.js
doc_scaper_class.js		doc_scaper_class.js
index.js		index.js
package-lock.json		package-lock.json
package.json		package.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

easy_web_crawler

Features!

Documentation

USAGE

License

About

Releases

Packages

Languages

License

vivekg13186/easy_web_crawler

Folders and files

Latest commit

History

Repository files navigation

easy_web_crawler

Features!

Documentation

USAGE

License

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages