Web Resource Crawler

Recursively crawl URL to gather resources such as twitter handle and facebook ids.

Requirements

Python 3 & virtualenv
In order to support crawling SPAs (React, Vue, etc.) you must have the necessary files for Chrome headless.
- Currently supports windows & mac (linux untested)

Supports

Twitter handle
Facebook page id
iOS App Store id
Google Play Store id

Set up

virtualenv venv
source venv/bin/activate (or `\venv\Scripts\activate.bat` in windows)
pip install -r requirements.txt

Quickstart

python3 cli.py <url>

Or...

from WebResourceCrawler import WebResourceCrawler
crawler = WebResourceCrawler("http://www.zello.com/")
results = crawler.run() # must wait
print(results)

>>> {
    "ios": "508231856",
    "twitter": "Zello",
    "google": "com.loudtalks",
    "facebook": "ZelloMe"
}

Example responses

url = https://www.appannie.com/
{
    "twitter": "appannie",
    "facebook": "AppAnnie"
}

url = http://www.zello.com/
{
    "ios": "508231856",
    "google": "com.loudtalks",
    "twitter": "Zello"
}

url = http://zynga.com
has multiple twitter handles on the page, but for Twitter and Facebook these are the handles for the company:
{
    "twitter": "zynga",
    "facebook":  "zynga"
}

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
webresourcecrawler		webresourcecrawler
.gitignore		.gitignore
.travis.yml		.travis.yml
README.md		README.md
cli.py		cli.py
requirements.txt		requirements.txt
setup.cfg		setup.cfg
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Web Resource Crawler

Requirements

Supports

Set up

Quickstart

Example responses

About

Releases

Packages

Languages

smblee/web-resource-scraper

Folders and files

Latest commit

History

Repository files navigation

Web Resource Crawler

Requirements

Supports

Set up

Quickstart

Example responses

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages