Merge branch 'feature/basic-structure' into develop

dekker.one / Fourmi

fork

A web scraper build to search specific information for a given compound (and its pseudonyms)

fork

+31 -4

7 changed files

expand all

.gitignore

Scrapy

__init__.pyc

items.py

settings.pyc

spiders

Chemspider.py

Wikipedia.py

__init__.pyc

.gitignore

··· 1 1 #EDITOR AND IDE SPECIFIC SETTINGFILES 2 2 .idea 3 3 4 + #Python Specific ignores 5 + *.pyc 6 + 4 7 #THINGS WE WOULD NEVER EVER WANT! 5 8 #ignore thumbnails created by windows 6 9 Thumbs.db

Scrapy/__init__.pyc

This is a binary file and will not be displayed.

+6 -4

Scrapy/items.py

··· 5 5 6 6 from scrapy.item import Item, Field 7 7 8 - class FourmiItem(Item): 9 - # define the fields for your item here like: 10 - # name = Field() 11 - pass 8 + class Result(Item): 9 + attribute = Field() 10 + value = Field() 11 + source = Field() 12 + reliability = Field() 13 + conditions = Field()

Scrapy/settings.pyc

This is a binary file and will not be displayed.

+11

Scrapy/spiders/Chemspider.py

··· 1 + from scrapy.spider import Spider 2 + 3 + class ChemspiderSpider(Spider): 4 + name = "Chemspider" 5 + allowed_domains = ["chemspider.com"] 6 + start_urls = ( 7 + 'http://www.chemspider.com/', 8 + ) 9 + 10 + def parse(self, response): 11 + pass

+11

Scrapy/spiders/Wikipedia.py

··· 1 + from scrapy.spider import Spider 2 + 3 + class WikipediaSpider(Spider): 4 + name = "Wikipedia" 5 + allowed_domains = ["wikipedia.org"] 6 + start_urls = ( 7 + 'http://www.wikipedia.org/', 8 + ) 9 + 10 + def parse(self, response): 11 + pass

Scrapy/spiders/__init__.pyc

This is a binary file and will not be displayed.

Configure Feed

Configure Feed