Stew
Profilo di
Nome | Stew |
---|---|
Indirizzo email | n/a |
Messaggi | 3 |
-
- 2017-02-04 06:52:37
- Re: Qualcuno Pratico di Scrapy
- Forum >> Principianti
- Si l'ho letta, ma probabilmente c'è qualcosa che mi sfugge
-
- 2017-02-03 22:34:20
- Re: Qualcuno Pratico di Scrapy
- Forum >> Principianti
- Ciao Daniele il mio spider è il seguente:
import scrapy class ItemSpider(scrapy.Spider): name = "idealista" start_urls = [ 'https://www.idealista.it/affitto-case/roma/appio-latino/con-prezzo_800,pubblicato_ultimo-mese/', ] def parse(self, response): for item in response.css('div.items-container'): yield { 'title': item.css("a.item-link::text").extract(), 'price': item.css("span.item-price::text").extract_first() 'img' : item.css } next_page = response.css('li.next a::attr(href)').extract_first() if next_page is not None: next_page = response.urljoin(next_page) yield scrapy.Request(next_page, callback=self.parse)
da come vedi esegue lo scrape sul sito idealista, riesco ad avere indietro il titolo e il prezzo, il link immagini e il permalink del titolo degli annunci assolutamente no, le ho provate tutte. Inoltre quando ci sono più di 2 risultati nella pagina, i "title" li mette tutti nella seconda riga del file csv che genero, di seguito il marckup html che teoricamente dovrebbe essere quello dove lo spider pesca i dati:
http://pastebin.com/YppMMYvj
--- Ultima modifica di Stew in data 2017-02-03 22:37:08 ---
-
- 2017-02-03 12:27:40
- Qualcuno Pratico di Scrapy
- Forum >> Principianti
- Ciao a tutti sono nuovo mi chiamo Stefano
In questi giorni sto provando ad utilizzare lo script Python Scrapy, tutto funziona per bene ma ho seri problemi ad indentificare i selettori CSS, mi chiedevo se qualcuno potesse darmi una mano.
Grazie