Completato

Note

Errore

Session expiration Your session is going to expireClick here to extend

Budget:

1.500 - 3.000

Pubblicato il

07/08/21 11.00

Località di provenienza dei freelancer:

Italia

Questo progetto è scaduto

Pubblica un progetto simile e ricevi velocemente offerte non vincolanti.

Pubblica ora il tuo progetto simile

Descrizione

Progetto: sviluppo e deploy su AWS di web crawler per l’analisi di notizie e articoli pubblicati su siti in inglese di finanza e investimento.

Nello specifico, la risorsa dovrà analizzare il pool di 22 siti internet forniti in elenco e scegliere 10 siti da cui raccogliere gli articoli che fanno riferimento al mercato azionario (forniremo i dettagli in allegato) tramite gli spider da essa sviluppati. La scelta è arbitraria.

Competenze richieste: La risorsa dovrà sviluppare 10 Classi (libreria Scrapy) di crawler in Python che facciano riferimento ai singoli siti scelti rispettando robots.txt. Questa dovrà processare i dati raccolti (grezzi) in modo che vengano puliti e salvati tramite pipeline su MongoDB. Sarebbe ideale che la risorsa sappia lavorare in ambiente di sviluppo AWS. La stessa dovrà infatti disegnare un’architettura Server/Serverless (a lei la scelta) in grado di eseguire i crawler ogni 15 minuti, se possibile con IP dinamico, (cronjob/schedule) con apposito LOG su CloudWatch e salvare i dati puliti su MongoDB, “deployato” su EC2.

Python, OOP, Scrapy, MongoDB, Architettura, AWS, cronjob, EC2, Lambda, Fargate, CloudWatch, robots.txt.

Descrizione:


Progetto: sviluppo e deploy su AWS di web crawler per l’analisi di notizie e articoli pubblicati su siti in inglese di finanza e investimento.


Nello specifico, la risorsa dovrà analizzare il pool di 22 siti internet forniti in elenco e scegliere 10 siti da cui raccogliere gli articoli che fanno riferimento al mercato azionario (forniremo i dettagli in allegato) tramite gli spider da essa sviluppati. La scelta è arbitraria.


Competenze richieste: La risorsa dovrà sviluppare 10 Classi (libreria Scrapy) di crawler in Python che facciano riferimento ai singoli siti scelti rispettando robots.txt. Questa dovrà processare i dati raccolti (grezzi) in modo che vengano puliti e salvati tramite pipeline su MongoDB. Sarebbe ideale che la risorsa sappia lavorare in ambiente di sviluppo AWS. La stessa dovrà infatti disegnare un’architettura Server/Serverless (a lei la scelta) in grado di eseguire i crawler ogni 15 minuti, se possibile con IP dinamico, (cronjob/schedule) con apposito LOG su CloudWatch e salvare i dati puliti su MongoDB, “deployato” su EC2.


Python, OOP, Scrapy, MongoDB, Architettura, AWS, cronjob, EC2, Lambda, Fargate, CloudWatch, robots.txt.


Nota: ai fini della collaborazione, è necessario che il fornitore possegga regolare partita IVA.