Web Scraping
Pobierzemy dane z każdej strony internetowej!
Oferta
Firma WebQA specjalizuje się w realizacji usług związanych z pobieraniem
danych ze stron internetowych (web scraping, screen scraping, crawling, parsing).
Tworzymy wyspecjalizowane oprogramowanie pozwalające przetwarzać duże ilości
danych zamieszczonych w internecie, działające w rozproszonej infrastrukturze
chmury obliczeniowej. Stosowane techniki skutecznie ukrywają proces pozyskiwania
danych i nie narażają analizowanej strony na przeciążenie a także zapewniają
anonimowość.
Oferujemy następujące usługi:
- pobieranie danych z serwisów internetowych (np. katalogi produktów, dane adresowe, etc.),
- tworzenie oprogramowania pobierającego dane działającego w infrastrukturze klienta,
- tworzenie botów symulujących działania użytkownika,
- integracja zewnętrznych źródeł danych z istniejącymi systemami przetwarzającymi i magazynującymi informacje,
- tworzenie API umożliwiającego dostęp do istniejących zbiorów danych,
- crawling oraz indeksacja stron internetowych, wykrywanie błędnych odnośników, śledzenie zmian w czasie,
- konsultacje.
Możemy pomóc rozwiązać Twój problem! Skontaktuj się z nami
Doświadczenie
Właścicielem firmy WebQA jest Wiktor Bachnik, programista z wieloletnim doświadczeniem w
branży IT, zdobywanym w międzynarodowych firmach. Firma WebQA stworzyła rozwiązania dla
klientów z Polski, Wielkiej Brytanii oraz USA. Naszym priorytetem jest zapewnienie
najwyższej jakości oferowanych usług.
Przykładowe realizacje
- System powiadamiający o nowych wiadomościach na stronie wymagającej logowania
- Dla klienta w Wielkiej Brytanii stworzyliśmy system, który wykorzystuje
MailChimp API aby wysyłać powiadomienia do zarządzanej zewnętrznie listy
subskrybentów. Treść powiadomień pobierana jest ze strony, która wymaga zalogowania
się przed uzyskaniem dostępu (obsługujemy formularz z ukrytymi polami oraz cookies).
System działa cyklicznie, wysyłając informacje tylko o nowych treściach.
- Mapa powiązań pomiędzy blogami
- Nasze oprogramowanie przeanalizowało wszystkie strony główne trzech dużych polskich
serwisów blogowych (blog.pl, blog.onet.pl i jogger.pl) i stworzyło mapę linków pomiędzy
poszczególnymi blogami. Uzyskane dane posłużyły to stworzenia pracy naukowej o zjawiskach
społecznych zachodzących w środowisku blogerów.
- Pobieranie informacji o użytkownikach sieci Twitter
- Celem projektu było stworzenie oprogramowania pozwalającego na zdobycie informacji o
profilach użytkowników śledzących wybrane osoby na Twitterze. Nasz program przetworzył
kilka milionów kont w kilka godzin, działając w rozproszonym środowisku oraz korzystając
z kilkuset serwerów proxy. Dane były pobierane z REST API udostępnianego przez serwis
Twitter, ale z pominięciem narzuconych limitów.
- Pobranie danych kontaktowych z katalogu branżowego
- Nasz klient potrzebował zgromadzić dane firm zamieszczone w internetowym katalogu
profesjonalistów działających na terenie USA. Nasz program poprawnie obsłużył nawigację
strony realizowaną funkcjami JavaScript.
Stworzyliśmy również system monitorowania dostępności i czasu odpowiedzi stron
internetowych: WebQA Monitor.
Kontakt
Email: kontakt@scraping.pl
WebQA Wiktor Bachnik
ul. Słowackiego 57e/3
80-257 Gdańsk
NIP: 599-271-94-57
REGON: 221632269