Записки стареющего кодера

Проект Scrapers: Spider User_Agents
Олег Суворинов, опубликовано Вт 14 января 2025 09:11

Список актуальных и популярных User-Agent для Desktop устройств (Linux, Windows, macOS, Mac OS X). Список конечно не полный, да он и создавался для использования через Requests в моих проектах. Данного количества вполне достаточно. Какие были нюансы при написании данного spider …

Читать 1 мин
Проект Scrapers: Spider класс BaseSpider
Олег Суворинов, опубликовано Вс 12 января 2025 10:15

Основная работа при создании spider’а, это метод parse, класса Spider, остальное, является вспомогательным. Некоторые свойства, методы решил вынести в базовый класс BaseSpider, чтобы не заниматься ‘copy-paste’, наследование в Python никто не отменял. Это сильно облегчило жизнь. Описывать долго тут …

Читать 2 мин
Проект Scrapers
Олег Суворинов, опубликовано Вт 24 декабря 2024 06:11

Затеял тут некий проект, дал ему, громкое наименование: Scrapers, парсеры сайтов, небольших интернет-магазинов, к таким монстрам как Ozon, WB, присматриваюсь. Думаю, скоро и ими займусь. Все это выкладываю на свой сервер, где под Docker работает Scrapyd — сервис для развертывания и …

Читать 1 мин
BetExplore
Олег Суворинов, опубликовано Вт 12 ноября 2024 14:00

Просматривая заказы на Хабр Фриланс, заинтересовала одна работа по извлечению данных (scraping) с BetExplorer.
Заказчик предложил структуру по которой он хотел бы видеть данные после scraping’а. Решил потратить некоторое время на это.
Вот что получилось:

https://cdn.suvorinov.ru …

Читать 1 мин
Магазины Дикси
Олег Суворинов, опубликовано Вт 12 ноября 2024 13:00

Поучаствовал как то я в маркетинговых исследованиях по торговой сети Дикси, в частности моя задача заключалась в
получении списка торговых точек сети. Посидев не которое время в интернете, поковырял сайты с помощью
инструментов веб-разработки, нашел подходящий вариант для парсинга. Получилось …

Читать 1 мин
Список proxy servers
Олег Суворинов, опубликовано Ср 24 января 2024 13:00

Представляю список бесплатных прокси-серверов, в формате JSON. Список совершенно бесплатен и обновляется каждые 30 минут.
Использование данного списока, возможно только для образовательных целей. Проверку работоспосбности прокси, представлю, в ближайшее время отдельным PyPi пакетом или функцией.

Скачать

curl https://cdn.suvorinov …

Читать 1 мин