Записки стареющего кодера

Проект Scrapers: Spider User_Agents
Олег Суворинов, опубликовано Tue 14 January 2025 09:11

Список актуальных и популярных User-Agent для Desktop устройств (Linux, Windows, macOS, Mac OS X). Список конечно не полный, да он и создавался для использования через Requests в моих проектах. Данного количества вполне достаточно. Какие были нюансы при написании данного spider …

Читать 1 мин
Проект Scrapers: Spider класс BaseSpider
Олег Суворинов, опубликовано Sun 12 January 2025 10:15

Основная работа при создании spider’а, это метод parse, класса Spider, остальное, является вспомогательным. Некоторые свойства, методы решил вынести в базовый класс BaseSpider, чтобы не заниматься ‘copy-paste’, наследование в Python никто не отменял. Это сильно облегчило жизнь. Описывать долго тут …

Читать 2 мин
Проект Scrapers
Олег Суворинов, опубликовано Tue 24 December 2024 06:11

Затеял тут некий проект, дал ему, громкое наименование: Scrapers, парсеры сайтов, небольших интернет-магазинов, к таким монстрам как Ozon, WB, присматриваюсь. Думаю, скоро и ими займусь. Все это выкладываю на свой сервер, где под Docker работает Scrapyd — сервис для развертывания и …

Читать 1 мин
BetExplore
Олег Суворинов, опубликовано Tue 12 November 2024 14:00

Просматривая заказы на Хабр Фриланс, заинтересовала одна работа по извлечению данных (scraping) с BetExplorer.
Заказчик предложил структуру по которой он хотел бы видеть данные после scraping’а. Решил потратить некоторое время на это.
Вот что получилось:

https://cdn.suvorinov.ru …

Читать 1 мин
Магазины Дикси
Олег Суворинов, опубликовано Tue 12 November 2024 13:00

Поучаствовал как то я в маркетинговых исследованиях по торговой сети Дикси, в частности моя задача заключалась в
получении списка торговых точек сети. Посидев не которое время в интернете, поковырял сайты с помощью
инструментов веб-разработки, нашел подходящий вариант для парсинга. Получилось …

Читать 1 мин
Список proxy servers
Олег Суворинов, опубликовано Wed 24 January 2024 13:00

Представляю список бесплатных прокси-серверов, в формате JSON. Список совершенно бесплатен и обновляется каждые 30 минут.
Использование данного списока, возможно только для образовательных целей. Проверку работоспосбности прокси, представлю, в ближайшее время отдельным PyPi пакетом или функцией.

Скачать

curl https://cdn.suvorinov …

Читать 1 мин
Пакет py-valid-proxy
Олег Суворинов, опубликовано Thu 23 November 2023 10:00

Реализуя проекты с использованием web-scraping’a, некоторые запросы приходилось делать через прокси-сервера. Про получение списка свободных прокси напишу позже, готовлю отдельный пакет. Имея адрес прокси-сервера, перед запросом с его использованием, захотелось проверить его “живучесть”, схему по которой работает, время ответа …

Читать 2 мин
Пакет py-random-useragent
Олег Суворинов, опубликовано Thu 08 June 2023 10:00

Работая над одним из проектов, потребовалось сделать “web scraping” нескольких сайтов, один из необходимых элементов “web scraping`a”, это рандомизировать User-Agent в заголовке запроса. На Python много реализаций, выше указаного, решился на свою реализацию и заодно получить практику по созданию …

Читать 1 мин
Генератор случайных паролей
Олег Суворинов, опубликовано Sun 25 July 2021 20:00

Пример простого кода, основанного на модуле random, это библиотека для создания псевдо-случайных чисел, с довольно большим функционалом. В данном примере используется функция choice — которая возвращает случайный элемент из списка символов. В качестве источника символов, символы, которые можно ввести на клавиатуре …

Читать 1 мин