Заметки — Игорь К.: заметки с тегом парсинг

Парсим телеграм каналы агентств интернет-маркетинга

Tue, 28 Nov 2023 20:21:53 +0300

В гугл таблицах автоматически получим ссылки на телеграм каналы интернет-агентств.

Предыстория .У Павела Злобина вышла статья «Топ телеграм каналов про маркетинг» в которой описывает как можно получить телеграм каналы агентств.

В рейтинге рунета есть список топ-100 агентств, из списка мы можем получить название и ссылку на страницу о агентстве

Наименование агенства

=IMPORTXML(A1;"//table[@id='rating_table_id']/tbody/tr/td/div/a")

Ссылка на страницу

=IMPORTXML(A1;"//table[@id='rating_table_id']/tbody/tr/td/div/a/@href")

На подробной странице агентства может быть ссылка на телеграм и ВК, получим их

Ссылка на телеграм

=IFNA(IMPORTXML("https://ratingruneta.ru"&B4;"//a[@class='_1OOlgax2iF telegram']//@href");"")

Ссылка на ВК

=IFNA(IMPORTXML("https://ratingruneta.ru"&B4;"//a[@class='_1OOlgax2iF vkontakte']//@href");"")

Протягиваем формулы, и получаем готовую страницу

Таким же образом можно получить информацию о других рейтингах.

Ссылка на таблицу

Отправляем поток из РСС в телеграм через Google Apps Script

Thu, 22 Dec 2022 11:50:33 +0300

Обновляем канал «Почитаем…»
Теперь новые статьи будут приходить в канал автономно, через гугл таблицы и без участия локального сервера с питоном.
Раньше работало через питон и базу данных на sqlite3

В гугл таблице нам нужны три листа: rss, rss_data, error

rss — будем хранить рсс потоки сайтов,
rss_data — будем хранить базу данных что отпарсилось и что отправлено,
error — будем хранить ошибки при отладке, если это потребуется

На листе rss, в первой колонке перечислены все рсс-потоки, при необходимости добавить или удалить, делаем это здесь.

На листе rss_data, первая строчка с наименованием колонок

У меня сейчас 110 источников, когда идет запись в таблицу, скрипт не успевает обработать все данные, и отваливается по тайм-ауту гугла. После нескольких запусков он все ссылки обработает и начинает укладываться в тайминг.
Возможно, в будущем, нужно скрипт делить на несколько

сообщения приходят в том же виде, что и раньше.

Парсинг потоков рсс через гугл таблицы

// Считываем базу данных РСС
function data_base_rss() {
  var app = SpreadsheetApp.getActiveSpreadsheet().getSheetByName("rss_data")
  data_base= app.getRange(1,1, app.getLastRow(), app.getLastColumn()).getValues(); //только заполненный диапазон
  return(data_base)
}

// поиск по базе данных
function find_rss(url) {
  rezult = rss_data.findIndex(item => item[3] === url) //ищем в 4 столбце
  //console.log(rezult) //-1 если не найдено, и индекс положительный если нашлось это что нашлось лог
  return(rezult)
}


// Запись нового поста в таблицу
function data_write_rss(data) {
  var sheet = SpreadsheetApp.getActiveSpreadsheet().getSheetByName("rss_data");
  var value = data
  sheet.getRange(sheet.getLastRow() + 1,1,1,4).setValues([value]);
  console.log(data)
}

// Запись error в таблицу
function error_log(data) {
  var sheet = SpreadsheetApp.getActiveSpreadsheet().getSheetByName("error");
  //var sheet = spreadsheet.getActiveSheet();
  //var value = new Date(); // value you want to insert
  //var value = data
  sheet.getRange(sheet.getLastRow() + 1,1,1,3).setValues([data]);
  console.log(data)
}


//функция проверки новых постов текущего потока
function get_rss(rss_url) {
  var url =rss_url
  var date_rss =[]
  var xml = UrlFetchApp.fetch(url).getContentText()
  document = XmlService.parse(xml);
  root = document.getRootElement();
  channel = root.getChild('channel');
  items = channel.getChildren('item');
  items.forEach(item => {
    parsing_date=new Date(); // дата текущая
    title = item.getChild('title').getText();
    link = item.getChild('link').getText()
    try{
    author = item.getChild('author').getText();} //автор не у всех бывает
    catch(e){author =""}
    if (find_rss(link) == -1) {
      data_write_rss([parsing_date,title,author,link])  
    }
   });
  console.log(date_rss)
}

// Основная функция парсинга всех РСС потоков, ее нужно установить в запуск раз в 15 минут
function parse_rss() {
  var rss_data=data_base_rss()
  var app = SpreadsheetApp.getActiveSpreadsheet().getSheetByName("rss")
  url_array = app.getRange(1,1, app.getLastRow(), 1).getValues(); //только заполненный первый столбец
  console.log(url_array);
  url_array.forEach(url => {
    console.log(url)
    try{ 
      get_rss(url)}
    catch(e){console.log("! недействительный URL", console.log(url),'Ошибка ' + e.name + ":" + e.message + "\n" + e.stack)
    //error_log([new Date(),url,'Ошибка ' + e.name + ":" + e.message + "\n" + e.stack]) //При необходимости записи ошибок снять комментарий     
    } //Обработка ошибки 
  })
}

Код отправки сообщений в телеграм:

const tokendr = "BOT_token"; 
const IDChattelegramdr = "ID_CHAT" 

function timerSENDtgDR() {
  let ss = SpreadsheetApp.getActiveSpreadsheet();
  let ws = ss.getSheetByName("rss_data"); //таблица с которой берем данные
  let data = ws.getRange(2, 1, ws.getLastRow()-1, 5).getValues(); //диапазон с которого берем данные
  Logger.log ( data ); 
  for (i = 0; i < data.length; i++) {
    let dataInfo = data[i]; //строчка таблицы
    //Logger.log ( dataInfo );
    let telegram_send = dataInfo[4]; //пятая ячейка telegram_send
    Logger.log(telegram_send)
    if (telegram_send ===""){
      title = dataInfo[1];
      author = dataInfo[2];
      if (author !=''){
      author=author+"\n\n"    //если имя автора есть, добавить переносы строк
      }
      link = dataInfo[3];
      sendTextDR(IDChattelegramdr, "<b>"+title+"</b>\n\n" + author + link);
      ws.getRange(i+2 , 5, 1, 1).setValues([[new Date()]]);
      Utilities.sleep(500);// pause in the loop for 500 milliseconds
      Logger.log ("сообщение отправлено");
    }
  }
}
 
function sendTextDR(chatId, text, keyBoard) {
  let data = {
    method: 'post',
    payload: {
      method: 'sendMessage',
      chat_id: String(chatId),
      text: text,
      //parse_mode:'Markdown',
      parse_mode: 'html',
      reply_markup: JSON.stringify(keyBoard)
    }
  }
  UrlFetchApp.fetch('https://api.telegram.org/bot' + tokendr + '/', data);
}

Отправляем новые статьи из РСС в телеграм

Mon, 10 Oct 2022 10:10:19 +0300

Удобно присылать новые ссылки на статьи моих подписок РСС в телеграм, так как вся коммуникация уже в нем, фидли почти не использую.

Евгений Гончаров, в статье «RSS фидер на Python с оправкой уведомлений в Телеграм» описал весь принцип отправки и использование базы данных для контроля что отправили. Готовый код на гитхабе Евгения

Я внес небольшие изменения в код:

Сообщения в телеграм отправляются с задержкой 1 секунда. Если не использовать таймаут, сервер телеграма, может отправить не все сообщения.
Изменил вид отправки сообщений: добавил переносы строк и автора, если он есть.

В канал телеграма приходят новые сообщения. Проверка РСС проходит с 7 утра до 11 вечера, с интервалом 30 минут.

Канал открытый, можно подписаться на «Почитаем», там 95 источников РСС: например, избранное блогов на Эгее, Илья Бирман, Максим Ильяхов, Николай Товеровский, и другие.

В примере скрипта: блоги на Эгее и мой блог.

Скрипт:

#!/usr/bin/python3
# Created by Yevgeniy Goncharov, https://sys-adm.in
# Script for reading and forwarding to Telegram, rss feeds


# Imports
import sqlite3
import requests
import feedparser
import os
import urllib
import random
import time

# Bot creds
bot_token = 'bot_token'
bot_chatID = 'bot_chatID'

# Feeds
myfeeds = [
    'https://blogengine.ru/blogs/rss/',
    'http://blog.fossko.ru/rss/',

]

# User agents
uags = [
  'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.1 Safari/605.1.15',
  'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:77.0) Gecko/20100101 Firefox/77.0',
  'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36',
  'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:77.0) Gecko/20100101 Firefox/77.0',
  'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36',
]

# Random User Agent (from uags list)
ua = random.choice(uags)

# Header
headers = {
  "Connection" : "close",  # another way to cover tracks
  "User-Agent" : ua
}

# Proxies
proxies = {
}

# DB
scriptDir = os.path.dirname(os.path.realpath(__file__))
db_connection = sqlite3.connect(scriptDir + '/rss.sqlite')
db = db_connection.cursor()
db.execute('CREATE TABLE IF NOT EXISTS myrss (title TEXT, date TEXT)')

# Get posts from DB and print
def get_posts():
    with db_connection:
        db.execute("SELECT * FROM myrss")
       # print(db.fetchall())

# Check post in DB
def article_is_not_db(article_title, article_date):
    db.execute("SELECT * from myrss WHERE title=? AND date=?", (article_title, article_date))
    if not db.fetchall():
        return True
    else:
        return False

# Add post to DB
def add_article_to_db(article_title, article_date):
    db.execute("INSERT INTO myrss VALUES (?,?)", (article_title, article_date))
    db_connection.commit()

# Send notify to Telegram bot
def bot_sendtext(bot_message):
    #bot_message = urllib.parse.quote(bot_message)
    bot_message = bot_message
    send_text = 'https://api.telegram.org/bot' + bot_token + '/sendMessage?chat_id=' + bot_chatID + '&parse_mode=Markdown&text=' + bot_message
    requests.get(send_text, proxies=proxies, headers=headers)
    print(send_text)

# Check, read articles
def read_article_feed(feed):
    """ Get articles from RSS feed """
    feedparser.USER_AGENT = ua
    feed = feedparser.parse(feed)
    print(feed)
    for article in feed['entries']:
        if article_is_not_db(article['title'], article['published']):
            add_article_to_db(article['title'], article['published'])
           # bot_sendtext('New feed found ' + article['title'] +', ' + article['link'] + ', ' + article['description'])
            try:
                rss_autor = article['author'] +'%0A%0A'
            except:
                rss_autor = ""
            MSGsend='*'+ article['title'] + '*%0A%0A' + rss_autor + article['link']
            MSGsend=MSGsend.replace("_", "\_")  # замена подчеркивания для отправки в ТГ
            bot_sendtext(MSGsend)            
            time.sleep(1)
           # print(article)

# Rotate feeds array
def spin_feds():
    for x in myfeeds:
       # print(x)
        read_article_feed(x)

# Runner :)
if __name__ == '__main__':
    spin_feds()
    # get_posts()
    db_connection.close()

Авторизация на сайте через питон

Fri, 05 Feb 2021 15:11:29 +0300

По материалам статьи: Python requests. Авторизация на сайте

Я описал как парсить сайты через модуль requests. Бывают случаи когда для части сайта нужна авторизация, то есть логин и пароль.

Для авторизации нужно поддерживать активную сессию в модуле requests, через session.get()

session.get(url) вместо requests.get(url)

import requests
import re
from bs4 import BeautifulSoup
import pandas as pd

url = 'https://freelance.ru/login/'

# Важно. По умолчанию requests отправляет вот такой 
# заголовок 'User-Agent': 'python-requests/2.22.0 ,  а это приводит к тому , что Nginx
# отправляет 404 ответ. Поэтому нам нужно сообщить серверу, что запрос идет от браузера  

user_agent_val = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36'

# Создаем сессию и указываем ему наш user-agent
session = requests.Session()
r = session.get(url, headers = {
    'User-Agent': user_agent_val
})

# Указываем referer. Иногда , если не указать , то приводит к ошибкам. 
session.headers.update({'Referer':url})

В оригинальной статье было снимание куков, я не совсем понимаю когда использовать. В данном скрипе, я это не использую.

_xsrf = session.cookies.get('_xsrf', domain=".freelance.ru")

Дальше посылаем post-запрос

login = "xxxx"
passwd = "xxxx"

post_request = session.post(url, {
    'login': login ,
    'passwd': passwd,
    "check_ip": "on",
    "submit": "%C2%F5%EE%E4",
    "auth": "auth",
    "return_url": "/login/"
})

Для того чтобы узнать пост запрос, нужно зайти в инспектор кода, вкладка сеть, и найти запрос который посылается

В submit я подставил значение из не декодированного вида.

Теперь переходим в закрытый раздел, обновляем сессию и снимаем данные

url = "https://freelance.ru/setup/"
r = session.get(url)
soup = BeautifulSoup(r.text, "lxml")
soup

Мой рейтинг на этом сервисе.

Дальше можно снимать нужную информацию, используя BeautifulSoup

Для библиотеки Requests, есть хорошие статьи от Александра, pythonru

Краткое руководство по библиотеке Python Requests — рассказывает кратко, как пользоваться библиотекой.

Продвинутое руководство по библиотеке Python Requests — дополнительная информация, по объектам session, сертификатам SSL, прокси.

Парсинг сайтов через питон модулем selenium

Fri, 22 Jan 2021 17:03:17 +0300

Работа идет через модуль selenium, для него нужно скачать Chrome driver и браузер Chrome.
Важно чтобы версия браузера и Chrome driver была одна и та же

Версию браузера смотрим Справка → О браузере, и сверяемся с версией хром драйвер.

Чтобы точно быть уверенным, что все работает установите библиотеку selenium, импортируйте ее и запустите браузер через хром драйвер.

pip install selenium
from selenium.webdriver import Chrome
browser = Chrome ("d:\del\chromedriver_win32\chromedriver.exe")

Если все корректно, запускается хром в режиме: «Браузером управляет тестовое ПО»

В тестовом браузере будут выполнятся все команды.

Импортируем необходимые библиотеки

from selenium.webdriver import Chrome
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait as wait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import NoSuchElementException
from bs4 import BeautifulSoup
from time import sleep

Переход на сайт

url = "https://bus.gov.ru/registry"
browser.get(url)

В тестовом браузере открылся сайт https://bus.gov.ru/registry

Нужно ввести в строке поиска «онкологический диспансер»

Способ 1

input_el = browser.find_element_by_tag_name("input")
input_el.send_keys("онкологический диспансер")

Вводится наименование в поле input

Нажать энтер или кнопку найти.

Нажатие кнопки энтер:

input_el.send_keys(Keys.ENTER)

Нажатие кнопки найти:

browser.find_element_by_xpath("/html/body/div[2]/ui-view/form/div[2]/div/div[2]/div/button").click()

После выполнения кода браузер ищет диспансеры

Дальше работаем как при простом парсинге сайта

soup = BeautifulSoup(browser.page_source, "lxml")
soup

В переменной soup вся текущая страница

Смотрим где содержится название учреждения и ссылка на него

soup.find ("a", class_="result__button").get("href")
soup.find("a",class_="result__title").text

Для получения части ссылки используем запрос get, для названия text

Чтобы не искать по всей странице, можно оставить информацию которая нам нужна, она содержится к контейнере c классом results

orgs=soup.findAll("div",class_="result")
orgs

Содержимое всех контейнеров result

Обработка текущей страницы

data = []
for el in orgs:
    name = el.find("a", class_="result__title").text
    link = "https://bus.gov.ru/registry" + el.find("a", class_="result__button").get("href")
    #print (name, link)
    data.append([name,link])
data

Названия учреждений и ссылка на страницу с описанием

Нужно нажимать на страницу «следующая»

next_button = browser.find_element_by_class_name("pagination__next")
next_button.click()

Код нажимает на элемент с классом pagination__next

Готовый код для сбора всей информации

url = 'https://bus.gov.ru/registry'
browser.get(url)
sleep(5)
input_el = browser.find_element_by_tag_name('input')
input_el.send_keys('онкологический диспансер')
input_el.send_keys(Keys.ENTER)
sleep(5)

data = []


for i in range(10):
    
    soup = BeautifulSoup(browser.page_source, "lxml")
    orgs = soup.findAll('div', class_='result')
    
    for el in orgs:
        name = el.find('a', class_='result__title').text
        link = "https://bus.gov.ru"+el.find('a', class_='result__button').get('href')
        print(name, link)
        

        data.append([name, link])
        
    print(len(data))
    try:
        next_button = browser.find_element_by_class_name('pagination__next')
        next_button.click()
    except NoSuchElementException:
        continue
    sleep(6)

Все данные попадают в таблицу data, в ней столбец с наименованием и ссылка

Подробный вебинар про модуль selenium, используется среда разработки Анаконда с модулем Юпитер. Во второй части парсится сайт с судебными решениями.

Парсинг сайтов через питон

Thu, 21 Jan 2021 13:25:45 +0300

Устанавливаем и импортируем библиотеки в питон

pip install requests
pip install pandas
import requests
from bs4 import BeautifulSoup
import pandas as pd
from time import sleep

Переменной url присваиваем ссылку на страницу кинопоиска, в переменную r результат гет запроса к этой странице

url = "https://www.kinopoisk.ru/s/type/film/list/1/find/%F1%E5%EA%F1/"
r = requests.get(url)

Текстовое содержимое страницы сайта — r.text

Переведем содержимое страницы в формат кода

soup = BeautifulSoup(r.text, "lxml")

Содержимое переменной — soup

При помощи инспектора кода находим контейнеры с названием фильма, годом, названием на языке оригинала и баллом кинопоиска

russian_name = soup.find('div',class_ = "element").find('div', class_ = "info").find('a', class_ = "js-serp-metrika").text
russian_name
original_name = soup.find('div',class_ = "element").find('span', class_ = "gray").text
original_name
year = soup.find('div',class_ = "element").find('span', class_ = "year").text
year
kinopoisk = soup.find('div',class_ = "element").find('div', class_ = "rating").text
kinopoisk

Все данные по первому фильму встречающемуся на странице

Находим контейнер с кусочком кода и генерируем ссылку на фильм

link = "https://www.kinopoisk.ru" +soup.find('div',class_ = "element").find('div', class_ = "info").find('a').get("data-url")
link

Готовая ссылка на фильм и контейнер содержащий ссылку

Можно составить код, который сделает таблицу, содержащую все фильмы с данной таблицы

data = []
films =soup.findAll("div",class_ = "element")
for film in films:
    russian_name = film.find('div', class_ = "info").find('a', class_ = "js-serp-metrika").text
    original_name = film.find('span', class_ = "gray").text
    
    try:
        year = film.find('span', class_ = "year").text
    except:
        year = ""
    
    try:
        kinopoisk = film.find('div', class_ = "rating").text
    except:
        kinopoisk = ""
    
    link = "https://www.kinopoisk.ru" +film.find('div', class_ = "info").find('a').get("data-url")
  
    #print (russian_name)
    #print (original_name)
    #print (year)
    #print (kinopoisk)
    #print (link)
    data.append([russian_name, original_name,year,kinopoisk,link  ])

Содержимое таблицы data

Мы можем собрать все фильмы с одной страницы. Теперь нужно сделать цикл для сбора со всех страниц данного раздела. В этом разделе 11 страниц, значит нужен цикл для формирования списка страниц

for page in range(1,12):
    url = f"https://www.kinopoisk.ru/s/type/film/list/1/find/%F1%E5%EA%F1/order/relevant/page/{str(page)}/"
    print(url)

Результат выполнения цикла for с полученными страницами

Теперь можно дополнить весь код. Не забываем про слип, так как на многих сайтах стоит защита от парсинга

data = []

for page in range(1,12):
    url = f"https://www.kinopoisk.ru/s/type/film/list/1/find/%F1%E5%EA%F1/order/relevant/page/{str(page)}/"
    print(url)
    
    r = requests.get(url)
    sleep(40)
    soup = BeautifulSoup(r.text, "lxml")
    
    films = soup.findAll("div", class_ ="element")

    for film in films:
        
        russian_name = film.find("div", class_="info").find("a").text
       # print(russian_name)
    
        original_name = film.find("div", class_="info").find("span", class_="gray").text
    
        year = film.find("span", class_="year").text

        try:
            year = film.find("div", class_= "span").text
        except:
            year = ""
        
        try:
            rate = film.find("div", class_= "rating").text
        except:
            rate = ""
    
        link = "https://www.kinopoisk.ru"+film.find("div", class_="info").find("a").get("data-url")
    
        data.append([russian_name, original_name, year, link])

По мере прохождения страниц, будут печатаются страницы на которых находится сейчас робот

Делаем заголовки таблицы и выгружаем в файл csv

header = ['russian_name', 'original_name', 'year', 'link']
df = pd.DataFrame(data, columns = header)
df.head()

df.to_csv("d:\data_kino.csv")

получившаяся таблица с выгрузкой

Можно и в питоне получить список всех ссылок на фильмы, работая с таблицей

for i in data:
    #print (i)
    link = i[3]
    print (link)

Вебинар курса «Веб-скрейпинг для журналистов. С программированием и без». Используется среда разработки Анаконда.