Мультипоточная запись в БД?

Question

stayHARD @stayHARD

Мультипоточная запись в БД?

Пытаюсь сделать мультипоточный скрипт, который забирает информацию из базы- Postgresql(линки на вебсайты) проходит по ним, собирает информацию и вносит её снова в БД.
Мои наброски:

iimport urllib2
from bs4 import BeautifulSoup

import psycopg2
import threading

def scrape(link, id):
	# print link, id
	# connect to database
	connection = psycopg2.connect(database = "contacts", user = "???", password = "???", host="localhost", port="5432")
	# create new cursor
	curs = connection.cursor()

	# headers for opening links
	hdr = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
		'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
		'Accept-Charset': 'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
		'Accept-Encoding': 'none',
		'Accept-Language': 'en-US,en;q=0.8',
		'Connection': 'keep-alive'}

	# try open link
	try:
		# connect to the page and get request
		req = urllib2.Request(link, headers = hdr)
		page = urllib2.urlopen(req, timeout = 30) # todo timeout
		html = page.read()

		#  get soup/html code of the page
		soup = BeautifulSoup(html, "html.parser")

		# finding title on the page
		try:
			title = soup.find('title')
			title = title.text
			print 'TITLE: ' + title
		except:
			title = ''
			print "Can't get title!"

		# finding meta keywords on the page
		try:
			meta_keywords = soup.find('meta', attrs = {"name" : "keywords"})
			meta_keywords = meta_keywords['content']
			print 'META KEYWORDS: ' + meta_keywords
		except:
			meta_keywords = ''
			print "Can't get meta keywords!"

		# finding meta description on the page
		try:
			meta_description = soup.find('meta', attrs = {"name" : "description"})
			meta_description = meta_description['content']
			print 'META DESCR:' + meta_description
		except:
			meta_description = ''
			print "Can't get meta description."



		# update database with new information
		query = "UPDATE app_contacts SET visited = %s, title = %s, meta_keywords = %s, meta_description = %s WHERE id = %s AND url = %s;"
		data = ("1", title, meta_keywords, meta_description, id, link[7:])
		curs.execute(query, data)
		connection.commit()
		connection.close()
	
	except:
		print "Can't open link!"




if __name__ == '__main__':
	conn = psycopg2.connect(database = "contacts", user = "???", password = "???", host="localhost", port="5432")
	c = conn.cursor()
	c.execute("SELECT id, url, role from app_contacts WHERE url!='' AND visited='0' order by id;")
	for item in c.fetchall():
		link = "http://" + item[1]
		id = item[0]
		t = threading.Thread(target = scrape, kwargs={"link":link, "id":id})
		t.start()

Собственно проблема в записи, после запуска скрипт отрабатывает очень странно и отказывается записывать всю собранную информацию в БД. Что я делаю не так?

Вопрос задан более трёх лет назад
719 просмотров

4 комментария

Подписаться 2 Оценить 4 комментария

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Простой
Как получить имена параметров, которые будут переданы при нажатии на кнопку «зарегистрироваться»?
- 1 подписчик
- час назад
- 18 просмотров
1

ответ
Python

+3 ещё

Простой
Нужна помощь/совет — Telegram бот?
- 1 подписчик
- 4 часа назад
- 65 просмотров
1

ответ
Python

+1 ещё

Средний
Как победить варнинг There is no current event loop в юнитестах?
- 1 подписчик
- 6 часов назад
- 26 просмотров
0

ответов
Python

+1 ещё

Простой
Как работают рекурсии?
- 1 подписчик
- 6 часов назад
- 70 просмотров
3

ответа
Python

+3 ещё

Средний
Как запустить обучение с deepspeed у себя на пк?
- 2 подписчика
- 8 часов назад
- 159 просмотров
1

ответ
C++

+1 ещё

Средний
Dbeaver C++ connection error?
- 1 подписчик
- 14 часов назад
- 49 просмотров
0

ответов
Python

+1 ещё

Простой
Как показать зависимость скорости от O(nlogn)?
- 1 подписчик
- вчера
- 78 просмотров
2

ответа
Python

Средний
Как из проекта на python RenPY сделать установщик?
- 1 подписчик
- вчера
- 61 просмотр
1

ответ
Python

+3 ещё

Простой
С чем и как есть gRPC?
- 1 подписчик
- вчера
- 78 просмотров
1

ответ
Python

+1 ещё

Простой
Как увеличить паузу между отправкой запроса и получением результата?
- 1 подписчик
- вчера
- 106 просмотров
3

ответа
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Необходимо сверстать приложение согласно макету Figma используя React

26 апр. 2024, в 22:22

1500 руб./за проект

Написать модуль подключения матрицы Sony к ПЛИС (Verilog)

26 апр. 2024, в 21:30

15000 руб./за проект

8266 f12 требуется сделать ревью и оптимизировать работу

26 апр. 2024, в 20:42

2000 руб./за проект

sim3x: сейчас уже работает нормально, записывает. Код в топике поправил.
Только медлено. Можно еще как-нибудь ускорить процесс? И вообще в верном ли я направлении?
Еще прочитал о max_connections = 100. Изменил на 1000. Какое реальное максимольное значение можно указать?
stayHARD: https://wiki.postgresql.org/wiki/Tuning_Your_Postg...
www.postgresql.org/docs/9.1/static/runtime-config-...

max int
stayHARD: направление верное, только писать скраппер долго

Answer 1 · 2015-08-31 11:14:59

Я так понимаю вопрос в скорости.

У вас на каждый линк создается новое подключение к базе, так делать нельзя - это очень долго. Создавайте его один раз при старте скрипта, а лучше сразу пул подключений(там даже есть ThreadedConnectionPool раз вы так сильно хотите потоки).
Не используйте print, по опыту - если много выводить на печать - это сильно тормозит выполнение скрипта. Лучше используйте стандартный модуль logging
Лучше использовать пулы потоков и очереди. Вместо того чтобы запустить скачивание сразу тысячи ссылок в тысяче потоков, лучше скачивать их небольшими частями. Нужно будет просто поиграться с размерами очереди и пула и выбрать наиболее лучшие значения
Если файлы большие, то для парсига лучше использовать SAX парсер, например lxml, вместо BeautifulSoup.
Как уже говорил, подумайте об использовании асинхронных фреймворков(в прошлом вашем вопросе есть пример кода), если после всех исправлений вас все еще не будет устраивать скорость. Т.к. в конкретно этом случае от потоков мало проку, вы их все одновременно запускаете и они все одновременно будут простаивать пока скачиваются данные по ссылкам

Answer 2 · 2015-08-29 21:30:48

/offtop: Прежде чем что-то писать мульти-тредное на Python настоятельно рекоменду прочитать про GIL. Это крайне важно!!! На хабре есть перевод статьи от Дэвида Бизли про устройство GIL. Настоятельно рекомендую прочесть.

Мультипоточная запись в БД?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт