Почему умирает процесс Python с Killed: 9?

Question

hawkkoff @hawkkoff

Python

Почему умирает процесс Python с Killed: 9?

Добрый день!
Есть два больших numpy array (сотни тысяч сток, сотни тысяч столбцов), нужно посчитать сумму значений в каждом столбце у каждого списка, посчитать формулу, записать результаты.

Пробовал подход в лоб (сразу всё высчитывать) получил Killed: 9 и подумал, что проблема в памяти. Переписал чтобы поочереди высчитал сумму у каждого списка (чтобы потом их удалять и освобождать память) так он даже так выдаёт Killed: 9.

Вопросы:
1. Заметил что при подходе с записью в файлы память всё равно расходуется сильно (~2гб и расход увеличивается). Кто нибудь может объяснить на что?
2. Что за ошибка Killed: 9? Как её исправить?? Нашёл большое количество постов про неё, но только в отношении обновления на Yosemite.

def sum_and_write(token,count,path,tonal):
    progress = progressbar.ProgressBar()
    f = open(path+tonal+'.csv', 'a')
    for i in progress(xrange(count)):
        val=sum(token[:,i])
        f.write(str(val)+'\n')
        
    f.close()


def deltatfidf(data_text_score, path):
    ##Создаём корпусы негатива и позитива
    print "Создание корпусов"
    corpus_neg=[i.decode('utf-8') for i in data_text_score['text'][data_text_score['score']==0]]
    corpus_pos=[i.decode('utf-8') for i in data_text_score['text'][data_text_score['score']==1]]
    corpus_all=corpus_neg+corpus_pos
    #Считаем веса
    weight_pos=1
    weight_neg=float(len(corpus_pos))/len(corpus_neg)
    #Задаём параметры токенизации
    vectorizer = CountVectorizer(ngram_range=(1,1), min_df=4)
    #Фитим токенизатор на всём корпусе
    print "Фитим модель"
    model=vectorizer.fit(corpus_all)
    #Записываем словарь в файл vocabulary.txt
    vocabulary=model.vocabulary_.keys()
    vocabulary.sort()
    print "Пишем словарь"
    f = open(path+'vocabulary.csv', 'a')
    for i in progress(vocabulary):
        f.write(str(i)+'\n')
        
    f.close()
    count=len(vocabulary)
    print 'Кол-во ngramm - '+str(count)
    #Размечаем позитив и записываем суммы DF терминов pos.txt
    print "Токенизируем позитив"
    token=model.transform(corpus_pos).toarray()
    print "Суммируем и пишем в файл"
    sum_and_write(token,count,path,"pos")
    del token
    #Размечаем негатив и записываем суммы DF терминов pos.txt
    print "Токенизируем негатив"
    token=model.transform(corpus_pos).toarray()
    print "Суммируем и пишем в файл"
    sum_and_write(token,count,path,"neg")
    del token
    #Загружаем все файлы
    print "Загружаем результаты"
    voc=pd.DataFrame(path+'vocabulary.csv', sep=';', columns=['data'])
    pos=pd.DataFrame(path+'роs.csv', sep=';', columns=['data'])
    neg=pd.DataFrame(path+'neg.csv', sep=';', columns=['data'])
    print "Объединяем"
    DATA=pd.DataFrame([voc['data'],pos['data'],neg['data']], column=['ngramm', 'pos', 'neg'])
    #Счиатем дельту
    print "Считаем дельту"
    DATA['delta']=np.log2((float(1+DATA['pos'])*weight_pos)/(float(1+DATA['neg'])*weight_neg))
    #Пишем результат
    print "Выгружаем"
    DATA.to_csv(path+'result.csv', sep=';')



from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd
import numpy as np
import progressbar
progress = progressbar.ProgressBar()

data=pd.read_csv('/Python/reviews/clean_data/oper_data_BIG_ALL_binary.csv', sep=';')
data_txt=data[['contra','pro', 'text','score']]
text=data_txt[pd.isnull(data_txt['text'])==False]

del data, data_txt

deltatfidf(text,'/Python/reviews/clean_data/temp/')

Вопрос задан более трёх лет назад
3534 просмотра

Комментировать

Подписаться 3 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

Простой
Как создать offline карту на python?
- 1 подписчик
- час назад
- 27 просмотров
0

ответов
Python

+1 ещё

Простой
Какие модули есть в Python для целей анализа, форматирования, вывода текста?
- 1 подписчик
- 2 часа назад
- 17 просмотров
1

ответ
Python

+2 ещё

Простой
Как настроить ТГ бота, чтоб кидал посты с пабликов в мой паблик?
- 1 подписчик
- 3 часа назад
- 19 просмотров
0

ответов
Python

+1 ещё

Простой
Как изменить сообщение с текстом на сообщение с картинкой для тг бота в библиотеке py telebot?
- 2 подписчика
- 11 часов назад
- 134 просмотра
2

ответа
Python

+1 ещё

Простой
Пишу телеграм бота на пайтон и вылезает ошибка KeyError: 'recipes'. Как решить?
- 1 подписчик
- 11 часов назад
- 48 просмотров
2

ответа
Python

+2 ещё

Простой
Как скрыть данные в кнопке KeyboardButton?
- 2 подписчика
- 12 часов назад
- 54 просмотра
1

ответ
Python

+1 ещё

Простой
Выбор: парсить на питоне с aiohttp, asyncio, bs4 или requests + bs4?
- 1 подписчик
- 18 часов назад
- 111 просмотров
2

ответа
Python

+1 ещё

Простой
Почему не срабатывает клик по элементу при открытии станицы selenium python?
- 1 подписчик
- вчера
- 42 просмотра
1

ответ
JavaScript

+1 ещё

Простой
Как подключить кошелёк к web3 сайту?
- 1 подписчик
- вчера
- 72 просмотра
0

ответов
Python

Простой
Выполнение парсинга странцы?
- 2 подписчика
- вчера
- 100 просмотров
2

ответа
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Каталог AI tools

18 апр. 2024, в 01:12

150000 руб./за проект

Загрузка характеристик из xml/csv файла в карточки товаров WordPress

18 апр. 2024, в 00:58

5000 руб./за проект

Нарисовать подарки для соц сети

18 апр. 2024, в 00:10

50000 руб./за проект

Answer 1 · 2014-11-01 10:36:55

Вам нужно оптимизировать алгоритм, использовать меньше памяти, перевести все что возможно на итераторы.
Например этот код в теории создает 3 гигантских массива:

corpus_neg=[i.decode('utf-8') for i in data_text_score['text'][data_text_score['score']==0]]
    corpus_pos=[i.decode('utf-8') for i in data_text_score['text'][data_text_score['score']==1]]
    corpus_all=corpus_neg+corpus_pos

Можно изменить например так, corpus_all вернет те же данные без использования списков.

def corpus_all():
    for i in data_text_score['text'][data_text_score['score']==0]:
        yield i.decode('utf-8')
    for i in data_text_score['text'][data_text_score['score']==1]:
        yield i.decode('utf-8')

Answer 2 · 2014-11-03 22:36:03

> 2. Что за ошибка Killed: 9?
Запускаете в Linux? Скорее всего это работа OOM Killer, ваш распухший процесс он убивает сигналом SIGKILL.
Подробности легко нагуглите.

Почему умирает процесс Python с Killed: 9?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт