Как с помощью Pandas разбить ячейку Excel?

Question

Алексей Р @Axeles

Нечего тут пока писать

Python
Excel

Как с помощью Pandas разбить ячейку Excel?

Доброго времени сток. Подскажите пожалуйста как из Excel с помощью Python и библиотеки Pandas взять некоторые столбцы разбить их на Фамилию первую букву имени и отчества. Так что бы они были каждая в своей строке.
Вообще мне необходимо сравнить два файла, а для этого необходимо как я считаю привезти их к общему шаблону. Возможно я не прав, но метод такой работает в Excel. Да и всё бы хорошо но приходиться по 10-15 раз делать это действие.
На данном этапе я пытаюсь преобразовать один файл должно получиться в идеале так

На данный момент всё что я имею это

исходный файл выглядит так

Да и по самому коду есть некоторые вопросы. Я совсем не понимаю строчку 14 а именно почему после .str когда я ставлю . replace не подсвечивается в подсказках при нажатии ctrl+пробел. Будто его нет, но он работает.

import pandas as pd

# Опция отвечающая за вывод всех колонок в консоли
pd.set_option('display.expand_frame_repr', False)

# Указываем место расположения файла
pathFileOpen = r"E:\Learn_Python\tmp\Cписок август.xlsx"
pathFileSave = r"E:\Learn_Python\tmp\Список август (автоматический вариант).xlsx"

# Читаем данные из файлов с помощью панды
wb = pd.read_excel(pathFileOpen, sheet_name='Количество', header=5, usecols="A:D, G, H")

# Разбиваем на отдельные колонки ФИО
new_concatFrame = wb['ФИО клиента'].str.split(' ', expand=True)
# Называем вновь созданные колонки
new_concatFrame.columns = ['Фамилия', 'Имя', 'Отчество', 'Удалить']

# Присваиваем переменной DataFrame переменные wb и new_concatFrame для последующей склейки
DataFrame = [wb, new_concatFrame]

# Склеиваем двае переменные методом concat. Параметр axis=1 говорит о том что необходимо добавить столбцы с созданными именами
concatFrame = pd.concat(DataFrame, axis=1)
keysFilter = ['ВИП. 18-39 лет женщины',
              'ВИП. 18-39 лет мужчины',
              'ВИП. 40-62 года мужчины',
              'ВИП. 40-64 года женщины',
              'ВИП. 41-63 года женщины',
              'ВИП. 41-63 года мужчины',
              'ВИП. 45,55 лет мужчины',
              'ВИП. 50,60,64 года мужчины',
              'ВИП. 65-75 лет женщины',
              'ВИП. 65-75 лет мужчины',
              'ВИП. 66-74 лет женщины',
              'ВИП. 76 лет и > женщины',
              'ВИП. 76 лет и > мужчины']

# Фильтруем строки по заданным ключам
concatFrame = concatFrame.loc[concatFrame['Специальность / Тестирование'].isin(keysFilter)]

# Выбираем необходимые колонки для копирования
concatFrame = concatFrame[['Номер', 'ФИО клиента', 'Дата рождения']]

# for i in concatFrame:
#    print(concatFrame[i][:1])

# Уюираем значок № из файла
for column in concatFrame.columns:
    concatFrame[column] = concatFrame[column].str.replace('№', '')


concatFrame.to_excel(pathFileSave, sheet_name='Общий список', index=False, )
print(concatFrame)

# не работает (((
# writer = pd.ExcelWriter(pathFileSave, engine='xlsxwriter')
# concatFrame.to_Excel(writer, sheet_name='Общий список')
# writer.save()


print(type(concatFrame))
print(isinstance(concatFrame, list))


# list1 = []
# for i in fioRedact['Фамилия']:
#     for cell in i:
#         list1.append(cell.value)
#


# # Сохраняем полученный файл
# finalDF.to_excel(pathFileSave, sheet_name='Общий список', index=False, columns=['Полис', 'Дата рождения', 'Фамилия', 'Имя', 'Отчество'])
# writer = pd.ExcelWriter(pathFileSave)
# finalDF.to_Excel(writer, sheet_name='Общий список')

Если кто то может немного подсказать и направить в нужное русло огромное спасибо
Ссылка на файл
Download Cписок август.xlsx - Фотохостинг и file cloud

Вопрос задан более трёх лет назад
1235 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Решения вопроса 1

11 комментариев

Алексей Р @Axeles Автор вопроса

"Честно говоря я не пробовал конкретно на ваших файлах(возможности сейчас нет), по-этому набросал в консоли:" - Да и за это огромное спасибо. Я рад любой помощи. Спасибо что откликнулись!

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn

Алексей Р, извиняюсь, я упустил момент, что вам нужно в новой колонке только первую букву отчества, обновил ответ. Вроде как в остальном все на месте, или еще что-то упустил?

Написано более трёх лет назад
Алексей Р @Axeles Автор вопроса

Ivan Yakushenko, Иван спасибо большое за помощь. Но всё же в Вашем примере Вы создаёте словарь, я же не понимаю как мне выбрать определённые строки из Excel файла, убрать некоторые символы в одном из столбцов (знак №) == всё это собственно у меня получилось, а вот как из столбца ФИО где данные представлены как
Иванов Сергей Владимирович
Лазарев Пётр Аркадьевич
отобразить их как
Иванов С А
Лазарев П А
так что бы данные были в каждой ячейке
То есть на данном этапе после всех манипуляций мне необходимо что бы у меня был файл максимальной похожий на рисунке 1 (Столбцы А, B, C, D, F) и он должен быть окрашен в определённый цвет. С этим буду разбираться позже. А потом я должен так же отредактировать второй файл добавить колонку "Дубли" склеить два файла получается с разными цветами и сравнить их на уникальность. Причём если и в том и в том списке присутствует человек то он должен помечаться цифрой 2 если нет то 1, если он встречается три раза то 3. Вот этого я и пытаюсь добиться в идеале. Пока же я не понимаю как мне из ФИО Иванов Пётр Сергеевич сделать Иванов П С можно даже Иванов П.С. аотому как в одном файле у меня Иванов Пётр Сергеевич а в другом Иванов П.С.

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn

Алексей Р, не совсем понимаю, чем вас не устраивает предложенный мною вариант?
Можете, пожалуйста, в таком виде написать какая у вас есть таблица:
{'name': 'ivanov i', 'age': '26', 'etc': 'etc'}
И так же написать желаемый результат.

Написано более трёх лет назад
Алексей Р @Axeles Автор вопроса
import pandas df = [{'name': 'Ivanov Ivan Sergeevich', 'age': '136', 'iq': 10}] df = pandas.DataFrame(df) print(df) ndf = pandas.DataFrame(df.name.str.split(' ').tolist(), columns=['p', 'n', 'f']) print(ndf) # print(type(ndf)) ndf.n = ndf.p.str[0] ndf.f = ndf.p.str[0] print(ndf) res = df[['age', 'iq']] df = pandas.concat([ndf, res], sort=False, axis=1) print(df)

Должно получиться вот так только из Excel файла. А я не понимаю как. Именно из Excel. Спасибо за помощь приду домой и более детально посмотрю Ваш пример. Огромное спасибо.
Написано более трёх лет назад
Алексей Р @Axeles Автор вопроса

Ivan Yakushenko, Я видимо Вас запутал тем что в строке B указано Иванов И. На самом же деле там Иванов Иван Иванович, поэтому мне и надо отделить фамилию имя и отчество по строкам и взять из имени и отчества первую букву. Что бы получилось Иванов И И. Просто файл Excel получился со сжатыми строками (не отформатированный) я пока не знаю как автоматом раздвинуть строки по максимальному количеству знаков в ячейке

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn
Алексей Р, нет, вы не поняли, напишите ожидаемый результат в таком виде:
{'name': 'Ivanov Aleksandr Sergeevich', 'f': 'I', 'n': 'A', 'p': 'S', 'age': '136', 'iq': 10}

Из кода мне не совсем очевидно что вы в итоге хотите получить.
только из Excel файла. А я не понимаю как. Именно из Excel.

Для Pandas не имеет значения откуда вы берете данные и куда сохраняете, как только вы создали DataFrame - это больше не объект Excel, или словаря, а именно объект Pandas. Так что разницы нет никакой из словаря сделан DataFrame, или из таблицы, обрабатываете вы именно объект Pandas.
Написано более трёх лет назад
Ivan Yakushenko @kshnkvn

Алексей Р, задача больше не актуальна?

Написано более трёх лет назад
Алексей Р @Axeles Автор вопроса

Ivan Yakushenko, Доброго времени суток. Актуальна. Есть небольшие успехи.

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn

Алексей Р, ожидаемый результат как я указал выше скиньте мне. Пытался скачать файл как время было, но загрузка недоступна.

Написано более трёх лет назад
Алексей Р @Axeles Автор вопроса

Хорошо сегодня сделаю. Спасибо!

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+2 ещё

Простой
Как получить список приглосительных ссылок в телеграм канале?
- 1 подписчик
- 6 часов назад
- 13 просмотров
0

ответов
Python

Простой
Пишу Todolist появилась ошибка, как исправить?
- 1 подписчик
- 9 часов назад
- 26 просмотров
0

ответов
Python

+1 ещё

Простой
Как решить проблему с терминалом PyCharm?
- 1 подписчик
- 9 часов назад
- 25 просмотров
0

ответов
Python

+2 ещё

Средний
Как пофиксить ошибку с сертификатом при работе с selenium?
- 1 подписчик
- 10 часов назад
- 15 просмотров
0

ответов
Python

+2 ещё

Средний
Возможно ли сделать так, чтобы Telegram GPT-Yandex.Cloud Бот отвечал не только на текстовые сообщения, но и на картинки? И если да, то как?
- 1 подписчик
- 11 часов назад
- 38 просмотров
2

ответа
Python

Средний
Как выполнить авторизацию MS CHAP 2?
- 1 подписчик
- 13 часов назад
- 30 просмотров
0

ответов
Python

+1 ещё

Простой
Как вычислить количество записей?
- 1 подписчик
- 17 часов назад
- 66 просмотров
2

ответа
Python

+1 ещё

Простой
Почему при использование webdriverIE все равно открывается EDge?
- 1 подписчик
- 18 часов назад
- 16 просмотров
0

ответов
Python

Простой
Почему мой discord бот не реагирует на свои команды?
- 1 подписчик
- 19 часов назад
- 57 просмотров
0

ответов
Python

Простой
Как получить экземпляр родителя из дочернего класса?
- 1 подписчик
- вчера
- 118 просмотров
1

ответ
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Разработать интранет сайт (корпоративный портал)

20 апр. 2024, в 07:24

100000 руб./за проект

Исправить адаптивную верстку на Tilda Zero Block

20 апр. 2024, в 06:39

4000 руб./за проект

Доработка аддона для Xenforo v2.2.13

20 апр. 2024, в 06:06

200 руб./за проект

Answer 1 · 2019-09-24 01:08:41

Честно говоря я не пробовал конкретно на ваших файлах(возможности сейчас нет), по-этому набросал в консоли:

>>> import pandas
>>> df = [{'name': 'Ivanov I', 'age': '136', 'iq': 0}]
>>> df = pandas.DataFrame(df)
>>> df
       name  age  iq
0  Ivanov I  136   0
>>> ndf = pandas.DataFrame(df.name.str.split().tolist(), columns=['p', 'n'])
>>> ndf
        p  n
0  Ivanov  I
>>> ndf.p = ndf.p.str[0]
>>> ndf
   p  n
0  I  I
1  A  A
2  N  N
>>> res = pandas.concat([df, ndf], sort=False, axis=1)
>>> res
       name  age  iq       p  n
0  Ivanov I  136   0  I  I
>>> res = res[['name', 'p', 'n', 'age', 'iq']]
>>> res
       name       p  n  age  iq
0  Ivanov I  I  I  136   0

Как с помощью Pandas разбить ячейку Excel?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт