2024-10-23 11:36:14 +00:00
|
|
|
|
from bs4 import BeautifulSoup
|
|
|
|
|
|
|
|
|
|
# Открываем HTML файл
|
2024-10-29 13:08:43 +00:00
|
|
|
|
with open('skoly_ludskych_vztah_59421.html', 'r', encoding='windows-1250') as file:
|
2024-10-23 11:36:14 +00:00
|
|
|
|
html_content = file.read()
|
|
|
|
|
|
|
|
|
|
# Парсим HTML с BeautifulSoup
|
|
|
|
|
soup = BeautifulSoup(html_content, 'html.parser')
|
|
|
|
|
|
|
|
|
|
# Извлекаем текст, удаляя все HTML-теги
|
|
|
|
|
text = soup.get_text()
|
|
|
|
|
|
|
|
|
|
# Записываем текст в файл (или делаем с ним что-то другое)
|
2024-10-29 13:08:43 +00:00
|
|
|
|
with open('skoly.txt', 'w', encoding='utf-8') as output_file:
|
2024-10-23 11:36:14 +00:00
|
|
|
|
output_file.write(text)
|
|
|
|
|
|
|
|
|
|
print("Текст успешно извлечён!")
|
|
|
|
|
|