У меня есть этот фрагмент кода здесь:
from bs4 import BeautifulSoup
myString = '<a href = "/number-stations/german/g06" title = "G06">G06</a>'
i = BeautifulSoup(str(myString), 'html.parser')
print(type(i))
print(i)
myText = i.get_text(strip=True)
print(myText)
myURL = i["href"]
print(myURL)
Идея состоит в том, чтобы разобрать href из этой строки.
Однако я не могу понять, почему он не может его видеть. Мой вывод:
<class 'bs4.BeautifulSoup'>
<a href = "/number-stations/german/g06" title = "G06">G06</a>
G06
Traceback (most recent call last):
File "c:\Users\user\Desktop\aaa\test.py", line 10, in <module>
myURL = i["href"]
File "C:\ProgramData\Anaconda3\lib\site-packages\bs4\element.py", line 1401, in __getitem__
return self.attrs[key]
KeyError: 'href'
Почему BeautifulSoup не видит href этой строки?
Когда вы пытаетесь получить доступ к href
с помощью i["href"]
, вы обращаетесь к нему, как если бы это был dict
, но это не так. Вы должны сначала найти тег, используя метод .find()
.
from bs4 import BeautifulSoup
myString = '<a href = "/number-stations/german/g06" title = "G06">G06</a>'
soup = BeautifulSoup(myString, 'html.parser')
print(soup.find('a').attrs)
print('-' * 10)
print(soup.find('a')['href'])
Выход:
{'href': '/number-stations/german/g06', 'title': 'G06'}
----------
/number-stations/german/g06