Я знаю, если я хочу печатать ссылки и тексты ссылок с помощью Jsoup, я должен использовать этот код:
Document doc = Jsoup.connect("https://en.wikipedia.org/wiki/Jsoup").get();
Elements links = doc.select("a[href]");
for (Element link : links) {
System.out.println(link.attr("abs:href") + " - " + link.text());
}
Вывод: (не полный)
https://en.wikipedia.org/wiki/Jsoup#mw-head - Jump to navigation https://en.wikipedia.org/wiki/Jsoup#p-search - Jump to search https://en.wikipedia.org/wiki/Software_developer - Developer(s) https://en.wikipedia.org/wiki/Software_release_life_cycle - Stable release https://en.wikipedia.org/wiki/Jsoup#cite_note-1 - [1] https://en.wikipedia.org/wiki/Jsoup#cite_note-2 - [2] https://en.wikipedia.org/wiki/Repository_(version_control) - Repository https://github.com/jhy/jsoup - github.com/jhy/jsoup ...
И если я хочу напечатать тексты всей веб-страницы, я должен использовать этот код:
System.out.println(doc.body().text());
Вывод: (не полный)
jsoup From Wikipedia, the free encyclopedia Jump to navigation Jump to search jsoup Java HTML Parser Developer(s) Jonathan Hedley Stable release 1.11.3 [1] / 2018-04-15 [2] Repository github.com/jhy/jsoup...
Как распечатать весь текст документа без текста ссылок?
Выведите то, что я хочу:
jsoup From Wikipedia, the free encyclopedia jsoup Java HTML Parser Jonathan Hedley 1.11.3 / 2018-04-15 ...




У Elements Jsoup есть метод remove(). Это должно удалить ссылки из вашего документа.
Document doc = Jsoup.connect("https://en.wikipedia.org/wiki/Jsoup").get();
doc.select("a[href]").remove();
System.out.println(doc.body().text());