





Это простая замена разметки, ничего хорошего в регулярном выражении не исправить.
Я рекомендую Perl, LWP :: Simple и некоторые регулярные выражения, чтобы сделать все это (создание пауков, удаление дизайна и меню, преобразование в текстиль, а затем размещение в базе данных).
Вот C# lib преобразование HTML 2 текстиля. Хотя это текстиль с их дополнениями. Не чистый текстиль.
Я знаю, что это старый вопрос, но я обнаружил, что пытался сделать это на днях и не нашел ничего полезного, пока не нашел Пандок. Он также может конвертировать множество других форматов разметки - это довольно здорово.
попробуйте этот простой код Java, надеюсь, он сработает для вас
import java.net.*;
import java.io.*;
class Crawle
{
public static void main(String ar[])throws Exception
{
URL url = new URL("https://www.google.co.in/#q=i+am+happy");
InputStream io = url.openStream();
BufferedReader br = new BufferedReader(new InputStreamReader(io));
FileOutputStream fio = new FileOutputStream("crawler/file.txt");
PrintWriter pr = new PrintWriter(fio,true);
String data = "";
while((data=br.readLine())!=null)
{
pr.println(data);
System.out.println(data);
}
}
}
}
Не имеет ничего общего с текстилем
Согласно вопросу, он хочет просканировать любую страницу веб-сайта, а затем сохранить ее в любом текстовом файле, поэтому то, что я опубликовал в своем ответе, относится только к этому. И в своем ответе я поделился простым примером для вышеуказанного запроса. Я все еще не понимаю причин для голосования против.
Поскольку реализации javascript не было, я написал одну: https://github.com/cmroanirgo/to-textile
На данный момент это немного примитивно, так как это слепой перенос эквивалента «to-markdown», но он должен выполнить свою работу.
Но вы потеряете стили и другие вещи. Тогда вы можете также перейти на Markdown.