Enviado em 02/04/2016 - 14:46h
Olá pessoal tranquilo?
Estou fazendo meu TCC, e realizando alguns testes com o navegador em modo texto lynx, na verdade estou utilizando como uma ferramenta de captura de conteúdo de página web, com o comando seguinte:
$lynx -justify -nolist -nomargins -image_links -nonumbers -dump www.vivaolinux.com.br > site.txt
essa configurações afrente do comando lynx, é para tentar melhorar a configuração textual dele, pois quando o arquivo é gerado ele cria com alguns caracteres que acaba atrapalhando para o próximo passo, os caracteres são: [,*,+, - e etc... A finalidade é que logo após o arquivo gerado, irei utilizar uma ferramenta chamada tree-tagger ( transforma texto no radical) para depois aplicar no que realmente eu preciso. Então a dúvida seria, é possível com shell realizar essa configuração de remover esses caracteres do texto todo?
Obrigado.
Estou fazendo meu TCC, e realizando alguns testes com o navegador em modo texto lynx, na verdade estou utilizando como uma ferramenta de captura de conteúdo de página web, com o comando seguinte:
$lynx -justify -nolist -nomargins -image_links -nonumbers -dump www.vivaolinux.com.br > site.txt
essa configurações afrente do comando lynx, é para tentar melhorar a configuração textual dele, pois quando o arquivo é gerado ele cria com alguns caracteres que acaba atrapalhando para o próximo passo, os caracteres são: [,*,+, - e etc... A finalidade é que logo após o arquivo gerado, irei utilizar uma ferramenta chamada tree-tagger ( transforma texto no radical) para depois aplicar no que realmente eu preciso. Então a dúvida seria, é possível com shell realizar essa configuração de remover esses caracteres do texto todo?
Obrigado.