msoliver
(usa Debian)
Enviado em 10/11/2015 - 23:36h
Boa noite.
O comando
wc -w < ARQUIVO
Conta as palavras . . .
Para contar as TAGS HTML, use uma REGEX
Exemplo:
cat testes-html.txt
<!DOCTYPE HTML>
<html>
<head>
<title>Title of the document</title>
</head>
<body>
The content of the document
Bla bla bla bla
momomo momomo momo mo momo
</body>
</html>
egrep -oi '<[!/]?[a-z ]+>' testes-html.txt
#
Casa somente as TAG's
<!DOCTYPE HTML>
<html>
<head>
<title>
</title>
</head>
<body>
</body>
</html>
Contando as TAG's
egrep -oi --color '<[!/]?[a-z ]+>' testes-html.txt | wc -l
9
Uma pequena alteração no comando acima, elimina as TAG's
egrep -vi '<[!/]?[a-z ]+>' testes-html.txt
The content of the document
Bla bla bla bla
momomo momomo momo mo momo
Contando as palavras
egrep -vi '<[!/]?[a-z ]+>' testes-html.txt | wc -w
14
É isso....
Espero que seja útil.
Abç.,
Marcelo