Vou tentar resumir de uma forma simples ( sei que minha dúvida não é tão difícil, mas o contexto deve ser explicado para melhor entendimento)
Estou utilizando o programa Weka, que é uma ferramenta de classificação de texto, realizei alguns testes em um conteúdo que tenho ele gerou o seguinte resultado:
considerando apenas a linha que começa com o mean, a palavra que gostaria de passar para outro arquivo e classificá-lo como próprio ou impróprio.
Attribute propria impropria
(0.46) (0.54)
=========================================
youtube
mean 0.2351 0
std. dev. 0.7714 0.0266
weight sum 304 355
precision 0.1595 0.1595
youre
mean 0.1324 0.0182
std. dev. 0.399 0.1297
weight sum 304 355
precision 0.0688 0.0688
your
mean 0.2792 0.168
std. dev. 0.364 0.3164
weight sum 304 355
precision 0.0129 0.0129
young
mean 0.0448 0.1876
std. dev. 0.1772 0.3503
weight sum 304 355
precision 0.0151 0.0151
you
mean 0.2346 0.1527
std. dev. 0.2855 0.2528
weight sum 304 355
precision 0.0071 0.0071
Gostaria de saber se é possível, tanto com sed,awk, er ou mesmo outra linguagem se consigo capturar apenas os conteúdos classificados como impróprios como por exemplo acima:
O conteúdo you possui uma numeração de 0.2346 que é maior que 0.1527, sendo assim gostaria de pegar a palavra you e coloca lá em outro arquivo > conteudoproprios.txt.
Isso é possível ?