Filtro de palavras de baixo calão

25. Re: Filtro de palavras de baixo calão

Fábio Berbert de Paula
fabio

(usa Debian)

Enviado em 21/11/2014 - 17:38h

Não há como deixar tudo a cargo da moderação por dois motivos:

1. Conteúdo retroativo. Só no index do Google temos mais de 1.110.000 páginas indexadas.

2. Quantidade de conteúdo a ser moderado. Humanamente é possível moderar somente os NOVOS posts do fórum (excluindo os retroativos), mas e quanto às centenas de comentários que são enviados em artigos, dicas, screenshots, conf, scripts e simulado? E aí ainda entram as avaliações e mensagens que podem ser enviadas diretamente para usuário, sem passar por moderação.

Juntando comentários e posts do fórum, por dia temos uma média aproximada de 1.400 interações (input) de usuário no VOL.



  


26. Re: Filtro de palavras de baixo calão

Hugo Cerqueira
hrcerq

(usa Outra)

Enviado em 21/11/2014 - 17:42h

Para minimizar o problema dos códigos que tiveram censuras, poderia ser aplicada uma exceção a tudo que estiver dentro das tags code.


27. Re: Filtro de palavras de baixo calão

Fábio Berbert de Paula
fabio

(usa Debian)

Enviado em 21/11/2014 - 17:45h

hrcerq escreveu:

Para minimizar o problema dos códigos que tiveram censuras, poderia ser aplicada uma exceção a tudo que estiver dentro das tags code.


A regex já foi corrigida hrcerq, agora o comando cut não é cortado :)

Obrigado.



28. Re: Filtro de palavras de baixo calão

Paulo
paulo1205

(usa Ubuntu)

Enviado em 21/11/2014 - 17:54h

Camaradas,

Vejam o que eu disse lá atrás: a moderação não teria de ser um processo ativo e on-line, mas reativo, mediante provocação, como uma denúncia ou a coincidência de a ofensa ser vista diretamente por um moderador.

Além disso, nem todo o esforço de moderação teria necessariamente de ser feito por uma equipe pequena só do VoL. Ela poderia ser feita, a exemplo de como funcionava no falecido Orkut, pelo criador de cada comunidade ou pessoas por ele designadas.

Vejam o último exemplo que eu postei. É perfeitamente possível ofender sem usar as palavras consideradas pelo script. E também ainda está sendo possível usar artifícios, como caracteres intercalados ou tags de abrir e fechar itálico ou negrito no meio da palavra, só para driblar o filtro.

Por último, há pouco, eu vi que o filtro está barrando as palavras no momento da postagem. Isso é pior ainda. Vai que eu gasto um tempão escrevendo um texto explicativo, e no meio dele existe uma palavra que esteja na lista filtrada por causa de um sentido alternativo ao que eu empreguei no meu texto (por exemplo: “a alocação de memória foi ‘retardada’”). Agora o fórum descarta a postagem e, se eu não tiver feito uma cópia do texto antes de o submeter, eu simplesmente PERCO TODO O ESFORÇO, e nem fico sabendo qual palavra provocou a rejeição.

Parem, por favor, com essa ideia de filtro tácito automático.


29. Re: Filtro de palavras de baixo calão

Paulo
paulo1205

(usa Ubuntu)

Enviado em 21/11/2014 - 18:10h

paulo1205 escreveu:

Por último, há pouco, eu vi que o filtro está barrando as palavras no momento da postagem. Isso é pior ainda. Vai que eu gasto um tempão escrevendo um texto explicativo, e no meio dele existe uma palavra que esteja na lista filtrada por causa de um sentido alternativo ao que eu empreguei no meu texto (por exemplo: “a alocação de memória foi ‘retardada’”). Agora o fórum descarta a postagem e, se eu não tiver feito uma cópia do texto antes de o submeter, eu simplesmente PERCO TODO O ESFORÇO, e nem fico sabendo qual palavra provocou a rejeição.


Melhorou um pouco: agora ao clicar em “Voltar” depois de ter a postagem barrada, ele volta ao texto original indicando os pontos em que ocorreram os cortes.

No entanto, vejam isto que está abaixo. Não tem nada a ver com esta mensagem de agora. O texto era de quando eu estava fazendo testes, e foi produzido numa mensagem isolada. Como ele veio parar aqui? Nenhuma explicação aceitável me ocorre.


Teste: orelha fedida e olho retardado.



30. Re: Filtro de palavras de baixo calão

Fábio Berbert de Paula
fabio

(usa Debian)

Enviado em 21/11/2014 - 18:20h

Paulo,

Você está condenando um sistema que acabou de ser lançado, que está em revisão e aprimoramento e nos trará benefícios já em curto prazo.

Acabei de remover a palavra "retardado" da blacklist. Aos poucos posso remover algumas que consideramos exageradas e incluir outras que passaram batido.

Com português refinado você conseguirá exemplificar dezenas de sentenças que farão com que o filtro pareça burro, mas considere que a linguagem aqui utilizada é simples, linguagem técnica, o que minimiza este impacto.

O post que passa pelo prefitro fica armazenado em sessão, ele é recuperado sim. Se o seu não foi, farei nova revisão para saber o que aconteceu. Até meses atrás o próprio fórum descartava mensagens quando havia erro de conexão e os membros perdiam o que haviam digitado, nem por isso o fórum deixava de ser bom. No decorrer de sua existência o recurso foi implementado. Seguindo sua lógica eu deveria ter tirado o fórum do ar até que tudo estivesse funcionando. A crítica não pode ser tão rigorosa, principalmente como você disse, sobre um site amador.

Pode ter certeza que o filtro ainda vai evoluir muito e no final das contas ele passará desapercebido. Este é um recurso que se tornou necessário para a sobrevivência do VOL. Se fosse possível manter isso com trabalho humano, pode ter certeza que estaríamos fazendo. Mas infelizmente não é.




31. Re: Filtro de palavras de baixo calão

Paulo
paulo1205

(usa Ubuntu)

Enviado em 21/11/2014 - 20:12h

fabio escreveu:

Paulo,

Você está condenando um sistema que acabou de ser lançado, que está em revisão e aprimoramento e nos trará benefícios já em curto prazo.


Caro Fábio,

Eu não estou “condenando”. Mas criticando, isso sim, estou, e com contundência. Não por desdém, nem por me achar melhor do que ninguém, mas justamente porque quero poder falar com a liberdade com que sempre falei, da qual nunca me vali para postar nem mesmo um miserável palavrãozinho, xingamento ou qualquer outra forma de abuso.

Acabei de remover a palavra "retardado" da blacklist. Aos poucos posso remover algumas que consideramos exageradas e incluir outras que passaram batido.

Com português refinado você conseguirá exemplificar dezenas de sentenças que farão com que o filtro pareça burro, mas considere que a linguagem aqui utilizada é simples, linguagem técnica, o que minimiza este impacto.


Ter de remodelar a lista de palavras mostra que se o processo em si não é ruim, pelo menos a escolha original de dicionário não foi das melhores. Será que não teria sido melhor começar com poucas palavras, e aumentar a coleção aos poucos, diante de estrita necessidade?

Eu admito que, do mesmo modo como nunca escrevi, também não gosto de ler palavras como as da família de “f*”. Só que palavras desse tipo são bem diferentes, por exemplo, de “burro”, e não apenas no peso. Além de ter um sentido primário biológico e espaço em figuras de linguagem (como na expressão “trabalhar feito um burro de carga”), o sentido oposto ao de inteligente não se esgota no xingamento ou na desqualificação. Tem, aliás, até um emprego técnico na nossa área, como em “terminal burro”.

Nesse sentido técnico e da nossa área, pode-se dizer, sim, e com propriedade, que o filtro aplicado é burro, pois trabalha mecanicamente, agindo sobre a forma e a despeito do significado do que está sendo filtrado.

Rebuscar palavras para ofender não é nenhuma construção que eu tenha mostrado só para forçar minha opinião. Os exemplos que eu usei são obviamente toscos, longe do primor da “arte” de ofender. No entanto, eu ousaria dizer ofensas por meio de palavras “neutras” tendem a ser até mais devastadoras do que as que vêm por meio de palavrões. Xingar é rápido e fácil, e se faz num ímpeto; escolher palavras com cuidado para massacrar o espírito e minar a reputação requer um tipo de ódio especialmente cultivado -- e doentio.

O post que passa pelo prefitro fica armazenado em sessão, ele é recuperado sim. Se o seu não foi, farei nova revisão para saber o que aconteceu. Até meses atrás o próprio fórum descartava mensagens quando havia erro de conexão e os membros perdiam o que haviam digitado, nem por isso o fórum deixava de ser bom. No decorrer de sua existência o recurso foi implementado. Seguindo sua lógica eu deveria ter tirado o fórum do ar até que tudo estivesse funcionando. A crítica não pode ser tão rigorosa, principalmente como você disse, sobre um site amador.


Eu sou uma “vítima” reiterada de perdas de conteúdo escrito. Quando a sessão expirava em poucas horas (duas, três? agora eu acho que está um pouco maior, você confirma?), eu cansei de perder posts explicativos muito extensos (como alguns sobre ponteiros em C).

Eu percebi a persistência de sessão num caso em que não deveria. Como disse acima, tentei postar uma mensagem de teste que sabia que seria recusada pelo filtro, e a cancelei quando a recusa ocorreu. Depois, respondi a outra coisa não relacionada, e a mensagem barrada apareceu no final do bloco de citação.

Por favor, não abuse dos meus argumentos contra filtros tácitos. Eu jamais sugeri suspender o fórum para testes. Ao contrário: eu defendi testes exaustivos num ambiente à parte.

Eu leio diariamente na cabeceira de todas as páginas do site "Viva o Linux porque nós amamos a liberdade!" (com direito a ponto de exclamação). No entanto, agora, estamos com um filtro tácito de conteúdo, aplicado inclusive sobre conteúdo previamente publicado. Meu sentimento é o de estar no meio de uma contradição filosófica.

Pode ter certeza que o filtro ainda vai evoluir muito e no final das contas ele passará desapercebido. Este é um recurso que se tornou necessário para a sobrevivência do VOL. Se fosse possível manter isso com trabalho humano, pode ter certeza que estaríamos fazendo. Mas infelizmente não é.


Você implica que todo material teria se ser submetido a intenso escrutínio. Eu não discordo.

A rigor, é isso o que o filtro implementado faz, aliás. Só que o filtro limita a forma, não o teor, e pode agir erroneamente sobre formas suspeitas, mas não ofensivas, e deixar passar teor absurdamente nocivo, mas que não desperte suspeitas formais. Tenho o palpite de que, do ponto de vista de eficiência, o filtro seria inútil em 90% ou mais dos casos (você tem como medir isso; seria até interessante saber). Afinal, você mesmo disse, acima, que a maior parte do conteúdo é em linguagem simples e técnica, com que eu concordo plenamente.

Eu divirjo de você no que diz respeito a elevar o nível do processo de filtragem de léxico para o semântico. Pela forma como eu entendo, o escrutínio necessário seria feito pela comunidade que se reúne no VoL, não pelo seu corpo técnico ou administrativo. Aliás, até uma parte do esforço de resposta a problemas encontrados poderia ser delegado para alguns membros dessa comunidade.

Hoje, como VoL se protege contra spam? Não confia em pessoas que reportam abusos? Esses avisos de abuso são em volume além do tratável?

Eu cheguei a mencionar as comunidades do Orkut como modelo, mas nós temos um exemplo muito mais próximo, que serve para analogia, chamado Linux. Quem testa (análogo a ler) tudo o que se programa (análogo ao que se escreve) o Fedora ou versões não-LTS do Ubuntu? São os desenvolvedores? Não (ou pelo menos não exclusivamente). Muito menos é o Linus Torvalds. É a comunidade. E é a comunidade que reporta os erros (análogo a abusos), para que os desenvolveres os possam corrigir. Aliás, muitas vezes a comunidade produz as correções (patches, sugestões), que os desenvolvedores podem analisar mais rapidamente e aplicar.


32. Re: Filtro de palavras de baixo calão

Buckminster
buckminster

(usa Debian)

Enviado em 21/11/2014 - 23:34h

Bom, na parte técnica o Fábio tem razão.

Um filtro desse tipo vai sendo implementado aos poucos (não há outra maneira) e com o tempo ele vai sendo refinado até ficar "redondo".

São muitas palavras inseridas umas dentro de outras, o próprio exemplo do Paulo reflete isso, o nome contém as três primeiras letras que formam 'p a u', então até se bloquear somente essa palavra sem bloquear tudo, vai se refinando.

Uma ou outra palavra que deveria ser bloqueada sempre vai passar, assim como uma plavra que não deveria ser bloqueada vai ser bloqueada, mas com o tempo isso se ajeita.


33. Re: Filtro de palavras de baixo calão

Xerxes
xerxeslins

(usa openSUSE)

Enviado em 22/11/2014 - 00:44h

Vou testar:

cuzão
<span class='censurado'>[*****]</span>
[*****]
<span class='censurado'>[*****]</span>
[*****]
<span class='censurado'>[*****]</span>
[*****]
[*****]
[*****]
[*****]
windows

edit:

Aí, passaram essas 8. Adiciona na blacklist! Abraço.


34. Re: Filtro de palavras de baixo calão

Perfil removido
removido

(usa Nenhuma)

Enviado em 22/11/2014 - 02:19h

xerxeslins escreveu:

Vou testar:

<span class='censurado'>[*****]</span>
<span class='censurado'>[*****]</span>
<span class='censurado'>[*****]</span>
<span class='censurado'>[*****]</span>
<span class='censurado'>[*****]</span>
<span class='censurado'>[*****]</span>
<span class='censurado'>[*****]</span>
<span class='censurado'>[*****]</span>
<span class='censurado'>[*****]</span>
<span class='censurado'>[*****]</span>
windows

edit:

Aí, passaram essas 8. Adiciona na blacklist! Abraço.


Escapou uma &#8599;


35. Re: Filtro de palavras de baixo calão

Xerxes
xerxeslins

(usa openSUSE)

Enviado em 22/11/2014 - 03:13h

Mais algumas...

<span class='censurado'>[*****]</span>
[*****]
[*****]
<span class='censurado'>[*****]</span>
<span class='censurado'>[*****]</span>
[*****]
[*****]
<span class='censurado'>[*****]</span>
[*****]
[*****]
<span class='censurado'>[*****]</span>
[*****]
<span class='censurado'>[*****]</span>
carai
<span class='censurado'>[*****]</span>
caga
cagou
cagar
cagão
cagona
cagando
[*****]
peidorrento
<span class='censurado'>[*****]</span>
[*****]
[*****]
puto
<span class='censurado'>[*****]</span>
putão
<span class='censurado'>[*****]</span>
caraleo
arrombado
arrombada
tesuda
tesudo
<span class='censurado'>[*****]</span>
rabão
boiola
baitola
[*****]
[*****]
[*****]

edit: 31 \o/ passaram


36. Re: Filtro de palavras de baixo calão

Fábio Berbert de Paula
fabio

(usa Debian)

Enviado em 22/11/2014 - 09:50h

Boa Xerxes,

Cadastrei! Algumas deixei passar por não considerar palavrão, não sei se concordam.

Um abraço.









Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts