Effectivement, restreindre les textes soumis à une industrie dont de larges lexiques sont fournis est une solution permettant d'améliorer la pertinence de l'analyse. Et des logicels comme ceux proposés par les société Temis (Luxid) et SSPS sont censés faire ça plutôt bien. 01 Info les présente dans un sujet, pour ceux que ça intéresse:
http://www.01net.com/editorial/386385/l-analyse-semantique-devient-sentimentale/Mais je partage l'avis d'anham sur ce sujet. Ce qui a de bonnes chances de fonctionner dans des domaines de publication très normés (communication finnancière, par exemple) échoue encore dans les réseaux sociaux et les publications citoyennes où l'orthographe et la grammaire constituent une première barrière franchissable, mais les effets de style, les formes d'ironie, le sarcasme ... sont hors de portée d'analyse pour les algorithmes actuels.
Pour ceux que ça intéresse, ce livre présente un état de l'art (ardu et peut-être déjà vieillissant): Shannahan / Qu / Wiebe (Eds.): "Computing Attitude and Affect in Text: Theory and Applications". (Springer, 2006) et j'ai une petite bibliographie d'articles en complément. Vous pouvez également tester ces deux sites:
http://www.liwc.net/ et
http://text0.mib.man.ac.uk:8080/opminpackage/opinion_analysis, qui proposent des outils similaires à celui envoyé par Joel, ci-dessus mais en langue anglaise.
Deux espoirs possibles ?
* Que les erreurs commises au niveau d'un site s'annulent statistiquement. En s'intéressant aux tendances de nombreux sites, les erreurs individuelles dues au style de chaque site sont peut-être moins importantes ?
* Paradoxalement, en s'intéressant à la tonalité par sujet plutôt qu'à la tonalité globale d'un texte, on complexifie le problème mais on le localise peut-être à des zones moins ambigües.
Deux idées naïves et non vérifiées.
Bref, je n'y crois pas trop pour l'instant, mais je ne demande qu'à avoir tort
Pascal