使用Python语言检测模块langid和langDetect的示例
还有其他使用数据编码风格检测的chardet模块。现在提到的两个模块都是检测语言数据类型,比如:中文还是英文。该模块的使用方法比较简单。这里只是简单的使用了一下,因为项目有需要,所以使用了一段时间,没有深入研究这两个模块。我已经给出了模块地址链接。有需要的可以去研究一下:
def langidFunc(): ''' https://github.com/yishuihanhan/langid.py ''' print langid.classify("We Are Family") print langid.classify("Questa e una prova") print langid.classify("我们都有一个家") identifier=LanguageIdentifier.from_modelstring(model,norm_probs=True) print identifier.classify("We Are Family") def langdetectFunc(): ''' https://github.com/yishuihanhan/langdetect ''' s1=u"本篇文章主要介绍两款语言探测工具,用于区分文本到底是什么语言," s2=u'We are pleased to introduce today a new technology' print detect(s1) print detect(s2) print detect_langs(s2) # detect_langs()输出探测出的所有语言类型及其所占的比例 print detect_langs("Otec matka syn.")
结果如下:
('en', 9.061840057373047)
('it',-35.41771221160889)5.41771221160889 342)
('en' ', 0.16946150595865334)
zh-cn
en
[en:0.999998109575]
zh-cn
en
[en:0.99999810957 5]0568772028]
版权声明
本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。