使用Python语言检测模块langid和langDetect的示例

terry 3年前 (2023-09-25) 阅读数 143 #后端开发

还有其他使用数据编码风格检测的chardet模块。现在提到的两个模块都是检测语言数据类型，比如：中文还是英文。该模块的使用方法比较简单。这里只是简单的使用了一下，因为项目有需要，所以使用了一段时间，没有深入研究这两个模块。我已经给出了模块地址链接。有需要的可以去研究一下：

def langidFunc():
  '''
  https://github.com/yishuihanhan/langid.py
  '''
  print langid.classify("We Are Family")
  print langid.classify("Questa e una prova")
  print langid.classify("我们都有一个家")
  identifier=LanguageIdentifier.from_modelstring(model,norm_probs=True)
  print identifier.classify("We Are Family")
 
def langdetectFunc():
  '''
  https://github.com/yishuihanhan/langdetect
  '''
  s1=u"本篇文章主要介绍两款语言探测工具，用于区分文本到底是什么语言，"
  s2=u'We are pleased to introduce today a new technology'
  print detect(s1)
  print detect(s2)
  print detect_langs(s2)  # detect_langs()输出探测出的所有语言类型及其所占的比例
  print detect_langs("Otec matka syn.")

结果如下：

('en', 9.061840057373047)
('it',-35.41771221160889)5.41771221160889 342)
('en' ', 0.16946150595865334)
zh-cn
en
[en:0.999998109575]
zh-cn
en
[en:0.99999810957 5]0568772028]

版权声明

本文仅代表作者观点，不代表Code前端网立场。
本文系作者Code前端网发表，如需转载，请注明页面地址。

上一篇：学习编程Python+mysql：实现教育管理系统下一篇：Python子类继承父类构造函数的相关知识

使用Python语言检测模块langid和langDetect的示例

版权声明

作者文章