司无法复制的规模检测单词

您使用的语料库大小是多少?
当我们分析文本时,总的语料库(世界上所有的书面内容)是无法获得的,但幸运的是,没有必要分析世界上的每一个内容来知道“大多数”人是如何写作的。一般来说,语料库中的文档或元素数量越多,我们从中获得的质量就越高,但在某个时刻,数据已经达到这样的质量,不会因为添加越来越多的数据而改变。

正如我们所说,每个人都有自己的资源,有些人比其他人拥有更多的资源

让我们想想搜索引擎优化和无所不在的谷歌。谷歌先生可以访问海量的语料库:他抓取的整个互联网都可以供他分析。这使您能够以大多数公之间的模式和关系。有了如此大量的数据,对语言的任何分析都将变得全球化。其他基于语义分析的工具也会遇到类似的情况。这包括现在非常流行的LLM,比如chatGPT之类的,其他搜索引擎比如Bing以及大型分析公司或大学。

下一个级别的功率将有更温和的应用

但仍然有很多肌肉。在此阶段,我们处理大 电话号码资源 公司生成或有权访问的数十万份文档。这种材料不是那么全球化,但足以开发非常强大的模型和分析(我再次参考法学硕士,以便您在谈论权力时明白我在说什么)。

电话号码资源

 

就在下面,我们收集了公开存在的公

共语料库,例如著名的 Common Crawl ,您可以在其中下载它们的文本以开始处理大量数据(事实上,这个数据源是许多法学硕士开始生成的)。每个人都可以访问这些数据,并且数据就在那里,但是当你拥有它时,你将面临另一个问题:处理所有这 在旅游营销中在线脱颖而出:酒店品牌培训(蜜蜂折扣 50 欧元) 些残酷的数据并不总是有利可图的。只有当你非常非常认真地对待它时才会如此。

最后,可以选择选择更小

更专业的语料库,您可以自己创建自 tw 列表 己的文档数据库,这些文档数据库对于您想要分析的案例来说或多或少都大。这会显着降低您所做工作的质量,但作为回报,它会大大加快信息收集速度或专门针对您想要考虑的具体情况。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注