语料库(分析的元素的总集)对于任何共现分析都是必不可少的。这是您执行的所有分析所基于的上下文。在文本分析中,语料库将是您分析的所有文档。在文学书籍中,它可以是作者或出版商的所有书籍,在我们之前的示例中,它可以是您在外出时与朋友进行的所有互动的记录,或者可能是您在一年内写下的所有条目。日记。
语料库很重要,因为它标志着您正在执行的分析的质量和专业化:
如果语料库太小或不完整,您从中获得的共现可能无法代表您想要可视化的现实。
如果要分析一种语言,你只考虑几篇文章,你将很难看 手机数据 到该语言的所有风格、思想和词汇。在我们关于友谊的例子中,想象一下,要了解您与熟人的关系,您只需考虑生活中某一天发生在您身上的事情。这甚至可能无法代表所有与你最契合的人。
语料库选择会影响您分析的专业程度
同样,您选择的元素标志着您的分析的缺陷或专业程度。
这可能是有意的,也可能不是有意的。重要的是,您要考虑到这一点,并且不要发现自己的分析只会给您带来有偏见的观点,而您却没有 当您在线搜索某些内容时可能会点击前 寻找这种偏见。
例如,之前我们说过使用给定作者的所有
书籍作为语料库。如果您的分析集中于该作者,这可能会很好,因为您将能够理解他在书中表达自己的方式的独特性。但如果你不考虑这一点,并且你认为这些书代表了你的友谊如何表达自己,那么它可能会适得其反。或者想象一下,为了了解你所有的关系,你只分析了在工作时间发生的那些关系……这可能并不能反映你真正的友谊是什么。是的,工作分析对于发现大公司中自行形成的核心和社区非常有用,但它不能代表你最亲密的朋友,除非你是一个真正的工作狂。
简而言之,语料库必须以足够的量代表
您要分析的整个群体。在那里,我们每个人都会拥有 tw 列表 自己的资源,我们会看到,无论我们多么想要它,有时我们都没有我们想要的语料库。