语料库包含的样本数量平日很大年夜,具体数量取决于语料库的大小跟范畴。一般来说,一个大年夜型的语料库可能包含数百万乃至数十亿个样本。这些样本可能是文本、语音、视频或图像,具体取决于语料库的范例跟利用范畴。因此,语料库中的样本数量是绝对较大年夜的,无法简单地给出一个确切的数字。
语料库包含四个部分:原始句子库、词法标注库、句法标注库跟句义构造标注库。