矩阵M
是签名矩阵,它是通过对实际数据进行Minhashing处理而生成的,其文档为列,单词为行。因此,一列代表一个文档。
现在,它说每个条带(b
在数量上,r
在长度上)都有其列的散列,因此列落入了存储桶中。如果两列属于同一存储桶(对于> = 1条带),则它们可能相似。
因此,这意味着我应该创建b
哈希表并找到b
独立的哈希函数?还是只有一个就足够了,每个条带都将其列发送到相同的存储桶集合(但这不会取消条带)吗?
我想我已经弄明白了,发布给以后的读者。
我将使用一个字典,因为幻灯片提到可以对每个条带使用相同的哈希函数。
每个存储桶都是我们字典的关键。
插入时,文档(即,属于条带的列)将通过哈希函数(将由 我们 创建)传递,并且结果应为键。这样,我们的字典将被填充。