当前位置: 首页 > 面试题库 >

LSH使用的哈希值混淆

陶成济
2023-03-14
问题内容

矩阵M是签名矩阵,它是通过对实际数据进行Minhashing处理而生成的,其文档为列,单词为行。因此,一列代表一个文档。

现在,它说每个条带(b在数量上,r在长度上)都有其列的散列,因此列落入了存储桶中。如果两列属于同一存储桶(对于> = 1条带),则它们可能相似。

因此,这意味着我应该创建b哈希表并找到b独立的哈希函数?还是只有一个就足够了,每个条带都将其列发送到相同的存储桶集合(但这不会取消条带)吗?


问题答案:

我想我已经弄明白了,发布给以后的读者。

我将使用一个字典,因为幻灯片提到可以对每个条带使用相同的哈希函数。

每个存储桶都是我们字典的关键。

插入时,文档(即,属于条带的列)将通过哈希函数(将由 我们 创建)传递,并且结果应为键。这样,我们的字典将被填充。



 类似资料:
  • 我正在使用BCryptPasswordEncoder使用spring security。现在对于更改密码,我需要做的是比较用户提供的现有密码和DB值。 但是由于salt是由动态生成的,所以每次我从下面的方法得到不同的散列值,并且不一定会与我的DB值匹配。 解决这个问题的办法是什么?我能识别用于我的DB字段的盐并在上面的方法中使用相同的盐吗?

  • 当人们说Hashmap比列表更快时,我对Hashmap或Hashtable的概念更困惑。我很清楚散列的概念,其中的值存储在给定密钥的散列代码中。 但是,当我想检索数据时,例如,它是如何工作的,我在一个HashMap中存储n个带有n个不同键的字符串。如果我想检索与特定键关联的特定值,它将如何在O(1)的时间内返回它?因为散列密钥将与所有其他密钥进行比较,对吗?

  • 问题内容: 我不知道如何实现从php到java的这几行。 好吧,我尝试将其转换,但是得到了不同的结果! java中的结果不同于php中的结果。 你能帮我吗??先感谢您 :) 问题答案: 您不能在不将其转换为字符串的情况下直接使用seq20吗?我会这样:

  • 但我更喜欢更地道的形式: 我相信有一种更简洁的方法可以将这对代码“解压缩”到语句的签名中。

  • 考虑@data是一个带有日期、类、名称和等级字段的Active记录数组。假设我想以两个哈希结束,一个是每个名称的所有日期的唯一集合;另一个按类、日期和名称细分以显示等级。 > 导致错误: nil:NilClass的未定义方法“[]=”

  • 问题内容: 当大小超过maxthreshold值时,如何在哈希表或哈希表中进行重新哈希处理? 是否所有对都已复制到新的存储桶阵列中? 编辑: 重新哈希后,同一存储桶(位于链接列表中)中的元素会发生什么情况?我的意思是说,他们在重新哈希处理后会留在同一个桶中吗? 问题答案: 问题中的最大阈值称为负载系数。 建议负载系数约为0.75。负载因子定义为(m / n),其中n是哈希表的总大小,m是在需要增加

  • 我想在命令行上这样做,所以像这样的事情会很好: 上面的方法当然不适合散列。所以最后我需要打电话 以自动化的方式。

  • 问题内容: 我遇到了一个以前不必处理的问题。我正在用Java为数据库编写一个补丁,该补丁基本上是在转换存储在某些行中的数据。为了做到这一点,我有一个转换表,告诉我什么值变成什么。 例如,如果我读了“ RC”,“ AC”,“ GH”之一->将值更新为“ T1”。(这些只是随机的示例,基本上是将一个字符串转换为另一个字符串。) 我需要一种存储这些转换的好方法。我在想一个哈希图:KEY,VALUE:(R