Thursday, August 22, 2013

Apple 电话面试 面经

发信人: seahearman (听海人), 信区: Statistics
标  题: Apple 电话面试 面经
发信站: BBS 未名空间站 (Thu Aug 22 16:58:30 2013, 美东)

感觉不是很好,一共就问了一个问题,关于Map 定位,现在正在用一个算法A,然后想
比较是不是算法B更好,数据库里面保存了上个月的20M的Queries,现在要从这20M里面
挑5K个拿来比较,当挑出这5K个之后,对于每个query,算法A和算法B都会给一个结果
,已有算法对这结果进行打分。问题是怎么挑着5K个queries?

我说了两个方法,最简单的就是randomly挑,但是又有缺点,就是可能会有queries是
类似的。当然每个query根据搜索的内容,发出query的地址不同都是不同的。我觉得可
能的缺点是没法考虑outlier。

另外一种方法就是先归类,哪怕有1M的queries都是搜附近的starbucks是哪里,我也就
在这5K要提交的queries里面抽一个是问starbucks在哪里。把剩下的席位留给其他很不
一样的Queries。但是这个里面需要建立一个东西来衡量不同queries的distance。尽量
保证着5K个queries两两之间的distance比较大。然后他问你这样算出来的结果能代表
那20M的queries吗?我说不能,但是你能知道两种算法AB在不同queries里面的表现如
何。
--

※ 来源:·WWW 未名空间站 海外: mitbbs.com 中国: mitbbs.cn·[FROM: 71.]

http://www.mitbbs.com/article_t/Statistics/31353941.html

No comments:

Post a Comment