Tag Archives: 千核并行

1024个CPU核下的测试

  正在单位加班。所里新建的平台上有96小时独占机时,可以跑一些1024个CPU核的测试。机器跑起来了,等结果的空隙就上来敲点BLOG。

  这次测试,对pFind来说只是重复以前在曙光500A和升腾7000上的试验结论。昨天pFind引擎刚启动,系统管理员就报告他那边的性能监控服务里面, 各个节点的CPU占用率都满了。首先跑了一个热身任务,在腾冲嗜热菌数据上,设置了包括磷酸化在内的5个修饰,开300Da的超大误差窗口,跑了4小时,看来很稳定。上次超龙一号超级计算机硬件插电测试,用pFind烤机,随便跑跑,就报警说CPU过热。

  pNovo是第一次走这么大规模并行测试,一开始IO有点阻塞,换了OpenMPI,效果就好起来,1024核情况下加速比甚至超过pFind。

  pLink还没跑,估计比较麻烦,对于这种谱少,搜索量重的情况,负载均衡是个问题。早上开车去NIBS找yb拿pLink测试数据,他也在加班做试验。看到dmq老板也在加班赶deadline。

  前天为试验做准备的时候,发现系统里面现有的MPI库都被损坏了,不得不自己安装;另外发现集群的文件系统句柄数上限只设置为1024个,改为65536个。不禁怀疑此前使用和测试的课题组的测试认真程度,这些基础设施都有问题,能测多大规模的并行任务呢。不管别人如何,我这里不放卫星扯淡。其实吧,技术上到底是不是有货,很容易感受到,例如一起汇报的时候,工程师的气场就不一样。

  感谢各位同志们的帮助。

  最近挺累,但心情不错。上个月有一天晚上疲惫地回到家,吃完饭,抱着女儿哄她睡觉,“等你长大了,会发现世界的不完美,会郁闷,但是要相信,总可以找到值得托付的人和事”。她眼睛瞪得大大的,突然咧开嘴冲我笑。一瞬间,绷得紧紧的神经就放松下来。第二天,接到了纠结期盼已久的重要电话,总算熬过了最低潮的阶段。女儿是我的小福星。