删除本地lmod模块或更新HPC群集上的本地lmod模块列表

问题描述:

我正在使用HPC群集。我成功创建了本地openmpi_gpu模块(使用intel17.2和cuda 8.0编译)。我所做的是,存储cuda_17.2.lua文件目录删除本地lmod模块或更新HPC群集上的本地lmod模块列表

${HOME}/modulefiles/Core/openmpi_gpu/ 

并经过

module use $HOME/modulefiles/Core 

我可以通过键入module avail看到新的模块“openmpi_gpu/cuda_17.2”。

现在,我打算删除此模块,并将其替换为使用intel 17.2而不使用cuda/8.0编译的新openmpi。所以我rm -rf openmpi_gpu删除openmpi_gpu的源文件,并用intel 17.2重新编译一个openmpi。然后我删除目录${HOME}/modulefiles/Core/openmpi_gpu/,并创建一个新目录${HOME}/modulefiles/Core/openmpi_intel/来存储新的.lua文件local_17.2.lua

但是,现在我尝试了module avail,但仍然可以看到旧模块“openmpi_gpu/cuda_17.2”,并且看不到新模块“openmpi/local_17.2”。

我怀疑我不应该删除该模块只是通过删除源文件,或者我应该做一些事情来更新模块列表。无论如何,有没有人有任何关于这个问题的想法?先谢谢你。

Lmod使用cache,因此您可能只是看到缓存并且尚未更新。运行以下命令重置密码:

rm -rf ~/.lmod.d/.cache 

或者,你可以使用--ignore_cache选项:

module --ignore_cache avail