Hi Wei -<br><br>I am running gentoo linux on amd64, 2 or 4 opteron 8216 per node.&nbsp; Kernel is&nbsp; 2.6.23-gentoo-r4 SMP.&nbsp; I have infiniband built into the kernel:<br><br>CONFIG_INFINIBAND=y<br>CONFIG_INFINIBAND_USER_MAD=y<br>CONFIG_INFINIBAND_USER_ACCESS=y
<br>CONFIG_INFINIBAND_USER_MEM=y<br>CONFIG_INFINIBAND_ADDR_TRANS=y<br>CONFIG_INFINIBAND_MTHCA=y<br>CONFIG_INFINIBAND_MTHCA_DEBUG=y<br>CONFIG_INFINIBAND_AMSO1100=y<br>CONFIG_MLX4_INFINIBAND=y<br>CONFIG_INFINIBAND_IPOIB=y<br>
CONFIG_INFINIBAND_IPOIB_DEBUG=y<br><br>I am using the openib-mvapich2-1.0.1 package in the gentoo-science overlay addition to the standard gentoo packages.&nbsp; I have also tried 1.0 with the same results.<br><br>I compiled with multithreading turned on (haven&#39;t tried without this, but the sample codes I am initially testing are not multithreaded, although my application is).&nbsp; I also tried with or without rdma with no change.&nbsp; The script seems to be setting the build for SMALL_CLUSTER.
<br><br>Let me know what other information would be useful.<br><br>Thanks,<br>&nbsp; Brian<br><br><br><br><div class="gmail_quote">On Jan 4, 2008 6:12 PM, wei huang &lt;<a href="mailto:huanwei@cse.ohio-state.edu">huanwei@cse.ohio-state.edu
</a>&gt; wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">Hi Brian,<br><br>Thanks for letting us know this problem. Would you please let us know some
<br>more details to help us locate the issue.<br><br>1) More details on your platform.<br><br>2) Exact version of mvapich2 you are using. Is it from OFED package? or<br>some version from our website.<br><br>3) If it is from our website, did you change anything from the default
<br>compiling scripts?<br><br>Thanks.<br><font color="#888888"><br>-- Wei<br></font><div><div></div><div class="Wj3C7c">&gt; I&#39;m new to the list here... hi! &nbsp;I have been using OpenMPI for a while, and<br>&gt; LAM before that, but new requirements keep pushing me to new
<br>&gt; implementations. &nbsp;In particular, I was interested in using infiniband (using<br>&gt; OFED <a href="http://1.2.5.1" target="_blank">1.2.5.1</a>) in a multi-threaded environment. &nbsp;It seems that MVAPICH is the<br>&gt; library for that particular combination :)
<br>&gt;<br>&gt; In any case, I installed MVAPICH, and I can boot the daemons, and run the<br>&gt; ring speed test with no problems. &nbsp;When I run any programs with mpirun,<br>&gt; however, I get an error when sending or receiving more than 8192 bytes.
<br>&gt;<br>&gt; For example, if I run the bandwidth test from the benchmarks page<br>&gt; (osu_bw.c), I get the following:<br>&gt; ---------------------------------------------------------------<br>&gt; budge@burn:~/tests/testMvapich2&gt; mpirun -np 2 ./a.out
<br>&gt; Thursday 06:16:00<br>&gt; burn<br>&gt; burn-3<br>&gt; # OSU MPI Bandwidth Test v3.0<br>&gt; # Size &nbsp; &nbsp; &nbsp; &nbsp;Bandwidth (MB/s)<br>&gt; 1 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 1.24<br>&gt; 2 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 2.72<br>&gt; 4 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 
5.44<br>&gt; 8 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;10.18<br>&gt; 16 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 19.09<br>&gt; 32 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 29.69<br>&gt; 64 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 65.01<br>&gt; 128 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 147.31<br>&gt; 256 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 
244.61<br>&gt; 512 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 354.32<br>&gt; 1024 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;367.91<br>&gt; 2048 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;451.96<br>&gt; 4096 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;550.66<br>&gt; 8192 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;598.35<br>&gt; [1][ch3_rndvtransfer.c:112] Unknown protocol 0 type from rndv req to send
<br>&gt; Internal Error: invalid error code ffffffff (Ring Index out of range) in<br>&gt; MPIDI_CH3_RndvSend:263<br>&gt; Fatal error in MPI_Waitall:<br>&gt; Other MPI error, error stack:<br>&gt; MPI_Waitall(242): MPI_Waitall(count=64, req_array=0xdb21a0,
<br>&gt; status_array=0xdb3140) failed<br>&gt; (unknown)(): Other MPI error<br>&gt; rank 1 in job 4 &nbsp;burn_37156 &nbsp; caused collective abort of all ranks<br>&gt; &nbsp; exit status of rank 1: killed by signal 9<br>&gt; ---------------------------------------------------------------
<br>&gt;<br>&gt; I get a similar problem with the latency test, however, the protocol that is<br>&gt; complained about is different:<br>&gt; --------------------------------------------------------------------<br>&gt; budge@burn
:~/tests/testMvapich2&gt; mpirun -np 2 ./a.out<br>&gt; Thursday 09:21:20<br>&gt; # OSU MPI Latency Test v3.0<br>&gt; # Size &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;Latency (us)<br>&gt; 0 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 3.93<br>&gt; 1 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 
4.07<br>&gt; 2 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 4.06<br>&gt; 4 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 3.82<br>&gt; 8 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 3.98<br>&gt; 16 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;4.03<br>&gt; 32 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;4.00<br>&gt; 64 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;
4.28<br>&gt; 128 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 5.22<br>&gt; 256 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 5.88<br>&gt; 512 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 8.65<br>&gt; 1024 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;9.11<br>&gt; 2048 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 11.53<br>&gt; 4096 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 
16.17<br>&gt; 8192 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 25.67<br>&gt; [1][ch3_rndvtransfer.c:112] Unknown protocol 8126589 type from rndv req to<br>&gt; send<br>&gt; Internal Error: invalid error code ffffffff (Ring Index out of range) in
<br>&gt; MPIDI_CH3_RndvSend:263<br>&gt; Fatal error in MPI_Recv:<br>&gt; Other MPI error, error stack:<br>&gt; MPI_Recv(186): MPI_Recv(buf=0xa8ff80, count=16384, MPI_CHAR, src=0, tag=1,<br>&gt; MPI_COMM_WORLD, status=0x7fff14c7bde0) failed
<br>&gt; (unknown)(): Other MPI error<br>&gt; rank 1 in job 5 &nbsp;burn_37156 &nbsp; caused collective abort of all ranks<br>&gt; --------------------------------------------------------------------<br>&gt;<br>&gt; The protocols (0 and 8126589) are consistent if I run the program multiple
<br>&gt; times.<br>&gt;<br>&gt; Anyone have any ideas? &nbsp;If you need more info, please let me know.<br>&gt;<br>&gt; Thanks,<br>&gt; &nbsp; Brian<br>&gt;<br><br></div></div></blockquote></div><br>