Hi Wei -<br><br>I changed from SMALL_CLUSTER to MEDIUM_CLUSTER, but it made no difference.&nbsp; <br><br>When I build with rdma, this adds the following:<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; export LIBS=&quot;${LIBS} -lrdmacm&quot;<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; export CFLAGS=&quot;${CFLAGS} -DADAPTIVE_RDMA_FAST_PATH -DRDMA_CM&quot;
<br><br>It seems that I am using the make.mvapich2.detect script to build.&nbsp; It asks me for my interface, and gives me the option for the mellanox interface, which I choose.<br><br>I just tried a fresh install directly from the tarball instead of using the gentoo package.&nbsp; Now the program completes (goes beyond 8K message), but my bandwidth isn&#39;t very good.&nbsp; Running the osu_bw.c test, I get about 250 MB/s maximum.&nbsp; It seems like IB isn&#39;t being used.
<br><br>I did the following:<br>./make.mvapich2.detect #, and chose the mellanox option<br>./configure --enable-threads=multiple<br>make<br>make install<br><br>So it seems that the package is doing something to enable infiniband that I am not doing with the tarball.&nbsp; Conversely, the tarball can run without crashing.
<br><br>Advice?<br><br>Thanks,<br>&nbsp; Brian<br><br><div class="gmail_quote">On Jan 6, 2008 6:38 AM, wei huang &lt;
<a href="mailto:huanwei@cse.ohio-state.edu" target="_blank">huanwei@cse.ohio-state.edu</a>&gt; wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
Hi Brian,
<br><div><br>&gt; I am using the openib-mvapich2-1.0.1 package in the gentoo-science overlay<br>&gt; addition to the standard gentoo packages. &nbsp;I have also tried 1.0 with the<br>&gt; same results.<br>&gt;<br>
&gt; I compiled with multithreading turned on (haven&#39;t tried without this, but<br>&gt; the sample codes I am initially testing are not multithreaded, although my<br>&gt; application is). &nbsp;I also tried with or without rdma with no change. &nbsp;The
<br>&gt; script seems to be setting the build for SMALL_CLUSTER.<br><br></div>So you are using make.mvapich2.ofa to compile the package? I am a bit<br>confused about &#39;&#39;I also tried with or without rdma with no change&#39;&#39;. What
<br>exact change you made here? Also, SMALL_CLUSTER is obsolete for ofa<br>stack...<br><font color="#888888"><br>-- Wei<br></font><div><div></div><div><br>&gt;<br>&gt; Let me know what other information would be useful.
<br>&gt;<br>&gt; Thanks,<br>&gt; &nbsp; Brian<br>&gt;<br>&gt;<br>&gt;<br>&gt; On Jan 4, 2008 6:12 PM, wei huang &lt;<a href="mailto:huanwei@cse.ohio-state.edu" target="_blank">huanwei@cse.ohio-state.edu</a>&gt; wrote:<br>&gt;
<br>&gt; &gt; Hi Brian,
<br>&gt; &gt;<br>&gt; &gt; Thanks for letting us know this problem. Would you please let us know some<br>&gt; &gt; more details to help us locate the issue.<br>&gt; &gt;<br>&gt; &gt; 1) More details on your platform.<br>
&gt; &gt;
<br>&gt; &gt; 2) Exact version of mvapich2 you are using. Is it from OFED package? or<br>&gt; &gt; some version from our website.<br>&gt; &gt;<br>&gt; &gt; 3) If it is from our website, did you change anything from the default
<br>&gt; &gt; compiling scripts?<br>&gt; &gt;<br>&gt; &gt; Thanks.<br>&gt; &gt;<br>&gt; &gt; -- Wei<br>&gt; &gt; &gt; I&#39;m new to the list here... hi! &nbsp;I have been using OpenMPI for a while,<br>&gt; &gt; and<br>&gt; &gt; &gt; LAM before that, but new requirements keep pushing me to new
<br>&gt; &gt; &gt; implementations. &nbsp;In particular, I was interested in using infiniband<br>&gt; &gt; (using<br>&gt; &gt; &gt; OFED <a href="http://1.2.5.1" target="_blank">1.2.5.1</a>) in a multi-threaded environment. &nbsp;It seems that MVAPICH is
<br>&gt; &gt; the<br>&gt; &gt; &gt; library for that particular combination :)<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; In any case, I installed MVAPICH, and I can boot the daemons, and run<br>&gt; &gt; the<br>&gt; &gt; &gt; ring speed test with no problems. &nbsp;When I run any programs with mpirun,
<br>&gt; &gt; &gt; however, I get an error when sending or receiving more than 8192 bytes.<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; For example, if I run the bandwidth test from the benchmarks page<br>&gt; &gt; &gt; (osu_bw.c), I get the following:
<br>&gt; &gt; &gt; ---------------------------------------------------------------<br>&gt; &gt; &gt; budge@burn:~/tests/testMvapich2&gt; mpirun -np 2 ./a.out<br>&gt; &gt; &gt; Thursday 06:16:00<br>&gt; &gt; &gt; burn<br>
&gt; &gt; &gt; burn-3
<br>&gt; &gt; &gt; # OSU MPI Bandwidth Test v3.0<br>&gt; &gt; &gt; # Size &nbsp; &nbsp; &nbsp; &nbsp;Bandwidth (MB/s)<br>&gt; &gt; &gt; 1 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 1.24<br>&gt; &gt; &gt; 2 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 2.72<br>&gt; &gt; &gt; 4 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 
5.44<br>&gt; &gt; &gt; 8 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;10.18<br>&gt; &gt; &gt; 16 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 19.09<br>&gt; &gt; &gt; 32 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 29.69<br>&gt; &gt; &gt; 64 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 65.01<br>&gt; &gt; &gt; 128 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 
147.31<br>&gt; &gt; &gt; 256 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 244.61<br>&gt; &gt; &gt; 512 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 354.32<br>&gt; &gt; &gt; 1024 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;367.91<br>&gt; &gt; &gt; 2048 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;451.96<br>&gt; &gt; &gt; 4096 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;
550.66<br>&gt; &gt; &gt; 8192 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;598.35<br>&gt; &gt; &gt; [1][ch3_rndvtransfer.c:112] Unknown protocol 0 type from rndv req to<br>&gt; &gt; send<br>&gt; &gt; &gt; Internal Error: invalid error code ffffffff (Ring Index out of range) in
<br>&gt; &gt; &gt; MPIDI_CH3_RndvSend:263<br>&gt; &gt; &gt; Fatal error in MPI_Waitall:<br>&gt; &gt; &gt; Other MPI error, error stack:<br>&gt; &gt; &gt; MPI_Waitall(242): MPI_Waitall(count=64, req_array=0xdb21a0,<br>&gt; &gt; &gt; status_array=0xdb3140) failed
<br>&gt; &gt; &gt; (unknown)(): Other MPI error<br>&gt; &gt; &gt; rank 1 in job 4 &nbsp;burn_37156 &nbsp; caused collective abort of all ranks<br>&gt; &gt; &gt; &nbsp; exit status of rank 1: killed by signal 9<br>&gt; &gt; &gt; ---------------------------------------------------------------
<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; I get a similar problem with the latency test, however, the protocol<br>&gt; &gt; that is<br>&gt; &gt; &gt; complained about is different:<br>&gt; &gt; &gt; --------------------------------------------------------------------
<br>&gt; &gt; &gt; budge@burn:~/tests/testMvapich2&gt; mpirun -np 2 ./a.out<br>&gt; &gt; &gt; Thursday 09:21:20<br>&gt; &gt; &gt; # OSU MPI Latency Test v3.0<br>&gt; &gt; &gt; # Size &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;Latency (us)<br>&gt; &gt; &gt; 0 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 
3.93<br>&gt; &gt; &gt; 1 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 4.07<br>&gt; &gt; &gt; 2 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 4.06<br>&gt; &gt; &gt; 4 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 3.82<br>&gt; &gt; &gt; 8 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 3.98<br>&gt; &gt; &gt; 16 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;
4.03<br>&gt; &gt; &gt; 32 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;4.00<br>&gt; &gt; &gt; 64 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;4.28<br>&gt; &gt; &gt; 128 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 5.22<br>&gt; &gt; &gt; 256 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 5.88<br>&gt; &gt; &gt; 512 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 
8.65<br>&gt; &gt; &gt; 1024 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;9.11<br>&gt; &gt; &gt; 2048 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 11.53<br>&gt; &gt; &gt; 4096 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 16.17<br>&gt; &gt; &gt; 8192 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 25.67<br>&gt; &gt; &gt; [1][ch3_rndvtransfer.c:112] Unknown protocol 8126589 type from rndv req
<br>&gt; &gt; to<br>&gt; &gt; &gt; send<br>&gt; &gt; &gt; Internal Error: invalid error code ffffffff (Ring Index out of range) in<br>&gt; &gt; &gt; MPIDI_CH3_RndvSend:263<br>&gt; &gt; &gt; Fatal error in MPI_Recv:<br>&gt; &gt; &gt; Other MPI error, error stack:
<br>&gt; &gt; &gt; MPI_Recv(186): MPI_Recv(buf=0xa8ff80, count=16384, MPI_CHAR, src=0,<br>&gt; &gt; tag=1,<br>&gt; &gt; &gt; MPI_COMM_WORLD, status=0x7fff14c7bde0) failed<br>&gt; &gt; &gt; (unknown)(): Other MPI error<br>

&gt; &gt; &gt; rank 1 in job 5 &nbsp;burn_37156 &nbsp; caused collective abort of all ranks<br>&gt; &gt; &gt; --------------------------------------------------------------------<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; The protocols (0 and 8126589) are consistent if I run the program
<br>&gt; &gt; multiple<br>&gt; &gt; &gt; times.<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; Anyone have any ideas? &nbsp;If you need more info, please let me know.<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; Thanks,<br>&gt; &gt; &gt; &nbsp; Brian
<br>
&gt; &gt; &gt;<br>&gt; &gt;<br>&gt; &gt;<br>&gt;<br><br></div></div></blockquote></div><br>