Hi Matt -<br><br>I have now done the install from the ofa build file, and I can boot and run the ring test, but now when I run the osu_bw.c benchmark, the executable dies in MPI_Init().<br><br>The things I altered in make.mvapich2.ofa
 were:<br><br>OPEN_IB_HOME=${OPEN_IB_HOME:-/usr}<br>SHARED_LIBS=${SHARED_LIBS:-yes}<br><br>and on the configure line I added:<br>&nbsp;--disable-f77 --disable-f90 <br><br>Here is the error message that I am getting:<br><br>rank 1 in job 1&nbsp; burn_60139&nbsp;&nbsp; caused collective abort of all ranks
<br>&nbsp; exit status of rank 1: killed by signal 9 <br><br>Thanks,<br>&nbsp; Brian<br><br><div class="gmail_quote">On Jan 7, 2008 1:21 PM, Matthew Koop &lt;<a href="mailto:koop@cse.ohio-state.edu">koop@cse.ohio-state.edu</a>&gt; wrote:
<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">Brian,<br><br>The make.mvapich.detect script is just a helper script (not meant to be<br>
executed directly). You need to use the make.mvapich.ofa script, which<br>will call configure and make for you with the correct arguments.<br><br>More information can be found in our MVAPICH2 user guide under<br>&quot;4.4.1
 Build MVAPICH2 with OpenFabrics Gen2-IB and iWARP&quot;<br><br><a href="https://mvapich.cse.ohio-state.edu/support/" target="_blank">https://mvapich.cse.ohio-state.edu/support/</a><br><br>Let us know if you have any other problems.
<br><br>Matt<br><div><div></div><div class="Wj3C7c"><br><br><br><br>On Mon, 7 Jan 2008, Brian Budge wrote:<br><br>&gt; Hi Wei -<br>&gt;<br>&gt; I changed from SMALL_CLUSTER to MEDIUM_CLUSTER, but it made no difference.<br>
&gt;<br>&gt; When I build with rdma, this adds the following:<br>&gt; &nbsp; &nbsp; &nbsp; &nbsp; export LIBS=&quot;${LIBS} -lrdmacm&quot;<br>&gt; &nbsp; &nbsp; &nbsp; &nbsp; export CFLAGS=&quot;${CFLAGS} -DADAPTIVE_RDMA_FAST_PATH -DRDMA_CM&quot;<br>&gt;<br>&gt; It seems that I am using the 
make.mvapich2.detect script to build. &nbsp;It asks<br>&gt; me for my interface, and gives me the option for the mellanox interface,<br>&gt; which I choose.<br>&gt;<br>&gt; I just tried a fresh install directly from the tarball instead of using the
<br>&gt; gentoo package. &nbsp;Now the program completes (goes beyond 8K message), but my<br>&gt; bandwidth isn&#39;t very good. &nbsp;Running the osu_bw.c test, I get about 250 MB/s<br>&gt; maximum. &nbsp;It seems like IB isn&#39;t being used.
<br>&gt;<br>&gt; I did the following:<br>&gt; ./make.mvapich2.detect #, and chose the mellanox option<br>&gt; ./configure --enable-threads=multiple<br>&gt; make<br>&gt; make install<br>&gt;<br>&gt; So it seems that the package is doing something to enable infiniband that I
<br>&gt; am not doing with the tarball. &nbsp;Conversely, the tarball can run without<br>&gt; crashing.<br>&gt;<br>&gt; Advice?<br>&gt;<br>&gt; Thanks,<br>&gt; &nbsp; Brian<br>&gt;<br>&gt; On Jan 6, 2008 6:38 AM, wei huang &lt; <a href="mailto:huanwei@cse.ohio-state.edu">
huanwei@cse.ohio-state.edu</a>&gt; wrote:<br>&gt;<br>&gt; &gt; Hi Brian,<br>&gt; &gt;<br>&gt; &gt; &gt; I am using the openib-mvapich2-1.0.1 package in the gentoo-science<br>&gt; &gt; overlay<br>&gt; &gt; &gt; addition to the standard gentoo packages. &nbsp;I have also tried 
1.0 with<br>&gt; &gt; the<br>&gt; &gt; &gt; same results.<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; I compiled with multithreading turned on (haven&#39;t tried without this,<br>&gt; &gt; but<br>&gt; &gt; &gt; the sample codes I am initially testing are not multithreaded, although
<br>&gt; &gt; my<br>&gt; &gt; &gt; application is). &nbsp;I also tried with or without rdma with no change. &nbsp;The<br>&gt; &gt;<br>&gt; &gt; &gt; script seems to be setting the build for SMALL_CLUSTER.<br>&gt; &gt;<br>&gt; &gt; So you are using 
make.mvapich2.ofa to compile the package? I am a bit<br>&gt; &gt; confused about &#39;&#39;I also tried with or without rdma with no change&#39;&#39;. What<br>&gt; &gt; exact change you made here? Also, SMALL_CLUSTER is obsolete for ofa
<br>&gt; &gt; stack...<br>&gt; &gt;<br>&gt; &gt; -- Wei<br>&gt; &gt;<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; Let me know what other information would be useful.<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; Thanks,<br>&gt; &gt; &gt; &nbsp; Brian
<br>&gt; &gt; &gt;<br>&gt; &gt; &gt;<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; On Jan 4, 2008 6:12 PM, wei huang &lt;<a href="mailto:huanwei@cse.ohio-state.edu">huanwei@cse.ohio-state.edu</a>&gt; wrote:<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; &gt; Hi Brian,
<br>&gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt; Thanks for letting us know this problem. Would you please let us know<br>&gt; &gt; some<br>&gt; &gt; &gt; &gt; more details to help us locate the issue.<br>&gt; &gt; &gt; &gt;
<br>&gt; &gt; &gt; &gt; 1) More details on your platform.<br>&gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt; 2) Exact version of mvapich2 you are using. Is it from OFED package?<br>&gt; &gt; or<br>&gt; &gt; &gt; &gt; some version from our website.
<br>&gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt; 3) If it is from our website, did you change anything from the default<br>&gt; &gt;<br>&gt; &gt; &gt; &gt; compiling scripts?<br>&gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt; Thanks.
<br>&gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt; -- Wei<br>&gt; &gt; &gt; &gt; &gt; I&#39;m new to the list here... hi! &nbsp;I have been using OpenMPI for a<br>&gt; &gt; while,<br>&gt; &gt; &gt; &gt; and<br>&gt; &gt; &gt; &gt; &gt; LAM before that, but new requirements keep pushing me to new
<br>&gt; &gt; &gt; &gt; &gt; implementations. &nbsp;In particular, I was interested in using<br>&gt; &gt; infiniband<br>&gt; &gt; &gt; &gt; (using<br>&gt; &gt; &gt; &gt; &gt; OFED <a href="http://1.2.5.1" target="_blank">1.2.5.1
</a>) in a multi-threaded environment. &nbsp;It seems that<br>&gt; &gt; MVAPICH is<br>&gt; &gt; &gt; &gt; the<br>&gt; &gt; &gt; &gt; &gt; library for that particular combination :)<br>&gt; &gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt; &gt; In any case, I installed MVAPICH, and I can boot the daemons, and
<br>&gt; &gt; run<br>&gt; &gt; &gt; &gt; the<br>&gt; &gt; &gt; &gt; &gt; ring speed test with no problems. &nbsp;When I run any programs with<br>&gt; &gt; mpirun,<br>&gt; &gt; &gt; &gt; &gt; however, I get an error when sending or receiving more than 8192
<br>&gt; &gt; bytes.<br>&gt; &gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt; &gt; For example, if I run the bandwidth test from the benchmarks page<br>&gt; &gt; &gt; &gt; &gt; (osu_bw.c), I get the following:<br>&gt; &gt; &gt; &gt; &gt; ---------------------------------------------------------------
<br>&gt; &gt; &gt; &gt; &gt; budge@burn:~/tests/testMvapich2&gt; mpirun -np 2 ./a.out<br>&gt; &gt; &gt; &gt; &gt; Thursday 06:16:00<br>&gt; &gt; &gt; &gt; &gt; burn<br>&gt; &gt; &gt; &gt; &gt; burn-3<br>&gt; &gt; &gt; &gt; &gt; # OSU MPI Bandwidth Test 
v3.0<br>&gt; &gt; &gt; &gt; &gt; # Size &nbsp; &nbsp; &nbsp; &nbsp;Bandwidth (MB/s)<br>&gt; &gt; &gt; &gt; &gt; 1 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 1.24<br>&gt; &gt; &gt; &gt; &gt; 2 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 2.72<br>&gt; &gt; &gt; &gt; &gt; 4 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 
5.44<br>&gt; &gt; &gt; &gt; &gt; 8 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;10.18<br>&gt; &gt; &gt; &gt; &gt; 16 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 19.09<br>&gt; &gt; &gt; &gt; &gt; 32 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 29.69<br>&gt; &gt; &gt; &gt; &gt; 64 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 
65.01<br>&gt; &gt; &gt; &gt; &gt; 128 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 147.31<br>&gt; &gt; &gt; &gt; &gt; 256 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 244.61<br>&gt; &gt; &gt; &gt; &gt; 512 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 354.32<br>&gt; &gt; &gt; &gt; &gt; 1024 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;
367.91<br>&gt; &gt; &gt; &gt; &gt; 2048 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;451.96<br>&gt; &gt; &gt; &gt; &gt; 4096 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 550.66<br>&gt; &gt; &gt; &gt; &gt; 8192 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;598.35<br>&gt; &gt; &gt; &gt; &gt; [1][ch3_rndvtransfer.c:112] Unknown protocol 0 type from rndv req to
<br>&gt; &gt; &gt; &gt; send<br>&gt; &gt; &gt; &gt; &gt; Internal Error: invalid error code ffffffff (Ring Index out of<br>&gt; &gt; range) in<br>&gt; &gt; &gt; &gt; &gt; MPIDI_CH3_RndvSend:263<br>&gt; &gt; &gt; &gt; &gt; Fatal error in MPI_Waitall:
<br>&gt; &gt; &gt; &gt; &gt; Other MPI error, error stack:<br>&gt; &gt; &gt; &gt; &gt; MPI_Waitall(242): MPI_Waitall(count=64, req_array=0xdb21a0,<br>&gt; &gt; &gt; &gt; &gt; status_array=0xdb3140) failed<br>&gt; &gt; &gt; &gt; &gt; (unknown)(): Other MPI error
<br>&gt; &gt; &gt; &gt; &gt; rank 1 in job 4 &nbsp;burn_37156 &nbsp; caused collective abort of all ranks<br>&gt; &gt; &gt; &gt; &gt; &nbsp; exit status of rank 1: killed by signal 9<br>&gt; &gt; &gt; &gt; &gt; ---------------------------------------------------------------
<br>&gt; &gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt; &gt; I get a similar problem with the latency test, however, the protocol<br>&gt; &gt; &gt; &gt; that is<br>&gt; &gt; &gt; &gt; &gt; complained about is different:<br>&gt; &gt; &gt; &gt; &gt; --------------------------------------------------------------------
<br>&gt; &gt;<br>&gt; &gt; &gt; &gt; &gt; budge@burn:~/tests/testMvapich2&gt; mpirun -np 2 ./a.out<br>&gt; &gt; &gt; &gt; &gt; Thursday 09:21:20<br>&gt; &gt; &gt; &gt; &gt; # OSU MPI Latency Test v3.0<br>&gt; &gt; &gt; &gt; &gt; # Size &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;Latency (us)
<br>&gt; &gt; &gt; &gt; &gt; 0 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 3.93<br>&gt; &gt; &gt; &gt; &gt; 1 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 4.07<br>&gt; &gt; &gt; &gt; &gt; 2 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 4.06<br>&gt; &gt; &gt; &gt; &gt; 4 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 
3.82<br>&gt; &gt; &gt; &gt; &gt; 8 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 3.98<br>&gt; &gt; &gt; &gt; &gt; 16 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 4.03<br>&gt; &gt; &gt; &gt; &gt; 32 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;4.00<br>&gt; &gt; &gt; &gt; &gt; 64 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;
4.28<br>&gt; &gt; &gt; &gt; &gt; 128 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 5.22<br>&gt; &gt; &gt; &gt; &gt; 256 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 5.88<br>&gt; &gt; &gt; &gt; &gt; 512 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 8.65<br>&gt; &gt; &gt; &gt; &gt; 1024 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;
9.11<br>&gt; &gt; &gt; &gt; &gt; 2048 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 11.53<br>&gt; &gt; &gt; &gt; &gt; 4096 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 16.17<br>&gt; &gt; &gt; &gt; &gt; 8192 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 25.67<br>&gt; &gt; &gt; &gt; &gt; [1][ch3_rndvtransfer.c:112] Unknown protocol 8126589 type from rndv
<br>&gt; &gt; req<br>&gt; &gt; &gt; &gt; to<br>&gt; &gt; &gt; &gt; &gt; send<br>&gt; &gt; &gt; &gt; &gt; Internal Error: invalid error code ffffffff (Ring Index out of<br>&gt; &gt; range) in<br>&gt; &gt; &gt; &gt; &gt; MPIDI_CH3_RndvSend:263
<br>&gt; &gt; &gt; &gt; &gt; Fatal error in MPI_Recv:<br>&gt; &gt; &gt; &gt; &gt; Other MPI error, error stack:<br>&gt; &gt; &gt; &gt; &gt; MPI_Recv(186): MPI_Recv(buf=0xa8ff80, count=16384, MPI_CHAR, src=0,<br>&gt; &gt; &gt; &gt; tag=1,
<br>&gt; &gt; &gt; &gt; &gt; MPI_COMM_WORLD, status=0x7fff14c7bde0) failed<br>&gt; &gt; &gt; &gt; &gt; (unknown)(): Other MPI error<br>&gt; &gt; &gt; &gt; &gt; rank 1 in job 5 &nbsp;burn_37156 &nbsp; caused collective abort of all ranks
<br>&gt; &gt; &gt; &gt; &gt; --------------------------------------------------------------------<br>&gt; &gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt; &gt; The protocols (0 and 8126589) are consistent if I run the program<br>
&gt; &gt; &gt; &gt; multiple<br>&gt; &gt; &gt; &gt; &gt; times.<br>&gt; &gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt; &gt; Anyone have any ideas? &nbsp;If you need more info, please let me know.<br>&gt; &gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt; &gt; Thanks,
<br>&gt; &gt; &gt; &gt; &gt; &nbsp; Brian<br>&gt; &gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt;<br>&gt; &gt; &gt;<br>&gt; &gt;<br>&gt; &gt;<br>&gt;<br><br></div></div></blockquote></div><br>