<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=iso-8859-1">
<META NAME="Generator" CONTENT="MS Exchange Server version 6.5.7638.1">
<TITLE>RE: [mvapich-discuss] Failed to Initialize HCA type for mvapich2-0.9.8</TITLE>
</HEAD>
<BODY>
<!-- Converted from text/plain format -->
<BR>

<P><FONT SIZE=2>Hi Wei,<BR>
<BR>
&nbsp; It was getting the default value of 32.&nbsp; Now that I added 'ulimit -l unlimited' into /etc/init.d/sshd itself, it is ok.&nbsp; Thanks a lot for the help.<BR>
<BR>
Prakashan<BR>
<BR>
<BR>
-----Original Message-----<BR>
From: wei huang [<A HREF="mailto:huanwei@cse.ohio-state.edu">mailto:huanwei@cse.ohio-state.edu</A>]<BR>
Sent: Fri 3/2/2007 1:54 PM<BR>
To: Korambath, Prakashan<BR>
Cc: mvapich-discuss@cse.ohio-state.edu<BR>
Subject: Re: [mvapich-discuss] Failed to Initialize HCA type for mvapich2-0.9.8<BR>
<BR>
Hi Prakashan,<BR>
<BR>
Thanks for using mvapich2.<BR>
<BR>
This is pretty weird because the ulimit is typically the reason when you<BR>
see create cq failure. May I ask you to make sure that ulimit is unlimited<BR>
on both nodes? Also, it will be good if you verify using the following<BR>
commands (so that ulimit is actually ulimited when you run the program):<BR>
<BR>
ssh n11 ulimit -l<BR>
ssh grid4 ulimit -l<BR>
<BR>
Also, would you please verify on both machines that port is active.<BR>
<BR>
Finally, if all them are fine, would you please make sure ib level<BR>
micro-benchmarks run successfully?<BR>
<BR>
Thanks.<BR>
<BR>
Regards,<BR>
Wei Huang<BR>
<BR>
774 Dreese Lab, 2015 Neil Ave,<BR>
Dept. of Computer Science and Engineering<BR>
Ohio State University<BR>
OH 43210<BR>
Tel: (614)292-8501<BR>
<BR>
<BR>
On Fri, 2 Mar 2007, Korambath, Prakashan wrote:<BR>
<BR>
&gt; Hi,<BR>
&gt;&nbsp; I just setup two nodes connected through an IB cable running Fedora<BR>
&gt; Core6 OS kernel 2.6.19-1.2911.fc6 and OFED-1.1.&nbsp; ibstat and ibnodes<BR>
&gt; outputs are below.&nbsp; I ran make.mvapich2.gen2 file in order to create<BR>
&gt; the mpi related files.&nbsp; I am getting following error when I am running<BR>
&gt; mpiexec.&nbsp; Could you please tell me what I am doing wrong?&nbsp; The<BR>
&gt; configure is using --with-device=osu_ch3:mrail inside<BR>
&gt; make.mvapich2.gen2 .&nbsp; I don't know whether I have wrong device or<BR>
&gt; something. Also ulimit -l shows unlimited.&nbsp; Thanks for your help.<BR>
&gt;<BR>
&gt;<BR>
&gt; Prakashan Korambath<BR>
&gt; UCLA<BR>
&gt;<BR>
&gt; ------------------------------------------<BR>
&gt;<BR>
&gt;<BR>
&gt;<BR>
&gt; -bash-3.1$ mpd &amp;<BR>
&gt; [1] 13652<BR>
&gt; -bash-3.1$ !mpdboot<BR>
&gt; mpdboot -n 2 -f hostfile<BR>
&gt; [1]+&nbsp; Done&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; mpd<BR>
&gt; -bash-3.1$ mpicc -o bones bones.c<BR>
&gt; -bash-3.1$ which mpicc<BR>
&gt; ~/mvapich2/bin/mpicc<BR>
&gt; -bash-3.1$ mpiexec -n 2 ./bones<BR>
&gt; cannot create cq<BR>
&gt; Failed to Initialize HCA type<BR>
&gt; Fatal error in MPI_Init: Other MPI error, error stack:<BR>
&gt; MPIR_Init_thread(230): Initialization failed<BR>
&gt; MPID_Init(81)........: channel initialization failed<BR>
&gt; (unknown)(): Other MPI errorrank 1 in job 1&nbsp; grid4.ats.ucla.edu_33136&nbsp;&nbsp; caused collective abort of all ranks<BR>
&gt;&nbsp;&nbsp; exit status of rank 1: killed by signal 9<BR>
&gt; -bash-3.1$<BR>
&gt; -bash-3.1$ mpdtrace<BR>
&gt; grid4<BR>
&gt; n11<BR>
&gt;<BR>
&gt;<BR>
&gt;<BR>
&gt; -----------------------<BR>
&gt; [root@grid4 ~]# ibstat<BR>
&gt; CA 'mthca0'<BR>
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; CA type: MT25204<BR>
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Number of ports: 1<BR>
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Firmware version: 1.0.800<BR>
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Hardware version: a0<BR>
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Node GUID: 0x00066a0098007a39<BR>
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; System image GUID: 0x00066a0098007a39<BR>
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Port 1:<BR>
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; State: Active<BR>
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Physical state: LinkUp<BR>
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Rate: 20<BR>
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Base lid: 1<BR>
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; LMC: 0<BR>
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; SM lid: 2<BR>
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Capability mask: 0x02510a6a<BR>
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Port GUID: 0x00066a00a0007a39<BR>
&gt; [root@grid4 ~]# ibnodes<BR>
&gt; Ca&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; : 0x00066a0098007a25 ports 1 &quot;n11 HCA-1&quot;<BR>
&gt; Ca&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; : 0x00066a0098007a39 ports 1 &quot;grid4 HCA-1&quot;<BR>
&gt;<BR>
<BR>
<BR>
</FONT>
</P>

</BODY>
</HTML>