Бьерн Страуструп - Язык программирования С++. Главы 2-4

Written on 23 Февраля 2007.

В главах 2, 3 и 4 описываются средства С++, которые не используются для определения новых типов: основные типы, выражения и структуры управления. Другими словами, эти главы содержат описание той части языка, которая по сути представляет С. Изложение в указанных главах идет в углубленном виде.

ГЛАВА 2. ОПИСАНИЯ И КОНСТАНТЫ

                "Совершенство достижимо только в момент
                 краха".

                                 (С.Н. Паркинсон)

В данной главе описаны основные типы (char, int, float и т.д.) и способы построения на их основе новых типов (функций, векторов, указателей и т.д.). Описание вводит в программу имя, указав его тип и, возможно, начальное значение. В этой главе вводятся такие понятия, как описание и определение, типы, область видимости имен, время жизни объектов.

Даются обозначения литеральных констант С++ и способы задания символических констант. Приводятся примеры, которые просто демонстрируют возможности языка. Более осмысленные примеры, иллюстрирующие возможности выражений и операторов языка С++, будут приведены в следующей главе. В этой главе лишь упоминаются средства для определения пользовательских типов и операций над ними. Они обсуждаются в главах 5 и 7.

2.1 ОПИСАНИЯ

Имя (идентификатор) следует описать прежде, чем оно будет использоваться в программе на С++. Это означает, что нужно указать его тип, чтобы транслятор знал, к какого вида объектам относится имя. Ниже приведены несколько примеров, иллюстрирующих все разнообразие описаний:

   char ch;
   int count = 1;
   char* name = "Njal";
   struct complex { float re, im; };
   complex cvar;
   extern complex sqrt(complex);
   extern int error_number;
   typedef complex point;
   float real(complex* p) { return p->re; };
   const double pi = 3.1415926535897932385;
   struct user;
   template<class T> abs(T a) { return a<0 ? -a : a; }
   enum beer { Carlsberg, Tuborg, Thor };

Из этих примеров видно, что роль описаний не сводится лишь к привязке типа к имени. Большинство указанных описаний одновременно являются определениями, т.е. они создают объект, на который ссылается имя.

Для ch, count, name и cvar таким объектом является элемент памяти соответствующего размера. Этот элемент будет использоваться как переменная, и говорят, что для него отведена память. Для real подобным объектом будет заданная функция.

Для константы pi объектом будет число 3.1415926535897932385. Для complex объектом будет новый тип. Для point объектом является тип complex, поэтому point становится синонимом complex. Следующие описания уже не являются определениями:

   extern complex sqrt(complex);
   extern int error_number;
   struct user;

Это означает, что объекты, введенные ими, должны быть определены где-то в другом месте программы. Тело функции sqrt должно быть указано в каком-то другом описании. Память для переменной error_number типа
int должна выделяться в результате другого описания error_number. Должно быть и какое-то другое описание типа user, из которого можно понять, что это за тип. В программе на языке С++ должно быть только одно определение каждого имени, но описаний может быть много. Однако все описания должны быть согласованы по типу вводимого в них объекта.

Поэтому в приведенном ниже фрагменте содержатся две ошибки:

   int count;
   int count;               // ошибка: переопределение

   extern int error_number;
   extern short error_number; // ошибка: несоответствие типов

Зато в следующем фрагменте нет ни одной ошибки (об использовании extern см. #4.2):

  extern int error_number;
  extern int error_number;

В некоторых описаниях указываются "значения" объектов, которые они определяют:

  struct complex { float re, im; };
  typedef complex point;
  float real(complex* p) { return  p->re };
  const double pi = 3.1415926535897932385;

Для типов, функций и констант "значение" остается неизменным; для данных, не являющихся константами, начальное значение может впоследствии изменяться:

   int count = 1;
   char* name = "Bjarne";
   //...
   count = 2;
   name = "Marian";

Из всех определений только следующее не задает значения:

    char ch;

Всякое описание, которое задает значение, является определением.

2.1.1 Область видимости

Описанием определяется область видимости имени. Это значит, что имя может использоваться только в определенной части текста программы. Если имя описано в функции (обычно его называют "локальным именем"), то область видимости имени простирается от точки описания до конца блока, в котором появилось это описание. Если имя не находится в описании функции или класса (его обычно называют "глобальным именем"), то область видимости простирается от точки описания до конца файла, в котором появилось это описание. Описание имени в блоке может скрывать описание в объемлющем блоке или глобальное имя; т.е. имя может быть переопределено так, что оно будет обозначать другой объект внутри блока. После выхода из блока прежнее значение имени (если оно было) восстанавливается. Приведем пример:

int x;            // глобальное x

void f()
{
    int x;        // локальное x скрывает глобальное x
    x = 1;        // присвоить локальному x
    {
        int x;    // скрывает первое локальное x
        x = 2;    // присвоить второму локальному x
    }
    x = 3;        // присвоить первому локальному x
}

int* p = &x;      // взять адрес глобального x

В больших программах не избежать переопределения имен. К сожалению, человек легко может проглядеть такое переопределение. Возникающие из-за этого ошибки найти непросто, возможно потому, что они достаточно редки. Следовательно, переопределение имен следует свести к минимуму. Если вы обозначаете глобальные переменные или локальные переменные в большой функции такими именами, как i или x, то сами напрашиваетесь на неприятности.

Есть возможность с помощью операции разрешения области видимости :: обратиться к скрытому глобальному имени, например:

   int x;

   void f2()
   {
     int x = 1;      // скрывает глобальное x
     ::x = 2;        // присваивание глобальному x
   }

Возможность использовать скрытое локальное имя отсутствует.

Область видимости имени начинается в точке его описания (по окончании описателя, но еще до начала инициализатора - см. $$R.3.2). Это означает, что имя можно использовать даже до того, как задано его начальное значение. Например:

   int x;

   void f3()
   {
      int x = x;    // ошибочное присваивание
    }

Такое присваивание недопустимо и лишено смысла. Если вы попытаетесь транслировать эту программу, то получите предупреждение: "использование до задания значения". Вместе с тем, не применяя оператора ::, можно использовать одно и то же имя для обозначения двух различных объектов блока. Например:

    int x = 11;

    void f4()         // извращенный пример
    {
      int y = x;   //  глобальное x
      int x = 22;
      y = x;       // локальное x
    }

Переменная y инициализируется значением глобального x, т.е. 11, а затем ей присваивается значение локальной переменной x, т.е. 22. Имена формальных параметров функции считаются описанными в самом большом блоке функции, поэтому в описании ниже есть ошибка:

    void f5(int x)
    {
      int x;       // ошибка
     }

Здесь x определено дважды в одной и той же области видимости.

Это хотя и не слишком редкая, но довольно тонкая ошибка.

2.1.2 Объекты и адреса

Можно выделять память для "переменных", не имеющих имен, и использовать эти переменные.

Возможно даже присваивание таким странно выглядящим "переменным", например, *p[a+10]=7. Следовательно, есть потребность именовать "нечто хранящееся в памяти". Можно привести подходящую цитату из справочного руководства: "Любой объект - это некоторая область памяти, а адресом называется выражение, ссылающееся на объект или функцию" ($$R.3.7). Слову адрес (lvalue - left value, т.е. величина слева) первоначально приписывался смысл "нечто, что может в присваивании стоять слева". Адрес может ссылаться и на константу (см. $$2.5). Адрес, который не был описан со спецификацией const, называется изменяемым адресом.

2.1.3 Время жизни объектов

Если только программист не вмешается явно, объект будет создан при появлении его определения и уничтожен, когда исчезнет из области видимости. Объекты с глобальными именами создаются, инициализируются (причем только один раз) и существуют до конца программы. Если локальные объекты описаны со служебным словом static, то они также существуют до конца программы. Инициализация их происходит, когда в первый раз управление "проходит через" описание этих объектов, например:

    int a = 1;

    void f()
    {
      int b = 1;   // инициализируется при каждом вызове f()
      static int c = a;  // инициализируется только один раз
      cout << " a = " << a++
           << " b = " << b++
           << " c = " << c++ << '\n';
    }

    int main()
    {
      while (a < 4) f();
    }

Здесь программа выдаст такой результат:

    a = 1 b = 1 c = 1
    a = 2 b = 1 c = 2
    a = 3 b = 1 c = 3

''Из примеров этой главы для краткости изложения исключена макрокоманда #include <iostream>. Она нужна лишь в тех из них, которые выдают результат.

Операция "++" является инкрементом, т. е. a++ означает: добавить 1к переменной a.

Глобальная переменная или локальная переменная static, которая не была явно инициализирована, инициализируется неявно нулевым значением (#2.4.5).

Используя операции new и delete, программист может создавать объекты, временем жизни которых он управляет сам (см. $$3.2.6).

2.2 ИМЕНА

Имя (идентификатор) является последовательностью букв или цифр.

Первый символ должен быть буквой. Буквой считается и символ подчеркивания _. Язык С++ не ограничивает число символов в имени.

Но в реализацию входят программные компоненты, которыми создатель транслятора управлять не может (например, загрузчик), а они, к сожалению, могут устанавливать ограничения. Кроме того, некоторые системные программы, необходимые для выполнения программы на С++, могут расширять или сужать множество символов, допустимых в идентификаторе.

Расширения (например, использование $ в имени) могут нарушить переносимость программы. Нельзя использовать в качестве имен служебные слова С++ (см. $$R.2.4), например:

        hello    this_is_a_most_unusially_long_name
        DEFINED  foO    bAr     u_name    HorseSense
        var0     var1   CLASS   _class    ___

Теперь приведем примеры последовательностей символов, которые не могут использоваться как идентификаторы:

        012      a fool    $sys     class    3var
        pay.due  foo~bar   .name    if

Заглавные и строчные буквы считаются различными, поэтому Count и
count - разные имена. Но выбирать имена, почти не отличающиеся друг от друга, неразумно. Все имена, начинающиеся с символа подчеркивания, резервируются для использования в самой реализации или в тех программах, которые выполняются совместно с рабочей, поэтому крайне легкомысленно вставлять такие имена в свою программу.
При разборе программы транслятор всегда стремится выбрать самую длинную последовательность символов, образующих имя, поэтому var10
- это имя, а не идущие подряд имя var и число 10. По той же причине
elseif - одно имя (служебное), а не два служебных имени else и if.

2.3 ТИПЫ

С каждым именем (идентификатором) в программе связан тип. Он задает те операции, которые могут применяться к имени (т.е. к объекту, который обозначает имя), а также интерпретацию этих операций. Приведем примеры:

      int error_number;
      float real(complex* p);

Поскольку переменная error_number описана как int (целое), ей можно присваивать, а также можно использовать ее значения в арифметических выражениях. Функцию real можно вызывать с параметром, содержащим адрес complex. Можно получать адреса и переменной, и функции. Некоторые имена, как в нашем примере int и complex, являются именами типов. Обычно имя типа нужно, чтобы задать в описании типа некоторое другое имя. Кроме того, имя типа может использоваться в качестве операнда в операциях sizeof (с ее помощью определяют размер памяти, необходимый для объектов этого типа) и new (с ее помощью можно разместить в свободной памяти объект этого типа). Например:

       int main()
       {
         int* p = new int;
         cout << "sizeof(int) = " << sizeof(int) '\n';
       }

Еще имя типа может использоваться в операции явного преобразования одного типа к другому ($$3.2.5), например:

       float f;
       char* p;
       //...
       long ll = long(p);     // преобразует p в long
       int i = int(f);        // преобразует f в int

2.3.1 Основные типы

Основные типы С++ представляют самые распространенные единицы памяти машин и все основные способы работы с ними. Это:

       char
       short int
       int
       long int

Перечисленные типы используются для представления различного размера целых. Числа с плавающей точкой представлены типами:

       float
       double
       long double

Следующие типы могут использоваться для представления беззнаковых целых, логических значений, разрядных массивов и т.д.:

       unsigned char
       unsigned short int
       unsigned int
       unsigned long int

Ниже приведены типы, которые используются для явного задания знаковых типов:

       signed char
       signed short int
       signed int
       signed long int

Поскольку по умолчанию значения типа int считаются знаковыми, то соответствующие типы с signed являются синонимами типов без этого служебного слова. Но тип signed char представляет особый интерес: все 3 типа - unsigned char, signed char и просто char считаются различными (см. также $$R.3.6.1).

Для краткости (и это не влечет никаких последствий) слово int можно не указывать в многословных типах, т.е. long означает long int, unsigned -unsigned int. Вообще, если в описании не указан тип, то предполагается, что это int. Например, ниже даны два определения объекта типа int:

        const a = 1;      // небрежно, тип не указан
        static x;          // тот же случай

Все же обычно пропуск типа в описании в надежде, что по умолчанию это будет тип int, считается дурным стилем. Он может вызвать тонкий и нежелательный эффект (см. $$R.7.1).

Для хранения символов и работы с ними наиболее подходит тип char. Обычно он представляет байт из 8 разрядов. Размеры всех объектов в С++ кратны размеру char, и по определению значение sizeof(char) тождественно 1. В зависимости от машины значение типа char может быть знаковым или беззнаковым целым. Конечно, значение типа unsigned char всегда беззнаковое, и, задавая явно этот тип, мы улучшаем переносимость программы. Однако, использование unsigned char вместо char может снизить скорость выполнения программы. Естественно, значение типа signed char всегда знаковое.

В язык введено несколько целых, несколько беззнаковых типов и несколько типов с плавающей точкой, чтобы программист мог полнее использовать возможности системы команд. У многих машин значительно различаются размеры выделяемой памяти, время доступа и скорость вычислений для значений различных основных типов. Как правило, зная особенности конкретной машины, легко выбрать оптимальный основной тип (например, один из типов int) для данной переменной. Однако, написать действительно переносимую программу, использующую такие возможности низкого уровня, непросто. Для размеров основных типов выполняются следующие соотношения:

1==sizeof(char)<=sizeof(short)<=sizeof(int)<=sizeof(long)

sizeof(float)<=sizeof(double)<=sizeof(long double)

sizeof(I)==sizeof(signed I)==sizeof(unsigned I)

Здесь I может быть типа char, short, int или long. Помимо этого гарантируется, что char представлен не менее, чем 8 разрядами, short - не менее, чем 16 разрядами и long - не менее, чем 32 разрядами. Тип char
достаточен для представления любого символа из набора символов данной машины. Но это означает только то, что тип char может представлять целые в диапазоне 0..127. Предположить большее - рискованно.

Типы беззнаковых целых больше всего подходят для таких программ, в которых память рассматривается как массив разрядов. Но, как правило, использование unsigned вместо int, не дает ничего хорошего, хотя таким образом рассчитывали выиграть еще один разряд для представления положительных целых. Описывая переменную как unsigned, нельзя гарантировать, что она будет только положительной, поскольку допустимы неявные преобразования типа, например:

    unsigned surprise = -1;

Это определение допустимо (хотя компилятор может выдать предупреждение о нем).

2.3.2 Неявное преобразование типа

В присваивании и выражении основные типы могут совершенно свободно использоваться совместно. Значения преобразовываются всюду, где это возможно, таким образом, чтобы информация не терялась. Точные правила преобразований даны в $$R.4 и $$R.5.4.

Все-таки есть ситуации, когда информация может быть потеряна или даже искажена. Потенциальным источником таких ситуаций становятся присваивания, в которых значение одного типа присваивается значению другого типа, причем в представлении последнего используется меньше разрядов. Допустим, что следующие присваивания выполняются на машине, в которой целые представляются в дополнительном коде, и символ занимает 8 разрядов:

     int i1 = 256+255;
     char ch = i1        // ch == 255
     int i2 = ch;        // i2 == ?

В присваивании ch=i1 теряется один разряд (и самый важный!), а когда мы присваиваем значение переменной i2, у переменной ch значение "все единицы", т.е. 8 единичных разрядов. Но какое значение примет i2? На машине DEC VAX, в которой char представляет знаковые значения, это будет
-1, а на машине Motorola 68K, в которой char - беззнаковый, это будет 255. В С++ нет динамических средств контроля подобных ситуаций, а контроль на этапе трансляции вообще слишком сложен, поэтому надо быть осторожными.

2.3.3 Производные типы

Исходя из основных (и определенных пользователем) типов, можно с помощью следующих операций описания:

     *     указатель
     &     ссылка
     []    массив
     ()    функция

а также с помощью определения структур, задать другие, производные типы. Например:

     int* a;
     float v[10];
     char* p[20];   // массив из 20 символьных указателей
     void f(int);
     struct str { short length; char* p; };

Правила построения типов с помощью этих операций подробно объяснены в $$R.8. Ключевая идея состоит в том, что описание объекта производного типа должно отражать его использование, например:

     int v[10];     // описание вектора
     i = v[3];      // использование элемента вектора

     int* p;        // описание указателя
     i = *p;        // использование указуемого объекта

Обозначения, используемые для производных типов, достаточно трудны для понимания лишь потому, что операции * и & являются префиксными, а [] и () - постфиксными. Поэтому в задании типов, если приоритеты операций не отвечают цели, надо ставить скобки. Например, приоритет операции [] выше, чем у *, и мы имеем:

    int* v[10];        // массив указателей
    int (*p)[10];      // указатель массива

Большинство людей просто запоминает, как выглядят наиболее часто употребляемые типы. Можно описать сразу несколько имен в одном описании. Тогда оно содержит вместо одного имени список отделяемых друг от друга запятыми имен. Например, можно так описать две переменные целого типа:

     int x, y;    // int x; int y;

Когда мы описываем производные типы, не надо забывать, что операции описаний применяются только к данному имени (а вовсе не ко всем остальным именам того же описания). Например:

    int* p, y;        // int* p; int y; НО НЕ int* y;
    int x, *p;        // int x; int* p;
    int v[10], *p;    // int v[10]; int* p;

Но такие описания запутывают программу, и, возможно, их следует избегать.

2.3.4 Тип void

Тип void синтаксически эквивалентен основным типам, но использовать его можно только в производном типе. Объектов типа void не существует. С его помощью задаются указатели на объекты неизвестного типа или функции, невозвращающие значение.

   void f();    // f не возвращает значения
   void* pv;    // указатель на объект неизвестного типа

Указатель произвольного типа можно присваивать переменной типа void*. На первый взгляд этому трудно найти применение, поскольку для void*
недопустимо косвенное обращение (разыменование). Однако, именно на этом ограничении основывается использование типа void*. Он приписывается параметрам функций, которые не должны знать истинного типа этих параметров. Тип void* имеют также бестиповые объекты, возвращаемые функциями. Для использования таких объектов нужно выполнить явную операцию преобразования типа. Такие функции обычно находятся на самых нижних уровнях системы, которые управляют аппаратными ресурсами. Приведем пример:

    void* malloc(unsigned size);
    void free(void*);

    void f()          // распределение памяти в стиле Си
    {
      int* pi = (int*)malloc(10*sizeof(int));
      char* pc = (char*)malloc(10);
      //...
      free(pi);
      free(pc);
    }

Обозначение: (тип) выражение - используется для задания операции преобразования выражения к типу, поэтому перед присваиванием
pi тип void*, возвращаемый в первом вызове malloc(), преобразуется в тип int. Пример записан в архаичном стиле; лучший стиль управления размещением в свободной памяти показан в $$3.2.6.

2.3.5 Указатели

Для большинства типов T указатель на T имеет тип T*. Это значит, что переменная типа T* может хранить адрес объекта типа T. Указатели на массивы и функции, к сожалению, требуют более сложной записи:

    int* pi;
    char** cpp;             // указатель на указатель на char
    int (*vp)[10];          // указатель на массив из 10 целых
    int (*fp)(char, char*); // указатель на функцию с параметрами
                            // char  и char*,  возвращающую int

Главная операция над указателями - это косвенное обращение (разыменование), т.е. обращение к объекту, на который настроен указатель. Эту операцию обычно называют просто косвенностью. Операция косвенности * является префиксной унарной операцией. Например:

    char c1 = 'a';
    char* p = &c1;    // p содержит адрес c1
    char c2 = *p;    // c2 = 'a'

Переменная, на которую указывает p,- это c1, а значение, которое хранится в c1, равно 'a'. Поэтому присваиваемое c2 значение *p есть 'a'. Над указателями можно выполнять и некоторые арифметические операции.

Ниже в качестве примера представлена функция, подсчитывающая число символов в строке, заканчивающейся нулевым символом (который не учитывается):

     int strlen(char* p)
     {
       int i = 0;
       while (*p++) i++;
       return i;
     }

Можно определить длину строки по-другому: сначала найти ее конец, а затем вычесть адрес начала строки из адреса ее конца.

      int strlen(char* p)
      {
        char* q = p;
        while (*q++) ;
        return q-p-1;
      }

Широко используются указатели на функции; они особо обсуждаются в $$4.6.9

2.3.6 Массивы

Для типа T T[size] является типом "массива из size элементов типа T". Элементы индексируются от 0 до size-1. Например:

     float v[3];   // массив из трех чисел с плавающей точкой:
                   //     v[0], v[1], v[2]
     int a[2][5];  // два массива, из пяти целых каждый
     char* vpc;    // массив из 32 символьных указателей

Можно следующим образом записать цикл, в котором печатаются целые значения прописных букв:

     extern "C" int strlen(const char*);  // из <string.h>

     char alpha[] = "abcdefghijklmnopqrstuvwxyz";

     main()
     {
       int sz = strlen(alpha);

       for (int i=0; i<sz; i++) {
           char ch = alpha[i];
           cout << '\''<< ch << '\''
                << " = " <<int(ch)
                << " = 0" << oct(ch)
                << " = 0x" << hex(ch) << '\n';
        }
     }

Здесь функции oct() и hex() выдают свой параметр целого типа в восьмеричном и шестнадцатеричном виде соответственно. Обе функции описаны в <iostream.h>. Для подсчета числа символов в alpha
используется функция strlen() из <string.h>, но вместо нее можно было использовать размер массива alpha ($$2.4.4). Для множества символов ASCII результат будет таким:

     'a' = 97 = 0141 = 0x61
     'b' = 98 = 0142 = 0x62
     'c' = 99 = 0143 = 0x63
     ...

Отметим, что не нужно указывать размер массива alpha: транслятор установит его, подсчитав число символов в строке, заданной в качестве инициализатора. Задание массива символов в виде строки инициализатора
- это удобный, но к сожалению, единственный способ подобного применения строк. Присваивание строки массиву недопустимо, поскольку в языке присваивание массивам не определено, например:

      char v[9];
      v = "a string";          // ошибка

Классы позволяют реализовать представление строк с большим набором операций (см. $$7.10).

Очевидно, что строки пригодны только для инициализации символьных массивов; для других типов приходится использовать более сложную запись. Впрочем, она может использоваться и для символьных массивов. Например:

      int  v1[] = { 1, 2, 3, 4 };
      int  v2[] = { 'a', 'b', 'c', 'd' };

      char v3[] = { 1, 2, 3, 4 };
      char v4[] = { 'a', 'b', 'c', 'd' };

Здесь v3 и v4 - массивы из четырех (а не пяти) символов; v4 не оканчивается нулевым символом, как того требуют соглашение о строках и большинство библиотечных функций. Используя такой массив char мы сами готовим почву для будущих ошибок.

Многомерные массивы представлены как массивы массивов. Однако нельзя при задании граничных значений индексов использовать, как это делается в некоторых языках, запятую. Запятая - это особая операция для перечисления выражений (см. $$3.2.2). Можно попробовать задать такое описание:

      int bad[5,2];    // ошибка

или такое

      int v[5][2];
      int bad = v[4,1];      // ошибка
      int good = v[4][1];    // правильно

Ниже описывается массив из двух элементов, каждый из которых является, в свою очередь, массивом из 5 элементов типа char:

      char v[2][5];

В следующем примере первый массив инициализируется пятью первыми буквами алфавита, а второй - пятью младшими цифрами.

      char v[2][5] = {
           { 'a', 'b', 'c', 'd', 'e' },
           { '0', '1', '2', '3', '4' }
      };

      main() {
          for (int i = 0; i<2; i++) {
            for (int j = 0; j<5; j++)
                cout << "v[" << i << "][" << j
                     << "]=" << v[i][j] << "  ";
                cout << '\n';

          }
      }

В результате получим:

v[0][0]=a v[0][1]=b v[0][2]=c v[0][3]=d v[0][4]=e
v[1][0]=0 v[1][1]=1 v[1][2]=2 v[1][3]=3 v[1][4]=4

2.3.7 Указатели и массивы

Указатели и массивы в языке Си++ тесно связаны. Имя массива можно использовать как указатель на его первый элемент, поэтому пример с массивом alpha можно записать так:

      int main()
      {
        char alpha[] = "abcdefghijklmnopqrstuvwxyz";
        char* p = alpha;
        char ch;

        while (ch = *p++)
              cout << ch << " = " << int (ch)
                   << " = 0" << oct(ch) << '\n';
      }

Можно также задать описание p следующим образом:

      char* p = &alpha[0];

Эта эквивалентность широко используется при вызовах функций с параметром-массивом, который всегда передается как указатель на его первый элемент. Таким образом, в следующем примере в обоих вызовах
strlen передается одно и то же значение:

     void f()
     {
       extern "C" int strlen(const char*);  // из <string.h>
       char v[] = "Annemarie";
       char* p = v;
       strlen(p);
       strlen(v);
     }

Но в том и загвоэдка, что обойти это нельзя: не существует способа так описать функцию, чтобы при ее вызове массив v копировался ($$4.6.3).

Результат применения к указателям арифметических операций +, -, ++ или -- зависит от типа указуемых объектов. Если такая операция применяется к указателю p типа T*, то считается, что p указывает на массив объектов типа T. Тогда p+1 обозначает следующий элемент этого массива, а p-1 - предыдущий элемент. Отсюда следует, что значение (адрес) p+1 будет на sizeof(T) байтов больше, чем значение p. Поэтому в следующей программе

    main()
    {
      char cv[10];
      int iv[10];

      char* pc = cv;
      int* pi = iv;

      cout << "char* " << long(pc+1)-long(pc) << '\n';
      cout << "int*  " << long(pi+1)-long(pi) << '\n';
    }

с учетом того, что на машине автора (Maccintosh) символ занимает один байт, а целое - четыре байта, получим:

      char* 1
      int*  4

Перед вычитанием указатели были явной операцией преобразованы к типу long ($$3.2.5). Он использовался для преобразования вместо "очевидного" типа int, поскольку в некоторых реализациях языка С++
указатель может не поместиться в тип int (т.е. sizeof(int)<sizeof(char*)).

Вычитание указателей определено только в том случае, когда они оба указывают на один и тот же массив (хотя в языке нет возможностей гарантировать этот факт). Результат вычитания одного указателя из другого равен числу (целое) элементов массива, находящихся между этими указателями. Можно складывать с указателем или вычитать из него значение целого типа; в обоих случаях результатом будет указатель. Если получится значение, не являющееся указателем на элемент того же массива, на который был настроен исходный указатель (или указателем на следующий за массивом элемент), то результат использования такого значения неопределен. Приведем пример:

      void f()
      {
        int v1[10];
        int v2[10];

        int i = &v1[5]-&v1[3];    // 2
        i = &v1[5]-&v2[3];    // неопределенный результат

         int* p = v2+2;            // p == &v2[2]
              p = v2-2;            // *p неопределено
      }

Как правило, сложных арифметических операций с указателями не требуется и лучше всего их избегать. Следует сказать, что в большинстве реализаций языка С++ нет контроля над границами массивов. Описание массива не является самодостаточным, поскольку необязательно в нем будет храниться число элементов массива. Понятие массива в С является, по сути, понятием языка низкого уровня. Классы помогают развить его (см. $$1.4.3).

2.3.8 Структуры

Массив представляет собой совокупность элементов одного типа, а структура является совокупностью элементов произвольных (практически) типов. Например:

    struct address {
        char* name;         // имя "Jim Dandy"
        long  number;       // номер дома 61
        char* street;       // улица "South Street"
        char* town;         // город "New Providence"
        char* state[2];     // штат 'N' 'J'
        int   zip;          // индекс 7974
    };

Здесь определяется новый тип, называемый address, который задает почтовый адрес. Определение не является достаточно общим, чтобы учесть все случаи адресов, но оно вполне пригодно для примера. Обратите внимание на точку с запятой в конце определения: это один из немногих в С++ случаев, когда после фигурной скобки требуется точка с запятой, поэтому про нее часто забывают.

Переменные типа address можно описывать точно так же, как и любые другие переменные, а с помощью операции . (точка) можно обращаться к отдельным членам структуры. Например:

    address jd;
    jd.name = "Jim Dandy";
    jd.number = 61;

Инициализировать переменные типа struct можно так же, как массивы. Например:

     address jd = {
        "Jim Dandy",
         61, "South Street",
         "New Providence", {'N','J'}, 7974
     };

Но лучше для этих целей использовать конструктор ($$5.2.4). Отметим, что jd.state нельзя инициализировать строкой "NJ". Ведь строки оканчиваются нулевым символом '\0', значит в строке "NJ" три символа, а это на один больше, чем помещается в jd.state. К структурным объектам часто обращаются c помощью указателей, используя операцию ->. Например:

     void print_addr(address* p)
    {
      cout << p->name << '\n'
           << p->number << ' ' << p->street << '\n'
           << p->town << '\n'
           << p->state[0] << p->state[1]
           << ' ' << p->zip << '\n';
    }

Объекты структурного типа могут быть присвоены, переданы как фактические параметры функций и возвращены функциями в качестве результата. Например:

    address current;

   address set_current(address next)
   {
     address prev = current;
     current = next;
     return prev;
   }

Другие допустимые операции, например, такие, как сравнение (== и !=), неопределены. Однако пользователь может сам определить эти операции
(см. главу 7).

Размер объекта структурного типа не обязательно равен сумме размеров всех его членов. Это происходит по той причине, что на многих машинах требуется размещать объекты определенных типов, только выравнивая их по некоторой зависящей от системы адресации границе (или просто потому, что работа при таком выравнивании будет более эффективной ). Типичный пример - это выравнивание целого по словной границе. В результате выравнивания могут появиться "дырки" в структуре. Так, на уже упоминавшейся машине автора sizeof(address)
равно 24, а не 22, как можно было ожидать.

Следует также упомянуть, что тип можно использовать сразу после его появления в описании, еще до того, как будет завершено все описание. Например:

     struct link{
           link* previous;
           link* successor;
      };

Однако новые объекты типа структуры нельзя описать до тех пор, пока не появится ее полное описание. Поэтому описание

      struct no_good {
         no_good member;
      };

является ошибочным (транслятор не в состоянии установить размер no_good). Чтобы позволить двум (или более) структурным типам ссылаться друг на друга, можно просто описать имя одного из них как имя некоторого структурного типа. Например:

      struct list;        // будет определено позднее

      struct link {
           link* pre;
           link* suc;
           list* member_of;
      };

      struct list {
           link* head;
      };

Если бы не было первого описания list, описание члена link привело бы к синтаксической ошибке. Можно также использовать имя структурного типа еще до того, как тип будет определен, если только это использование не предполагает знания размера структуры. Например:

        class S;        // 'S' - имя некоторого типа

        extern S a;

        S f();

        void g(S);

Но приведенные описания можно использовать лишь после того, как тип S
будет определен:

        void h()
        {
          S a;        // ошибка: S - неописано
          f();        // ошибка: S - неописано
          g(a);       // ошибка: S - неописано
        }

2.3.9 Эквивалентность типов

Два структурных типа считаются различными даже тогда, когда они имеют одни и те же члены. Например, ниже определены различные типы:

        struct s1 { int a; };
        struct s2 { int a; };

В результате имеем:

        s1 x;
        s2 y = x;    // ошибка: несоответствие типов

Кроме того, структурные типы отличаются от основных типов, поэтому получим:

        s1 x;
        int i = x;    // ошибка: несоответствие типов

Есть, однако, возможность, не определяя новый тип, задать новое имя для типа. В описании, начинающемся служебным словом typedef, описывается не переменная указанного типа, а вводится новое имя для типа.

Приведем пример:

        typedef char* Pchar;
        Pchar p1, p2;
        char* p3 = p1;

Это просто удобное средство сокращения записи.

2.3.10 Ссылки

Ссылку можно рассматривать как еще одно имя объекта.

В основном ссылки используются для задания параметров и возвращаемых функциями значений , а также для перегрузки операций (см.$$7). Запись X& обозначает ссылку на X. Например:

       int i = 1;
       int& r = i;    // r и i  ссылаются на одно и то же целое
       int x = r;     // x = 1
       r = 2;         // i = 2;

Ссылка должна быть инициализирована, т.е. должно быть нечто, что она может обозначать. Следует помнить, что инициализация ссылки совершенно отличается от операции присваивания. Хотя можно указывать операции над ссылкой, ни одна из них на саму ссылку не действует, например,

      int ii = 0;
      int& rr = ii;
      rr++;        // ii увеличивается на 1

Здесь операция ++ допустима, но rr++ не увеличивает саму ссылку rr; вместо этого ++ применяется к целому, т.е. к переменной ii. Следовательно, после инициализации значение ссылки не может быть изменено: она всегда указывает на тот объект, к которому была привязана при ее инициализации. Чтобы получить указатель на объект, обозначаемый ссылкой rr, можно написать &rr. Очевидной реализацией ссылки может служить постоянный указатель, который используется только для косвенного обращения. Тогда инициализация ссылки будет тривиальной, если в качестве инициализатора указан адрес
(т.е. объект, адрес которого можно получить; см. $$R.3.7). Инициализатор для типа T должен быть адресом. Однако, инициализатор для &T может быть и не адресом, и даже не типом T. В таких случаях делается следующее:
[1] во-первых, если необходимо, применяется преобразование типа (см.$$R.8.4.3);
[2] затем получившееся значение помещается во временную переменную;
[3] наконец, адрес этой переменной используется в качестве инициализатора ссылки. Пусть имеются описания:

      double& dr = 1;          // ошибка: нужен адрес
      const double& cdr = 1;   // нормально

Это интерпретируется так:

      double* cdrp;    // ссылка, представленная как указатель
      double temp;
      temp = double(1);
      cdrp = &temp;

Ссылки на переменные и ссылки на константы различаются по следующей причине: в первом случае создание временной переменной чревато ошибками, поскольку присваивание этой переменной означает присваивание временной переменной, которая могла к этому моменту исчезнуть. Естественно, что во втором случае подобных проблем не существует. и ссылки на константы часто используются как параметры функций
(см.$$R.6.3). Ссылка может использоваться для функции, которая изменяет значение своего параметра. Например:

     void incr(int& aa) { aa++; }

     void f()
     {
       int x = 1;
       incr(x);     // x = 2
     }

По определению передача параметров имеет ту же семантику, что и инициализация, поэтому при вызове функции incr ее параметр aa
становится другим именем для x. Лучше, однако, избегать изменяющих свои параметры функций, чтобы не запутывать программу. В большинстве случаев предпочтительнее, чтобы функция возвращала результат явным образом, или чтобы использовался параметр типа указателя:

       int next(int p) { return p+1; }
       void inc(int* p) { (*p)++; }

       void g()
       {
         int x = 1;
         x = next(x);            // x = 2
         inc(&x);                // x = 3
       }

Кроме перечисленного, с помощью ссылок можно определить функции, используемые как в правой, так и в левой частях присваивания.

Наиболее интересное применение это обычно находит при определении нетривиальных пользовательских типов. В качестве примера определим простой ассоциативный массив. Начнем с определения структуры
pair:

        struct pair {
           char* name;  // строка
           int val;     // целое
        };

Идея заключается в том, что со строкой связывается некоторое целое значение. Нетрудно написать функцию поиска find(), которая работает со структурой данных, представляющей ассоциативный массив. В нем для каждой отличной от других строки содержится структура pair (пара: строка и значение ). В данном примере - это просто массив. Чтобы сократить пример, используется предельно простой, хотя и неэффективный алгоритм:

         const int large = 1024;
         static pair vec[large+1];

         pair* find(const char* p)
      /*
         // работает со множеством пар "pair":
         // ищет p, если находит, возвращает его "pair",
         // в противном случае возвращает неиспользованную "pair"
      */
     {
         for (int i=0; vec[i].name; i++)
             if (strcmp(p,vec[i].name)==0) return &vec[i];

         if (i == large) return &vec[large-1];

         return &vec[i];
       }

Эту функцию использует функция value(), которая реализует массив целых, индексируемый строками (хотя привычнее строки индексировать целыми):

       int& value(const char* p)
       {
         pair* res = find(p);
         if (res->name == 0) {  // до сих пор строка не встречалась,
                                // значит надо инициализировать
           res->name = new char[strlen(p)+1];
           strcpy(res->name,p);
           res->val = 0;      // начальное значение равно 0
        }
        return res->val;
      }

Для заданного параметра (строки) value() находит объект, представляющий целое (а не просто значение соответствующего целого) и возвращает ссылку на него. Эти функции можно использовать, например, так:

       const int MAX = 256;    // больше длины самого длинного слова

       main()
       // подсчитывает частоту слов во входном потоке
      {
        char buf[MAX];

        while (cin>>buf) value(buf)++;

        for (int i=0; vec[i].name; i++)
            cout << vec[i].name << ": " << vec [i].val<< '\n';
       }

В цикле while из стандартного входного потока cin читается по одному слову и записывается в буфер buf (см. глава 10), при этом каждый раз значение счетчика, связанного со считываемой строкой, увеличивается.

Счетчик отыскивается в ассоциативном массиве vec с помощью функции find(). В цикле for печатается получившаяся таблица различных слов из cin вместе с их частотой. Имея входной поток

        aa bb bb aa aa bb aa aa

программа выдает:

        aa: 5
        bb: 3

С помощью шаблонного класса и перегруженной операции [] ($$8.8) достаточно просто довести массив из этого примера до настоящего ассоциативного массива.

2.4 ЛИТЕРАЛЫ

В С++ можно задавать значения всех основных типов: символьные константы, целые константы и константы с плавающей точкой. Кроме того, нуль (0) можно использовать как значение указателя произвольного типа, а символьные строки являются константами типа char[]. Есть возможность определить символические константы. Символическая константа - это имя, значение которого в его области видимости изменять нельзя. В С++ символические константы можно задать тремя способами:

(1) добавив служебное слово const в определении, можно связать с именем любое значение произвольного типа;
(2) множество целых констант можно определить как перечисление;
(3) константой является имя массива или функции.

2.4.1 Целые константы

Целые константы могут появляться в четырех обличьях: десятичные, восьмеричные, шестнадцатеричные и символьные константы. Десятичные константы используются чаще всего и выглядят естественно:

        0    1234    976    12345678901234567890

Десятичная константа имеет тип int, если она умещается в память, отводимую для int, в противном случае ее тип long. Транслятор должен предупреждать о константах, величина которых превышает выбранный формат представления чисел. Константа, начинающаяся с нуля, за которым следует x (0x), является шестнадцатеричным числом (с основанием 16), а константа, которая начинающаяся с нуля, за которым следует цифра, является восьмеричным числом (с основанием 8). Приведем примеры восьмеричных констант:

        0        02        077        0123

Их десятичные эквиваленты равны соответственно: 0, 2, 63, 83. В шестнадцатеричной записи эти константы выглядят так:

        0x0      0x2       0x3f       0x53

Буквы a, b, c, d, e и f или эквивалентные им заглавные буквы используются для представления чисел 10, 11, 12, 13, 14 и 15, соответственно. Восьмеричная и шестнадцатеричная формы записи наиболее подходят для задания набора разрядов, а использование их для обычных чисел может дать неожиданный эффект. Например, на машине, в которой int представляется как 16-разрядное число в дополнительном коде, 0xffff есть отрицательное десятичное число -1. Если бы для представления целого использовалось большее число разрядов, то это было бы числом 65535.

Окончание U может использоваться для явного задания констант типа unsigned. Аналогично, окончание L явно задает константу типа long. Например:

          void f(int);
          void f(unsigned int);
          void f(long int);

          void g()
          {
            f(3);      // вызов f(int)
            f(3U);     // вызов f(unsigned int)
            f(3L);     // вызов f(long int)
          }

2.4.2 Константы с плавающей точкой

Константы с плавающей точкой имеют тип double. Транслятор должен предупреждать о таких константах, значение которых не укладывается в формат, выбранный для представления чисел с плавающей точкой. Приведем примеры констант с плавающей точкой:

         1.23    .23      0.23     1.    1.0     1.2e10    1.23e-15

Отметим, что внутри константы с плавающей точкой не должно быть пробелов. Например, 65.43 e-21 не является константой с плавающей точкой, транслятор распознает это как четыре отдельные лексемы:

          65.43    e    -    21

что вызовет синтаксическую ошибку. Если нужна константа с плавающей точкой типа float, то ее можно получить, используя окончание f:

          3.14159265f     2.0f     2.997925f

2.4.3 Символьные константы

Символьной константой является символ, заключенный в одиночные кавычки, например, 'a' или '0'. Символьные константы можно считать константами, которые дают имена целым значениям символов из набора, принятого на машине, на которой выполняется программа. Это необязательно тот же набор символов, который есть на машине, где программа транслировалась. Таким образом, если вы запускаете программу на машине, использующей набор символов ASCII, то значение '0' равно 48, а если машина использует код EBCDIC, то оно будет равно 240. Использование символьных констант вместо их десятичного целого эквивалента повышает переносимость программ. Некоторые специальные комбинации символов, начинающиеся с обратной дробной черты, имеют стандартные названия:

      Конец строки                NL(LF)    \n
      Горизонтальная табуляция    HT        \t
      Вертикальная табуляция      VT        \v
      Возврат                     BS        \b
      Возврат каретки             CR        \r
      Перевод формата             FF        \f
      Сигнал                      BEL       \a
      Обратная дробная черта      \         \\
      Знак вопроса                ?         \?
      Одиночная кавычка           '         \'
      Двойная кавычка             "         \"
      Нулевой символ              NUL       \0
      Восьмеричное число          ooo       \ooo
      Шестнадцатеричное число     hhh       \xhhh

Несмотря на их вид, все эти комбинации задают один символ. Тип символьной константы - char. Можно также задавать символ с помощью восьмеричного числа, представленного одной, двумя или тремя восьмеричными цифрами (перед цифрами идет \) или с помощью шестнадцатеричного числа (перед шестнадцатеричными цифрами идет \x). Число шестнадцатеричных цифр в такой последовательности неограничено. Последовательность восьмеричных или шестнадцатеричных цифр завершается первым символом, не являющимся такой цифрой. Приведем примеры:

    '\6'      '\x6'        6        ASCII ack
    '\60'     '\x30'       48       ASCII '0'
    '\137'    '\x05f'      95       ASCII '_'

Этим способом можно представить любой символ из набора символов машины. В частности, задаваемые таким образом символы можно включать в символьные строки (см. следующий раздел). Заметим, что если для символов используется числовая форма задания, то нарушается переносимость программы между машинами с различными наборами символов.

2.4.4 Строки

Строка - это последовательность символов, заключенная в двойные кавычки:

"это строка"

Каждая строка содержит на один символ больше, чем явно задано: все строки оканчиваются нулевым символом ('\0'), имеющим значение 0. Поэтому

       sizeof("asdf")==5;

Типом строки считается "массив из соответствующего числа символов", поэтому тип "asdf" есть char[5]. Пустая строка записывается как "" и имеет тип char[1]. Отметим, что для любой строки s выполняется strlen(s)==sizeof(s)-1, поскольку функция strlen() не учитывает завершающий символ '\0'.

Внутри строки можно использовать для представления невидимых символов специальные комбинации с \. В частности, в строке можно задать сам символ двойной кавычки " или символ \. Чаще всего из таких символов оказывается нужным символ конца строки '\n', например:

       cout << "звуковой сигнал в конце сообщения\007\n"

Здесь 7 - это значение в ASCII символа BEL (сигнал), который в переносимом виде обозначается как \a. Нет возможности задать в строке "настоящий" символ конца строки:

"это не строка,
а синтаксическая ошибка"

Для большей наглядности программы длинные строки можно разбивать пробелами, например:

       char alpha[] = "abcdefghijklmnopqrstuvwxyz"
                      "ABCDEFGHIJKLMNOPQRSTUVWXYZ";

Подобные, подряд идущие, строки будут объединяться в одну, поэтому массив alpha можно эквивалентным образом инициализировать с помощью одной строки:

        "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ";

В строке можно задавать символ '\0', но большинство программ не ожидает после него встречи с какими-либо еще символами. Например, строку "asdf\000hjkl" стандартные функции strcpy() и strlen()
будут рассматривать как строку "asdf".

Если вы задаете в строке последовательностью восьмеричных цифр числовую константу, то разумно указать все три цифры. Запись этой строки и так не слишком проста, чтобы еще и раздумывать, относится ли цифра к числу или является отдельным символом. Для шестнадцатеричных констант используйте два разряда. Рассмотрим следующие примеры:

       char v1[] = "a\x0fah\0129";    // 'a' '\xfa' 'h' '\12' '9'
       char v2[] = "a\xfah\129";      // 'a' '\xfa' 'h' '\12' '9'
       char v3[] = "a\xfad\127";      // 'a' '\xfad' '\127'

2.4.5 Нуль

Нуль (0) имеет тип int. Благодаря стандартным преобразованиям ($$R.4) 0 можно использовать как константу целого типа, или типа с плавающей точкой, или типа указателя. Нельзя разместить никакой объект, если вместо адреса указан 0. Какой из типов нуля использовать, определяется контекстом. Обычно (но необязательно) нуль представляется последовательностью разрядов "все нули" подходящей длины.

2.5 Поименованные константы

Добавив к описанию объекта служебное слово const, можно превратить этот объект из переменной в константу, например:

       const int model = 90;
       const int v[] = { 1, 2, 3, 4 };

Поскольку константе нельзя ничего присвоить, она должна быть инициализирована. Описывая какой-либо объект как const, мы гарантируем, что его значение не изменяется в области видимости:

      model = 200;        // ошибка
      model++;            // ошибка

Отметим, что спецификация const скорее ограничивает возможности использования объекта, чем указывает, где следует размещать объект. Может быть вполне разумным и даже полезным описание функции с типом возвращаемого значения const:

     const char* peek(int i)    // вернуть указатель на строку-константу
    {
      return hidden[i];
    }

Приведенную функцию можно было бы использовать для передачи строки, защищенной от записи, в другую программу, где она будет читаться. Вообще говоря, транслятор может воспользоваться тем фактом, что объект является const, для различных целей (конечно, это зависит от "разумности" транслятора). Самое очевидное - это то, что для константы не нужно отводить память, поскольку ее значение известно транслятору. Далее, инициализатор для константы, как правило (но не всегда) является постоянным выражением, которое можно вычислить на этапе трансляции. Однако, для массива констант обычно приходится отводить память, поскольку в общем случае транслятор не знает, какой элемент массива используется в выражении. Но и в этом случае на многих машинах возможна оптимизация, если поместить такой массив в защищенную от записи память.

Задавая указатель, мы имеем дело с двумя объектами: с самим указателем и с указуемым объектом. Если в описании указателя есть "префикс"
const, то константой объявляется сам объект, но не указатель на него, например:

       const char* pc = "asdf";    // указатель на константу
       pc[3] = 'a';                // ошибка
       pc = "ghjk";                // нормально

Чтобы описать как константу сам указатель, а не указуемый объект, нужно использовать операцию * перед const. Например:

      char *const cp = "asdf";    // указатель-константа
      cp[3] = 'a';                // нормально
      cp = "ghjk";                // ошибка

Чтобы сделать константами и указатель, и объект, надо оба объявить const, например:

     const char *const cpc = "asdf";  // указатель-константа на const
     cpc[3] = 'a';                    // ошибка
     cpc = "ghjk";                    // ошибка

Объект может быть объявлен константой при обращении к нему с помощью указателя, и в то же время быть изменяемым, если обращаться к нему другим способом. Особенно это удобно использовать для параметров функции. Описав параметр-указатель функции как const, мы запрещаем изменять в ней указуемый объект, например:

    char* strcpy(char* p, const char* q); // не может изменять *q

Указателю на константу можно присвоить адрес переменной, т.к. это не принесет вреда. Однако, адрес константы нельзя присваивать указателю без спецификации const, иначе станет возможным менять ее значение, например:

      int a = 1;
      const int c = 2;
      const int* p1 = &c;    // нормально
      const int* p2 = &a;    // нормально
      int* p3 = &c;          // ошибка
      *p3 = 7;               // меняет значение c

2.5.1. Перечисления

Есть способ связывания имен с целыми константами, который часто более удобен, чем описание с const. Например:

      enum { ASM, AUTO, BREAK };

Здесь определены три целых константы, которые называются элементами перечисления, и им присвоены значения. Поскольку по умолчанию значения элементов перечисления начинаются с 0 и идут в возрастающем порядке, то приведенное перечисление эквивалентно определениям:

       const ASM = 0;
       const AUTO = 1;
       const BREAK = 2;

Перечисление может иметь имя, например:

       enum keyword { ASM, AUTO, BREAK };

Имя перечисления становится новым типом. С помощью стандартных преобразований тип перечисления может неявно приводиться к типу int. Обратное преобразование (из типа int в перечисление) должно быть задано явно. Например:

         void f()
         {
           keyword k = ASM;
           int i = ASM;
               k = i     // ошибка
               k = keyword(i);
               i = k;
               k = 4;    // ошибка
          }

Последнее преобразование поясняет, почему нет неявного преобразования из int в перечисление: большинство значений типа int не имеет представления в данном перечислении. Описав переменную с типом keyword вместо очевидного int, мы дали как пользователю, так и транслятору определенную информацию о том, как будет использоваться эта переменная. Например, для следующего оператора

          keyword key;

          switch (key) {
          case ASM:
           // выполнить что-либо
              break;
          case BREAK:
           // выполнить что-либо
              break;
          }

транслятор может выдать предупреждение, поскольку из трех возможных значений типа keyword используются только два.
Значения элементов перечисления можно задавать и явно. Например:

          enum int16 {
              sign=0100000,
              most_significant=040000,
              least_significant=1
          };

Задаваемые значения необязательно должны быть различными, положительными и идти в возрастающем порядке.

2.6. Экономия памяти

В процессе создания нетривиальной программы рано или поздно наступает момент, когда требуется больше памяти, чем можно выделить или запросить. Есть два способа выжать еще некоторое количество памяти:
[1] паковать в байты переменные с малыми значениями;
[2] использовать одну и ту же память для хранения разных объектов в разное время.

Первый способ реализуется с помощью полей, а второй - с помощью объединений. И те, и другие описываются ниже. Поскольку назначение этих конструкций связано в основном с оптимизацией программы, и поскольку, как правило, они непереносимы, программисту следует хорошенько подумать, прежде чем использовать их. Часто лучше изменить алгоритм работы с данными, например, больше использовать динамически выделяемую память, чем заранее отведенную статическую память.

2.6.1 Поля

Кажется расточительным использовать для признака, принимающего только два значения ( например: да, нет) тип char, но объект типа char является в С++ наименьшим объектом, который может независимо размещаться в памяти. Однако, есть возможность собрать переменные с малым диапазоном значений воедино, определив их как поля структуры. Член структуры является полем, если в его определении после имени указано число разрядов, которое он должен занимать. Допустимы безымянные поля. Они не влияют на работу с поименованными полями, но могут улучшить размещение полей в памяти для конкретной машины:

       struct sreg {
              unsigned enable : 1;
              unsigned page : 3;
              unsigned : 1;        // не используется
              unsigned mode : 2;
              unsigned : 4;        // не используется
              unsigned access : 1;
              unsigned length : 1;
              unsigned non_resident : 1;
        };

Приведенная структура описывает разряды нулевого регистра состояния DEC PDP11/45 (предполагается, что поля в слове размещаются слева направо). Этот пример показывает также другое возможное применение полей: давать имена тем частям объекта, размещение которых определено извне. Поле должно иметь целый тип ($$R.3.6.1 и $$R.9.6), и оно используется аналогично другим объектам целого типа. Но есть исключение: нельзя брать адрес поля. В ядре операционной системы или в отладчике тип sreg мог бы использоваться следующим образом:

            sreg* sr0 = (sreg*)0777572;
            //...
            if (sr0->access) {        // нарушение прав доступа
                // разобраться в ситуации
               sr0->access = 0;
            }

Тем не менее, применяя поля для упаковки нескольких переменных в один байт, мы необязательно сэкономим память. Экономится память для данных, но на большинстве машин одновременно возрастает объем команд, нужных для работы с упакованными данными.

Известны даже такие программы, которые значительно сокращались в объеме, если двоичные переменные, задаваемые полями, преобразовывались в переменные типа char! Кроме того, доступ к char или int обычно происходит намного быстрее, чем доступ к полю. Поля - это просто удобная краткая форма задания логических операций для извлечения или занесения информации в части слова.

2.6.2. Объединения

Рассмотрим таблицу имен, в которой каждый элемент содержит имя и его значение. Значение может задаваться либо строкой, либо целым числом:

            struct entry {
               char* name;
               char  type;
               char* string_value;  // используется если type == 's'
               int   int_value;     // используется если type == 'i'
            };
            void print_entry(entry* p)
            {
              switch(p->type) {
              case 's':
                   cout << p->string_value;
                   break;
              case 'i':
                   cout << p->int_value;
                   break;
              default:
                   cerr << "type corrupted\n";
                   break;
              }
            }

Поскольку переменные string_value и int_value никогда не могут использоваться одновременно, очевидно, что часть памяти пропадает впустую. Это можно легко исправить, описав обе переменные как члены объединения, например, так:

             struct entry {
                  char* name;
                  char  type;
                  union {
                     char* string_value; // используется если type == 's'
                     int   int_value;    // используется если type == 'i'
                  };
             };

Теперь гарантируется, что при выделении памяти для entry члены string_value и int_value будут размещаться с одного адреса, и при этом не нужно менять все части программы, работающие с entry. Из этого следует, что все члены объединения вместе занимают такой же объем памяти, какой занимает наибольший член объединения.

Надежный способ работы с объединением заключается в том, чтобы выбирать значение с помощью того же самого члена, который его записывал. Однако, в больших программах трудно гарантировать, что объединение используется только таким способом, а в результате использования не того члена обЪединения могут возникать трудно обнаруживаемые ошибки. Но можно встроить объединение в такую структуру, которая обеспечит правильную связь между значением поля типа и текущим типом члена объединения ($$5.4.6).

Иногда объединения используют для "псевдопреобразований" типа (в основном на это идут программисты, привыкшие к языкам, в которых нет средств преобразования типов, и в результате приходится обманывать транслятор). Приведем пример такого "преобразования" int в int* на машине VAX, которое достигается простым совпадением разрядов:

         struct fudge {
              union {
                int  i;
                int* p;
              };
         };

         fudge a;
         a.i = 4095;
         int* p = a.p;    // некорректное использование

В действительности это вовсе не преобразование типа, т.к. на одних машинах int и int* занимают разный объем памяти, а на других целое не может размещаться по адресу, задаваемому нечетным числом. Такое использование объединений не является переносимым, тогда как существует переносимый способ задания явного преобразования типа ($$3.2.5).

Иногда объединения используют специально, чтобы избежать преобразования типов. Например, можно использовать fudge, чтобы узнать, как представляется указатель 0:

         fudge.p = 0;
         int i = fudge.i;    // i необязательно должно быть 0

Объединению можно дать имя, то есть можно сделать его полноправным типом. Например, fudge можно описать так:

         union fudge {
               int  i;
               int* p;
         };

и использовать (некорректно) точно так же, как и раньше. Вместе с тем, поименованные объединения можно использовать и вполне корректным и оправданным способом (см. $$5.4.6).

2.7 Упражнения

1. (*1) Запустить программу "Hello, world" (см. $$1.3.1).
2. (*1) Для каждого описания из $$2.1 сделать следующее: если описание
   не является определением, то написать соответствующее определение;
   если же описание является определением, написать для него описание,
   которое не являлось бы одновременно и определением.
3. (*1) Напишите описания следующих объектов: указателя на символ;
   массива из 10 целых; ссылки на массив из 10 целых; указателя
   на массив символьных строк; указателя на указатель на символ;
   целого-константы; указателя на целое-константу; константного
   указателя на целое. Описания снабдить инициализацией.
4. (*1.5) Напишите программу, которая печатает размеры основных типов
   и типа указателя. Используйте операцию sizeof.
5. (*1.5) Напишите программу, которая печатает буквы от 'a' до 'z' и цифры
   от '0' до '9' и их целые значения. Проделайте то же самое для других
   видимых символов. Проделайте это, используя шестнадцатеричную
   запись.
6. (*1) Напечатайте последовательность разрядов представления указателя
   0 на вашей машине. Подсказка: см.$$2.6.2.
7. (*1.5) Напишите функцию, печатающую порядок и мантиссу параметра типа
   double.
8. (*2) Каковы на используемой вами машине наибольшие и наименьшие
   значения следующих типов: char, short,int,long, float, double,
   long double, unsigned, char*, int* и void*? Есть ли какие-то
   особые ограничения на эти значения? Например, может ли int* быть
   нечетным целым? Как выравниваются в памяти объекты этих типов?
   Например, может ли целое иметь нечетный адрес?
9. (*1) Какова максимальная длина локального имени, которое
   можно использовать в вашей реализации С++ ? Какова максимальная
   длина внешнего имени? Есть ли какие-нибудь ограничения на символы,
   которые можно использовать в имени?
10. (*1) Напишите функцию, которая меняет местами значения двух целых.
В качестве типа параметров используйте int*. Напишите другую функцию

   с тем же назначением, используя в качестве типа параметров int&.
11. (*1) Каков размер массива str в следующем примере:
      char str[] = "a short string";
   Какова длина строки "a short string"?
12. (*1.5) Составьте таблицу из названий месяцев года и числа дней
   в каждом из них. Напишите программу, печатающую ее. Проделайте
   это дважды: один раз - используя массивы для названий месяцев
   и количества дней, а другой раз - используя массив структур,
   каждая из которых содержит название месяца и количество дней в нем.
13. (*1) С помощью typedef определите типы: unsigned char, константный
   unsigned char, указатель на целое, указатель на указатель на
   символ, указатель на массив символов, массив из 7 указателей
   на целое, указатель на массив из 7 указателей на целое и массив из
   8 массивов из 7 указателей на целое.
14. (*1) Определить функции f(char), g(char&) и h(const char&) и
   вызвать их, используя в качестве параметров 'a', 49, 3300, c, uc, и
   sc, где c - char, uc - unsigned char и sc - signed char. Какой
   вызов является законным? При каком вызове транслятору придется
   завести временную переменную?

ГЛАВА 3. ВЫРАЖЕНИЯ И ОПЕРАТОРЫ

                   "Но с другой стороны не следует
                        забывать про эффективность"

                                          (Джон Бентли)

С++ имеет сравнительно небольшой набор операторов, который позволяет создавать гибкие структуры управления, и богатый набор операций для работы с данными. Основные их возможности показаны в этой главе на одном завершенном примере. Затем приводится сводка выражений, и подробно обсуждаются операции преобразования типа и размещение в свободной памяти. Далее дана сводка операторов, а в конце главы обсуждается выделение текста пробелами и использование комментариев.

3.1 Калькулятор

Мы познакомимся с выражениями и операторами на примере программы калькулятора. Калькулятор реализует четыре основных арифметических действия в виде инфиксных операций над числами с плавающей точкой. В качестве упражнения предлагается добавить к калькулятору переменные. Допустим, входной поток имеет вид:

           r=2.5
           area=pi*r*r

(здесь pi имеет предопределенное значение). Тогда программа калькулятора выдаст:

           2.5
           19.635

Результат вычислений для первой входной строки равен 2.5, а результат для второй строки - это 19.635.

Программа калькулятора состоит из четырех основных частей: анализатора, функции ввода, таблицы имен и драйвера. По сути - это транслятор в миниатюре, в котором анализатор проводит синтаксический анализ, функция ввода обрабатывает входные данные и проводит лексический анализ, таблица имен хранит постоянную информацию, нужную для работы, а драйвер выполняет инициализацию, вывод результатов и обработку ошибок. К такому калькулятору можно добавить много других полезных возможностей, но программа его и так достаточно велика (200 строк), а введение новых возможностей только увеличит ее объем, не давая дополнительной информации для изучения С++.

3.1.1 Анализатор

Грамматика языка калькулятора определяется следующими правилами:

     программа:
         END                    // END - это конец ввода
         список-выражений END

     список-выражений:
         выражение PRINT      // PRINT - это '\n' или ';'
         выражение PRINT список-выражений

     выражение:
         выражение + терм
         выражение - терм
         терм

     терм:
         терм / первичное
         терм * первичное
         первичное

     первичное:
         NUMBER      // число с плавающей запятой в С++
         NAME        // имя в языке С++ за исключением '_'
         NAME = выражение
         - первичное
         ( выражение )

Иными словами, программа есть последовательность строк, а каждая строка содержит одно или несколько выражений, разделенных точкой с запятой. Основные элементы выражения - это числа, имена и операции *, /, +, - (унарный и бинарный минус) и =. Имена необязательно описывать до использования.

Для синтаксического анализа используется метод, обычно называемый рекурсивным спуском. Это распространенный и достаточно очевидный метод. В таких языках как С++, то есть в которых операция вызова не сопряжена с большими накладными расходами, это метод эффективен. Для каждого правила грамматики имеется своя функция, которая вызывает другие функции. Терминальные символы (например, END, NUMBER, + и -) распознаются лексическим анализатором get_token(). Нетерминальные символы распознаются функциями синтаксического анализатора expr(), term() и prim(). Как только оба операнда выражения или подвыражения стали известны, оно вычисляется. В настоящем трансляторе в этот момент создаются команды, вычисляющие выражение.

Анализатор использует для ввода функцию get_token(). Значение последнего вызова get_token() хранится в глобальной переменной curr_tok. Переменная curr_tok принимает значения элементов перечисления
token_value:

         enum token_value {
              NAME,      NUMBER,     END,
              PLUS='+',  MINUS='-',  MUL='*',    DIV='/',
              PRINT=';', ASSIGN='=', LP='(',     RP=')'
         };
         token_value curr_tok;

Для всех функций анализатора предполагается, что get_token() уже была вызвана, и поэтому в curr_tok хранится следующая лексема, подлежащая анализу. Это позволяет анализатору заглядывать на одну лексему вперед. Каждая функция анализатора всегда читает на одну лексему больше, чем нужно для распознавания того правила, для которого она вызывалась. Каждая функция анализатора вычисляет
"свое" выражение и возвращает его результат. Функция expr() обрабатывает сложение и вычитание. Она состоит из одного цикла, в котором распознанные термы складываются или вычитаются:

        double expr()                   // складывает  и вычитает
        {
          double left = term();

          for(;;)                     // ``вечно''
             switch(curr_tok) {
             case PLUS:
                  get_token();        // случай '+'
                  left += term();
                  break;
             case MINUS:
                  get_token();        // случай '-'
                  left -= term();
                  break;
            default:
                  return left;
            }
         }

Сама по себе эта функция делает немного. Как принято в высокоуровневых функциях больших программ, она выполняет задание, вызывая другие функции. Отметим, что выражения вида 2-3+4
вычисляются как (2-3)+4, что предопределяется правилами грамматики. Непривычная запись for(;;) - это стандартный способ задания бесконечного цикла, и его можно обозначить словом "вечно". Это вырожденная форма оператора for, и альтернативой ей может служить оператор while(1). Оператор switch выполняется повторно до тех пор, пока не перестанут появляться операции + или - , а тогда по умолчанию выполняется оператор return (default).

Операции += и -= используются для выполнения операций сложения и вычитания. Можно написать эквивалентные присваивания: left=left+term() и
left=left-term(). Однако вариант left+=term() и left-=term() не только короче, но и более четко определяет требуемое действие. Для бинарной операции @ выражение x@=y означает x=x@y, за исключением того, что x
вычисляется только один раз. Это применимо к бинарным операциям:

+ - * / % & | ^ << >>

поэтому возможны следующие операции присваивания:

+= -= *= /= %= &= |= ^= <<= >>=

Каждая операция является отдельной лексемой, поэтому a + =1 содержит синтаксическую ошибку (из-за пробела между + и =). Расшифровка операций следующая: % - взятие остатка, &, | и ^ - разрядные логические операции И, ИЛИ и Исключающее ИЛИ; << и >> сдвиг влево и сдвиг вправо. Функции term() и get_token() должны быть описаны до определения expr(). В главе 4 рассматривается построение программы в виде совокупности файлов. За одним исключением, все программы калькулятора можно составить так, чтобы в них все объекты описывались только один раз и до их использования. Исключением является функция expr(), которая вызывает функцию term(), а она, в свою очередь, вызывает prim(), и уже та, наконец, вызывает expr(). Этот цикл необходимо как-то разорвать, для чего вполне подходит заданное до определения prim() описание:

      double expr();    // это описание необходимо

Функция term() справляется с умножением и делением аналогично тому, как функция expr() со сложением и вычитанием:

     double term()                    // умножает и складывает
     {
       double left = prim();

       for(;;)
          switch(curr_tok)    {
          case MUL:
              get_token();         // случай '*'
              left *= prim();
              break;
          case DIV:
              get_token();         // случай '/'
              double d = prim();
              if (d == 0) return error("деление на 0");
              left /= d;
              break;
          default:
              return left;
          }
      }

Проверка отсутствия деления на нуль необходима, поскольку результат деления на нуль неопределен и, как правило, приводит к катастрофе. Функция error() будет рассмотрена позже. Переменная d появляется в программе там, где она действительно нужна, и сразу же инициализируется. Во многих языках описание может находиться только в начале блока. Но такое ограничение может искажать естественную структуру программы и способствовать появлению ошибок. Чаще всего не инициализированные локальные переменные свидетельствуют о плохом стиле программирования. Исключение составляют те переменные, которые инициализируются операторами ввода, и переменные типа массива или структуры, для которых нет традиционной инициализации с помощью одиночных присваиваний. Следует напомнить, что =
является операцией присваивания, тогда как == есть операция сравнения.

Функция prim, обрабатывающая первичное, во многом похожа на функции expr и term(). Но раз мы дошли до низа в иерархии вызовов, то в ней кое-что придется сделать. Цикл для нее не нужен:

        double number_value;
        char name_string[256];

        double prim()               // обрабатывает первичное
        {
          switch (curr_tok) {
          case NUMBER:          // константа с плавающей точкой
            get_token();
            return number_value;
          case NAME:
            if (get_token() == ASSIGN) {
               name* n = insert(name_string);
               get_token();
               n->value = expr();
               return n->value;
            }
            return look(name_string)->value;
         case MINUS:               // унарный минус
            get_token();
            return -prim();
         case LP:
            get_token();
            double e = expr();
            if (curr_tok != RP) return error("требуется )");
            get_token();
            return e;
        case END:
            return 1;
       default:
            return error("требуется первичное");
       }
    }

Когда появляется NUMBER (то есть константа с плавающей точкой), возвращается ее значение. Функция ввода get_token() помещает значение константы в глобальную переменную number_value. Если в программе используются глобальные переменные, то часто это указывает на то, что структура не до конца проработана, и поэтому требуется некоторая оптимизация. Именно так обстоит дело в данном случае. В идеале лексема должна состоять из двух частей: значения, определяющего вид лексемы (в данной программе это token_value), и (если необходимо) собственно значения лексемы. Здесь же имеется только одна простая переменная
curr_tok, поэтому для хранения последнего прочитанного значения NUMBER требуется глобальная переменная number_value. Такое решение проходит потому, что калькулятор во всех вычислениях вначале выбирает одно число, а затем считывает другое из входного потока. В качестве упражнения предлагается избавиться от этой излишней глобальной переменной ($$3.5 [15]).

Если последнее значение NUMBER хранится в глобальной переменной number_value, то строковое представление последнего значения NAME хранится в name_string. Перед тем, как что-либо делать с именем, калькулятор должен заглянуть вперед, чтобы выяснить, будет ли ему присваиваться значение, или же будет только использоваться существующее его значение. В обоих случаях надо обратиться к таблице имен. Эта таблица рассматривается в $$3.1.3; а здесь достаточно только знать, что она состоит из записей, имеющих вид:

     struct name {
        char* string;
        name* next;
        double value;
     };

Член next используется только служебными функциями, работающими с таблицей:

    name* look(const char*);
    name* insert(const char*);

Обе функции возвращают указатель на ту запись name, которая соответствует их параметру-строке. Функция look() "ругается", если имя не было занесено в таблицу. Это означает, что в калькуляторе можно использовать имя без предварительного описания, но в первый раз оно может появиться только в левой части присваивания.

3.1.2 Функция ввода

Получение входных данных - часто самая запутанная часть программы. Причина кроется в том, что программа должна взаимодействовать с пользователем, то есть "мириться" с его прихотями, учитывать принятые соглашения и предусматривать кажущиеся редкими ошибки. Попытки заставить человека вести себя более удобным для машины образом, как правило, рассматриваются как неприемлемые, что справедливо. Задача ввода для функции низкого уровня состоит в последовательном считывании символов и составлении из них лексемы, с которой работают уже функции более высокого уровня. В этом примере низкоуровневый ввод делает функция get_token(). К счастью, написание низкоуровневой функции ввода достаточно редкая задача. В хороших системах есть стандартные функции для таких операций.

Правила ввода для калькулятора были специально выбраны несколько громоздкими для потоковых функций ввода. Незначительные изменения в определениях лексем превратили бы get_token() в обманчиво простую функцию.

Первая сложность состоит в том, что символ конца строки '\n' важен для калькулятора, но потоковые функции ввода воспринимают его как символ обобщенного пробела. Иначе говоря, для этих функций '\n'
имеет значение только как символ, завершающий лексему. Поэтому приходится анализировать все обобщенные пробелы (пробел, табуляция и т.п.). Это делается в операторе do, который эквивалентен оператору while, за исключением того, что тело оператора do всегда выполняется хотя бы один раз:

    char ch;

    do {    // пропускает пробелы за исключением '\n'
        if(!cin.get(ch)) return curr_tok = END;
    } while (ch!='\n' && isspace(ch));

Функция cin.get(ch) читает один символ из стандартного входного потока в ch. Значение условия if(!cin.get(ch)) - ложь, если из потока cin нельзя получить ни одного символа. Тогда возвращается лексема END, чтобы закончить работу калькулятора. Операция ! (NOT) нужна потому, что в случае успешного считывания get() возвращает ненулевое значение.

Функция-подстановка isspace() из <ctype.h> проверяет, не является ли ее параметр обобщенным пробелом ($$10.3.1). Она возвращает ненулевое значение, если является, и нуль в противном случае. Проверка реализуется как обращение к таблице, поэтому для скорости лучше вызывать isspace(), чем проверять самому. То же можно сказать о функциях isalpha(), isdigit() и isalnum(), которые используются в get_token().

После пропуска обобщенных пробелов следующий считанный символ определяет, какой будет начинающаяся с него лексема. Прежде, чем привести всю функцию, рассмотрим некоторые случаи отдельно. Лексемы
'\n' и ';', завершающие выражение, обрабатываются следующим образом:

         switch (ch) {
         case ';':
         case '\n':
              cin >> ws;    // пропуск обобщенного пробела
              return curr_tok=PRINT;

Необязательно снова пропускать пробел, но, сделав это, мы избежим повторных вызовов функции get_token(). Переменная ws, описанная в файле <stream.h>, используется только как приемник ненужных пробелов. Ошибка во входных данных, а также конец ввода не будут обнаружены до следующего вызова функции get_token(). Обратите внимание, как несколько меток выбора помечают одну последовательность операторов, заданную для этих вариантов. Для обоих символов ('\n' и ';') возвращается лексема PRINT, и она же помещается в curr_tok.

Числа обрабатываются следующим образом:

       case '0': case '1': case '2': case '3': case '4':
       case '5': case '6': case '7': case '8': case '9':
       case '.':
            cin.putback(ch);
            cin >> number_value;
            return curr_tok=NUMBER;

Размещать метки вариантов горизонтально, а не вертикально,- не самый лучший способ, поскольку такой текст труднее читать; но писать строку для каждой цифры утомительно. Поскольку оператор >> может читать константу с плавающей точкой типа double, программа тривиальна: прежде всего начальный символ (цифра или точка) возвращается назад в cin, а затем константу можно считать в number_value. Имя, т.е. лексема NAME, определяется как буква, за которой может идти несколько букв или цифр:

         if (isalpha(ch)) {
            char* p = name_string;
            *p++ = ch;
            while (cin.get(ch) && isalnum(ch)) *p++ = ch;
            cin.putback(ch);
            *p = 0;
            return curr_tok=NAME;
         }

Этот фрагмент программы заносит в name_string строку, оканчивающуюся нулевым символом. Функции isalpha() и isalnum() определены в <ctype.h>. Результат isalnum(c) ненулевой, если c - буква или цифра, и нулевой в противном случае.

Приведем, наконец, функцию ввода полностью:

         token_value get_token()
         {
           char ch;

           do {    // пропускает обобщенные пробелы за исключением '\n'
               if(!cin.get(ch)) return curr_tok = END;
           } while (ch!='\n' && isspace(ch));

           switch (ch) {
           case ';':
           case '\n':
                cin >> ws;    // пропуск обобщенного пробела
                return curr_tok=PRINT;
           case '*':
           case '/':
           case '+':
           case '-':
           case '(':
           case ')':
           case '=':
                return curr_tok=token_value(ch);
           case '0': case '1': case '2': case '3': case '4':
           case '5': case '6': case '7': case '8': case '9':
           case '.':
                cin.putback(ch);
                cin >> number_value;
                return curr_tok=NUMBER;
          default:            // NAME, NAME= или ошибка
                if (isalpha(ch)) {
                   char* p = name_string;
                   *p++ = ch;
                   while (cin.get(ch) && isalnum(ch)) *p++ = ch;
                   cin.putback(ch);
                   *p = 0;
                   return curr_tok=NAME;
                }
                error("недопустимая лексема");
                return curr_tok=PRINT;
           }
        }

Преобразование операции в значение лексемы для нее тривиально, поскольку в перечислении token_value лексема операции была определена как целое (код символа операции).

3.1.3 Таблица имен

Есть функция поиска в таблице имен:

       name* look(char* p, int ins =0);

Второй ее параметр показывает, была ли символьная строка, обозначающая имя, ранее занесена в таблицу. Инициализатор =0 задает стандартное значение параметра, которое используется, если функция look()
вызывается только с одним параметром. Это удобно, так как можно писать look("sqrt2"), что означает look("sqrt2",0), т.е. поиск, а не занесение в таблицу. Чтобы было так же удобно задавать операцию занесения в таблицу, определяется вторая функция:

      inline name* insert(const char* s) { return look(s,1); }

Как ранее упоминалось, записи в этой таблице имеют такой тип:

      struct name {
           char* string;
           name* next;
           double value;
      };

Член next используется для связи записей в таблице. Собственно таблица - это просто массив указателей на объекты типа name:

      const TBLSZ = 23;
      name* table[TBLSZ];

Поскольку по умолчанию все статические объекты инициализируются нулем, такое тривиальное описание таблицы table обеспечивает также и нужную инициализацию.

Для поиска имени в таблице функция look() использует простой хэш-код (записи, в которых имена имеют одинаковый хэш-код, связываются): вместе):

           int ii = 0;        // хэш-код
           const char* pp = p;
           while (*pp) ii = ii<<1 ^ *pp++;
           if (ii < 0) ii = -ii;
           ii %= TBLSZ;

Иными словами, с помощью операции ^ ("исключающее ИЛИ") все символы входной строки p поочередно добавляются к ii. Разряд в результате x^y равен 1 тогда и только тогда, когда эти разряды в операндах x и y различны. До выполнения операции ^ значение ii сдвигается на один разряд влево, чтобы использовался не только один байт ii. Эти действия можно записать таким образом:

           ii <<= 1;
           ii ^= *pp++;

Для хорошего хэш-кода лучше использовать операцию ^, чем +. Операция сдвига важна для получения приемлемого хэш-кода в обоих случаях. Операторы

           if (ii < 0) ii = -ii;
           ii %= TBLSZ;

гарантируют, что значение ii будет из диапазона 0...TBLSZ-1. Напомним, что % - это операция взятия остатка. Ниже полностью приведена функция look:

          #include <string.h>

          name* look(const char* p, int ins =0)
          {
            int ii = 0;        // хэш-код
            const char* pp = p;
            while (*pp) ii = ii<<1 ^ *pp++;
            if (ii < 0) ii = -ii;
            ii %= TBLSZ;

            for (name* n=table[ii]; n; n=n->next)    // поиск
                if (strcmp(p,n->string) == 0) return n;

            if (ins == 0) error("имя не найдено");

            name* nn = new name;                     // занесение
            nn->string = new char[strlen(p)+1];
            strcpy(nn->string,p);
            nn->value = 1;
            nn->next = table[ii];
            table[ii] = nn;
            return nn;
          }

После вычисления хэш-кода ii идет простой поиск имени по членам next. Имена сравниваются с помощью стандартной функции сравнения строк strcmp(). Если имя найдено, то возвращается указатель на содержащую его запись, а в противном случае заводится новая запись с этим именем.

Добавление нового имени означает создание нового объекта name в свободной памяти с помощью операции new (см. $$3.2.6), его инициализацию и включение в список имен. Последнее выполняется как занесение нового имени в начало списка, поскольку это можно сделать даже без проверки того, есть ли список вообще. Символьная строка имени также размещается в свободной памяти. Функция strlen() указывает, сколько памяти нужно для строки, операция new отводит нужную память, а функция strcpy() копирует в нее строку. Все строковые функции описаны в <string.h>:

         extern int strlen(const char*);
         extern int strcmp(const char*, const char*);
         extern char* strcpy(char*, const char*);

3.1.4 Обработка ошибок

Поскольку программа достаточно проста, не надо особо беспокоиться об обработке ошибок. Функция error просто подсчитывает число ошибок, выдает сообщение о них и возвращает управление обратно:

          int no_of_errors;

          double error(const char* s)
          {
            cerr << "error: " << s << "\n";
            no_of_errors++;
            return 1;
          }

Небуферизованный выходной поток cerr обычно используется именно для выдачи сообщений об ошибках. Управление возвращается из error() потому, что ошибки, как правило, встречаются посреди вычисления выражения. Значит надо либо полностью прекращать вычисления, либо возвращать значение, которое не должно вызвать последующих ошибок. Для простого калькулятора больше подходит последнее. Если бы функция get_token() отслеживала номера строк, то функция error() могла бы указывать пользователю приблизительное место ошибки. Это было бы полезно при неинтерактивной работе с калькулятором. Часто после появления ошибки программа должна завершиться, поскольку не удалось предложить разумный вариант ее дальнейшего выполнения. Завершить ее можно с помощью вызова функции exit(), которая заканчивает работу с выходными потоками ($$10.5.1) и завершает программу, возвращая свой параметр в качестве ее результата. Более радикальный способ завершения программы - это вызов функции abort(), которая прерывает выполнение программы немедленно или сразу же после сохранения информации для отладчика (сброс оперативной памяти). Подробности вы можете найти в своем справочном руководстве.

Более тонкие приемы обработки ошибок можно предложить, если ориентироваться на особые ситуации (см.$$9), но предложенное решение вполне приемлемо для игрушечного калькулятора в 200 строк.

3.1.5 Драйвер

Когда все части программы определены, нужен только драйвер, чтобы инициализировать и запустить процесс. В нашем примере с этим справится функция main():

       int main()
       {
         // вставить предопределенные имена:
         insert("pi")->value = 3.1415926535897932385;
         insert("e")->value = 2.7182818284590452354;

         while (cin) {
             get_token();
             if (curr_tok == END) break;
             if (curr_tok == PRINT) continue;
             cout << expr() << '\n';
         }
         return no_of_errors;
       }

Принято, что функция main() возвращает нуль, если программа завершается нормально, и ненулевое значение, если происходит иначе. Ненулевое значение возвращается как число ошибок. Оказывается, вся инициализация сводится к занесению предопределенных имен в таблицу.

В цикле main читаются выражения и выдаются результаты. Это делает одна строка:

        cout << expr() << '\n';

Проверка cin при каждом проходе цикла гарантирует завершение программы, даже если что-то случится с входным потоком, а проверка на лексему END нужна для нормального завершения цикла, когда функция get_token() обнаружит конец файла. Оператор break служит для выхода из ближайшего объемлющего оператора switch или цикла (т.е. оператора for, while или do). Проверка на лексему PRINT (т.е. на '\n' и ';') снимает с функции expr() обязанность обрабатывать пустые выражения. Оператор continue эквивалентен переходу на конец цикла, поэтому в нашем случае фрагмент:

         while (cin) {
         // ...
         if (curr_tok == PRINT) continue;
         cout << expr() << "\n";
       }

эквивалентен фрагменту:

        while (cin) {
        // ...
        if (curr_tok == PRINT) goto end_of_loop;
        cout << expr() << "\n";
        end_of_loop: ;
      }

Более подробно циклы описываются в $$R.6

3.1.6 Параметры командной строки

Когда программа калькулятора уже была написана и отлажена, выяснилось, что неудобно вначале запускать ее, вводить выражение, а затем выходить из калькулятора. Тем более, что обычно нужно просто вычислить одно выражение. Если это выражение задать как параметр командной строки запуска калькулятора, то можно сэкономить несколько нажатий клавиши.

Как уже было сказано, выполнение программы начинается вызовом main(). При этом вызове main() получает два параметра: число параметров (обычно называемый argc) и массив строк параметров (обычно называемый argv). Параметры - это символьные строки, поэтому argv имеет тип char*[argc+1]. Имя программы (в том виде, как оно было задано в командной строке) передается в argv[0], поэтому argc всегда не меньше единицы. Например, для командной строки

          dc 150/1.1934

параметры имеют значения:

          argc        2
          argv[0]     "dc"
          argv[1]     "150/1.1934"
          argv[2]     0

Добраться до параметров командной строки просто; проблема в том, как использовать их так, чтобы не менять саму программу. В данном случае это оказывается совсем просто, поскольку входной поток может быть настроен на символьную строку вместо файла ($$10.5.2). Например, можно определить cin так, чтобы символы читались из строки, а не из стандартного входного потока:

         int main(int argc, char* argv[])
         {
           switch(argc) {
             case 1:    // считывать из стандартного входного потока
                break;
             case 2:    // считывать из строки параметров
               cin = *new istream(argv[1],strlen(argv[1]));
               break;
             default:
               error("слишком много параметров");
               return 1;
          }

           // дальше прежний вариант main
       }

При этом istrstream - это функция istream, которая считывает символы из строки, являющейся ее первым параметром. Чтобы использовать istrstream нужно включить в программу файл <strstream.h>, а не обычный <iostream.h>. В остальном же программа осталась без изменений, кроме добавления параметров в функцию main() и использования их в операторе switch. Можно легко изменить функцию main() так, чтобы она могла принимать несколько параметров из командной строки. Однако это не слишком нужно, тем более, что можно нескольких выражений передать как один параметр:

         dc "rate=1.1934;150/rate;19.75/rate;217/rate"

Кавычки необходимы потому, что символ ';' служит в системе UNIX разделителем команд. В других системах могут быть свои соглашения о параметрах командной строки.

3.2 Сводка операций

Полное и подробное описание операций языка С++ дано в $$R.7. Советуем прочитать этот раздел. Здесь же приводится краткая сводка операций и несколько примеров. Каждая операция сопровождается одним или несколькими характерными для нее именами и примером ее использования. В этих примерах class_name обозначает имя класса, member - имя члена, object - выражение, задающее объект класса, pointer - выражение, задающее указатель, expr - просто выражение, а lvalue (адрес) - выражение, обозначающее не являющийся константой объект. Обозначение (type) задает имя типа в общем виде (с возможным добавлением *, () и т.д.). Если оно указано без скобок, существуют ограничения.

Порядок применения унарных операций и операций присваивания "справа налево", а всех остальных операций - "слева направо". То есть, a=b=c означает a=(b=c), a+b+c означает (a+b)+c, и *p++ означает
*(p++), а не (*p)++.

____________________________________________________________
              Операции С++
============================================================
::    Разрешение области видимости   class_name :: member
::    Глобальное                     :: name
____________________________________________________________
.        Выбор члена                    object . member
->       Выбор члена                 pointer -> member
[]       Индексирование                 pointer [ expr ]
()       Вызов функции                  expr ( expr_list )
()       Структурное значение           type ( expr_list )
sizeof   Размер объекта                 sizeof expr
sizeof   Размер типа                    sizeof ( type )
____________________________________________________________
++       Постфиксный инкремент          lvalue ++
++       Префиксный инкремент           ++ lvalue
--       Постфиксный декремент          lvalue --
--       Префиксный декремент           -- lvalue
~        Дополнение                     ~ expr
!        Логическое НЕ                  ! expr
-        Унарный минус                  - expr
+        Унарный плюс                   + expr
&        Взятие адреса                  & lvalue
*        Косвенность                    * expr
new      Создание (размещение)          new type
delete   Уничтожение (освобождение)     delete pointer
delete[] Уничтожение массива            delete[] pointer
()       Приведение(преобразование)типа ( type ) expr
____________________________________________________________
. *      Выбор члена косвенный          object . pointer-to-member
->*      Выбор члена косвенный          pointer -> pointer-to-member
____________________________________________________________
*        Умножение                      expr * expr
/        Деление                        expr / expr
%        Остаток  от деления            expr % expr
____________________________________________________________
+        Сложение (плюс)                expr + expr
-        Вычитание (минус)              expr - expr
____________________________________________________________

Все операции таблицы, находящиеся между двумя ближайшими друг к другу горизонтальными чертами, имеют одинаковый приоритет. Приоритет операций уменьшается при движении "сверху вниз". Например, a+b*c означает a+(b*c), так как * имеет приоритет выше, чем +; а выражение a+b-c означает (a+b)-c, поскольку + и - имеют одинаковый приоритет, и операции + и - применяются "слева направо".

____________________________________________________________
            Операции  С++ (продолжение)
============================================================
<<       Сдвиг влево                     expr << expr
>>       Сдвиг вправо                    expr >> expr
____________________________________________________________
<        Меньше                          expr < expr
<=       Меньше или равно                expr <= expr
>        Больше                          expr > expr
>=       Больше или равно                expr >= expr
____________________________________________________________
==       Равно                           expr == expr
!=       Не равно                        expr != expr
____________________________________________________________
&        Поразрядное И                   expr & expr
____________________________________________________________
^        Поразрядное исключающее ИЛИ     expr ^ expr
____________________________________________________________
|        Поразрядное включающее ИЛИ      expr | expr
____________________________________________________________
&&       Логическое И                    expr && expr
____________________________________________________________
||       Логическое ИЛИ                  expr || expr
____________________________________________________________
? :      Операция условия                expr? expr : expr
____________________________________________________________
=        Простое присваивание            lvalue = expr
*=       Присваивание с умножением       lvalue *= expr
/=       Присваивание с делением         lvalue /= expr
%=       Присваивание с взятием          lvalue %= expr
       остатка от деления
+=       Присваивание со сложением       lvalue += expr
-=       Присваивание с вычитанием       lvalue -= expr
<<=      Присваивание со сдвигом влево   lvalue <<= expr
>>=      Присваивание со сдвигом вправо  lvalue >>= expr
&=       Присваивание с поразрядным И    lvalue &= expr
|=       Присваивание с поразрядным      lvalue |= expr
       включающим ИЛИ
^=       Присваивание с поразрядным      lvalue ^= expr
       исключающим ИЛИ
____________________________________________________________
       Запятая (последовательность)     expr , expr
____________________________________________________________

3.2.1 Скобки

Синтаксис языка С++ перегружен скобками, и разнообразие их применений способно сбить с толку. Они выделяют фактические параметры при вызове функций, имена типов, задающих функции, а также служат для разрешения конфликтов между операциями с одинаковым приоритетом. К счастью, последнее встречается не слишком часто, поскольку приоритеты и порядок применения операций определены так, чтобы выражения вычислялись "естественным образом" (т.е. наиболее распространенным образом). Например, выражение

            if (i<=0 || max<i)   // ...

означает следующее: "Если i меньше или равно нулю, или если max меньше i". То есть, оно эквивалентно

            if ( (i<=0) || (max<i) )    // ...

но не эквивалентно допустимому, хотя и бессмысленному выражению

            if (i <= (0||max) < i)    // ...

Тем не менее, если программист не уверен в указанных правилах, следует использовать скобки, причем некоторые предпочитают для надежности писать более длинные и менее элегантные выражения, как:

           if ( (i<=0) || (max<i) )   // ...

При усложнении подвыражений скобки используются чаще. Не надо, однако, забывать, что сложные выражения являются источником ошибок. Поэтому, если у вас появится ощущение, что в этом выражении нужны скобки, лучше разбейте его на части и введите дополнительную переменную. Бывают случаи, когда приоритеты операций не приводят к "естественному" порядку вычислений. Например, в выражении

           if (i&mask == 0)    // ловушка! & применяется после ==

не происходит маскирование i (i&mask), а затем проверка результата на 0. Поскольку у == приоритет выше, чем у &, это выражение эквивалентно i&(mask==0). В этом случае скобки играют важную роль:

           if ((i&mask) == 0) // ...

Имеет смысл привести еще одно выражение, которое вычисляется совсем не так, как мог бы ожидать неискушенный пользователь:

           if (0 <= a <= 99) // ...

Оно допустимо, но интерпретируется как (0<=a)<=99, и результат первого сравнения равен или 0, или 1, но не значению a (если, конечно, а не есть 1). Проверить, попадает ли a в диапазон 0...99, можно так:

           if (0<=a && a<=99) // ...

Среди новичков распространена ошибка, когда в условии вместо == (равно) используют = (присвоить):

           if (a = 7)   // ошибка: присваивание константы в условии
                  // ...

Она вполне объяснима, поскольку в большинстве языков "=" означает "равно". Для транслятора не составит труда сообщать об ошибках подобного рода.

3.2.2 Порядок вычислений

Порядок вычисления подвыражений, входящих в выражение, не всегда определен. Например:

           int i = 1;
           v[i] = i++;

Здесь выражение может вычисляться или как v[1]=1, или как v[2]=1. Если нет ограничений на порядок вычисления подвыражений, то транслятор получает возможность создавать более оптимальный код. Транслятору следовало бы предупреждать о двусмысленных выражениях, но к сожалению большинство из них не делает этого.

Для операций

&& || ,

гарантируется, что их левый операнд вычисляется раньше правого операнда. Например, в выражении b=(a=2,a+1) b присвоится значение 3. Пример операции || был дан в $$3.2.1, а пример операции && есть в $$3.3.1. Отметим, что операция запятая отличается по смыслу от той запятой, которая используется для разделения параметров при вызове функций. Пусть есть выражения:

            f1(v[i],i++);       // два параметра
            f2( (v[i],i++) )    // один параметр

Вызов функции f1 происходит с двумя параметрами: v[i] и i++, но порядок вычисления выражений параметров неопределен. Зависимость вычисления значений фактических параметров от порядка вычислений
- далеко не лучший стиль программирования. К тому же программа становится непереносимой. Вызов f2 происходит с одним параметром, являющимся выражением, содержащим операцию запятая: (v[i], i++). Оно

Скобки могут принудительно задать порядок вычисления. Например, a*(b/c) может вычисляться как (a*b)/c (если только пользователь видит в этом какое-то различие). Заметим, что для значений с плавающей точкой результаты вычисления выражений a*(b/c) и (a*b)/ могут различаться весьма значительно.

3.2.3 Инкремент и декремент

Операция ++ явно задает инкремент в отличие от неявного его задания с помощью сложения и присваивания. По определению ++lvalue означает lvalue+=1, что, в свою очередь означает lvalue=lvalue+1 при условии, что содержимое lvalue не вызывает побочных эффектов. Выражение, обозначающее операнд инкремента, вычисляется только один раз. Аналогично обозначается операция декремента (--). Операции ++ и -- могут использоваться как префиксные и постфиксные операции. Значением ++x является новое (т. е. увеличенное на 1) значение x. Например, y=++x эквивалентно y=(x+=1). Напротив, значение x++ равно прежнему значению x. Например, y=x++ эквивалентно y=(t=x,x+=1,t), где t - переменная того же типа, что и x.

Напомним, что операции инкремента и декремента указателя эквивалентны сложению 1 с указателем или вычитанию 1 из указателя, причем вычисление происходит в элементах массива, на который настроен указатель. Так, результатом p++ будет указатель на следующий элемент. Для указателя p типа T* следующее соотношение верно по определению:

          long(p+1) == long(p) + sizeof(T);

Чаще всего операции инкремента и декремента используются для изменения переменных в цикле. Например, копирование строки, оканчивающейся нулевым символом, задается следующим образом:

         inline void cpy(char* p, const char* q)
         {
           while (*p++ = *q++) ;
         }

Язык С++ (подобно С) имеет как сторонников, так и противников именно из-за такого сжатого, использующего сложные выражения стиля программирования. Оператор

         while (*p++ = *q++) ;

вероятнее всего, покажется невразумительным для незнакомых с С. Имеет смысл повнимательнее посмотреть на такие конструкции, поскольку для C и C++ они не является редкостью.
Сначала рассмотрим более традиционный способ копирования массива символов:

         int length = strlen(q)
         for (int i = 0; i<=length; i++) p[i] = q[i];

Это неэффективное решение: строка оканчивается нулем; единственный способ найти ее длину - это прочитать ее всю до нулевого символа; в результате строка читается и для установления ее длины, и для копирования, то есть дважды. Поэтому попробуем такой вариант:

         for (int i = 0; q[i] !=0 ; i++) p[i] = q[i];
         p[i] = 0;   // запись нулевого символа

Поскольку p и q - указатели, можно обойтись без переменной i, используемой для индексации:

         while (*q !=0) {
               *p = *q;
               p++;      // указатель на следующий символ
               q++;      // указатель на следующий символ
         }
         *p = 0;         // запись нулевого символа

Поскольку операция постфиксного инкремента позволяет сначала использовать значение, а затем уже увеличить его, можно переписать цикл так:

          while (*q != 0) {
                *p++ = *q++;
           }
           *p = 0;   // запись нулевого символа

Отметим, что результат выражения *p++ = *q++ равен *q. Следовательно, можно переписать наш пример и так:

           while ((*p++ = *q++) != 0)  { }

В этом варианте учитывается, что *q равно нулю только тогда, когда *q уже скопировано в *p, поэтому можно исключить завершающее присваивание нулевого символа. Наконец, можно еще более сократить запись этого примера, если учесть, что пустой блок не нужен, а операция "!= 0" избыточна, т.к. результат условного выражения и так всегда сравнивается с нулем. В результате мы приходим к первоначальному варианту, который вызывал недоумение:

           while (*p++ = *q++) ;

Неужели этот вариант труднее понять, чем приведенные выше? Только неопытным программистам на С++ или С! Будет ли последний вариант наиболее эффективным по затратам времени и памяти? Если не считать первого варианта с функцией strlen(), то это неочевидно. Какой из вариантов окажется эффективнее, определяется как спецификой системы команд, так и возможностями транслятора. Наиболее эффективный алгоритм копирования для вашей машины можно найти в стандартной функции копирования строк из файла <string.h>:

        int strcpy(char*, const char*);

3.2.4 Поразрядные логические операции

Поразрядные логические операции

& | ^ ~ >> <<

применяются к целым, то есть к объектам типа char, short, int, long и к их беззнаковым аналогам. Результат операции также будет целым.

Чаще всего поразрядные логические операции используются для работы с небольшим по величине множеством данных (массивом разрядов). В этом случае каждый разряд беззнакового целого представляет один элемент множества, и число элементов определяется количеством разрядов. Бинарная операция & интерпретируется как пересечение множеств, операция | как объединение, а операция ^ как разность множеств. С помощью перечисления можно задать имена элементам множества. Ниже приведен пример, заимствованный из <iostream.h>:

         class ios {
         public:
            enum io_state {
                 goodbit=0, eofbit=1, failbit=2, badbit=4
            };
            // ...
         };

Состояние потока можно установить следующим присваиванием:

         cout.state = ios::goodbit;

Уточнение именем ios необходимо, потому что определение io_state находится в классе ios, а также чтобы не возникло коллизий, если пользователь заведет свои имена наподобие goodbit.

Проверку на корректность потока и успешное окончание операции можно задать так:

        if (cout.state&(ios::badbit|ios::failbit))  // ошибка в потоке

Еще одни скобки необходимы потому, что операция & имеет более высокий приоритет, чем операция "|".

Функция, обнаружившая конец входного потока, может сообщать об этом так:

        cin.state |= ios::eofbit;

Операция |= используется потому, что в потоке уже могла быть ошибка (т.е. state==ios::badbit), и присваивание

        cin.state =ios::eofbit;

могло бы затереть ее признак. Установить отличия в состоянии двух потоков можно следующим способом:

       ios::io_state diff = cin.state^cout.state;

Для таких типов, как io_state, нахождение различий не слишком полезная операция, но для других сходных типов она может оказаться весьма полезной. Например, полезно сравнение двух разрядных массива, один из которых представляет набор всех возможных обрабатываемых прерываний, а другой - набор прерываний, ожидающих обработки.

Отметим, что использование полей ($$R.9.6) может служить удобным и более лаконичным способом работы с частями слова, чем сдвиги и маскирование. С частями слова можно работать и с помощью поразрядных логических операций. Например, можно выделить средние 16 разрядов из средины 32-разрядного целого:

      unsigned short middle(int a) { return (a>>8)&0xffff; }

Только не путайте поразрядные логические операции с просто логическими операциями:

&& || !

Результатом последних может быть 0 или 1, и они в основном используются в условных выражениях операторов if, while или for ($$3.3.1). Например, !0 (не нуль) имеет значение 1, тогда как ~0 (дополнение нуля) представляет собой набор разрядов "все единицы", который обычно является значением -1 в дополнительном коде.

3.2.5 Преобразование типа

Иногда бывает необходимо явно преобразовать значение одного типа в значение другого. Результатом явного преобразования будет значение указанного типа, полученное из значения другого типа. Например:

        float r = float(1);

Здесь перед присваиванием целое значение 1 преобразуется в значение с плавающей точкой 1.0f. Результат преобразования типа не является адресом, поэтому ему присваивать нельзя (если только тип не является ссылкой).

Существуют два вида записи явного преобразования типа: традиционная запись, как операция приведения в С, например, (double)a и функциональная запись, например, double(a). Функциональную запись нельзя использовать для типов, которые не имеют простого имени. Например, чтобы преобразовать значение в тип указателя, надо или использовать приведение

       char* p = (char*)0777;

или определить новое имя типа:

      typedef char* Pchar;
      char* p = Pchar(0777);

По мнению автора, функциональная запись в нетривиальных случаях предпочтительнее. Рассмотрим два эквивалентных примера:

       Pname n2 = Pbase(n1->tp)->b_name; // функциональная запись
       Pname n3 = ((Pbase)n2->tp)->b_name;   // запись с приведением

Поскольку операция -> имеет больший приоритет, чем операция приведения, последнее выражение выполняется так:

      ((Pbase)(n2->tp))->b_name

Используя явное преобразование в тип указателя можно выдать данный объект за объект произвольного типа. Например, присваивание

      any_type* p = (any_type*)&some_object;

позволит обращаться к некоторому объекту (some_object) через указатель p как к объекту произвольного типа (any_type). Тем не менее, если some_object в действительности имеет тип не any_type, могут получиться странные и нежелательные результаты.

Если преобразование типа не является необходимым, его вообще следует избегать. Программы, в которых есть такие преобразования, обычно труднее понимать, чем программы, их не имеющие. В то же время программы с явно заданными преобразованиями типа понятнее, чем программы, которые обходятся без таких преобразований, потому что не вводят типов для представления понятий более высокого уровня. Так, например, поступают программы, управляющие регистром устройства с помощью сдвига и маскирования целых, вместо того, чтобы определить подходящую структуру (struct) и работать непосредственно с ней
(см. $$2.6.1). Корректность явного преобразования типа часто существенно зависит от того, насколько программист понимает, как язык работает с объектами различных типов, и какова специфика данной реализации языка. Приведем пример:

          int i = 1;
          char* pc = "asdf";
          int* pi = &i;
          i = (int)pc;
          pc = (char*)i; // осторожно: значение pc может измениться.
                         // На некоторых машинах sizeof(int)
                         // меньше, чем sizeof(char*)
         pi = (int*)pc;
         pc = (char*)pi; // осторожно: pc может измениться
                         // На некоторых машинах char* имеет не такое
                         // представление, как int*

Для многих машин эти присваивания ничем не грозят, но для некоторых результат может быть плачевным. В лучшем случае подобная программа будет переносимой. Обычно без особого риска можно предположить, что указатели на различные структуры имеют одинаковое представление. Далее, произвольный указатель можно присвоить (без явного преобразования типа) указателю типа void*, а void* может быть явно преобразован обратно в указатель произвольного типа.

В языке С++ явные преобразования типа оказывается излишними во многих случаях, когда в С (и других языках) они требуются. Во многих программах можно вообще обойтись без явных преобразований типа, а во многих других они могут быть локализованы в нескольких подпрограммах.

3.2.6 Свободная память

Именованный объект является либо статическим, либо автоматическим (см.$$2.1.3). Статический объект размещается в памяти в момент запуска программы и существует там до ее завершения. Автоматический объект размещается в памяти всякий раз, когда управление попадает в блок, содержащий определение объекта, и существует только до тех пор, пока управление остается в этом блоке. Тем не менее, часто бывает удобно создать новый объект, который существует до тех пор, пока он не станет ненужным. В частности, бывает удобно создать объект, который можно использовать после возврата из функции, где он был создан. Подобные объекты создает операция new, а операция delete используется для их уничтожения в дальнейшем. Про объекты, созданные операцией new, говорят, что они размещаются в свободной памяти. Примерами таких объектов являются узлы деревьев или элементы списка, которые входят в структуры данных, размер которых на этапе трансляции неизвестен. Давайте рассмотрим в качестве примера набросок транслятора, который строится аналогично программе калькулятора. Функции синтаксического анализа создают из представлений выражений дерево, которое будет в дальнейшем использоваться для генерации кода. Например:

       struct enode {
          token_value oper;
          enode* left;
          enode* right;
       };

      enode* expr()
      {
        enode* left = term();

        for(;;)
           switch(curr_tok) {
             case PLUS:
             case MINUS:
                  get_token();
                  enode* n = new enode;
                  n->oper = curr_tok;
                  n->left = left;
                  n->right = term();
                  left = n;
                  break;
            default:
                 return left;
           }
        }

Генератор кода может использовать дерево выражений, например так:

       void generate(enode* n)
       {
         switch (n->oper) {
         case PLUS:
              // соответствующая генерация
              delete n;
         }
       }

Объект, созданный с помощью операции new, существует, до тех пор, пока он не будет явно уничтожен операцией delete. После этого память, которую он занимал, вновь может использоваться new. Обычно нет никакого "сборщика мусора", ищущего объекты, на которые никто не ссылается, и предоставляющего занимаемую ими память операции new для повторного использования. Операндом delete может быть только указатель, который возвращает операция new, или нуль. Применение delete к нулю не приводит ни к каким действиям.

Операция new может также создавать массивы объектов, например:

        char* save_string(const char* p)
        {
          char* s = new char[strlen(p)+1];
          strcpy(s,p);
          return s;
        }

Отметим, что для перераспределения памяти, отведенной операцией new, операция delete должна уметь определять размер размещенного объекта. Например:

        int main(int argc, char* argv[])
        {
          if (argc < 2) exit(1);
          char* p = save_string(arg[1]);
          delete[] p;
        }

Чтобы добиться этого, приходится под объект, размещаемый стандартной операцией new, отводить немного больше памяти, чем под статический (обычно, больше на одно слово). Простой оператор delete уничтожает отдельные объекты, а операция delete[] используется для уничтожения массивов.

Операции со свободной памятью реализуются функциями ($$R.5.3.3-4):

        void* operator new(size_t);
        void operator delete(void*);

Здесь size_t - беззнаковый целочисленный тип, определенный в <stddef.h>.

Стандартная реализация функции operator new() не инициализирует предоставляемую память.

Что случится, когда операция new не сможет больше найти свободной памяти для размещения? Поскольку даже виртуальная память небесконечна, такое время от времени происходит. Так, запрос вида:

       char* p = new char [100000000];

обычно не проходит нормально. Когда операция new не может выполнить запрос, она вызывает функцию, которая была задана как параметр при обращении к функции set_new_handler() из <new.h>. Например, в следующей программе:

      #include <iostream.h>
      #include <new.h>
      #include <stdlib.h>

      void out_of_store()
      {
         cerr << "operator new failed: out of store\n";
         exit(1);
      }

      int main()
      {
        set_new_handler(&out_of_store);
        char* p = new char[100000000];
        cout << "done, p = " << long(p) << '\n';
      }

скорее всего, будет напечатано не "done", а сообщение:

      operator new failed: out of store
      // операция new не прошла: нет памяти

С помощью функции new_handler можно сделать нечто более сложное, чем просто завершить программу. Если известен алгоритм операций new и delete (например, потому, что пользователь определил свои функции
operator new и operator delete), то обработчик new_handler может попытаться найти свободную память для new. Другими словами, пользователь может написать свой "сборщик мусора", тем самым сделав вызов операции delete необязательным. Однако такая задача, безусловно, не под силу новичку.

По традиции операция new просто возвращает указатель 0, если не удалось найти достаточно свободной памяти. Реакция же на это new_handler не была установлена. Например, следующая программа:

     #include <stream.h>

     main()
     {
       char* p = new char[100000000];
       cout << "done, p = " << long(p) << '\n';
     }

выдаст

done, p = 0

Память не выделена, и вам сделано предупреждение! Отметим, что, задав реакцию на такую ситуацию в функции new_handler, пользователь берет на себя проверку: исчерпана ли свободная память. Она должна выполняться при каждом обращении в программе к new (если только пользователь не определил собственные функции для размещения объектов пользовательских типов; см.$$R.5.5.6).

3.3 Сводка операторов

Полное и последовательное описание операторов С++ содержится в
$$R.6. Советуем ознакомиться с этим разделом. Здесь же дается сводка операторов и несколько примеров.

------------------------------------------------------------------
                   Синтаксис операторов
------------------------------------------------------------------

  оператор:
      описание
      { список-операторов opt }
      выражение opt ;

      if ( выражение )  оператор
      if ( выражение )  оператор else оператор
      switch ( выражение ) оператор

      while ( выражение ) оператор
      do  оператор  while ( выражение )
      for (начальный-оператор-for выражение opt; выражение opt) оператор

      case  выражение-константа : оператор
      default : оператор
      break ;
      continue ;

      return  выражение opt ;

      goto  идентификатор ;
      идентификатор : оператор

      список-операторов:
         оператор
         список-операторов  оператор

      начальный-оператор-for:
         описание
         выражение opt ;
----------------------------------------------------------------------

Обратите внимание, что описание является оператором, но нет операторов присваивания или вызова функции (они относятся к выражениям).

3.3.1 Выбирающие операторы

Значение можно проверить с помощью операторов if или switch:

          if ( выражение )  оператор

          if ( выражение )  оператор  else  оператор

          switch  ( выражение )  оператор

В языке С++ среди основных типов нет отдельного булевского (тип со значениями истина, ложь). Все операции отношений:

== != < > <= >=

дают в результате целое 1, если отношение выполняется, и 0 в противном случае. Обычно определяют константы TRUE как 1 и FALSE как 0.

В операторе if, если выражение имеет ненулевое значение, выполняется первый оператор, а иначе выполняется второй (если он указан). Таким образом, в качестве условия допускается любое выражение типа целое или указатель. Пусть a целое, тогда

           if (a)  // ...

эквивалентно

           if (a != 0) ...

Логические операции

&& || !

обычно используются в условиях. В операциях && и || второй операнд не вычисляется, если результат определяется значением первого операнда. Например, в выражении

           if (p && l<p->count)  // ...

сначала проверяется значение p, и только если оно не равно нулю, то проверяется отношение l<p->count.

Некоторые простые операторы if удобно заменять выражениями условия. Например, вместо оператора

           if (a <= b)
              max = b;
           else
              max = a;

лучше использовать выражение

           max = (a<=b) ? b : a;

Условие в выражении условия не обязательно окружать скобками, но если их использовать, то выражение становится понятнее.

Простой переключатель (switch) можно записать с помощью серии операторов if. Например,

            switch (val) {
            case 1:
                f();
                break;
            case 2:
                g();
                break;
            default:
                h();
                break;
            }

можно эквивалентно задать так:

            if (val == 1)
               f();
            else if (val == 2)
               g();
            else
               h();

Смысл обеих конструкций совпадает, но все же первая предпочтительнее, поскольку в ней нагляднее показана суть операции: проверка на совпадение значения val со значением из множества констант. Поэтому в нетривиальных случаях запись, использующая переключатель, понятнее.

Нужно позаботиться о каком-то завершении оператора, указанного в варианте переключателя, если только вы не хотите, чтобы стали выполняться операторы из следующего варианта. Например, переключатель

           switch (val) {       // возможна ошибка
           case 1:
               cout << "case 1\n";
           case 2:
               cout << "case 2\n";
           default:
               cout << "default: case not found\n";
           }

при val==1 напечатает к большому удивлению непосвященных:

           case 1
           case 2
           default: case not found

Имеет смысл отметить в комментариях те редкие случаи, когда стандартный переход на следующий вариант оставлен намеренно. Тогда этот переход во всех остальных случаях можно смело считать ошибкой. Для завершения оператора в варианте чаще всего используется break, но иногда используются return и даже goto. Приведем пример:

           switch (val)  {       // возможна ошибка
           case 0:
               cout << "case 0\n";
           case1:
           case 1:
               cout << "case 1\n";
               return;
           case 2:
               cout << "case 2\n";
               goto case1;
           default:
               cout << "default: case not found\n";
               return;
           }

Здесь при значении val равном 2 мы получим:

case 2
case 1

Отметим, что метку варианта нельзя использовать в операторе goto:

           goto case 2;  // синтаксическая ошибка

3.3.2 Оператор goto

Презираемый оператор goto все-таки есть в С++:

           goto идентификатор;
           идентификатор: оператор

Вообще говоря, он мало используется в языках высокого уровня, но может быть очень полезен, если текст на С++ создается не человеком, а автоматически, т.е. с помощью программы. Например, операторы goto используются при создании анализатора по заданной грамматике языка с помощью программных средств.

Кроме того, операторы goto могут пригодиться в тех случаях, когда на первый план выходит скорость работы программы. Один из них - когда в реальном времени происходят какие-то вычисления во внутреннем цикле программы.

Есть немногие ситуации и в обычных программах, когда применение goto оправдано. Одна из них - выход из вложенного цикла или переключателя. Дело в том, что оператор break во вложенных циклах или переключателях позволяет перейти только на один уровень выше.

Приведем пример:

           void f()
           {
             int i;
             int j;

             for ( i = 0; i < n; i++)
                 for (j = 0; j<m; j++)
                     if (nm[i][j] == a) goto found;
                 // здесь a не найдено
                 // ...
             found:
                 //  nm[i][j] == a
           }

Есть еще оператор continue, который позволяет перейти на конец цикла. Что это значит, объяснено в $$3.1.5.

3.4 Комментарии и расположение текста

Программу гораздо легче читать, и она становится намного понятнее, если разумно использовать комментарии и систематически выделять текст программы пробелами. Есть несколько способов расположения текста программы, но нет причин считать, что один из них - наилучший. Хотя у каждого свой вкус. То же можно сказать и о комментариях.

Однако можно заполнить программу такими комментариями, что читать и понимать ее будет только труднее. Транслятор не в силах понять комментарий, поэтому он не может убедиться в том, что комментарий:
   [1] осмысленный,
   [2] действительно описывает программу,
   [3] не устарел.

Во многих программах попадаются непостижимые, двусмысленные и просто неверные комментарии. Лучше вообще обходиться без них, чем давать такие комментарии.

Если некий факт можно прямо выразить в языке, то так и следует делать, и не надо считать, что достаточно упомянуть его в комментарии.

Последнее замечание относится к комментариям, подобным приведенным ниже:

         // переменную "v" необходимо инициализировать.

         // переменная "v" может использоваться только в функции "f()".

         // до вызова любой функции из этого файла
         // необходимо вызвать функцию "init()".

         // в конце своей программы вызовите функцию "cleanup()".

         // не используйте функцию "weird()".

         // функция "f()" имеет два параметра.

При правильном программировании на С++ такие комментарии обычно оказываются излишними. Чтобы именно эти комментарии стали ненужными, можно воспользоваться правилами связывания ($$4.2) и областей видимости, а также правилами инициализации и уничтожения объектов класса ($$5.5).

Если некоторое утверждение выражается самой программой, не нужно повторять его в комментарии. Например:

         a = b + c;      // a  принимает значение b+c
         count++;        // увеличим счетчик count

Такие комментарии хуже, чем избыточные. Они раздувают объем текста, затуманивают программу и могут быть даже ложными. В то же время комментарии именно такого рода используют для примеров в учебниках по языкам программирования, подобных этой книге. Это одна из многих причин, по которой учебная программа отличается от настоящей.

Можно рекомендовать такой стиль введения комментариев в программу:

     [1] начинать с комментария каждый файл программы: указать в общих чертах, что в ней определяется, дать ссылки на справочные руководства, общие идеи по сопровождению программы и т.д.;
     [2] снабжать комментарием каждое определение класса или шаблона типа;
     [3] комментировать каждую нетривиальную функцию, указав: ее назначение, используемый алгоритм (если только он неочевиден) и, возможно, предположения об окружении, в котором работает функция;
     [4] комментировать определение каждой глобальной переменной;
     [5] давать некоторое число комментариев в тех местах, где алгоритм неочевиден или непереносим;
     [6] больше практически ничего.

Приведем пример:

       //  tbl.c: Реализация таблицы имен.

       /*
               Использован метод Гаусса
           см. Ральстон "Начальный курс по ..." стр. 411.
       */

        // в swap() предполагается, что стек AT&T начинается с 3B20.

        /************************************

           Авторские права (c) 1991 AT&T, Inc
           Все права сохранены

        **************************************/

Правильно подобранные и хорошо составленные комментарии играют в программе важную роль. Написать хорошие комментарии не менее трудно, чем саму программу, и это - искусство, в котором стоит совершенствоваться.

Заметим, что если в функции используются только комментарии вида //, то любую ее часть можно сделать комментарием с помощью /* */, и наоборот.

3.5 Упражнения

1. (*1) Следующий цикл for перепишите с помощью оператора while:

           for (i=0; i<max_length; i++)
               if (input_line[i] == '?') quest_count++;

    Запишите цикл, используя в качестве его управляющей переменной указатель так, чтобы условие имело вид *p=='?'.
2. (*1) Укажите порядок вычисления следующих выражений, задав полную
    скобочную структуру:

            a = b + c * d << 2 & 8
            a & 077 != 3
            a == b || a == c && c < 5
            c = x != 0
            0 <= i < 7
            f(1,2) + 3
            a = - 1 + + b -- - 5
            a = b == c ++
            a = b = c = 0
            a[4][2] *= * b ? c : * d * 2
            a-b, c=d

3. (*2) Укажите 5 различных конструкций на С++, значение которых
    неопределено.
4. (*2) Приведите 10 разных примеров непереносимых конструкций
    на С++.
5. (*1) Что произойдет при делении на нуль в вашей программе на С++?
    Что будет в случае переполнения или потери значимости?
6. (*1) Укажите порядок вычисления следующих выражений, задав их
    полную скобочную структуру:

            *p++
            *--p
            ++a--
            (int*)p->m
            *p.m
            *a[i]

7. (*2) Напишите такие функции: strlen() - подсчет длины строки,
    strcpy() - копирование строк и strcmp() - сравнение строк. Какими
    должны быть типы параметров и результатов функций? Сравните их
    со стандартными версиями, имеющимися в <string.h> и в вашем
    руководстве.
8. (*1) Выясните, как ваш транслятор отреагирует на такие ошибки:

            void f(int a, int b)
            {
              if (a = 3)  // ...
              if (a&077 == 0)  // ...
              a := b+1;
            }

     Посмотрите, какова будет реакция на более простые ошибки.
9. (*2) Напишите функцию cat(), которая получает два параметра-строки
    и возвращает строку, являющуюся их конкатенацией. Для
    результирующей строки используйте память, отведенную с помощью
    new. Напишите функцию rev() для перевертывания строки, переданной
    ей в качестве параметра. Это означает, что после вызова rev(p)
    последний символ p станет первым и т.д.
10. (*2) Что делает следующая функция?

          void send(register* to, register* from, register count)
          // Псевдоустройство. Все комментарии сознательно удалены
          {
             register n=(count+7)/8;
             switch (count%8) {
                case 0:  do {  *to++ = *from++;
                case 7:        *to++ = *from++;
                case 6:        *to++ = *from++;
                case 5:        *to++ = *from++;
                case 4:        *to++ = *from++;
                case 3:        *to++ = *from++;
                case 2:        *to++ = *from++;
                case 1:        *to++ = *from++;
                             } while (--n>0);
            }
          }

     Каков может быть смысл этой функции?
11. (*2) Напишите функцию atoi(), которая имеет параметр - строку цифр
     и возвращает соответствующее ей целое. Например, atoi("123")
     равно 123. Измените функцию atoi() так, чтобы она могла
     переводить в число последовательность цифр не только в десятичной,
     но и в восьмеричной и шестнадцатеричной записи, принятой в С++.
     Добавьте возможность перевода символьных констант С++. Напишите
     функцию itoa() для перевода целого значения в строковое
     представление.
12. (*2) Перепишите функцию get_token() ($$3.12) так, чтобы она читала
     целую строку в буфер, а затем выдавала лексемы, читая по
     символу из буфера.
13. (*2) Введите в программу калькулятора из $$3.1 такие функции, как
     sqrt(), log() и sin(). Подсказка: задайте предопределенные
     имена и вызывайте функции с помощью массива указателей на них.
     Не забывайте проверять параметры, передаваемые этим
     функциям.
14. (*3) Введите в калькулятор возможность определять пользовательские
     функции. Подсказка: определите функцию как последовательность
     операторов, будто бы заданную самим пользователем. Эту
     последовательность можно хранить или как строку символов, или
     как список лексем. Когда вызывается функция, надо выбирать и
     выполнять операции. Если пользовательские функции могут
     иметь параметры, то придется придумать форму записи и для них.
15. (*1.5) Переделайте программу калькулятора, используя структуру
     symbol вместо статических переменных name_string и number_value:

            struct symbol {
                token_value tok;
                union {
                  double number_value;
                  char*  name_string;
                };
            };

16.(*2.5) Напишите программу, которая удаляет все комментарии из
    программы на С++. Это значит, надо читать символы из cin и
    удалять комментарии двух видов: // и /* */. Получившийся текст
    запишите в cout. Не заботьтесь о красивом виде получившегося
    текста (это уже другая, более сложная задача). Корректность
    программ неважна. Нужно учитывать возможность появления символов
    //, /* и */ в комментариях, строках и символьных константах.
17. (*2) Исследуйте различные программы и выясните, какие способы
    выделения текста пробелами и какие комментарии используются.

ГЛАВА 4. ФАЙЛЫ

                     Итерация присуща человеку,
                     а рекурсия - богу.
                     - Л. Дойч

Все нетривиальные программы состоят из нескольких раздельно транслируемых единиц, по традиции называемых файлами. В этой главе описано, как раздельно транслируемые функции могут вызывать друг друга, каким образом они могут иметь общие данные, и как добиться непротиворечивости типов, используемых в разных файлах программы. Подробно обсуждаются функции, в том числе: передача параметров, перегрузка имени функции, стандартные значения параметров, указатели на функции и, естественно, описания и определения функций. В конце главы обсуждаются макровозможности языка.

4.1 Введение

Роль файла в языке С++ сводится к тому, что он определяет файловую область видимости ($$R.3.2). Это область видимости глобальных функций (как статических, так и подстановок), а также глобальных переменных (как статических, так и со спецификацией const). Кроме того, файл является традиционной единицей хранения в системе, а также единицей трансляции. Обычно системы хранят, транслируют и представляют пользователю программу на С++ как множество файлов, хотя существуют системы, устроенные иначе. В этой главе будет обсуждаться в основном традиционное использование файлов.

Всю программу поместить в один файл, как правило, невозможно, поскольку программы стандартных функций и программы операционной системы нельзя включить в текстовом виде в программу пользователя. Вообще, помещать всю программу пользователя в один файл обычно неудобно и непрактично. Разбиения программы на файлы может облегчить понимание общей структуры программы и дает транслятору возможность поддерживать эту структуру. Если единицей трансляции является файл, то даже при небольшом изменении в нем следует его перетранслировать. Даже для программ не слишком большого размера время на перетрансляцию можно значительно сократить, если ее разбить на файлы подходящего размера.

Вернемся к примеру с калькулятором. Решение было дано в виде одного файла. Когда вы попытаетесь его транслировать, неизбежно возникнут некоторые проблемы с порядком описаний. По крайней мере одно "ненастоящее" описание придется добавить к тексту, чтобы транслятор мог разобраться в использующих друг друга функциях expr(), term() и prim(). По тексту программы видно, что она состоит из четырех частей: лексический анализатор (сканер), собственно анализатор, таблица имен и драйвер. Однако, этот факт никак не отражен в самой программе. На самом деле калькулятор не был запрограммирован именно так. Так не следует писать программу. Даже если не учитывать все рекомендации по программированию, сопровождению и оптимизации для такой "зряшной" программы, все равно ее следует создавать из нескольких файлов хотя бы для удобства.

Чтобы раздельная трансляция стала возможной, программист должен предусмотреть описания, из которых транслятор получит достаточно сведений о типах для трансляции файла, составляющего только часть программы. Требование непротиворечивости использования всех имен и типов для программы, состоящей из нескольких раздельно транслируемых частей, так же справедливо, как и для программы, состоящей из одного файла. Это возможно только в том случае, когда описания, находящиеся в разных единицах трансляции, будут согласованы. В вашей системе программирования имеются средства, которые способны установить, выполняется ли это. В частности, многие противоречия обнаруживает редактор связей. Редактор связей - это программа, которая связывает по именам раздельно транслируемые части программы. Иногда его по ошибке называют загрузчиком.

4.2 Связывание

Если явно не определено иначе, то имя, не являющееся локальным для некоторой функции или класса, должно обозначать один и тот же тип, значение, функцию или объект во всех единицах трансляции данной программы. Иными словами, в программе может быть только один нелокальный тип, значение, функция или объект с данным именем. Рассмотрим для примера два файла:

          // file1.c
             int a = 1;
             int f() { /* какие-то операторы */ }

          // file2.c
             extern int a;
             int f();
             void g() { a = f(); }

В функции g() используются те самые a и f(), которые определены в файле file1.c. Служебное слово extern показывает, что описание a в файле file2.c является только описанием, но не определением. Если бы присутствовала инициализация a, то extern просто проигнорировалось бы, поскольку описание с инициализацией всегда считается определением. Любой объект в программе может определяться только один раз. Описываться же он может неоднократно, но все описания должны быть согласованы по типу. Например:

              // file1.c:
                 int a = 1;
                 int b = 1;
                 extern int c;

              // file2.c:
                 int a;
                 extern double b;
                 extern int c;

Здесь содержится три ошибки: переменная a определена дважды ("int a;" - это определение, означающее "int a=0;"); b описано дважды, причем с разными типами; c описано дважды, но неопределено. Такие ошибки
(ошибки связывания) транслятор, который обрабатывает файлы по отдельности, обнаружить не может, но большая их часть обнаруживается редактором связей.

Следующая программа допустима в С, но не в С++:

              // file1.c:
                 int a;
                 int f() { return a; }

             // file2.c:
                int a;
                int g() { return f(); }

Во-первых, ошибкой является вызов f() в file2.c, поскольку в этом файле f() не описана. Во-вторых, файлы программы не могут быть правильно связаны, поскольку a определено дважды.

Если имя описано как static, оно становится локальном в этом файле. Например:

            // file1.c:
               static int a = 6;
               static int f() { /* ... */ }

           // file2.c:
              static int a = 7;
              static int f() { /* ... */ }

Приведенная программа правильна, поскольку a и f определены как статические. В каждом файле своя переменная a и функция f().

Если переменные и функции в данной части программы описаны как static, то в этой части программы проще разобраться, поскольку не нужно заглядывать в другие части. Описывать функции как статические полезно еще и по той причине, что транслятору предоставляется возможность создать более простой вариант операции вызова функции. Если имя объекта или функции локально в данном файле, то говорят, что объект подлежит внутреннему связыванию. Обратно, если имя объекта или функции нелокально в данном файле, то он подлежит внешнему связыванию.

Обычно говорят, что имена типов, т.е. классов и перечислений, не подлежат связыванию. Имена глобальных классов и перечислений должны быть уникальными во всей программе и иметь единственное определение. Поэтому, если есть два даже идентичных определения одного класса, это - все равно ошибка:

            // file1.c:
               struct S { int a; char b; };
               extern void f(S*);

            // file2.c:
               struct S { int a; char b; };
               void f(S* p) { /* ... */ }

Но будьте осторожны: опознать идентичность двух описаний класса не в состоянии большинство систем программирования С++. Такое дублирование может вызвать довольно тонкие ошибки (ведь классы в разных файлах будут считаться различными).

Глобальные функции-подстановки подлежат внутреннему связыванию, и то же по умолчанию справедливо для констант. Синонимы типов, т.е. имена typedef, локальны в своем файле, поэтому описания в двух данных ниже файлах не противоречат друг другу:

             // file1.c:
                typedef int T;
                const int a = 7;
                inline T f(int i) { return i+a; }

             // file2.c:
                typedef void T;
                const int a = 8;
                inline T f(double d) { cout<<d; }

Константа может получить внешнее связывание только с помощью явного описания:

             // file3.c:
                extern const int a;
                const int a = 77;

             // file4.c:
                extern const int a;
                void g() { cout<<a; }

В этом примере g() напечатает 77.

4.3 Заголовочные файлы

Типы одного объекта или функции должны быть согласованы во всех их описаниях. Должен быть согласован по типам и входной текст, обрабатываемый транслятором, и связываемые части программы. Есть простой, хотя и несовершенный, способ добиться согласованности описаний в различных файлах. Это: включить во входные файлы, содержащие операторы и определения данных, заголовочные файлы, которые содержат интерфейсную информацию.

Средством включения текстов служит макрокоманда #include, которая позволяет собрать в один файл (единицу трансляции) несколько исходных файлов программы. Команда

         #include "включаемый-файл"

заменяет строку, в которой она была задана, на содержимое файла включаемый-файл. Естественно, это содержимое должно быть текстом на С++, поскольку его будет читать транслятор. Как правило, операция включения реализуется отдельной программой, называемой препроцессором С++. Она вызывается системой программирования перед собственно трансляцией для обработки таких команд во входном тексте. Возможно и другое решение: часть транслятора, непосредственно работающая с входным текстом, обрабатывает команды включения файлов по мере их появления в тексте. В той системе программирования, в которой работает автор, чтобы увидеть результат команд включения файлов, нужно задать команду:

         CC -E file.c

Эта команда для обработки файла file.c запускает препроцессор (и только!), подобно тому, как команда CC без флага -E запускает сам транслятор.

Для включения файлов из стандартных каталогов (обычно каталоги с именем INCLUDE) надо вместо кавычек использовать угловые скобки < и >. Например:

        #include <stream.h>    // включение из стандартного каталога
        #include "myheader.h"  // включение из текущего каталога

Включение из стандартных каталогов имеет то преимущество, что имена этих каталогов никак не связаны с конкретной программой (обычно вначале включаемые файлы ищутся в каталоге /usr/include/CC, а затем в /usr/include). К сожалению, в этой команде пробелы существенны:

        #include < stream.h>  // <stream.h> не будет найден

Было бы нелепо, если бы каждый раз перед включением файла требовалась его перетрансляция. Обычно включаемые файлы содержат только описания, а не операторы и определения, требующие существенной трансляторной обработки. Кроме того, система программирования может предварительно оттранслировать заголовочные файлы, если, конечно, она настолько развита, что способна сделать это, не изменяя семантики программы.

Укажем, что может содержать заголовочный файл:

    Определения типов           struct point { int x, y; };
    Шаблоны типов               template<class T>
                                  class V { /* ... */ }
    Описания функций            extern int strlen(const char*);
    Определения                 inline char get() { return *p++; }
    функций-подстановок
    Описания данных             extern int a;
    Определения констант        const float pi = 3.141593;
    Перечисления                enum bool { false, true };
    Описания имен               class Matrix;
    Команды включения файлов    #include <signal.h>
    Макроопределения            #define Case break;case
    Комментарии                 /* проверка на конец файла */

Перечисление того, что стоит помещать в заголовочный файл, не является требованием языка, это просто совет по разумному использованию включения файлов. С другой стороны, в заголовочном файле никогда не должно быть:

    Определений обычных функций  char get() { return *p++; }
    Определений данных           int a;
    Определений составных        const tb[i] = { /* ... */ };
    констант

По традиции заголовочные файлы имеют расширение .h, а файлы, содержащие определения функций или данных, расширение .c. Иногда их называют "h-файлы" или "с-файлы" соответственно. Используют и другие расширения для этих файлов: .C, cxx, .cpp и .cc. Принятое расширение вы найдете в своем справочном руководстве.

Макросредства описываются в $$4.7. Отметим только, что в С++ они используются не столь широко, как в С, поскольку С++ имеет определенные возможности в самом языке: определения констант (const), функций-подстановок (inline), дающие возможность более простой операции вызова, и шаблонов типа, позволяющие порождать семейство типов и функций ($$8).

Совет помещать в заголовочный файл определения только простых, но не составных, констант объясняется вполне прагматической причиной.

Просто большинство трансляторов не настолько разумно, чтобы предотвратить создание ненужных копий составной константы. Вообще говоря, более простой вариант всегда является более общим, а значит транслятор должен учитывать его в первую очередь, чтобы создать хорошую программу.

4.3.1 Единственный заголовочный файл

Проще всего разбить программу на несколько файлов следующим образом: поместить определения всех функций и данных в некоторое число входных файлов, а все типы, необходимые для связи между ними, описать в единственном заголовочном файле. Все входные файлы будут включать заголовочный файл. Программу калькулятора можно разбить на четыре входных файла .c:
lex.c, syn.c, table.c и main.c. Заголовочный файл dc.h будет содержать описания каждого имени, которое используется более чем в одном .c файле:

          // dc.h: общее описание для калькулятора

          #include <iostream.h>

          enum token_value {
               NAME,      NUMBER,     END,
               PLUS='+',  MINUS='-',  MUL='*', DIV='/',
               PRINT=';', ASSIGN='=', LP='(',  RP=')'
          };

          extern int no_of_errors;
          extern double error(const char* s);
          extern token_value get_token();
          extern token_value curr_tok;
          extern double number_value;
          extern char name_string[256];
          extern double expr();
          extern double term();
          extern double prim();

          struct name {
              char* string;
              name* next;
              double value;
          };

          extern name* look(const char* p, int ins = 0);
          inline name* insert(const char* s) { return look(s,1); }

Если не приводить сами операторы, lex.c должен иметь такой вид:

          // lex.c: ввод и лексический анализ

          #include "dc.h"
          #include <ctype.h>

          token_value curr_tok;
          double number_value;
          char name_string[256];

          token_value get_token() { /* ... */ }

Используя составленный заголовочный файл, мы добьемся, что описание каждого объекта, введенного пользователем, обязательно окажется в том файле, где этот объект определяется. Действительно, при обработке файла lex.c транслятор столкнется с описаниями

          extern token_value get_token();
          // ...
          token_value get_token() { /* ... */ }

Это позволит транслятору обнаружить любое расхождение в типах, указанных при описании данного имени. Например, если бы функция get_token() была описана с типом token_value, но определена с типом int, трансляция файла lex.c выявила бы ошибку: несоответствие типа.

Файл syn.c может иметь такой вид:

           // syn.c: синтаксический анализ и вычисления

           #include "dc.h"

           double prim() { /* ... */ }
           double term() { /* ... */ }
           double expr() { /* ... */ }

Файл table.c может иметь такой вид:

           // table.c: таблица имен и функция поиска

           #include "dc.h"

           extern char* strcmp(const char*, const char*);
           extern char* strcpy(char*, const char*);
           extern int strlen(const char*);

           const int TBLSZ = 23;
           name* table[TBLSZ];

           name* look(char* p, int ins) { /* ... */ }

Отметим, что раз строковые функции описаны в самом файле table.c, транслятор не может проверить согласованность этих описаний по типам.

Всегда лучше включить соответствующий заголовочный файл, чем описывать в файле .c некоторое имя как extern. Это может привести к включению "слишком многого", но такое включение нестрашно, поскольку не влияет на скорость выполнения программы и ее размер, а программисту позволяет сэкономить время. Допустим, функция strlen() снова описывается в приведенном ниже файле main.c. Это только лишний ввод символов и потенциальный источник ошибок, т.к. транслятор не сможет обнаружить расхождения в двух описаниях strlen() (впрочем, это может сделать редактор связей). Такой проблемы не возникло бы, если бы в файле dc.h содержались все описания extern, как первоначально и предполагалось. Подобная небрежность присутствует в нашем примере, поскольку она типична для программ на С. Она очень естественна для программиста, но часто приводит к ошибкам и таким программам, которые трудно сопровождать. Итак, предупреждение сделано!

Наконец, приведем файл main.c:

          // main.c: инициализация, основной цикл, обработка ошибок

          #include "dc.h"

          double error(char* s) { /* ... */ }

          extern int strlen(const char*);

          int main(int argc, char* argv[]) { /* ... */ }

В одном важном случае заголовочные файлы вызывают большое неудобство.

С помощью серии заголовочных файлов и стандартной библиотеки расширяют возможности языка, вводя множество типов (как общих, так и рассчитанных на конкретные приложения; см. главы 5-9). В таком случае текст каждой единицы трансляции может начинаться тысячами строк заголовочных файлов. Содержимое заголовочных файлов библиотеки, как правило, стабильно и меняется редко. Здесь очень пригодился бы претранслятор, который обрабатывает его. По сути, нужен язык специального назначения со своим транслятором. Но устоявшихся методов построения такого претранслятора пока нет.

4.3.2 Множественные заголовочные файлы

Разбиение программы в расчете на один заголовочный файл больше подходит для небольших программ, отдельные части которых не имеют самостоятельного назначения. Для таких программ допустимо, что по заголовочному файлу нельзя определить, чьи описания там находятся и по какой причине. Здесь могут помочь только комментарии.

Возможно альтернативное решение: пусть каждая часть программы имеет свой заголовочный файл, в котором определяются средства, предоставляемые другим частям. Теперь для каждого файла .c будет свой файл .h, определяющий, что может предоставить первый. Каждый файл .c будет включать как свой файл .h, так и некоторые другие файлы .h, исходя из своих потребностей.

Попробуем использовать такую организацию программы для калькулятора. Заметим, что функция error() нужна практически во всех функциях программы, а сама использует только <iostream.h>. Такая ситуация типична для функций, обрабатывающих ошибки.

Следует отделить ее от файла main.c:

          // error.h: обработка ошибок

          extern int no_of_errors;

          extern double error(const char* s);

          // error.c

          #include <iostream.h>
          #include "error.h"

          int no_of_errors;

          double error(const char* s) { /* ... */ }

При таком подходе к разбиению программы каждую пару файлов .c
и .h можно рассматривать как модуль, в котором файл .h задает его интерфейс, а файл .c определяет его реализацию.

Таблица имен не зависит ни от каких частей калькулятора, кроме части обработки ошибок. Теперь этот факт можно выразить явно:

          // table.h: описание таблицы имен

          struct name {
             char* string;
             name* next;
             double value;
          };

          extern name* look(const char* p, int ins = 0);
          inline name* insert(const char* s) { return look(s,1); }

          // table.h: определение таблицы имен

          #include "error.h"
          #include <string.h>
          #include "table.h"

          const int TBLSZ = 23;
          name* table[TBLSZ];

          name* look(const char* p, int ins) { /* ... */ }

Заметьте, что теперь описания строковых функций берутся из включаемого файла <string.h>. Тем самым удален еще один источник ошибок.

         // lex.h: описания для ввода и лексического анализа

         enum token_value {
           NAME,       NUMBER,        END,
           PLUS='+',   MINUS='-',     MUL='*',
           PRINT=';',  ASSIGN='=',    LP='(',   RP= ')'
        };

        extern token_value curr_tok;
        extern double number_value;
        extern char name_string[256];

        extern token_value get_token();

Интерфейс с лексическим анализатором достаточно запутанный. Поскольку недостаточно соответствующих типов для лексем, пользователю функции get_token() предоставляются те же буферы number_value и name_string, с которыми работает сам лексический анализатор.

        // lex.c: определения для ввода и лексического анализа

        #include <iostream.h>
        #include <ctype.h>
        #include "error.h"
        #include "lex.h"

        token_value curr_tok;
        double number_value;
        char name_string[256];

        token_value get_token() { /* ... */ }

Интерфейс с синтаксическим анализатором определен четко:

        // syn.h: описания для синтаксического анализа и вычислений

        extern double expr();
        extern double term();
        extern double prim();

        // syn.c: определения для синтаксического анализа и вычислений

        #include "error.h"
        #include "lex.h"
        #include "syn.h"

        double prim() { /* ... */ }
        double term() { /* ... */ }
        double expr() { /* ... */ }

Как обычно, определение основной программы тривиально:

        // main.c: основная программа

        #include <iostream.h>
        #include "error.h"
        #include "lex.h"
        #include "syn.h"
        #include "table.h"

        int main(int argc, char* argv[]) { /* ... */ }

Какое число заголовочных файлов следует использовать для данной программы зависит от многих факторов. Большинство их определяется способом обработки файлов именно в вашей системе, а не собственно в С++. Например, если ваш редактор не может работать одновременно с несколькими файлами, диалоговая обработка нескольких заголовочных файлов затрудняется. Другой пример: может оказаться, что открытие и чтение 10 файлов по 50 строк каждый занимает существенно больше времени, чем открытие и чтение одного файла из 500 строк. В результате придется хорошенько подумать, прежде чем разбивать небольшую программу, используя множественные заголовочные файлы. Предостережение: обычно можно управиться с множеством, состоящим примерно из 10 заголовочных файлов (плюс стандартные заголовочные файлы). Если же вы будете разбивать программу на минимальные логические единицы с заголовочными файлами (например, создавая для каждой структуры свой заголовочный файл), то можете очень легко получить неуправляемое множество из сотен заголовочных файлов.

4.4 Связывание с программами на других языках

Программы на С++ часто содержат части, написанные на других языках, и наоборот, часто фрагмент на С++ используется в программах, написанных на других языках. Собрать в одну программу фрагменты, написанные на разных языках, или, написанные на одном языке, но в системах программирования с разными соглашениями о связывании, достаточно трудно. Например, разные языки или разные реализации одного языка могут различаться использованием регистров при передаче параметров, порядком размещения параметров в стеке, упаковкой таких встроенных типов, как целые или строки, форматом имен функций, которые транслятор передает редактору связей, объемом контроля типов, который требуется от редактора связей. Чтобы упростить задачу, можно в описании внешних указать условие связывания. Например, следующее описание объявляет strcpy внешней функцией и указывает, что она должна связываться согласно порядку связывания в С:

             extern "C" char* strcpy(char*, const char*);

Результат этого описания отличается от результата обычного описания

             extern char* strcpy(char*, const char*);

только порядком связывания для вызывающих strcpy() функций. Сама семантика вызова и, в частности, контроль фактических параметров будут одинаковы в обоих случаях. Описание extern "C" имеет смысл использовать еще и потому, что языки С и С++, как и их реализации, близки друг другу. Отметим, что в описании extern "C" упоминание С относится к порядку связывания, а не к языку, и часто такое описание используют для связи с Фортраном или ассемблером. Эти языки в определенной степени подчиняются порядку связывания для С.

Утомительно добавлять "C" ко многим описаниям внешних, и есть возможность указать такую спецификацию сразу для группы описаний. Например:

              extern "C" {
                 char* strcpy(char*, const char);
                 int strcmp(const char*, const char*)
                 int strlen(const char*)
                 // ...
              }

В такую конструкцию можно включить весь заголовочный файл С, чтобы указать, что он подчиняется связыванию для С++, например:

              extern "C" {
                 #include <string.h>
              }

Обычно с помощью такого приема из стандартного заголовочного файла для С получают такой файл для С++. Возможно иное решение с помощью условной трансляции:

              #ifdef __cplusplus
              extern "C" {
              #endif

                  char* strcpy(char*, const char*);
                  int strcmp(const char*, const char*);
                  int strlen(const char*);
                  // ...

               #ifdef __cplusplus
               }
               #endif

Предопределенное макроопределение __cplusplus нужно, чтобы обойти конструкцию extern "C" { ...}, если заголовочный файл используется для С.

Поскольку конструкция extern "C" { ... } влияет только на порядок связывания, в ней может содержаться любое описание, например:

              extern "C" {
                // произвольные описания

                // например:

                static int st;
                int glob;
              }

Никак не меняется класс памяти и область видимости описываемых объектов, поэтому по-прежнему st подчиняется внутреннему связыванию, а glob остается глобальной переменной.

Укажем еще раз, что описание extern "C" влияет только на порядок связывания и не влияет на порядок вызова функции. В частности, функция, описанная как extern "C", все равно подчиняется правилам контроля типов и преобразования фактических параметров, которые в C++ строже, чем в С. Например:

             extern "C" int f();

             int g()
             {
               return f(1);  // ошибка: параметров быть не должно
             }

4.5 Как создать библиотеку

Распространены такие обороты (и в этой книге тоже): "поместить в библиотеку", "поискать в такой-то библиотеке". Что они означают для программ на С++? К сожалению, ответ зависит от используемой системы. В этом разделе говорится о том, как создать и использовать библиотеку для десятой версии системы ЮНИКС.

Другие системы должны предоставлять похожие возможности. Библиотека состоит из файлов .o, которые получаются в результате трансляции файлов .c. Обычно существует один или несколько файлов .h, в которых содержатся необходимые для вызова файлов .o описания.

Рассмотрим в качестве примера, как для четко не оговоренного множества пользователей можно достаточно удобно определить некоторое множество стандартных математических функций. Заголовочный файл может иметь такой вид:

              extern "C" { // стандартные математические функции
                           // как правило написаны на С

                 double sqrt(double); // подмножество <math.h>
                 double sin(double);
                 double cos(double);
                 double exp(double);
                 double log(double);
                 // ...

               }

Определения этих функций будут находиться в файлах sqrt.c, sin.c, cos.c, exp.c и log.c, соответственно.

Библиотеку с именем math.a можно создать с помощью таких команд:

              $ CC -c sqrt.c sin.c cos.c exp.c log.c
              $ ar cr math.a sqrt.o sin.o cos.o exp.o log.o
              $ ranlib math.a

Здесь символ $ является приглашением системы.

Вначале транслируются исходные тексты, и получаются модули с теми же именами. Команда ar (архиватор) создает архив под именем math.a. Наконец, для быстрого доступа к функциям архив индексируется.

Если в вашей системе нет команды ranlib (возможно она и не нужна), то, по крайней мере, можно найти в справочном руководстве ссылку на имя ar. Чтобы использовать библиотеку в своей программе, надо задать режим трансляции следующим образом:

              $ CC myprog.c math.a

Встает вопрос: что дает нам библиотека math.a? Ведь можно было бы непосредственно использовать файлы .o, например так:

              $ CC myprog.c sqrt.o sin.o cos.o exp.o log.o

Дело в том, что во многих случаях трудно правильно указать, какие файлы .o действительно нужны. В приведенной выше команде использовались все из них. Если же в myprog вызываются только sqrt() и cos(), тогда, видимо, достаточно задать такую команду:

               $ CC myprog.c sqrt.o cos.o

Но это будет неверно, т.к. функция cos() вызывает sin().

Редактор связей, который вызывается командой CC для обработки файлов .a (в нашем случае для файла math.a), умеет из множества файлов, образующих библиотеку, извлекать только нужные файлы .o. Иными словами, связывание с библиотекой позволяет включать в программы много определений одного имени (в том числе определения функций и переменных, используемых только внутренними функциями, о которых пользователь никогда не узнает). В то же время в результирующую программу войдет только минимально необходимое число определений.

4.6 Функции

Самый распространенный способ задания в С++ каких-то действий - это вызов функции, которая выполняет такие действия. Определение функции есть описание того, как их выполнить. Неописанные функции вызывать нельзя.

4.6.1 Описания функций

Описание функции содержит ее имя, тип возвращаемого значения (если оно есть) и число и типы параметров, которые должны задаваться при вызове функции. Например:

            extern double sqrt(double);
            extern elem* next_elem();
            extern char* strcpy(char* to, const char* from);
            extern void exit(int);

Семантика передачи параметров тождественна семантике инициализации: проверяются типы фактических параметров и, если нужно, происходят неявные преобразования типов. Так, если учесть приведенные описания, то в следующем определении:

            double sr2 = sqrt(2);

содержится правильный вызов функции sqrt() со значением с плавающей точкой 2.0. Контроль и преобразование типа фактического параметра имеет в С++ огромное значение.

В описании функции можно указывать имена параметров. Это облегчает чтение программы, но транслятор эти имена просто игнорирует.

4.6.2 Определения функций

Каждая вызываемая в программе функция должна быть где-то в ней определена, причем только один раз. Определение функции - это ее описание, в котором содержится тело функции. Например:

       extern void swap(int*, int*);  // описание

       void swap(int* p, int* q)      // определение
       {
          int t = *p;
          *p = *q;
          *q = *t;
       }

Не так редки случаи, когда в определении функции не используются некоторые параметры:

       void search(table* t, const char* key, const char*)
       {
          // третий параметр не используется

          // ...
       }

Как видно из этого примера, параметр не используется, если не задано его имя. Подобные функции появляются при упрощении программы или если рассчитывают на ее дальнейшее расширение. В обоих случаях резервирование места в определении функции для неиспользуемого параметра гарантирует, что другие функции, содержащие вызов данной, не придется менять.

Уже говорилось, что функцию можно определить как подстановку (inline). Например:

         inline fac(int i) { return i<2 ? 1 : n*fac(n-1); }

Спецификация inline служит подсказкой транслятору, что вызов функции fac можно реализовать подстановкой ее тела, а не с помощью обычного механизма вызова функций ($$R.7.1.2). Хороший оптимизирующий транслятор вместо генерации вызова fac(6) может просто использовать константу 720. Из-за наличия взаиморекурсивных вызовов функций-подстановок, а также функций-подстановок, рекурсивность которых зависит от входных данных, нельзя утверждать, что каждый вызов функции-подстановки действительно реализуется подстановкой ее тела. Степень оптимизации, проводимой транслятором, нельзя формализовать, поэтому одни трансляторы создадут команды 6*5*4*3*2*1, другие - 6*fac(5), а некоторые ограничатся неоптимизированным вызовом fac(6).

Чтобы реализация вызова подстановкой стала возможна даже для не слишком развитых систем программирования, нужно, чтобы не только определение, но и описание функции-подстановки находилось в текущей области видимости. В остальном спецификация inline не влияет на семантику вызова.

4.6.3 Передача параметров

При вызове функции выделяется память для ее формальных параметров, и каждый формальный параметр инициализируется значением соответствующего фактического параметра. Семантика передачи параметров тождественна семантике инициализации. В частности, сверяются типы формального и соответствующего ему фактического параметра, и выполняются все стандартные и пользовательские преобразования типа.

Существуют специальные правила передачи массивов ($$4.6.5). Есть возможность передать параметр, минуя контроль типа ($$4.6.8), и возможность задать стандартное значение параметра ($$4.6.7). Рассмотрим функцию:

           void f(int val, int& ref)
           {
              val++;
              ref++;
           }

При вызове f() в выражении val++ увеличивается локальная копия первого фактического параметра, тогда как в ref++ - сам второй фактический параметр увеличивается сам. Поэтому в функции

           void g()
           {
             int i = 1;
             int j = 1;
             f(i,j);
           }

увеличится значение j, но не i. Первый параметр i передается по значению, а второй параметр j передается по ссылке. В $$2.3.10 мы говорили, что функции, которые изменяют свой передаваемый по ссылке параметр, труднее понять, и что поэтому лучше их избегать (см. также $$10.2.2). Но большие объекты, очевидно, гораздо эффективнее передавать по ссылке, чем по значению. Правда можно описать параметр со спецификацией const, чтобы гарантировать, что передача по ссылке используется только для эффективности, и вызываемая функция не может изменить значение объекта:

            void f(const large& arg)
            {
              // значение "arg" нельзя изменить без явных
              // операций преобразования типа
            }

Если в описании параметра ссылки const не указано, то это рассматривается как намерение изменять передаваемый объект:

           void g(large& arg); // считается, что в g() arg будет меняться

Отсюда мораль: используйте const всюду, где возможно.

Точно так же, описание параметра, являющегося указателем, со спецификацией const говорит о том, что указуемый объект не будет изменяться в вызываемой функции. Например:

           extern int strlen(const char*);  // из <string.h>
           extern char* strcpy(char* to, const char* from);
           extern int strcmp(const char*, const char*);

Значение такого приема растет вместе с ростом программы.

Отметим, что семантика передачи параметров отличается от семантики присваивания. Это различие существенно для параметров, являющихся const или ссылкой, а также для параметров с типом, определенным пользователем ($1.4.2).

Литерал, константу и параметр, требующий преобразования, можно передавать как параметр типа const&, но без спецификации const передавать нельзя. Допуская преобразования для параметра типа const T&, мы гарантируем, что он может принимать значения из того же множества, что и параметр типа T, значение которого передается при необходимости с помощью временной переменной.

         float fsqrt(const float&);  // функция sqrt в стиле Фортрана

         void g(double d)
         {
           float r;

           r = fsqrt(2.0f);  // передача ссылки на временную
                             // переменную, содержащую 2.0f
           r = fsqrt(r);     // передача ссылки на r
           r = fsqrt(d);     // передача ссылки на временную
                             // переменную, содержащую float(d)
        }

Запрет на преобразования типа для параметров-ссылок без спецификации const введен для того, чтобы избежать нелепых ошибок, связанных с использованием при передаче параметров временных переменных:

       void update(float& i);

       void g(double d)
       {
         float r;

         update(2.0f);    // ошибка: параметр-константа
         update(r);       // нормально: передается ссылка на r
         update(d);       // ошибка: здесь нужно преобразовывать тип

      }

4.6.4 Возвращаемое значение

Если функция не описана как void, она должна возвращать значение.

Например:

     int f() { }    // ошибка
     void g() { }   // нормально

Возвращаемое значение указывается в операторе return в теле функции.

Например:

    int fac(int n) { return (n>1) ? n*fac(n-1) : 1; }

В теле функции может быть несколько операторов return:

    int fac(int n)
    {
      if (n > 1)
         return n*fac(n-1);
      else
         return 1;
    }

Подобно передаче параметров, операция возвращения значения функции эквивалентна инициализации. Считается, что оператор return инициализирует переменную, имеющую тип возвращаемого значения.

Тип выражения в операторе return сверяется с типом функции, и производятся все стандартные и пользовательские преобразования типа. Например:

       double f()
       {
         // ...
         return 1;   // неявно преобразуется в double(1)
       }

При каждом вызове функции создается новая копия ее формальных параметров и автоматических переменных. Занятая ими память после выхода из функции будет снова использоваться, поэтому неразумно возвращать указатель на локальную переменную. Содержимое памяти, на которую настроен такой указатель, может измениться непредсказуемым образом:

        int* f()
        {
          int local = 1;
          // ...
          return &local;    // ошибка
        }

Эта ошибка не столь типична, как сходная ошибка, когда тип функции - ссылка:

        int& f()
        {
          int local = 1;
          // ...
          return local;   // ошибка
       }

К счастью, транслятор предупреждает о том, что возвращается ссылка на локальную переменную. Вот другой пример:

       int& f() { return 1; }  // ошибка

4.6.5 Параметр-массив

Если в качестве параметра функции указан массив, то передается указатель на его первый элемент. Например:

         int strlen(const char*);

         void f()
         {
           char v[] = "массив";
           strlen(v);
           strlen("Николай");
         }

Это означает, что фактический параметр типа T[] преобразуется к типу T*, и затем передается. Поэтому присваивание элементу формального параметра-массива изменяет этот элемент. Иными словами, массивы отличаются от других типов тем, что они не передаются и не могут передаваться по значению.

В вызываемой функции размер передаваемого массива неизвестен. Это неприятно, но есть несколько способов обойти данную трудность.

Прежде всего, все строки оканчиваются нулевым символом, и значит их размер легко вычислить. Можно передавать еще один параметр, задающий размер массива. Другой способ: определить структуру, содержащую указатель на массив и размер массива, и передавать ее как параметр (см. также $$1.2.5). Например:

         void compute1(int* vec_ptr, int vec_size);  // 1-ый способ

         struct vec {               // 2-ой способ
           int* ptr;
           int size;
         };

         void compute2(vec v);

Сложнее с многомерными массивами, но часто вместо них можно использовать массив указателей, сведя эти случаи к одномерным массивам. Например:

        char* day[] = {
            "mon", "tue", "wed", "thu", "fri", "sat", "sun"
        };

Теперь рассмотрим функцию, работающую с двумерным массивом - матрицей.

Если размеры обоих индексов известны на этапе трансляции, то проблем нет:

        void print_m34(int m[3][4])
        {
           for (int i = 0; i<3; i++) {
               for (int j = 0; j<4; J++)
                   cout << ' ' << m[i][j];
               cout << '\n';
          }
        }

Конечно, матрица по-прежнему передается как указатель, а размерности приведены просто для полноты описания.

Первая размерность для вычисления адреса элемента неважна ($$R.8.2.4), поэтому ее можно передавать как параметр:

       void print_mi4(int m[][4], int dim1)
       {
          for ( int i = 0; i<dim1; i++) {
              for ( int j = 0; j<4; j++)
                  cout << ' ' << m[i][j];
              cout << '\n';
          }
       }

Самый сложный случай - когда надо передавать обе размерности.

Здесь "очевидное" решение просто непригодно:

      void print_mij(int m[][], int dim1, int dim2)   // ошибка
      {
        for ( int i = 0; i<dim1; i++) {
            for ( int j = 0; j<dim2; j++)
                cout << ' ' << m[i][j];
            cout << '\n';
        }
     }

Во-первых, описание параметра m[][] недопустимо, поскольку для вычисления адреса элемента многомерного массива нужно знать вторую размерность. Во-вторых, выражение m[i][j] вычисляется как *(*(m+i)+j), а это, по всей видимости, не то, что имел в виду программист. Приведем правильное решение:

        void print_mij(int** m, int dim1, int dim2)
        {
           for (int i = 0; i< dim1; i++) {
               for (int j = 0; j<dim2; j++)
                 cout << ' ' << ((int*)m)[i*dim2+j];  // запутано
               cout << '\n';
          }
        }

Выражение, используемое для выбора элемента матрицы, эквивалентно тому, которое создает для этой же цели транслятор, когда известна последняя размерность. Можно ввести дополнительную переменную, чтобы это выражение стало понятнее:

       int* v = (int*)m;
       // ...
       v[i*dim2+j]

Лучше такие достаточно запутанные места в программе упрятывать.

Можно определить тип многомерного массива с соответствующей операцией индексирования. Тогда пользователь может и не знать, как размещаются данные в массиве (см. упражнение 18 в $$7.13).

4.6.6 Перегрузка имени функции

Обычно имеет смысл давать разным функциям разные имена. Если же несколько функций выполняет одно и то же действие над объектами разных типов, то удобнее дать одинаковые имена всем этим функциям.

Перегрузкой имени называется его использование для обозначения разных операций над разными типами. Собственно уже для основных операций С++ применяется перегрузка. Действительно: для операций сложения есть только одно имя +, но оно используется для сложения и целых чисел, и чисел с плавающей точкой, и указателей. Такой подход легко можно распространить на операции, определенные пользователем, т.е. на функции. Например:

          void print(int);          // печать целого
          void print(const char*)   // печать строки символов

Для транслятора в таких перегруженных функциях общее только одно - имя. Очевидно, по смыслу такие функции сходны, но язык не способствует и не препятствует выделению перегруженных функций.

Таким образом, определение перегруженных функций служит, прежде всего, для удобства записи. Но для функций с такими традиционными именами, как sqrt, print или open, нельзя этим удобством пренебрегать.

Если само имя играет важную семантическую роль, например, в таких операциях, как + , * и << ($$7.2), или для конструктора класса ($$5.2.4 и $$7.3.1), то такое удобство становится существенным фактором. При вызове функции с именем f транслятор должен разобраться, какую именно функцию f следует вызывать. Для этого сравниваются типы фактических параметров, указанные в вызове, с типами формальных параметров всех описаний функций с именем f. В результате вызывается та функция, у которой формальные параметры наилучшим образом сопоставились с параметрами вызова, или выдается ошибка если такой функции не нашлось. Например:

         void print(double);
         void print(long);

         void f()
         {
           print(1L);    // print(long)
           print(1.0);   // print(double)
           print(1);     // ошибка, неоднозначность: что вызывать
                         // print(long(1)) или print(double(1)) ?
         }

Подробно правила сопоставления параметров описаны в $$R.13.2. Здесь достаточно привести их суть. Правила применяются в следующем порядке по убыванию их приоритета:
   [1] Точное сопоставление: сопоставление произошло без всяких преобразований типа или только с неизбежными преобразованиями (например, имени массива в указатель, имени функции в указатель на функцию и типа T в const T).
   [2] Сопоставление с использованием стандартных целочисленных преобразований, определенных в $$R.4.1 (т.е. char в int, short в int и их беззнаковых двойников в int), а также преобразований float в double.
   [3] Сопоставление с использованием стандартных преобразований, определенных в $$R.4 (например, int в double, derived* в base*, unsigned в int).
   [4] Сопоставление с использованием пользовательских преобразований ($$R.12.3).
   [5] Сопоставление с использованием эллипсиса ... в описании функции.

Если найдены два сопоставления по самому приоритетному правилу, то вызов считается неоднозначным, а значит ошибочным. Эти правила сопоставления параметров работают с учетом правил преобразований числовых типов для С и С++. Пусть имеются такие описания функции print:

        void print(int);
        void print(const char*);
        void print(double);
        void print(long);
        void print(char);

Тогда результаты следующих вызовов print() будут такими:

      void h(char c, int i, short s, float f)
      {
       print(c);    // точное сопоставление: вызывается print(char)
       print(i);    // точное сопоставление: вызывается print(int)
       print(s);    // стандартное целочисленное преобразование:
                    // вызывается print(int)
       print(f);    // стандартное преобразование:
                    // вызывается print(double)

       print('a');  // точное сопоставление: вызывается print(char)
       print(49);   // точное сопоставление: вызывается print(int)
       print(0);    // точное сопоставление: вызывается print(int)
       print("a");  // точное сопоставление:
                    // вызывается print(const char*)
      }

Обращение print(0) приводит к вызову print(int), ведь 0 имеет тип int. Обращение print('a') приводит к вызову print(char), т.к. 'a' - типа char ($$R.2.5.2).

Отметим, что на разрешение неопределенности при перегрузке не влияет порядок описаний рассматриваемых функций, а типы возвращаемых функциями значений вообще не учитываются.

Исходя из этих правил можно гарантировать, что если эффективность или точность вычислений значительно различаются для рассматриваемых типов, то вызывается функция, реализующая самый простой алгоритм. Например:

          int pow(int, int);
          double pow(double, double);     // из <math.h>
          complex pow(double, complex);   // из <complex.h>
          complex pow(complex, int);
          complex pow(complex, double);
          complex pow(complex, complex);

          void k(complex z)
          {
            int i = pow(2,2);       // вызывается pow(int,int)
            double d = pow(2.0,2);  // вызывается pow(double,double)
            complex z2 = pow(2,z);  // вызывается pow(double,complex)
            complex z3 = pow(z,2);  // вызывается pow(complex,int)
            complex z4 = pow(z,z);  // вызывается pow(complex,complex)
         }

4.6.7 Стандартные значения параметров

В общем случае у функции может быть больше параметров, чем в самых простых и наиболее часто используемых случаях. В частности, это свойственно функциям, строящим объекты (например, конструкторам, см. $$5.2.4). Для более гибкого использования этих функций иногда применяются необязательные параметры. Рассмотрим в качестве примера функцию печати целого числа. Вполне разумно применить в качестве необязательного параметра основание счисления печатаемого числа, хотя в большинстве случаев числа будут печататься как десятичные целые значения. Следующая функция

          void print (int value, int base =10);

          void F()
          {
             print(31);
             print(31,10);
             print(31,16);
             print(31,2);
          }

напечатает такие числа:

31 31 1f 11111

Вместо стандартного значения параметра можно было бы использовать перегрузку функции print: s Однако в последнем варианте текст программы не столь явно демонстрирует желание иметь одну функцию print, но при этом обеспечить удобную и краткую форму записи.

Тип стандартного параметра сверяется с типом указанного значения при трансляции описания функции, а значение этого параметра вычисляется в момент вызова функции. Задавать стандартное значение можно только для завершающих подряд идущих параметров:

        int f(int, int =0, char* =0);   // нормально
        int g(int =0, int =0, char*);   // ошибка
        int h(int =0, int, char* =0);   // ошибка

Отметим, что в данном контексте наличие пробела между символами * и = весьма существенно, поскольку *= является операцией присваивания:

       int nasty(char*=0);      // синтаксическая ошибка

4.6.8 Неопределенное число параметров

Существуют функции, в описании которых невозможно указать число и типы всех допустимых параметров. Тогда список формальных параметров завершается эллипсисом (...), что означает: "и, возможно, еще несколько аргументов". Например:

       int printf(const char* ...);

При вызове printf обязательно должен быть указан параметр типа char*, однако могут быть (а могут и не быть) еще другие параметры. Например:

      printf("Hello, world\n");
      printf("My name is %s %s\n", first_name, second_name);
      printf("%d + %d = %d\n", 2,3,5);

Такие функции пользуются для распознавания своих фактических параметров недоступной транслятору информацией. В случае функции printf первый параметр является строкой, специфицирующей формат вывода.

Она может содержать специальные символы, которые позволяют правильно воспринять последующие параметры. Например, %s означает -"будет фактический параметр типа char*", %d означает -"будет фактический параметр типа int" (см. $$10.6). Но транслятор этого не знает, и поэтому он не может убедиться, что объявленные параметры действительно присутствуют в вызове и имеют соответствующие типы. Например, следующий вызов

      printf("My name is %s %s\n",2);

нормально транслируется, но приведет (в лучшем случае) к неожиданной выдаче. Можете проверить сами. Очевидно, что раз параметр неописан, то транслятор не имеет сведений для контроля и стандартных преобразований типа этого параметра. Поэтому char или short передаются как int, а float как double, хотя пользователь, возможно, имел в виду другое.

В хорошо продуманной программе может потребоваться, в виде исключения, лишь несколько функций, в которых указаны не все типы параметров. Чтобы обойти контроль типов параметров, лучше использовать перегрузку функций или стандартные значения параметров, чем параметры, типы которых не были описаны. Эллипсис становится необходимым только тогда, когда могут меняться не только типы, но и число параметров. Чаще всего эллипсис используется для определения интерфейса с библиотекой стандартных функций на С, если этим функциям нет замены:

       extern "C" int fprintf(FILE*, const char* ...);
       extern "C" int execl(const char* ...);

Есть стандартный набор макроопределений, находящийся в <stdarg.h>, для выбора незаданных параметров этих функций. Рассмотрим функцию реакции на ошибку, первый параметр которой показывает степень тяжести ошибки. За ним может следовать произвольное число строк. Нужно составить сообщение об ошибке с учетом, что каждое слово из него передается как отдельная строка:

      extern void error(int ...)
      extern char* itoa(int);

      main(int argc, char* argv[])
      {
         switch (argc) {
         case 1:
            error(0,argv[0],(char*)0);
            break;
         case 2:
            error(0,argv[0],argv[1],(char*)0);
            break;
         default:
            error(1,argv[0],
                  "With",itoa(argc-1),"arguments",(char*)0);
         }
         // ...
       }

Функция itoa возвращает строку символов, представляющую ее целый параметр. Функцию реакции на ошибку можно определить так:

       #include <stdarg.h>

       void error(int severity ...)
       /*
         за "severity" (степень тяжести ошибки) следует
         список строк, завершающийся нулем
      */
      {
        va_list ap;
        va_start(ap,severity);   // начало параметров

        for (;;) {
            char* p = va_arg(ap,char*);
            if (p == 0) break;
            cerr << p << ' ';
        }

        va_end(ap);     // очистка параметров

        cerr << '\n';
        if (severity) exit(severity);
      }

Вначале при вызове va_start() определяется и инициализируется va_list. Параметрами макроопределения va_start являются имя типа va_list и последний формальный параметр. Для выборки по порядку неописанных параметров используется макроопределение va_arg(). В каждом обращении к va_arg нужно задавать тип ожидаемого фактического параметра. В va_arg() предполагается, что параметр такого типа присутствует в вызове, но обычно нет возможности проверить это.

Перед выходом из функции, в которой было обращение к va_start, необходимо вызвать va_end. Причина в том, что в va_start() могут быть такие операции со стеком, из-за которых корректный возврат из функции становится невозможным. В va_end() устраняются все нежелательные изменения стека. Приведение 0 к (char*)0 необходимо потому, что sizeof(int) не обязано совпадать с sizeof(char*). Этот пример демонстрирует все те сложности, с которыми приходится сталкиваться программисту, если он решил обойти контроль типов, используя эллипсис.

4.6.9 Указатель на функцию

Возможны только две операции с функциями: вызов и взятие адреса. Указатель, полученный с помощью последней операции, можно впоследствии использовать для вызова функции. Например:

         void error(char* p) { /* ... */ }

         void (*efct)(char*);   // указатель на функцию

         void f()
         {
           efct = &error;       // efct настроен на функцию error
           (*efct)("error");    // вызов error через указатель efct
         }

Для вызова функции с помощью указателя (efct в нашем примере) надо вначале применить операцию косвенности к указателю - *efct. Поскольку приоритет операции вызова () выше, чем приоритет косвенности *, нельзя писать просто *efct("error"). Это будет означать *(efct("error")), что является ошибкой. По той же причине скобки нужны и при описании указателя на функцию. Однако, писать просто efct("error") можно, т.к. транслятор понимает, что efct является указателем на функцию, и создает команды, делающие вызов нужной функции.

Отметим, что формальные параметры в указателях на функцию описываются так же, как и в обычных функциях. При присваивании указателю на функцию требуется точное соответствие типа функции и типа присваиваемого значения. Например:

          void (*pf)(char*);          // указатель на void(char*)
          void f1(char*);             // void(char*);
          int f2(char*);              // int(char*);
          void f3(int*);              // void(int*);

          void f()
          {
            pf = &f1;                 // нормально
            pf = &f2;                 // ошибка: не тот тип возвращаемого
                                      // значения
            pf = &f3;                 // ошибка: не тот тип параметра

            (*pf)("asdf");            // нормально
            (*pf)(1);                 // ошибка: не тот тип параметра

            int i = (*pf)("qwer");    // ошибка: void присваивается int
          }

Правила передачи параметров одинаковы и для обычного вызова, и для вызова с помощью указателя.

Часто бывает удобнее обозначить тип указателя на функцию именем, чем все время использовать достаточно сложную запись. Например:

  typedef int (*SIG_TYP)(int);    // из <signal.h>
  typedef void (SIG_ARG_TYP)(int);
  SIG_TYP signal(int, SIG_ARG_TYP);

Также часто бывает полезен массив указателей на функции. Например, можно реализовать систему меню для редактора с вводом, управляемым мышью, используя массив указателей на функции, реализующие команды. Здесь нет возможности подробно описать такой редактор, но дадим самый общий его набросок:

         typedef void (*PF)();

         PF edit_ops[] = { // команды редактора
             &cut, &paste, &snarf, &search
         };

         PF file_ops[] = { // управление файлом
            &open, &reshape, &close, &write

         };

Далее надо определить и инициализировать указатели, с помощью которых будут запускаться функции, реализующие выбранные из меню команды.

Выбор происходит нажатием клавиши мыши:

         PF* button2 = edit_ops;
         PF* button3 = file_ops;

Для настоящей программы редактора надо определить большее число объектов, чтобы описать каждую позицию в меню. Например, необходимо где-то хранить строку, задающую текст, который будет выдаваться для
каждой позиции. При работе с системой меню назначение клавиш мыши будет постоянно меняться. Частично эти изменения можно представить как изменения значений указателя, связанного с данной клавишей.

Если пользователь выбрал позицию меню, которая определяется, например, как позиция 3 для клавиши 2, то соответствующая команда реализуется вызовом:

          (*button2[3])();

Чтобы полностью оценить мощность конструкции указатель на функцию, стоит попытаться написать программу без нее. Меню можно изменять в динамике, если добавлять новые функции в таблицу команд.

Довольно просто создавать в динамике и новые меню. Указатели на функции помогают реализовать полиморфические подпрограммы, т.е. такие подпрограммы, которые можно применять к объектам различных типов:

           typedef int (*CFT)(void*,void*);

           void sort(void* base, unsigned n, unsigned int sz, CFT cmp)
           /*
              Сортировка вектора "base" из n элементов
              в возрастающем порядке;
              используется функция сравнения, на которую указывает cmp.
              Размер элементов равен "sz".

              Алгоритм очень неэффективный: сортировка пузырьковым методом
            */
            {
              for (int i=0; i<n-1; i++)
                  for (int j=n-1; i<j; j--) {
                     char* pj = (char*)base+j*sz;  // b[j]
                     char* pj1 = pj - sz;          // b[j-1]
                     if ((*cmp)(pj,pj1) < 0) {
                     // поменять местами b[j] и b[j-1]
                        for (int k = 0; k<sz; k++) {
                            char temp = pj[k];
                            pj[k] = pj1[k];
                            pj1[k] = temp;
                        }
                      }
                    }
             }

В подпрограмме sort неизвестен тип сортируемых объектов; известно только их число (размер массива), размер каждого элемента и функция, которая может сравнивать объекты. Мы выбрали для функции sort() такой же заголовок, как у qsort() - стандартной функции сортировки из библиотеки С. Эту функцию используют настоящие программы.

Покажем, как с помощью sort() можно отсортировать таблицу с такой структурой:

            struct user {
               char* name;     // имя
               char* id;       // пароль
               int dept;       // отдел
            };

            typedef user* Puser;

            user heads[] = {
                 "Ritchie D.M.",      "dmr",   11271,
                 "Sethi R.",          "ravi",  11272,
                 "SZYmanski T.G.",    "tgs",   11273,
                 "Schryer N.L.",      "nls",   11274,
                 "Schryer N.L.",      "nls",   11275
                 "Kernighan B.W.",    "bwk",   11276
            };

            void print_id(Puser v, int n)
            {
              for (int i=0; i<n; i++)
                  cout << v[i].name << '\t'
                       << v[i].id << '\t'
                       << v[i].dept << '\n';
            }

Чтобы иметь возможность сортировать, нужно вначале определить подходящие функции сравнения. Функция сравнения должна возвращать отрицательное число, если ее первый параметр меньше второго, нуль, если они равны, и положительное число в противном случае:

            int cmp1(const void* p, const void* q)
            // сравнение строк, содержащих имена
            {
              return strcmp(Puser(p)->name, Puser(q)->name);
            }

            int cmp2(const void* p, const void* q)
            // сравнение номеров разделов
            {
              return Puser(p)->dept - Puser(q)->dept;
            }

Следующая программа сортирует и печатает результат:

           int main()
           {
             sort(heads,6,sizeof(user), cmp1);
             print_id(heads,6);    // в алфавитном порядке
             cout << "\n";
             sort(heads,6,sizeof(user),cmp2);
             print_id(heads,6);    // по номерам отделов
           }

Допустима операция взятия адреса и для функции-подстановки, и для перегруженной функции ($$R.13.3).

Отметим, что неявное преобразование указателя на что-то в указатель типа void* не выполняется для параметра функции, вызываемой через указатель на нее. Поэтому функцию

         int cmp3(const mytype*, const mytype*);

нельзя использовать в качестве параметра для sort(). Поступив иначе, мы нарушаем заданное в описании условие, что cmp3() должна вызываться с параметрами типа mytype*. Если вы специально хотите нарушить это условие, то должны использовать явное преобразование типа.

4.7 Макросредства

Макросредства языка определяются в $$R.16. В С++ они играют гораздо меньшую роль, чем в С. Можно даже дать такой совет: используйте макроопределения только тогда, когда не можете без них обойтись.

Вообще говоря, считается, что практически каждое появление макроимени является свидетельством некоторых недостатков языка, программы или программиста. Макросредства создают определенные трудности для работы служебных системных программ, поскольку они перерабатывают программный текст еще до трансляции. Поэтому, если ваша программа использует макросредства, то сервис, предоставляемый такими программами, как отладчик, профилировщик, программа перекрестных ссылок, будет для нее неполным. Если все-таки вы решите использовать макрокоманды, то вначале тщательно изучите описание препроцессора С++ в вашем справочном руководстве и не старайтесь быть слишком умным.

Простое макроопределение имеет вид:

        #define имя  остаток-строки

В тексте программы лексема имя заменяется на остаток-строки. Например, объект = имя будет заменено на объект = остаток-строки

Макроопределение может иметь параметры. Например:

        #define mac(a,b)  argument1: a argument2: b

В макровызове mac должны быть заданы две строки, представляющие параметры. При подстановке они заменят a и b в макроопределении mac(). Поэтому строка

       expanded = mac(foo bar, yuk yuk)

при подстановке преобразуется в

       expanded = argument1: foo bar argument2: yuk yuk

Макроимена нельзя перегружать. Рекурсивные макровызовы ставят перед препроцессором слишком сложную задачу:

      // ошибка:
      #define print(a,b) cout<<(a)<<(b)
      #define print(a,b,c)  cout<<(a)<<(b)<<(c)

      // слишком сложно:
      #define fac(n) (n>1) ?n*fac(n-1) :1

Препроцессор работает со строками и практически ничего не знает о синтаксисе C++, типах языка и областях видимости. Транслятор имеет дело только с уже раскрытым макроопределением, поэтому ошибка в нем может диагностироваться уже после подстановки, а не при определении макроимени. В результате появляются довольно путанные сообщения об ошибках.

Допустимы такие макроопределения:

      #define Case break;case
      #define forever for(;;)

А вот совершенно излишние макроопределения:

      #define PI 3.141593
      #define BEGIN {
      #define END }

Следующие макроопределения могут привести к ошибкам:

      #define SQUARE(a) a*a
      #define INCR_xx (xx)++
      #define DISP = 4

Чтобы убедиться в этом, достаточно попробовать сделать подстановку в таком примере:

      int xx = 0;          // глобальный счетчик

      void f() {
        int xx = 0;        // локальная переменная
        xx = SQUARE(xx+2); // xx = xx +2*xx+2;
        INCR_xx;           // увеличивается локальная переменная xx
        if (a-DISP==b) {   // a-=4==b
           // ...
        }
      }

При ссылке на глобальные имена в макроопределении используйте операцию разрешения области видимости ($$2.1.1), и всюду, где это возможно, заключайте имя параметра макроопределения в скобки. Например:

       #define MIN(a,b) (((a)<(b))?(a):(b))

Если макроопределение достаточно сложное, и требуется комментарий к нему, то разумнее написать комментарий вида /* */, поскольку в реализации С++ может использоваться препроцессор С, который не распознает комментарии вида //. Например:

       #define m2(a) something(a)   /* глубокомысленный комментарий */

С помощью макросредств можно создать свой собственный язык, правда, скорее всего, он будет непонятен другим. Кроме того, препроцессор С предоставляет довольно слабые макросредства. Если ваша задача нетривиальна, вы, скорее всего, обнаружите, что решить ее с помощью этих средств либо невозможно, либо чрезвычайно трудно. В качестве альтернативы традиционному использованию макросредств в язык введены конструкции const, inline и шаблоны типов. Например:

        const int answer = 42;
        template<class T>
           inline T min(T a, T b) { return (a<b)?a:b; }

4.8 Упражнения

1. (*1) Составьте следующие описания: функция с параметрами типа
   указатель на символ и ссылка на целое, невозвращающая значения;
   указатель на такую функцию; функция с параметром, имеющим тип
   такого указателя; функция, возвращающая такой указатель. Напишите
   определение функции, у которой параметр и возвращаемое значение
   имеют тип такого указателя. Подсказка: используйте typedef.
2. (*1) Как понимать следующее описание? Где оно может пригодиться?
         typedef int (rifii&) (int, int);
3. (*1.5) Напишите программу, подобную той, что выдает "Hello, world".
   Она получает имя (name) как параметр командной строки и выдает
   "Hello, name". Измените программу так, чтобы она получала
   произвольное число имен и всем им выдавала свое приветствие:
   "Hello, ...".
4. (1.5) Напишите программу, которая, беря из командной строки
   произвольное число имен файлов, все эти файлы переписывает
   один за другим в cout. Поскольку в программе происходит
   конкатенация файлов, вы можете назвать ее cat от слова
   concatenation - конкатенация).
5. (*2) Переведите небольшую программу с языка С на С++. Измените
   заголовочные файлы так, чтобы они содержали описание всех
   вызываемых функций и описание типов всех параметров. По возможности
   все команды #define замените конструкциями enum, const или
   inline. Удалите из файлов .c все описания внешних, а определения
   функций приведите к виду, соответствующему С++. Вызовы malloc() и
   free() замените операциями new и delete. Удалите ненужные операции
   приведения.
6. (*2) Напишите функцию sort() ($$4.6.9), использующую более
   эффективный алгоритм сортировки.
7. (*2) Посмотрите на определение структуры tnode в $$R.9.3. Напишите
   функцию, заносящую новые слова в дерево узлов tnode. Напишите
   функцию для вывода узлов дерева tnode. Напишите функцию,
   которая производит такой вывод в алфавитном порядке.

Измените структуру tnode так, чтобы в ней содержался
   только указатель на слово произвольной длины, которое размещается
   с помощью new в свободной памяти. Измените функцию так, чтобы
   она работала с новой структурой tnode.
8. (*1) Напишите функцию itoa(), которая использовалась в примере
   из $$4.6.8.
9. (*2) Узнайте, какие стандартные заголовочные файлы есть в вашей
   системе. Поройтесь в каталогах /usr/include или /usr/include/CC
   (или в тех каталогах, где хранятся стандартные заголовочные
   файлы вашей системы). Прочитайте любой показавшийся интересным
   файл.
10. (*2) Напишите функцию, которая будет переворачивать двумерный
   массив. (Первый элемент массива станет последним).
11. (*2) Напишите шифрующую программу, которая читает символы из
   cin и пишет их в cout в зашифрованном виде. Можно использовать
   следующий простой метод шифрации: для символа s зашифрованное
   представление получается в результате операции s^key[i], где
   key - массив символов, передаваемый в командной строке. Символы
   из массива key используются в циклическом порядке, пока не будет
   прочитан весь входной поток. Первоначальный текст получается
   повторным применением той же операции с теми же элементами key.
   Если массив key не задан (или задана пустая строка), шифрация не
   происходит.
12. (*3) Напишите программу, которая помогает дешифрировать текст,
   зашифрованный описанным выше способом, когда ключ (т.е. массив
   key) неизвестен. Подсказка: см. D Kahn "The Codebreakers",
   Macmillan, 1967, New York, стр. 207-213.
13. (*3) Напишите функцию обработки ошибок, первый параметр который
   подобен форматирующей строке-параметру printf() и содержит форматы
   %s, %c и %d. За ним может следовать произвольное количество
   числовых параметров. Функцию printf() не используйте. Если смысл
   формата %s и других форматов вам неизвестен, обратитесь к $$10.6.
   Используйте <stdarg.h>.
14. (*1) Какое имя вы выбрали бы для типов указателей на функции,
   которые определяются с помощью typedef?
15. (*2) Исследуйте разные программы, чтобы получить представление
   о разных используемых на практике стилях именования. Как
   используются заглавные буквы? Как используется подчерк? В каких
   случаях используются такие имена, как i или x?
16. (*1) Какие ошибки содержатся в следующих макроопределениях?

         #define PI = 3.141593;
         #define MAX(a,b) a>b?a:b
         #define fac(a) (a)*fac((a)-1)

17. (*3) Напишите макропроцессор с простыми возможностями, как у
препроцессора С. Текст читайте из cin, а результат записывайте
в cout. Вначале реализуйте макроопределения без параметров.

Подсказка: в программе калькулятора есть таблица имен и
   синтаксический анализатор, которыми можно воспользоваться.
18. (*2) Напишите программу, извлекающую квадратный корень из двух (2)
   с помощью стандартной функции sqrt(), но не включайте в программу
   <math.h>. Сделайте это упражнение с помощью функции sqrt()
   на Фортране.
19. (*2) Реализуйте функцию print() из $$4.6.7.

форум c++