Smaller memory footprint, 4/8 bytes vs 12/24 for individual token lex_ctx's. Use...
[xonotic/gmqcc.git] / lexer.h
1 /*
2  * Copyright (C) 2012, 2013
3  *     Wolfgang Bumiller
4  *
5  * Permission is hereby granted, free of charge, to any person obtaining a copy of
6  * this software and associated documentation files (the "Software"), to deal in
7  * the Software without restriction, including without limitation the rights to
8  * use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies
9  * of the Software, and to permit persons to whom the Software is furnished to do
10  * so, subject to the following conditions:
11  *
12  * The above copyright notice and this permission notice shall be included in all
13  * copies or substantial portions of the Software.
14  *
15  * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
16  * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
17  * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
18  * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
19  * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
20  * OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
21  * SOFTWARE.
22  */
23 #ifndef GMQCC_LEXER_HDR
24 #define GMQCC_LEXER_HDR
25 typedef struct token_s token;
26
27 struct token_s {
28     int ttype;
29
30     char *value;
31
32     union {
33         vector v;
34         int    i;
35         double f;
36         int    t; /* type */
37     } constval;
38
39 #if 0
40     struct token_s *next;
41     struct token_s *prev;
42 #endif
43
44     lex_ctx *ctx;
45 };
46
47 #if 0
48 token* token_new();
49 void   token_delete(token*);
50 token* token_copy(const token *cp);
51 void   token_delete_all(token *t);
52 token* token_copy_all(const token *cp);
53 #endif
54
55 /* Lexer
56  *
57  */
58 enum {
59     /* Other tokens which we can return: */
60     TOKEN_NONE = 0,
61     TOKEN_START = 128,
62
63     TOKEN_IDENT,
64
65     TOKEN_TYPENAME,
66
67     TOKEN_OPERATOR,
68
69     TOKEN_KEYWORD, /* loop */
70
71     TOKEN_DOTS, /* 3 dots, ... */
72
73     TOKEN_ATTRIBUTE_OPEN,  /* [[ */
74     TOKEN_ATTRIBUTE_CLOSE, /* ]] */
75
76     TOKEN_VA_ARGS, /* for the ftepp only */
77     TOKEN_VA_ARGS_ARRAY, /* for the ftepp only */
78     TOKEN_VA_COUNT,     /* to get the count of vaargs */
79
80     TOKEN_STRINGCONST, /* not the typename but an actual "string" */
81     TOKEN_CHARCONST,
82     TOKEN_VECTORCONST,
83     TOKEN_INTCONST,
84     TOKEN_FLOATCONST,
85
86     TOKEN_WHITE,
87     TOKEN_EOL,
88
89     /* if we add additional tokens before this, the exposed API
90      * should not be broken anyway, but EOF/ERROR/... should
91      * still be at the bottom
92      */
93     TOKEN_EOF = 1024,
94
95     /* We use '< TOKEN_ERROR', so TOKEN_FATAL must come after it and any
96      * other error related tokens as well
97      */
98     TOKEN_ERROR,
99     TOKEN_FATAL /* internal error, eg out of memory */
100 };
101
102 typedef struct {
103     char *name;
104     int   value;
105 } frame_macro;
106
107 typedef struct lex_file_s {
108     FILE   *file;
109     const char *open_string;
110     size_t      open_string_length;
111     size_t      open_string_pos;
112
113     size_t  sline; /* line at the start of a token */
114
115     /* 
116      * no more 'shallow' copies, instead all new instances
117      * of a lex_ctx will just point to this lex_file::ctx.
118      * i.e 4/8 byte pointer. Instead of every token getting
119      * a 'shallow' 12/24 byte structure.
120      */
121     lex_ctx ctx;
122
123     int     peek[256];
124     size_t  peekpos;
125
126     bool    eof;
127
128     token   tok; /* not a pointer anymore */
129
130     struct {
131         bool noops;
132         bool nodigraphs; /* used when lexing string constants */
133         bool preprocessing; /* whitespace and EOLs become actual tokens */
134         bool mergelines; /* backslash at the end of a line escapes the newline */
135     } flags;
136
137     int framevalue;
138     frame_macro *frames;
139     char *modelname;
140
141     size_t push_line;
142 } lex_file;
143
144 lex_file* lex_open (const char *file);
145 lex_file* lex_open_string(const char *str, size_t len, const char *name);
146 void      lex_close(lex_file   *lex);
147 int       lex_do   (lex_file   *lex);
148 void      lex_cleanup(void);
149
150 /* Parser
151  *
152  */
153
154 enum {
155     ASSOC_LEFT,
156     ASSOC_RIGHT
157 };
158
159 #define OP_SUFFIX 1
160 #define OP_PREFIX 2
161
162 typedef struct {
163     const char   *op;
164     unsigned int operands;
165     unsigned int id;
166     unsigned int assoc;
167     signed int   prec;
168     unsigned int flags;
169 } oper_info;
170
171 /*
172  * Explicit uint8_t casts since the left operand of shift operator cannot
173  * be negative, even though it won't happen, this supresses the future
174  * possibility.
175  */
176 #define opid1(a)     ((uint8_t)a)
177 #define opid2(a,b)   (((uint8_t)a<<8) |(uint8_t)b)
178 #define opid3(a,b,c) (((uint8_t)a<<16)|((uint8_t)b<<8)|(uint8_t)c)
179
180 static const oper_info c_operators[] = {
181     { "(",   0, opid1('('),         ASSOC_LEFT,  99, OP_PREFIX}, /* paren expression - non function call */
182
183     { "++",  1, opid3('S','+','+'), ASSOC_LEFT,  17, OP_SUFFIX},
184     { "--",  1, opid3('S','-','-'), ASSOC_LEFT,  17, OP_SUFFIX},
185     { ".",   2, opid1('.'),         ASSOC_LEFT,  17, 0 },
186     { "(",   0, opid1('('),         ASSOC_LEFT,  17, 0 }, /* function call */
187     { "[",   2, opid1('['),         ASSOC_LEFT,  17, 0 }, /* array subscript */
188
189     { "++",  1, opid3('+','+','P'), ASSOC_RIGHT, 16, OP_PREFIX },
190     { "--",  1, opid3('-','-','P'), ASSOC_RIGHT, 16, OP_PREFIX },
191
192     { "**",  2, opid2('*', '*'),    ASSOC_RIGHT, 15, 0 },
193
194     { "!",   1, opid2('!', 'P'),    ASSOC_RIGHT, 14, OP_PREFIX },
195     { "~",   1, opid2('~', 'P'),    ASSOC_RIGHT, 14, OP_PREFIX },
196     { "+",   1, opid2('+','P'),     ASSOC_RIGHT, 14, OP_PREFIX },
197     { "-",   1, opid2('-','P'),     ASSOC_RIGHT, 14, OP_PREFIX },
198 /*  { "&",   1, opid2('&','P'),     ASSOC_RIGHT, 14, OP_PREFIX }, */
199
200     { "*",   2, opid1('*'),         ASSOC_LEFT,  13, 0 },
201     { "/",   2, opid1('/'),         ASSOC_LEFT,  13, 0 },
202     { "%",   2, opid1('%'),         ASSOC_LEFT,  13, 0 },
203
204     { "+",   2, opid1('+'),         ASSOC_LEFT,  12, 0 },
205     { "-",   2, opid1('-'),         ASSOC_LEFT,  12, 0 },
206
207     { "<<",  2, opid2('<','<'),     ASSOC_LEFT,  11, 0 },
208     { ">>",  2, opid2('>','>'),     ASSOC_LEFT,  11, 0 },
209
210     { "<",   2, opid1('<'),         ASSOC_LEFT,  10, 0 },
211     { ">",   2, opid1('>'),         ASSOC_LEFT,  10, 0 },
212     { "<=>", 2, opid3('<','=','>'), ASSOC_LEFT,  10, 0 },
213     { "<=",  2, opid2('<','='),     ASSOC_LEFT,  10, 0 },
214     { ">=",  2, opid2('>','='),     ASSOC_LEFT,  10, 0 },
215
216     { "==",  2, opid2('=','='),     ASSOC_LEFT,  9,  0 },
217     { "!=",  2, opid2('!','='),     ASSOC_LEFT,  9,  0 },
218
219     { "&",   2, opid1('&'),         ASSOC_LEFT,  8,  0 },
220
221     { "^",   2, opid1('^'),         ASSOC_LEFT,  7,  0 },
222
223     { "|",   2, opid1('|'),         ASSOC_LEFT,  6,  0 },
224
225     { "&&",  2, opid2('&','&'),     ASSOC_LEFT,  5,  0 },
226
227     { "||",  2, opid2('|','|'),     ASSOC_LEFT,  4,  0 },
228
229     { "?",   3, opid2('?',':'),     ASSOC_RIGHT, 3,  0 },
230
231     { "=",   2, opid1('='),         ASSOC_RIGHT, 2,  0 },
232     { "+=",  2, opid2('+','='),     ASSOC_RIGHT, 2,  0 },
233     { "-=",  2, opid2('-','='),     ASSOC_RIGHT, 2,  0 },
234     { "*=",  2, opid2('*','='),     ASSOC_RIGHT, 2,  0 },
235     { "/=",  2, opid2('/','='),     ASSOC_RIGHT, 2,  0 },
236     { "%=",  2, opid2('%','='),     ASSOC_RIGHT, 2,  0 },
237     { ">>=", 2, opid3('>','>','='), ASSOC_RIGHT, 2,  0 },
238     { "<<=", 2, opid3('<','<','='), ASSOC_RIGHT, 2,  0 },
239     { "&=",  2, opid2('&','='),     ASSOC_RIGHT, 2,  0 },
240     { "^=",  2, opid2('^','='),     ASSOC_RIGHT, 2,  0 },
241     { "|=",  2, opid2('|','='),     ASSOC_RIGHT, 2,  0 },
242     { "&~=", 2, opid3('&','~','='), ASSOC_RIGHT, 2,  0 },
243
244     { ":",   0, opid2(':','?'),     ASSOC_RIGHT, 1,  0 },
245
246     { ",",   2, opid1(','),         ASSOC_LEFT,  0,  0 }
247 };
248 static const size_t c_operator_count = (sizeof(c_operators) / sizeof(c_operators[0]));
249
250 static const oper_info fte_operators[] = {
251     { "(",   0, opid1('('),         ASSOC_LEFT,  99, OP_PREFIX}, /* paren expression - non function call */
252
253     { "++",  1, opid3('S','+','+'), ASSOC_LEFT,  15, OP_SUFFIX},
254     { "--",  1, opid3('S','-','-'), ASSOC_LEFT,  15, OP_SUFFIX},
255     { ".",   2, opid1('.'),         ASSOC_LEFT,  15, 0 },
256     { "(",   0, opid1('('),         ASSOC_LEFT,  15, 0 }, /* function call */
257     { "[",   2, opid1('['),         ASSOC_LEFT,  15, 0 }, /* array subscript */
258
259     { "!",   1, opid2('!', 'P'),    ASSOC_RIGHT, 14, OP_PREFIX },
260     { "+",   1, opid2('+','P'),     ASSOC_RIGHT, 14, OP_PREFIX },
261     { "-",   1, opid2('-','P'),     ASSOC_RIGHT, 14, OP_PREFIX },
262     { "++",  1, opid3('+','+','P'), ASSOC_RIGHT, 14, OP_PREFIX },
263     { "--",  1, opid3('-','-','P'), ASSOC_RIGHT, 14, OP_PREFIX },
264
265     { "*",   2, opid1('*'),         ASSOC_LEFT,  13, 0 },
266     { "/",   2, opid1('/'),         ASSOC_LEFT,  13, 0 },
267     { "&",   2, opid1('&'),         ASSOC_LEFT,  13, 0 },
268     { "|",   2, opid1('|'),         ASSOC_LEFT,  13, 0 },
269
270     { "+",   2, opid1('+'),         ASSOC_LEFT,  12, 0 },
271     { "-",   2, opid1('-'),         ASSOC_LEFT,  12, 0 },
272
273     { "<<",  2, opid2('<','<'),     ASSOC_LEFT,  11, 0 },
274     { ">>",  2, opid2('>','>'),     ASSOC_LEFT,  11, 0 },
275
276     { "<",   2, opid1('<'),         ASSOC_LEFT,  10, 0 },
277     { ">",   2, opid1('>'),         ASSOC_LEFT,  10, 0 },
278     { "<=",  2, opid2('<','='),     ASSOC_LEFT,  10, 0 },
279     { ">=",  2, opid2('>','='),     ASSOC_LEFT,  10, 0 },
280     { "==",  2, opid2('=','='),     ASSOC_LEFT,  10,  0 },
281     { "!=",  2, opid2('!','='),     ASSOC_LEFT,  10,  0 },
282
283     { "?",   3, opid2('?',':'),     ASSOC_RIGHT, 9,  0 },
284
285     { "=",   2, opid1('='),         ASSOC_RIGHT, 8,  0 },
286     { "+=",  2, opid2('+','='),     ASSOC_RIGHT, 8,  0 },
287     { "-=",  2, opid2('-','='),     ASSOC_RIGHT, 8,  0 },
288     { "*=",  2, opid2('*','='),     ASSOC_RIGHT, 8,  0 },
289     { "/=",  2, opid2('/','='),     ASSOC_RIGHT, 8,  0 },
290     { "%=",  2, opid2('%','='),     ASSOC_RIGHT, 8,  0 },
291     { "&=",  2, opid2('&','='),     ASSOC_RIGHT, 8,  0 },
292     { "|=",  2, opid2('|','='),     ASSOC_RIGHT, 8,  0 },
293     { "&~=", 2, opid3('&','~','='), ASSOC_RIGHT, 8,  0 },
294
295     { "&&",  2, opid2('&','&'),     ASSOC_LEFT,  5,  0 },
296     { "||",  2, opid2('|','|'),     ASSOC_LEFT,  5,  0 },
297
298     /* Leave precedence 3 for : with -fcorrect-ternary */
299     { ",",   2, opid1(','),         ASSOC_LEFT,  2,  0 },
300     { ":",   0, opid2(':','?'),     ASSOC_RIGHT, 1,  0 }
301 };
302 static const size_t fte_operator_count = (sizeof(fte_operators) / sizeof(fte_operators[0]));
303
304 static const oper_info qcc_operators[] = {
305     { "(",   0, opid1('('),         ASSOC_LEFT,  99, OP_PREFIX}, /* paren expression - non function call */
306
307     { ".",   2, opid1('.'),         ASSOC_LEFT,  15, 0 },
308     { "(",   0, opid1('('),         ASSOC_LEFT,  15, 0 }, /* function call */
309     { "[",   2, opid1('['),         ASSOC_LEFT,  15, 0 }, /* array subscript */
310
311     { "!",   1, opid2('!', 'P'),    ASSOC_RIGHT, 14, OP_PREFIX },
312     { "+",   1, opid2('+','P'),     ASSOC_RIGHT, 14, OP_PREFIX },
313     { "-",   1, opid2('-','P'),     ASSOC_RIGHT, 14, OP_PREFIX },
314
315     { "*",   2, opid1('*'),         ASSOC_LEFT,  13, 0 },
316     { "/",   2, opid1('/'),         ASSOC_LEFT,  13, 0 },
317     { "&",   2, opid1('&'),         ASSOC_LEFT,  13, 0 },
318     { "|",   2, opid1('|'),         ASSOC_LEFT,  13, 0 },
319
320     { "+",   2, opid1('+'),         ASSOC_LEFT,  12, 0 },
321     { "-",   2, opid1('-'),         ASSOC_LEFT,  12, 0 },
322
323     { "<",   2, opid1('<'),         ASSOC_LEFT,  10, 0 },
324     { ">",   2, opid1('>'),         ASSOC_LEFT,  10, 0 },
325     { "<=",  2, opid2('<','='),     ASSOC_LEFT,  10, 0 },
326     { ">=",  2, opid2('>','='),     ASSOC_LEFT,  10, 0 },
327     { "==",  2, opid2('=','='),     ASSOC_LEFT,  10,  0 },
328     { "!=",  2, opid2('!','='),     ASSOC_LEFT,  10,  0 },
329
330     { "=",   2, opid1('='),         ASSOC_RIGHT, 8,  0 },
331     { "+=",  2, opid2('+','='),     ASSOC_RIGHT, 8,  0 },
332     { "-=",  2, opid2('-','='),     ASSOC_RIGHT, 8,  0 },
333     { "*=",  2, opid2('*','='),     ASSOC_RIGHT, 8,  0 },
334     { "/=",  2, opid2('/','='),     ASSOC_RIGHT, 8,  0 },
335     { "%=",  2, opid2('%','='),     ASSOC_RIGHT, 8,  0 },
336     { "&=",  2, opid2('&','='),     ASSOC_RIGHT, 8,  0 },
337     { "|=",  2, opid2('|','='),     ASSOC_RIGHT, 8,  0 },
338
339     { "&&",  2, opid2('&','&'),     ASSOC_LEFT,  5,  0 },
340     { "||",  2, opid2('|','|'),     ASSOC_LEFT,  5,  0 },
341
342     { ",",   2, opid1(','),         ASSOC_LEFT,  2,  0 },
343 };
344 static const size_t qcc_operator_count = (sizeof(qcc_operators) / sizeof(qcc_operators[0]));
345
346 extern const oper_info *operators;
347 extern size_t           operator_count;
348 /*void lexerror(lex_file*, const char *fmt, ...);*/
349
350 #endif