实现python版本的c语言词法分析

2024-11-29 19:11:43 +08:00
commit c736ef5b1b
4 changed files with 300 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@@ -0,0 +1 @@
+__pycache__/
--- a/lex_c.py
+++ b/lex_c.py
@@ -0,0 +1,244 @@
+import os
+import sys
+import dataclasses
+
+
+TOKEN_IF = 256,
+TOKEN_BREAK = 257,
+TOKEN_WHILE=258,
+TOKEN_SWITCH=259,
+TOKEN_CASE=260,
+TOKEN_DO=261,
+TOKEN_CHAR=262,
+TOKEN_INT=263,
+TOKEN_VOID=264,
+TOKEN_SYMBOL = 265 ,
+TOKEN_NUM = 266 ,# 数字
+TOKEN_INC = 267,# 自增
+TOKEN_DEC = 268,# 自减
+TOKEN_EQ = 269,# 相等
+TOKEN_NEQ = 270,# 不相等
+TOKEN_LSH = 271,# 左移
+TOKEN_RSH = 272,# 右移
+TOKEN_LEQ = 273,# 小于等于
+TOKEN_GEQ = 274,# 大于等于
+TOKEN_ELSE = 275,
+TOKEN_CONTINUE = 276 ,
+TOKEN_CONST = 277 ,
+TOKEN_STATIC = 278 ,
+TOKEN_UNSIGNED = 279 ,
+TOKEN_TYPEDEF = 280 ,
+TOKEN_STRUCT = 281 ,
+TOKEN_ENUM = 282 ,
+TOKEN_UNION = 283,
+TOKEN_STRING = 284,
+TOKEN_DEFAULT = 285,
+TOKEN_RETURN = 286,
+
+def TOKEN(t:str):
+  return t.encode("utf-8")[0]
+
+_KeyWordTable={
+  "if":TOKEN_IF,
+  "else":TOKEN_ELSE,
+  "break":TOKEN_BREAK,
+  "while":TOKEN_WHILE,
+  "switch":TOKEN_SWITCH,
+  "case":TOKEN_CASE,
+  "do":TOKEN_DO,
+  "char":TOKEN_CHAR,
+  "int":TOKEN_INT,
+  "void":TOKEN_VOID,
+  "continue":TOKEN_CONTINUE,
+  "const":TOKEN_CONST,
+  "static":TOKEN_STATIC,
+  "unisgned":TOKEN_UNSIGNED,
+  "typedef":TOKEN_TYPEDEF,
+  "struct":TOKEN_STRUCT,
+  "enum":TOKEN_ENUM,
+  "union":TOKEN_UNION,
+  "default":TOKEN_DEFAULT,
+  "return":TOKEN_RETURN,
+}
+
+_MarkTable={
+  "<<":TOKEN_LSH,
+  ">>":TOKEN_RSH,
+  "<=":TOKEN_LEQ,
+  ">=":TOKEN_GEQ,
+  "!=":TOKEN_NEQ,
+  "==":TOKEN_EQ,
+  "++":TOKEN_INC,
+  "--":TOKEN_DEC,
+  "=":TOKEN("="),
+  "!":TOKEN("!"),
+  "<":TOKEN("<"),
+  ">":TOKEN(">"),
+  "+":TOKEN("+"),
+  "-":TOKEN("-"),
+
+}
+
+
+
+# 是否是数字加字母
+def isalnum(num:int):
+  return bytes([num]).isalnum()
+
+# 是否是数字加字母或下划线
+def isalnum_(num:int):
+  return bytes([num]).isalnum() or num==TOKEN("_")
+
+# 是否是字母
+def isalpha(num:int):
+  return bytes([num]).isalpha()
+
+# 是否是字母或下划线
+def isalpha_(num:int):
+  return bytes([num]).isalpha() or num==TOKEN("_")
+
+# 是否是数字
+def isdigit(num:int):
+  return bytes([num]).isdigit()
+
+# 是否是数字或小数点
+def isdigitdot(num:int):
+  return bytes([num]).isdigit() or num==TOKEN(".")
+
+# 是否是空白字符 包括换行符
+def isspace(num:int):
+  return bytes([num]).isspace()
+
+# 是否是给定字符串之一
+def isinstr(num:int,t:str):
+  c=bytes([num])
+  return c in t.encode("utf-8")
+
+# 是否是操作符
+def isoperator(num:int):
+  return isinstr(num,"<>!+-=")
+
+@dataclasses.dataclass
+class lex_token:
+    name:str
+    buff:bytearray
+    token:int
+    line:int
+    pos:int
+
+
+class lex_class(object):
+  def __init__(self,text:bytes) -> None:
+    self.text=text
+    self.index=-1
+    self.line=1
+    self.pos=-1
+    self.token_list:list[lex_token]=[]
+    self.token_buff=bytearray()
+  def save_char(self,c:int):
+    self.token_buff.append(c&0xff)
+  def save_token(self,token:lex_token):
+    self.token_list.append(token)
+    self.token_buff=bytearray()
+  def _get_char(self):
+    if(self.index<len(self.text)):
+      c= self.text[self.index]
+      return c
+    return -1
+  def get_next_char(self):
+    if not self.is_end():
+      self.index+=1
+    c= self._get_char()
+    if(c==b'\n'[0]):
+      self.line+=1
+      self.pos=-1
+    else:
+      self.pos+=1
+    return c
+  def is_end(self):
+    return self.index>=len(self.text)
+  def save_one_char_token(self,c:int):
+    token=lex_token(bytes([c]).decode("utf-8"),bytes([c]),c,self.line,self.pos)
+    self.save_token(token)
+  def read_name_and_save(self,c:int):
+    token=lex_token("symbol",bytearray(),TOKEN_SYMBOL,self.line,self.pos)
+    self.save_char(c)
+    while True:
+      c=self.get_next_char()
+      if(isalnum_(c)):
+        self.save_char(c)
+      else:
+        break
+    name=self.token_buff.decode("utf-8")
+    if(name in _KeyWordTable):
+      token.token=_KeyWordTable[name]
+      token.name=name
+    token.buff=self.token_buff
+    self.save_token(token)
+    return c
+  def read_operator_and_save(self,c:int):
+    token=lex_token("operator",bytearray(),TOKEN_SYMBOL,self.line,self.pos)
+    self.save_char(c)
+    while True:
+      c=self.get_next_char()
+      if(isoperator(c)):
+        self.save_char(c)
+      else:
+        break
+    name=self.token_buff.decode("utf-8")
+    if(name in _MarkTable):
+      token.token=_MarkTable[name]
+      token.name=name
+    else:
+      raise Exception(f"不存在的操作符 {name} ")
+    token.buff=self.token_buff
+    self.save_token(token)
+    return c
+  def read_num_and_save(self,c:int):
+    token=lex_token("number",bytearray(),TOKEN_NUM,self.line,self.pos)
+    self.save_char(c)
+    while True:
+      c=self.get_next_char()
+      if(isdigitdot(c)):
+        self.save_char(c)
+      else:
+        break
+    if(self.token_buff.count(b'.')>1):
+      raise Exception("数字不能包含多个点号")
+    token.buff=self.token_buff
+    self.save_token(token)
+    return c
+  def read_str_and_save(self,c:int):
+    c=self.get_next_char()
+    while c!=b'\"'[0]:
+      self.save_char(c)
+      c=self.get_next_char()
+    self.save_token(lex_token("string",self.token_buff,TOKEN_STRING,self.line,self.pos))
+    return self.get_next_char()
+
+def lex(text:bytes):
+  lex_obj = lex_class(text)
+  c=lex_obj.get_next_char()
+  while not lex_obj.is_end():
+    if isalpha_(c):
+      c=lex_obj.read_name_and_save(c)
+    elif isinstr(c,"{}[]()~,;:*"):
+      lex_obj.save_one_char_token(c)
+      c=lex_obj.get_next_char()
+    elif isdigit(c):
+      c=lex_obj.read_num_and_save(c)
+    elif isspace(c):
+      c=lex_obj.get_next_char()
+    elif isoperator(c):
+      c=lex_obj.read_operator_and_save(c)
+    elif isinstr(c,"\""):
+      c=lex_obj.read_str_and_save(c)
+    else:
+      raise Exception(f"err char {bytes([c])} at line:{lex_obj.line} pos:{lex_obj.pos}")
+  # for item in lex_obj.token_list:
+  #   print(f"{item}")
+  return lex_obj.token_list
+
+if __name__ == "__main__":
+  with open("main.c",mode='rb') as f:
+    lex(f.read())
--- a/main.c
+++ b/main.c
@@ -0,0 +1,25 @@
+
+
+
+
+const char* get_type(int s) {
+  const char* ret;
+  switch (s)
+  {
+  case 1:
+  case 2:
+  case 3:
+  case 4:
+  case 5:
+  case 6:
+  case 7:
+    ret = "yes";
+    break;
+
+  default:
+    ret = "no";
+    break;
+  }
+  return ret;
+}
+
--- a/parser_c.py
+++ b/parser_c.py
@@ -0,0 +1,30 @@
+import os
+import sys
+import dataclasses
+from lex_c import lex_token
+from lex_c import lex
+
+
+
+@dataclasses.dataclass
+class node:
+  name:str
+  next:None
+  chid:None
+  token_list:list[lex_token]
+
+# 变量声明节点
+@dataclasses.dataclass
+class node_vdecl(node):
+  vvalue:None
+  vtype:str
+  vattr:list[str]
+
+# 函数定义节点
+@dataclasses.dataclass
+class node_fdef(node):
+  rettype:str
+
+if __name__ == "__main__":
+  with open("main.c",mode='rb') as f:
+    token_list=lex(f.read())