NLP(자연어처리) - 정규표현식 with python (1)
정규표현식이란? 정규표현식의 사전적인 의미로는 특정한 규칙을 가진 문자열의 집합을 표현하는데 사용하는 형식 언어이다. 즉 텍스트 데이터의 표현 방법을 다루는 것이라고 생각하면 된다. 하지만 코드가 간단한 만큼 가독성이 떨어져서 표현식을 제대로 숙지하지 않으면 이해하기 힘들다는 문제점이 있다. 하지만 텍스트 데이터를 처리하기 위한 가장 기초적인 문법이고, 데이터 익명화와 같은 여러 기술에서 많이 사용하게 된다. 자연어처리를 하기 위한 토대인 것이다. 문자열 검색 import re re.match('연어','연어초밥') >>> match='연어' re.match('장어','연어초밥') >>> 아무것도 x re.search('연어','연어초밥') >>> match='연어' re.search('장어','장어초밥..
딥러닝/자연어처리
2021. 2. 10. 00:42
최근댓글