NLP(자연어처리) - 정규표현식 with python (1) 글에 이어서 진행됩니다. 메타문자 별도 표기법(자주 사용하는) 앞 글에서 [0-9], [가-힣]과 같은 표현을 보았는데, 이 표현보다는 w와 d처럼 한 문자로 메타문자를 표현하는 방법을 자주 사용한다. 이 글에서는 대표적으로 \w와 \d에 대해 알아보고, 대문자와 소문자의 차이에 대해 다루고자 한다. text = "텍스트마이닝은 정말 신기해요.ㅎ헤ㅏ핳" re.findall('[\w]', text) >>> ['텍','스','트','마','이','닝','은','정','말','신','기','해','요','ㅎ','헤','ㅏ','핳'] re.findall('[\W]', text) >>> [' ', ' ', '.'] ph = '''안녕하세요. 제 전화번..
정규표현식 검색 결과
정규표현식이란? 정규표현식의 사전적인 의미로는 특정한 규칙을 가진 문자열의 집합을 표현하는데 사용하는 형식 언어이다. 즉 텍스트 데이터의 표현 방법을 다루는 것이라고 생각하면 된다. 하지만 코드가 간단한 만큼 가독성이 떨어져서 표현식을 제대로 숙지하지 않으면 이해하기 힘들다는 문제점이 있다. 하지만 텍스트 데이터를 처리하기 위한 가장 기초적인 문법이고, 데이터 익명화와 같은 여러 기술에서 많이 사용하게 된다. 자연어처리를 하기 위한 토대인 것이다. 문자열 검색 import re re.match('연어','연어초밥') >>> match='연어' re.match('장어','연어초밥') >>> 아무것도 x re.search('연어','연어초밥') >>> match='연어' re.search('장어','장어초밥..
네이버 랭킹 뉴스 페이지가 개편되어 해당 코드로 기사를 가져올 수 없습니다. 해당 코드는 참고용으로만 봐주시기 바랍니다. ↓개편된 네이버 랭킹 뉴스 크롤링 네이버 랭킹 뉴스 크롤링 크롤링 (5), beautifulsoup4로 네이버 기사 크롤링하기 네이버 랭킹 뉴스 페이지가 개편되어 해당 코드로 기사를 가져올 수 없습니다. 해당 코드는 참고용으로만 봐주시기 바랍니다. (JY) 융합연구 1 - dsbook.tistory.com (JY) 융합연구 1 - 크롤링 (4), beautifulsoup4로 네이버 기사 크롤링하기 저번에 네이버 API를 통해 검색에서 네이버 기사를 긁어왔다면, 이번엔 python 모듈 중 하나인 beautifulsoup4로 네이버 주요뉴스를 크롤링하는 방법을 알아보기로 하자. 1. 조..
최근댓글