Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 민동현의토요명화
- 러시아
- 차트쇼쇼쇼
- 사요
- 위피
- 자바
- 그녀가말했다
- itmusic
- 퀄컴
- EV-DO Rev. B
- 이지형
- 라디오
- 김장훈
- SWT
- "명탐정 코난"
- USIM
- 민동현
- CDMA
- Java
- VoIP
- HSDPA
- brew
- 김장훈의who
- 유희열의라디오천국
- ETF
- 한국의 기획자들
- 모던음악만만세
- 페이스북
- Wibro
- 공정위
Archives
- Today
- Total
01-28 00:26
zyint's blog
HTML 태그 제거 정규식 본문
HTML 태그 제거 정규식#
태그제거[1]↓ #
- // 정규표현식으로 제거
String.replaceAll("<(/)?([a-zA-Z]*)(\\s[a-zA-Z]*=[^>]*)?(\\s)*(/)?>","");
한 줄로 표현하기[1]↓ #
- // 한줄로 할려면 아래 추가
String.replaceAll("("\r|\n| ","");
HTML 태그 제거 소스 [2]↓ #
- public class HTMLCleaner
{ - public static void main(String[] args)
{
HTMLCleaner cleaner = new HTMLCleaner(); - //System.out.println(cleaner.clean("<html><head><script>aaaa</script></head><body><div>aaa</div> <div> <script></script></div><img src=\"
- }
- private static interface Patterns
{
// javascript tags and everything in between
public static final Pattern SCRIPTS = Pattern.compile(
"<(no)?script[^>]*>.*?</(no)?script>",
Pattern.DOTALL); - public static final Pattern STYLE = Pattern.compile(
"<style[^>]*>.*</style>",
Pattern.DOTALL);
// HTML/XML tags - public static final Pattern TAGS = Pattern.compile("<(\"[^\"]*\"|\'[^\']*\'|[^\'\">])*>");
- public static final Pattern nTAGS = Pattern.compile("<\\w+\\s+[^<]*\\s*>");
// entity references
public static final Pattern ENTITY_REFS = Pattern.compile("&[^;]+;");
// repeated whitespace
public static final Pattern WHITESPACE = Pattern.compile("\\s\\s+");
} - /**
* Clean the HTML input.
*/
public String clean(String s)
{
if (s == null)
{
return null;
} - Matcher m;
- m = Patterns.SCRIPTS.matcher(s);
s = m.replaceAll("");
m = Patterns.STYLE.matcher(s);
s = m.replaceAll("");
m = Patterns.TAGS.matcher(s);
s = m.replaceAll("");
m = Patterns.ENTITY_REFS.matcher(s);
s = m.replaceAll("");
m = Patterns.WHITESPACE.matcher(s);
s = m.replaceAll(" "); - return s;
} - }
참고자료#
(1) a b http://fairworld.tistory.com/138
(2) a http://okjsp.pe.kr/seq/111879
이 글은 스프링노트에서 작성되었습니다.
Comments