여기저기 참조해서 개발했음
다음에 쓸일 있을까봐 참조용으로 올림
// 글 내용에 url 있는지 검사
String url = "[(http(s)?):\\/\\/(www\\.)?a-zA-Z0-9@:%._\\+~#=]{2,256}\\.[a-z]{2,6}\\b([-a-zA-Z0-9@:%_\\+.~#?&//=]*)";
Pattern p = Pattern.compile(url);
Matcher matcher = p.matcher( 글내용 ); // 게시글 내용이 들어있는 변수 넣으세요
if( matcher.find() ) {
int startIndex = matcher.start();
int endIndex = matcher.end();
String exportUrl = 글내용.substring(startIndex , endIndex); // 게시글 내용이 들어있는 변수에서 url만 짜르기
try {
Document doc = null;
doc = Jsoup.connect(exportUrl).header("User-Agent" , "Mozilla/5.0").get();
doc.select("meta[property=og:title]").attr("content"); // 제목
doc.select("meta[property=og:description]").attr("content"); // 내용
doc.select("meta[property=og:image]").attr("content"); // 이미지
} catch (Exception e) {
logger.error("Open Graph Error :" , e.getMessage());
}
}
pom,xml 에 추가할꺼
org.jsoup
jsoup
1.8.3
참조한 사이트
Bot Detection / 크롤러 차단 / 크롤러 우회 #1
에이, 너가 그런거 아니지? 그냥 좋은 로직으로 크롤링만 하면 만사인줄 알았는데, 고비가 하나 더 있었다. CLI 환경에서 죽어라 크롤러를 돌리는데 자꾸 이상한 타이밍에서 Response를 못받아오거나, Connection..
pcmc.tistory.com
https://jamong-icetea.tistory.com/90
스프링(Spring) 개발 - (28) 날씨정보 크롤링하기
1. 날씨정보 크롤링하기 이번엔 크롤링을 해볼 예정이다. 크롤링이란 Web상에 존재하는 내용(Contents)를 수집하는 행위이다. 고객이 필요한 외부 정보를 수집하고 수집한 정보를 내부에 출력하여 제공한다. 이번..
jamong-icetea.tistory.com
JAVA, Android에서 문자열에서 URL추출하기 (정규식)
프로젝트 작업중에 문자열들에서 url을 뽑아야하는 문제가 있었다 두가지의 신경쓸게 있었다. http, https로 시작하지 않아도 잘되야한다 ex) aaa.com 빨라야한다 처음에 자바의 스트링기능을 사용했다 짧은글은..
story.dkserver.wo.tc
| 알림 푸시용 배치서버 플로우 (0) | 2020.01.15 |
|---|---|
| java 모바일 푸시 (0) | 2020.01.15 |
| javascript 메일 , url 에 자동 링크 걸기 (0) | 2020.01.15 |
| 넷플릭스겸 티비 알아보는중 후보들 계쏙 추가중 (2) | 2020.01.06 |
| 통삼겹살 - 에어프라이어 (2) | 2019.05.22 |