상세 컨텐츠

본문 제목

java open graph 구현

관리X 과거글

by 까먹기전에 2020. 1. 15. 16:42

본문

반응형

여기저기 참조해서 개발했음

다음에 쓸일 있을까봐 참조용으로 올림

// 글 내용에 url 있는지 검사

 String url = "[(http(s)?):\\/\\/(www\\.)?a-zA-Z0-9@:%._\\+~#=]{2,256}\\.[a-z]{2,6}\\b([-a-zA-Z0-9@:%_\\+.~#?&//=]*)";

 Pattern p = Pattern.compile(url);

Matcher matcher = p.matcher( 글내용 ); // 게시글 내용이 들어있는 변수 넣으세요 
if( matcher.find() ) {
int startIndex = matcher.start();
int endIndex = matcher.end();
String exportUrl = 글내용.substring(startIndex , endIndex); // 게시글 내용이 들어있는 변수에서 url만 짜르기

try {
    Document doc = null;

    doc = Jsoup.connect(exportUrl).header("User-Agent" , "Mozilla/5.0").get();

doc.select("meta[property=og:title]").attr("content");  // 제목
doc.select("meta[property=og:description]").attr("content"); // 내용
doc.select("meta[property=og:image]").attr("content"); // 이미지

} catch (Exception e) {
logger.error("Open Graph Error :" , e.getMessage());
}
}

 

 

pom,xml 에 추가할꺼


org.jsoup
jsoup
1.8.3

 

참조한 사이트

https://pcmc.tistory.com/m/71

 

Bot Detection / 크롤러 차단 / 크롤러 우회 #1

에이, 너가 그런거 아니지? 그냥 좋은 로직으로 크롤링만 하면 만사인줄 알았는데, 고비가 하나 더 있었다. CLI 환경에서 죽어라 크롤러를 돌리는데 자꾸 이상한 타이밍에서 Response를 못받아오거나, Connection..

pcmc.tistory.com

https://jamong-icetea.tistory.com/90

 

스프링(Spring) 개발 - (28) 날씨정보 크롤링하기

1. 날씨정보 크롤링하기 이번엔 크롤링을 해볼 예정이다. 크롤링이란 Web상에 존재하는 내용(Contents)를 수집하는 행위이다. 고객이 필요한 외부 정보를 수집하고 수집한 정보를 내부에 출력하여 제공한다. 이번..

jamong-icetea.tistory.com

https://story.dkserver.wo.tc/entry/JAVA-Android%EC%97%90%EC%84%9C-%EB%AC%B8%EC%9E%90%EC%97%B4%EC%97%90%EC%84%9C-URL%EC%B6%94%EC%B6%9C%ED%95%98%EA%B8%B0-%EC%A0%95%EA%B7%9C%EC%8B%9D

 

JAVA, Android에서 문자열에서 URL추출하기 (정규식)

프로젝트 작업중에 문자열들에서 url을 뽑아야하는 문제가 있었다 두가지의 신경쓸게 있었다. http, https로 시작하지 않아도 잘되야한다 ex) aaa.com 빨라야한다 처음에 자바의 스트링기능을 사용했다 짧은글은..

story.dkserver.wo.tc

 

관련글 더보기