블로그 이미지
심장이 두근거리고 밤에 꿈에서도 간절히 만나는 그러한 희망을 꿈꾸고 있습니다. 이 절실한 꿈을 위해 인내할 수 있습니다. 이 절실한 꿈을 위해 기다릴 수 있습니다. 당당하게 미래를 바라봅니다. 가슴은 미래를 향해, 그리고 나의 손과 발은 현재를 열심히 가꾸고 있습니다.
by cykaneys
Candle

NOTICE

CALENDAR

«   2008/07   »
    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31    
  • Total : 2405
  • Today : 53  | Yesterday : 38

CATEGORY

분류 전체보기 (55)
웹3.0 이란? (18)
웹3.0 Technology (11)
웹3.0 비즈니스 (4)
경영 & CEO (9)
Web2.0+Open Social 동향 (7)
About (1)
Book (2)
집단지성 (3)

ARCHIVE



  1. 2008/07/05
    Does Microsoft + Powerset Beat Google?
  2. 2008/06/17
    미래 웹 기술에 대한 저명인사들의 토론
  3. 2008/06/05
    간단한 자기소개
  4. 2008/06/02
    [펌:논문] 지능형 이미지 검색 시스템을 위한 추론 기반의 웹 온톨로지 구축
  5. 2008/06/02
    [펌]시맨틱 웹과 온톨로지
  6. 2008/05/27
    웹3.0은 어떤 모습으로 우리에게 다가올까?
  7. 2008/05/19
    구글의 오픈소셜 & 프렌드커넥트 전략의 배경원리 이해하기
  8. 2008/05/19
    Linked Data on the Semantic Web
  9. 2008/05/19
    World's Premier Semantic Web Research Institute
  10. 2008/05/18
    Associative Search and the Semantic Web: The Next Step Beyond Natural Language Search

Does Microsoft + Powerset Beat Google?

Written by Alex Iskold / July 3, 2008 1:39 AM / 20 Comments


What can the plan be with
Microsoft's purchase of hot startup Powerset? The 3-year old company, founded by Dr Barney Pell, recently launched a semantic search experience for Wikipedia.

It is doubtful that Microsoft bought the company just to enhance Live Search. Possibly the plan is to replicate the Wikipedia solution, then incorporate Powerset into Internet Explorer. In this post we look at what the thinking behind the acquisition might be.

Most initial reviews found the Powerset product release underwhelming. Critics appreciated the innovative semantic UI and recognized its potential, but believed it didn't vastly improve Wikipedia. So in view of the lukewarm reviews, the acquisition by Microsoft was unexpected. The 100M price tag is around 5x the 12M Series A + 8M investment put into the company. Microsoft execs must believe Powerset can be a weapon in its battle with Google.

What Powerset is today

Given a set of unstructured information, Powerset applies Natural Language Processing techniques to extract concepts and the key semantic concepts out of the text. It then builds a semantic index (similar to Google's) as well as a conceptual graph of relationships between entities. This graph is typically expressed in RDF triples.

One of the Powerset innovations is surfacing of semantics to the user interface. The contextual gadget is overlaid to help navigate the unstructured information.

Many thought Powerset to be a generic semantic search engine, but its first product is limited to Wikipedia. It is not trivial to scale the technology to the entire web.

Why Powerset is Powerful

When semantic technologies emerged a few years ago, people started talking about how semantic web and/or semantic search might be a Google killer. The talk was supported by logic that semantic search can deliver more relevant results because it "knows" the content.

Industry realizes that isn't the case. Semantic search has no huge advantage over the statistical approach used by Google. We discussed this in the post Semantic Search - Myth and Reality.

What is powerful about Powerset? Precisely that it doesn't try to search the web as a whole. Right now, the solution works on Wikipedia, but the infrastructure is generic, so any other site could also be enhanced. The contextual outline developed can be used to navigate any content.

Instead of dealing with the whole web, the idea may be firstly to build solutions for specific sites.

Head-on with Google?

Powerset as it is today is no Google killer. At this point only something with huge traction and momentum would stand a chance.

In the search market, Google has a strong hold - potentially stronger if the Yahoo deal goes through. People are conditioned to Google: it's simple and, yes, imperfect, but it's good enough and the results are still better than Live Search.

If Microsoft bought Powerset with the goal to incorporate it into Live Search, then it's likely to be another acquisition to make little impact on the bottom line. In fact, the announcement on the Live Search blog states just that. The number one reason is acquiring talent; the second is the belief that NLP and semantic algorithms will be able to patch holes in today's search.

Today Powerset brings only interesting technology; it doesn't bring traction. So what were they thinking up in Redmond? There may be more subtle play, leveraging the fact Powerset works well on knowledge sets like Wikipedia.

Possibly Microsoft plans to deploy Powerset across its own sites, then perhaps incorporate Powerset into Internet Explorer.

Imagine going to Wikipedia and having a semantic overlay on each page. Now imagine scaling this experience across major information sources around the web.

Providing contextual, semantic experience allows Microsoft to retain eyes longer, shaving off the time people spend searching Google.

This is an important point because Google doesn't make money on search - it makes money on advertising.

Can Microsoft ever beat Google in Advertising?

The real problem Microsoft is seeking to solve is advertising. Until now the web has figured out two fundamentals for advertising - portals and search.

Portals show ads on each page; the more people browse the content, the more ads are shown and the more money is made. The search model emerged as an alternative, now more successful, path to advertising dollars.

With Powerset and other semantic technologies, there's another model: contextual information exploration overlaid on existing content.

If Microsoft can figure how to keep eyes off Google's home page, the game will shift dramatically. The browser is one of Microsoft's most powerful tools - and the default box is Live Search.

If Microsoft wants to win over advertisers, it might just do more with the browser. Incorporating aspects of Powerset's semantic navigator into the browser by default could be a game changer. This is not a straightforward play. A large company with bureaucracy and execution problems is unlikely to be able to merge semantics into the browser quickly and elegantly.

Conclusion

The Powerset acquisition is an interesting move by Microsoft. This hot semantic startup was on everyone's radar.

What can the plan be? It is doubtful that Microsoft bought the company just to enhance Live Search. Possibly the plan is to replicate the Wikipedia solution, then incorporate Powerset into Internet Explorer.

That is a bold play requiring exact execution - not the kind Redmond has shown lately.

What do you think Microsoft is going to do with Powerset? What are the other applications of this technology that you can think of?

Trackback 0 And Comment 0

Live Blogging Future of the Web Debate

Written by Richard MacManus / June 11, 2008 12:56 PM / 5 Comments



The Rensselaer
interactive debate on the future of the Web is just starting now and is being webcast live here (note: Silverlight required). You can watch the debate and submit questions - including while it is happening - by clicking here. Update: The debate is now over, see our comprehensive notes below...

Here's a screenshot from Tim Berners-Lee's opening presentation:

Is the Semantic Web a Dream?

The first question is about the Semantic Web -- is it still just a dream? Nova Spivack of Twine says simply: yes! He says that the problem gets harder as more information comes on the web. You need to "disambiguate data". The AI approach puts burden on the software. The Semantic Web approach puts the burden on the data itself, so it's not about making smarter software - but smarter data.

He says there are technical and social challenges. Nova asks, rhetorically: is there an alternative to the Semantic Web, as the Web grows and scales? He says the HAL-9000 AI approach is an alternative, but it is not progressing much. Another solution is to "use the crowd", and he says while this approach shows promise, it doesn't scale to solve the problem. So both machine and human approaches won't scale -- hence the Semantic Web is the solution. He says "it's a huge cultural project" and is a long term goal.


Deborah McGuinness from Rensselaer introduces the debate, including a mention of ReadWriteWeb as part of the debate's "social media twist".

AI's Role in the Web's Future

Nigel Shadbolt is a Professor of Artificial Intelligence and Deputy Head of the School of Electronics and Computer Science at the University of Southampton, UK. He kind of defends AI, although he says we can expect "a very different form of AI" to what has gotten most of the press thus far. He says that we can expect "augmented collective intelligence". He says "fragments of micro-intelligence" will evolve into an ecosystem, so AI will contribute to the future of the Web in that way.

Multi-lingual Web

The next question is about a multi-lingual Web. Wendy Hall is a Professor of Computer Science in the School of Electronics and Computer Science at the University of Southampton, UK. She talks about the Chinese Web, which has 5 billion pages that Google doesn't index. She says that soon the dominant language on the Web will be Chinese, and much of that data will be via mobile phones. She says that a lot of "key sites" in the english language Web are not accessible in China, so the role of government will in a big way determine what will happen. She says that educating government all over the world will be important. The Web is already fragmented, but the solution isn't to teach everyone english. So the Web Science Lab has been established in China and progress is being made there.

Nigel Shadbolt points out that different cultures frame information quite differently. So he says there must be multiple ways to represent content on the Web. Nova says that each culture has to map their content to a conceptual representation, and then globally we need to map different culture representations together.

Tim Berners-Lee says that sometimes that will work and sometimes it won't. He says "the diversity of culture is really important" and he lists a kind of gradation of content that we can understand -- e.g. 10% of Web content everybody can understand, x% we can't understand, etc.

Democracy and the Web

A question from the audience about democracy. Wendy replies that the Web does have the potential to change the way we select politicians to represent us. So she says it's been interesting to watch the US presidential election - Obama has been using new technology and could bring young people into the process. So the Web brings a wider representation of people to be involved in democracy. She says it has the potential to "dramatically change" the way we select governments, mentioning the self-organizing of Wikipedia. "You can well imagine something which can shift what we do" in democracy.

Nigel chimes in that the Web can both mobilize democracy, but also there is danger of "cyber vigilantism". He mentions the dangers of a "rampant blogosphere".

Nova also mentions the "threat to democracy" of the Web - he says "freedom is actually at risk". He notes data logging and privacy issues. So he says it's too early to tell how the Web will affect democracy - he says the Web was built on trust, but that nowadays the Web is being mis-used in some ways. So we need to be worried about that - encryption, privacy, etc are things to look out for.

Web Science?

There is a question about ontologies, but (ironically) the answer got rather complicated and so I lost the thread :-)

Next an audience member asks: what's the difference between Web Science and Computer Science? Wendy replies that Web Science is inter-disciplinary and it's designed to get more people than just computer geeks into studying this domain.

Multi-modal Data; Can Semantic Web Capture Nuances?

The next, rather rambling, question from the audience is addressed to Nova and is about data. The question (when it eventually comes) is: what is the Semantic Web when it comes to different kinds of data (multi-modal, subtleties, nuances). Nova's first response to this involved question: whoa! He then says that we have to start with the simple cases. He talks about time and calendars, semantic representation of events, etc. But he says the Semantic Web won't capture the nuances of human interaction any time soon. He says "we're not trying to replace human intelligence", but "free up" human intelligence.

Nigel, coming from AI angle, says that behavior is a key part of the puzzle. He says understanding behavior, on a Web scale, is happening. He talks about sensors - where sensors report on data in our environment. 'Ambiently intelligent environments' is his term for this.

Tim's response: "an ontology does not represent the same thing as a haiku does." The audience laughs appreciatively. He interprets that as mening there are different languages for different things.

Will there be an Innovation in Logic?

The next question talks about "an innovation in logic". For example "visual logics" will need innovation if the Web is to understand multi-modal information. Tim's response is that logic has given us formalized reasoning, but it doesn't describe how people think. So he doesn't believe we need to formalize some kind of data as logic (e.g. the way people dance).

Nova says that we don't have an equivalent of a functional MRI for the Web, in other words there aren't enough ways to measure things on the Web. He says you need sensors and math to do measurements, rather than logic.

Conclusion

The final question is about data: how do you validate it, and if it's to be shared, how to you manage privacy etc. Nigel points to Wikipedia as a way to validate information, self-correcting by people. Nova says reasoning is where the Semantic Web can help validate data, as well as the human self-correcting (e.g. wikipedia).

And that ends the debate. Feel free to contribute comments below!

Trackback 1 And Comment 0
안녕하세요.

저는 현재 시맨틱웹과 웹2.0에 관심을 갖고
하루하루를 조금씩 준비하고 있는 노영호라고 합니다.

웹2.0은 웹 3.0으로 가기위한
하나의 준비과정이며, 기반이 되는 토대라고 생각합니다.

그러한 큰 흐름 속에서
제가 무엇을 할 수 있을까에 대해서
하루에도 몇번씩 생각해봅니다.

이러한 저의 생각이
누군가와 함께 얘기될 수 있다면
그 생각의 크기는 지금보다 더 크지겠지요

그리고 더 많은 사람들과 얘기할수록
그 크기는 우리가 상상하지 못할 정도로
커질 수 있다는 것을 저는 확신하고 있습니다.

그렇게 하루하루를 분명한 확신을 가지고
열정적으로 살아가고자 합니다.


- 이름 : 노영호
- 관심분야 : 시맨틱웹, 웹2.0
- 연락처 : 010-3277-1612
- 이메일 : cykaneys@gmail.com
Trackback 0 And Comment 0
참조할 페이지 : http://nanet.empas.com/search/nanet_detail.html?vt=A&i=621070846&sn=KDMT1200716684&q=&q2=
제공 : 국회도서관

논문명/저자명 :
지능형 이미지 검색 시스템을 위한 추론 기반의 웹 온톨로지 구축 / 김수경

표제지
목차
국문요약 12
I. 서론 14
1.1 연구 필요성 및 목적 14
1.2 연구 내용 및 방법 19
1.3 논문 구성 20
II. 관련 연구 및 기술 21
2.1 온톨로지와 시맨틱 웹 21
2.1.1 온톨로지의 정의 21
2.1.2 온톨로지 기능 23
2.1.3 온톨로지의 종류 24
2.1.4 시맨틱 웹과 웹 온톨로지 25
2.1.5 온톨로지 개발 툴 27
(1) 프로떼제 28
(2) Composer 29
2.2 온톨로지 표현 언어 32
2.2.1 시맨틱 웹 온톨로지 표현 언어 33
(1) RDF 34
(2) OWL 36
(3) SWRL 38
2.2.2 서술 논리 40
2.3 온톨로지 구축 기법 42
2.3.1 국외 온톨로지 구축 기법 43
(1) Cyc 43
(2) KATUS 44
(3) Gruninger & Fox 방법론 45
(4) METONTOLOGY 46
(5) Ontology Development 101 48
(6) OTKM 49
(7) DOLCE 51
(8) Lifecycle of a Casual Web Ontology Development 52
2.3.2 국내 온톨로지 구축 기법 53
III. 시맨틱 웹에 적합한 웹 온톨로지 구축 기법 56
3.1 온톨로지 구축 기법 분석 56
3.1.1 기존 온톨로지 구축 기법 비교 분석 56
3.1.2 온톨로지 구축을 위한 참조 요소 59
3.2 시맨틱 웹에 적합한 웹 온톨로지 구축 기법 제안 61
3.2.1 웹 온톨로지 구축을 위한 참조 요소 61
3.2.2 웹 온톨로지 구축 기법 제안 64
(1) 단계 1 : 온톨로지 구축 목적 설정 64
(2) 단계 2 : 온톨로지 전체 구조 설정 67
(3) 단계 3 : 온톨로지 정보 확보 및 분석 단계 68
(4) 단계 4 : 온톨로지 내부 구조 설계 단계 70
(5) 단계 5 : 온톨로지 생성과 편집 단계 73
(6) 단계 6 : 온톨로지 유지 보수 73
3.2.3 웹 온톨로지 특징에 따른 온톨로지 구축 기법 비교 75
IV. 제안된 기법을 이용한 웹 온톨로지 구축 78
4.1 온톨로지 설계 78
4.1.1 온톨로지 구축 목적 설정 78
(1) 온톨로지 구축 대상 선택-주제 선택 79
(2) 온톨로지 구축 범위 결정 80
4.1.2 온톨로지 전체 구조 설정 82
4.1.3 온톨로지 정보 확보 및 분석 83
(1) 동물 분류 온톨로지 84
(2) 양 온톨로지 86
(3) 용어 온톨로지 90
(4) 이미지 정보 프레임 온톨로지 95
4.1.4 온톨로지 내부 구조 설계 96
(1) 동물 분류 온톨로지 내부 구조 설계 96
(2) 양 온톨로지 내부 구조 설계 98
(3) 용어 온톨로지 내부 구조 설계 101
(4) 이미지 정보 프레임 온톨로지 내부 구조 설계 104
4.2 도메인 온톨로지 생성과 검증 108
4.2.1 개별 도메인 온톨로지 생성과 편집 108
(1) 온톨로지 개발 툴과 물리적 환경 108
(2) 동물 분류 온톨로지 111
(3) 양 온톨로지 생성 113
(4) 용어 온톨로지 생성 116
(5) 이미지 정보 프레임 온톨로지 생성 117
4.2.2 개별 도메인 온톨로지 검증 121
(1) 동물 분류 온톨로지의 검증 122
(2) 양 온톨로지의 검증 124
(3) 용어 온톨로지 검증 124
(4) 이미지 정보 프레임 온톨로지 검증 125
(5) 일관성 검사를 통한 온톨로지들의 검증 126
4.2.3 SWRL 기반의 임의 규칙 추론 검증 126
(1) CQ 목록 정의 127
(2) 인간 가독 문법 정의 127
(3) 규칙 언어 정의 128
V. 실험 및 성능 평가 130
5.1 실험 시스템의 목적 및 구조 130
5.1.1 실험 시스템 시나리오 131
5.1.2 실험 시스템 구조 132
5.1.3 이미지 주석과 이미지 파일 연결 133
5.2 실험 시스템 환경 및 구현 134
5.2.1 지능형 이미지 검색 시스템 세부 구조 135
5.2.2 이미지 주석 정보와 이미지 파일 등록 136
5.2.3 이미지 내용 검색 138
5.2.4 용어 온톨로지 인스턴스 등록 140
5.2.5 이미지 지식 기반 온톨로지 조회 141
5.3 실험 시스템 성능 비교 평가 143
5.3.1 측정 요소 143
5.3.2 비교 대상 시스템 개요 145
5.3.3 비교 검색 실험과 분석 148
VI. 결론 154
VII. 참고문헌 156
Abstract 162
Trackback 0 And Comment 0

출처 : http://www.kosen21.org/pls/kosendev/WEBZINE_CLIENT.contents_view?n_webzine_seq=44&n_board_seq=408&n_data_seq=823&n_total=4

시맨틱 웹과 온톨로지

최중민 : joongmin   한양대학교

1. 시맨틱 웹의 개요

현재의 웹은 사람이 보고 잘 이해할 수 있도록 하기 위한 브라우저의 디스플레이 또는 레이아웃 기술에 초점을 맞추고 있다. HTML 언어의 특징이 바로 이러한 디스플레이용이라는 사실이 이를 뒷받침하고 있다. 하지만 HTML을 이용하여 문서의 내용과 의미를 나타내는 시맨틱 정보를 표현하기는 어려우며, 따라서 사람이 아닌 프로그램 또는 소프트웨어 에이전트가 자동으로 문서로부터 의미를 추출하기 어렵다. 시맨틱 웹은 메타데이터의 개념을 통하여 웹 문서에 시맨틱 정보를 덧붙이고 이를 이용하여 소프트웨어 에이전트가 이 의미 정보를 자동으로 추출할 수 있는 환경을 조성하는 것이다. 부수적으로 의미 정보의 자동 추출뿐 아니라 정보의 확장이나 공유 등도 가능하게 해준다.

시맨틱 웹은 기존의 웹과 완전히 구별되는 새로운 웹의 개념이 아니라 현재 웹을 확장하여 웹에 올라오는 정보에 잘 정의된 의미를 부여하고 이를 통해 컴퓨터와 사람이 협동적으로 작업을 수행할 수 있도록 해주는 패러다임이다. 시맨틱 웹의 궁극적인 목적은 웹에 있는 정보를 컴퓨터가 이해할 수 있도록 도와주는 표준과 기술을 개발하여 시맨틱 검색, 데이터 통합, 네비게이션, 타스크의 자동화 등을 지원하는 것이다.

시맨틱 웹을 실현하기 위한 다양한 접근 방법이 제시되었다. 하지만 HTML을 기반으로 한 현재의 웹을 개선하는 기본 취지에서 보면 시맨틱 웹을 달성하기 위해 웹 프로토콜과 같은 하위 레벨의 개념을 정의하고 이 하위레벨을 이용하여 다음 레벨의 개념을 정의하는 계층구조(layered structure)를 설정하는 것이 일반적인 연구 방향이다. 현재까지 연구가 진행된 시맨틱 웹 계층구조의 요소에는 XML, RDF, 온톨로지 등이 있으며, 따라서 이 글에서는 각각의 필요성과 시맨틱 웹에서의 역할을 주로 기술하고자 한다.


2. 시맨틱 웹에서의 XML과 RDF의 역할

XML은 시맨틱 웹의 구문적 기반 계층(syntactical foundation layer)을 구성한다. HTML에 비해서 XML은 잘 정의된 구조화 문서를 작성할 수 있도록 해준다. 즉, 요소라고 불리는 시작 태그와 종료 태그가 반드시 쌍으로 존재해야 한다는 것과 중첩 구조가 반드시 지켜져야 한다는 등의 제약조건이 반드시 만족되어야 한다. 시맨틱 웹과 관련된 XML의 역할은 이러한 구조화된 문서의 생성을 이끌어낸다는 것도 있지만 태그의 이름을 사용자가 자유롭게 정의할 수 있기 때문에 의미정보를 나타낼 수 있는 태그 이름을 사용할 수 있다는 것이 더 큰 비중을 차지한다.

하지만 이러한 XML 표현 방법이 시맨틱 웹을 달성하기에는 미흡한데, 그 이유는 첫째, 서로 다른 사람이 같은 의미를 뜻하면서도 다른 이름을 사용하여 태그를 정의할 수 있고, 둘째, 같은 내용에 대해서도 여러 가지 구조를 가진 XML 문서를 사용할 수 있어서 구조는 다르지만 동일한 내용의 문서라는 것을 에이전트 프로그램이 파악하기는 매우 어렵다.

RDF는 XML의 문제점을 해결하고 시맨틱(의미)에 초점을 맞추기 위해 제시된 기반구조이다. RDF의 근본을 이루는 개념은 메타데이터이다. 메타데이터는 데이터에 대한 데이터, 즉 어떤 객체나 리소스에 대한 서술적인 정보를 말한다. 웹 문서에 대한 메타데이터라고 한다면 그 문서의 주제, 요약, 저자, 작성 날짜와 같이 그 문서의 외적인 요소들을 망라한다고 볼 수 있다. RDF는 구조화된 메타데이터의 생성, 교환, 재사용 등을 가능하게 해주는 기반구조이다.

RDF 모델은 리소스(Resource), 특성(Property), 서술문(Statement)의 개념으로 구성된다. 웹 페이지나 웹 사이트 등의 모든 사물은 리소스로 표현되고, 각 리소스의 특성이나 다른 리소스와의 관계 등을 특성으로 나타낸다. 어떤 리소스의 한 특성에 대한 값을 나타내는 것이 서술문이며 이것이 RDF 문의 기본 단위가 된다. RDF의 서술문은 그래프 모델로 나타낼 수도 있고 다음의 예처럼 XML로 표현할 수 있다. RDF를 XML로 표현한 것을 Serialization이라고 한다. 이 RDF 문은 http://www.w3.org라는 리소스의 책임기관(Publisher), 제목(Title), 작성일(Date)의 세 가지 특성에 대한 정보를 표현하고 있다.



RDF 모델은 XML이 가지고 있던 문제점을 다음과 같이 해결하고 있다. 즉, 의미가 리소스와 그 특성 값으로 표현되므로 같은 내용(의미)에 대해서는 해석이 하나로만 귀결된다는 것이다. 달리 표현하면 XML에서와 같이 서로 다른 구조를 가진 여러 가지 표현방법이 존재하지 않기 때문에 문서의 내용에 대한 이해가 쉽다. 하지만 RDF에서도 XML의 문제점 중 하나였던 태그 이름의 중첩성과 모호성은 여전히 존재한다. 즉 서로 다른 태그이지만 실제로는 같은 의미일 수 있고, 반대로 같은 태그이지만 사용자에 따라서 다른 의미로 쓰일 수도 있다. 이 문제는 온톨로지의 개념으로 해결해야 한다.


3. 온톨로지의 필요성과 역할

온톨로지에 대한 정의는 여러 가지가 있지만 가장 널리 통용되는 Gruber의 정의에서는 온톨로지가 “공유된 개념화에 대한 정형화되고 명시적인 명세”로 표현된다. 이 정의를 세부적으로 살펴보면 1) 개념화(Conceptualization)는 온톨로지가 사람들이 사물에 대해 생각하는 바를 추상화한 모델이라는 것을 의미하고, 2) 명시적 명세(Explicit specification)는 개념의 타입이나 사용상의 제약 조건들이 명시적으로 정의되어야 한다는 것을, 3) 정형화(Formal)된다는 것은 온톨로지를 프로그램이 이해할 수 있어야 한다는 것을, 4) 공유(Shared)되어야 한다는 것은 온톨로지가 합의된 지식을 나타내므로 어느 개인에게만 국한되는 것이 아니라 그룹 구성원이 모두 동의하는 개념이어야 함을 나타낸다.

온톨로지는 단어와 관계들로 구성된 사전으로 간단히 나타날 수도 있고, 어느 특정 도메인에 관련된 단어들을 계층적 구조로 표현하고 추가적으로 이를 확장할 수 있는 추론 규칙을 포함할 수 있다. 온톨로지의 역할 중 하나는 서로 다른 데이터베이스가 같은 개념에 대해서 서로 다른 단어나 식별자를 사용할 경우에 이를 해결해주는 데 있다. 예를 들어, 주소를 포함하는 두 데이터베이스에서 postal code와 zip code는 같은 것을 의미하다. 이 두 데이터베이스의 정보를 비교하거나 통합하려는 프로그램이 있다면 이 두 단어가 같은 것을 지칭한다는 사실을 알아야 하며 이것이 바로 온톨로지를 통해서 이루어진다. 온톨로지는 웹 기반의 지식 처리나 응용 프로그램 사이의 지식 공유, 재사용들을 가능하게 하는 아주 중요한 요소로 자리잡고 있다.

온톨로지에는 계층분류(taxonomy)와 추론규칙(inference rule)에 대한 정의가 포함된다. 계층분류는 객체의 클래스와 서브클래스, 그들간의 관계를 정의한다. 예를 들어, 주소를 뜻하는 address는 위치를 뜻하는 location의 서브타입이므로 address는 location의 서브클래스로 정의될 수 있고, city codes는 location에만 적용될 수 있으므로 city codes의 대상은 반드시 location 클래스의 객체여야 한다는 제약조건이 관계로 정의될 수 있다. 추론규칙은 프로그램이 새로운 사실을 자동으로 추출하거나 제약조건에 맞지 않는 오류를 찾아내는데 이용된다.

온톨로지를 표현하기 위해 스키마와 구문구조 등을 정의한 언어가 온톨로지 언어이며 현재 DAML+OIL, OWL, Ontolingua 같은 온톨로지 언어가 정의되었다. 이 중에서 2004년에 웹 표준화 단체인 W3C에서 표준안으로 채택된 OWL은 웹 리소스에 대한 시맨틱 마크업 언어이며 RDF에 기반을 두고 이들을 확장한 프레임 기반의 온톨로지 표현 언어이다. 기본적으로 OWL로 표현된 온톨로지는 크게 Class 요소와 Property 요소로 구성된다. 또한 OWL 온톨로지에서는 복잡한 형태의 논리적 표현과 property restriction을 적용해 풍부한 지식 표현을 가능하게 하였다. 다음은 OWL로 표현된 온톨로지의 한 예로서 Tosca, Salome, Turandot를 멤버로 가지는 오페라 클래스를 정의하고 있다.



이러한 온톨로지를 이용한 시맨틱 웹 프로토콜은 컴퓨터들이 다른 종류의 데이터를 구별할 수 있도록 하는데 목표를 두고 있다. 이런 식별 기능이 갖춰지면 애플리케이션은 온라인 주소록과 휴대폰과 같은 기기들 간에 정보 교환을 보다 자동적으로 수행할 수 있게 된다. 그리고 웹사이트 또한 특정 방문객의 필요에 따라 자신을 자동적으로 재설정할 수 있으며, 검색 엔진도 보다 뛰어난 정확도로 사용자가 원하는 결과들만 보여줄 수 있다.


4. 시맨틱 웹 응용

시맨틱 웹의 응용은 에이전트 기반의 웹 서비스 제공과 Annotation이나 Authoring 등과 같은 유용한 응용 프로그램의 개발로 요약된다. Annotation은 시맨틱 웹을 가장 쉽게 응용할 수 있는 메커니즘이다. Annotation은 이미 존재하는 웹 페이지에 대해 추가적인 설명을 덧붙여서 다시 웹에 publish하는 것으로 주로 정보 검색의 정확도를 높이는 데 크게 기여할 수 있다. 이러한 annotation을 가능하게 해주는 툴로서는 OntoMat-Annotizer, SHOE, Annotea, Annozilla, COHSE Annotator 등이 있다.

MusicBrainz는 응용 프로그램으로서 사용자들이 자신의 데이터베이스로 음악 메타데이터를 POST 방법을 이용하여 저장하고 또 이 데이터를 다른 사용자가 GET 방법을 이용하여 검색할 수 있도록 해준다. 음악 데이터에 대한 메타데이터라고 하면 앨범 이름, 아티스트 이름, 제작사, 트랙 번호, 연주 시간 등의 데이터를 말한다. 이를 위해 RDF 문을 사용하며 이러한 기능들이 FreeAmp라는 MP3 플레이어에 내장되어 있다. 따라서 FreeAmp를 수행시켜 음악 CD를 열게 되면 MusicBrainz 서버에 트랙 이름과 아티스트에 대한 메타데이터를 요청해서 정보를 얻게 되고 이 정보에 따라 트랙을 선택하거나 기타 원하는 다른 작업을 할 수 있다.

ITTalks는 OWL의 이전 버전인 DAML+OIL을 이용하여 IT 분야와 관련되는 세미나 또는 초청 강연들에 대한 데이터베이스를 운영하고 이를 이용하여 웹을 통해 세미나 내용을 검색할 수 있는 응용 서비스이다. ITTalks의 데이터베이스는 세미나 관련 정보에 대한 웹 페이지와 DAML specification을 자동으로 생성하는데 사용되며 또한 세미나와 연관된 에이전트 기반 서비스의 중심 역할을 수행한다. 세미나에 대한 메타데이터를 DAML로 표현하기 위해 ITTalks에서는 calendar, person, place, profile, talk, topic 등 여러 가지 종류의 온톨로지를 정의하고 이용한다. 또한 세미나의 주제와 사용자 관심도 등을 이 온톨로지를 이용해 자동으로 분류하거나 DAML을 소프트웨어 에이전트간의 통신언어로 사용하는 등 고수준의 기능도 갖추고 있다.

최근 들어서는 어도비, HP, IBM, 노키아, 오라클 등의 기업에서 시맨틱 웹 프로토콜을 이용한 응용 프로그램을 개발하고 있거나 이미 제품으로 상용화시키기도 하였다. 이 외에도 주로 지능형 플랫폼이 요구되는 e-비즈니스 분야, 고객관리 분야, 바이오 정보 분야, 의료 분야 등에서 시맨틱 웹을 이용한 응용 서비스 개발에 관심을 기울이고 있다.


5. 국내외 연구동향과 향후 발전방향

시맨틱 웹에 대한 연구는 현재 크게 언어, 기반구조, 온톨로지, 휴먼 인터페이스 등의 세부 주제로 나누어서 얘기할 수 있다.

시맨틱 웹 언어는 온톨로지 언어와 같은 의미로서 시맨틱 웹의 내용을 표현하는데 반드시 필요한 도구이기 때문에 시맨틱 웹의 초기 단계에서는 이러한 언어의 개발이 가장 활발한 연구분야일 수밖에 없다. 잘 정의된 언어가 존재해야 시맨틱 웹의 주요 이슈인 상호운용성이 성취될 수 있으므로 언어에 대한 연구결과는 시맨틱 웹의 다른 분야에 대해서도 많은 영향을 끼친다. 이미 RDF, RDF 스키마, DAML+OIL, OWL 등의 시맨틱 웹 언어에 대한 제안서와 표준들이 많이 도출되었지만 시맨틱 웹 언어에 대한 표준이 주로 구문구조 위주로 정의되어 왔으며 앞으로 각 구문구조에 대한 의미를 부여하는 방향으로 연구가 이루어져야 한다.

기반구조는 프로토콜이나 전송방법 등을 의미한다. 이러한 기반구조는 온톨로지나 변환, 추론 엔진 등의 저장소를 제공할 필요는 없지만 이러한 저장소에 접근하기 위한 표준 방법을 가지고 있어야 한다. 기반구조는 웹 자원의 식별과 탐색, 상호운용성 지원 방법, 지식 보호 방법, 신뢰성 있는 지식 소스 선택 방법 등에 대한 방향으로 연구가 진행되고 있다.

온톨로지는 시맨틱 웹에서 가장 중심에 있는 개념으로서 응용 프로그램 사이에 통신을 할 때 단어에 대한 동의를 이끌어내는데 중요하다. 현재 온톨로지에 대한 연구는 온톨로지 개발 방법, 이론적 이슈, 전략적 온톨로지 필요성 인식 및 개발, 향상된 툴의 개발 등에 방향이 맞추어져 있다.

휴먼 인터페이스는 응용 프로그램에 대한 사용자 인터페이스와 좀 더 넓은 의미의 조직 인터페이스(organizational interface)를 모두 지칭한다. 사용자 인터페이스는 사람들이 시맨틱 웹 기술을 이용해서 서로 통신하기 위한 소프트웨어와 하드웨어를 의미하고, 조직 인터페이스는 그룹 사이의 상호작용에 필요한 인터페이스를 말한다.

시맨틱 웹에 대해서 가장 활발한 연구를 하는 기관은 웹 표준화 단체인 W3C라고 할 수 있다. 원래 W3C는 웹과 관련된 언어나 프로토콜, 소프트웨어, 툴과 같은 상호운용적인 기술을 개발하는 기관이며 주로 표준화 작업에 중점을 두고 있다. 시맨틱 웹에 대한 노력은 주로 RDF와 온톨로지에 대한 표준을 정의하는 방향으로 이루어지고 있으며 여러 소위원회를 통해 세부적인 사항을 결정하고 있다.
국내에서의 시맨틱 웹 연구는 주로 인공지능 연구 그룹과 데이터베이스/전자상거래 연구 그룹을 중심으로 진행되고 있지만 아직 초기 단계라고 할 수 있다. 인공지능 연구 그룹에서는 시맨틱 웹의 온톨로지나 Logic의 개념이 인공지능에서 다루는 지식표현과 추론, 학습 등의 주제와 크게 다르지 않기 때문에 웹을 도메인으로 하여 기존의 지식을 응용하는데 주력하고 있다. 인공지능 워크샵이나 지능형 에이전트 워크샵과 같은 인공지능 연구그룹의 학술활동이 최근 이 부분에 대한 비중을 높이고 있으며 추후의 국내 인공지능 그룹의 연구방향이 시맨틱 웹을 중심으로 이루어질 것으로 예상하고 있다. 데이터베이스/전자상거래 연구 그룹에서는 이전부터 관심을 가져온 XML의 표현 방법을 바탕으로 XML과 RDF의 데이터베이스와의 연계성에 중점을 두고 시맨틱 웹 연구를 해오고 있다. 또한 전자상거래 분야에서 상거래 문서들의 상호운용성을 위한 XML 기반 언어 개발이나 시맨틱 웹 정보의 보안 처리 문제 등도 다루고 있다.

최근 정부에서도 시맨틱 웹의 중요성을 깨닫기 시작하여 시맨틱 웹과 지식처리엔진 등 지능형 e-비즈니스 플랫폼 기술 개발에 투자를 하고 있으며, 이 지능형 e-비즈니스 플랫폼 기술이 지금의 전자거래처리시스템을 지능화, 자동화한 차세대 기술로 ERP, e-Marketplace, SCM 등 기존 e-비즈니스 시스템에 적용할 경우 생산성을 향상시키고 거래비용을 획기적으로 절감해줄 수 있을 것으로 기대한다.
Trackback 0 And Comment 0
웹2.0 시대에 살고 있다.
그럼 웹3.0 시대는 어떤 모습일까? 어떤 모습으로 다가올까? 그것이 궁금해서 찾아봤다.

웹2.0 대표적인 것이 UCC 일것이다. 우리가 하고 있는 블로그도 그중에 하나라고 보며 이런 수많은 정보들이 하루에도 꾸준하게 생겨나고 있다.  그런 웹2.0 은 정보 교류가 늘어났지만 정작 비즈니스 모델은 명확하지 않아서 그 의미는 거창하지만 수익성을 확보하지 못하고 있어서 고민이다.

중국 최대 검색업체 바이두닷컴의 로빈 리 회장은 이렇게 말한다. 검색엔진이나 인터넷 경매, 광고, 포털사이트 등의 비즈니스 모델과 비교할 때, 웹2.0 기업은 아직 기술 진보나 안정성 측면에서 갈길이 멀다는 지적이다. 그는 "웹2.0 기업은 아직까지 명확한 수익 모델이 정비되지 않아 불확실성이 많다" 며 "명확한 비즈니스 모델을 정립하는 게 최우선 과제" 라고 강조한다.


웹3.0은 어떤 모습으로 우리에게 다가올까?

세계적인 IT 거두들은 웹3.0 을 열 두 가지의 커다란 패러다임을 제시한다.

한 가지는 이용자 개인이 언제 어디서나 미디어에 연결 될 수 있도록 해주는 유비쿼티(Ubiquity)다.
또 다른 한 가지는 언어 표준화다.

이 두 가지가 인터넷의 장벽을 해소하고 웹3.0 시대를 열 것이라는 전망이다.


어떤 것이 웹3.0 이 될까?

전문가들은 모바일이 될 것이라고 본다.
빠르고 효율적인 방식으로 어떤 장비에서도 콘텐츠를 이용할 수 있는 통합 연결망이 바로 웹3.0 이 될 것이라고 구글 CEO 에릭슈미트는 말했다.

웹2.0 을 모바일에서도 가능하게끔 만드는 통신 기술의 발전이 웹3.0 을 이끌 것이라고 한다.

결구 '웹의 유비쿼티' 가 미래 성공의 열쇠라는 진단이다.
세계에서 2억명이 인터넷을 서핑하는 반면 휴대폰은 20~30억 명이 사용한다.
웹2.0 이 모바일의 힘을 얻는다면 그것이 유비쿼터스를 구현한 웹3.0 이 된다는 거다.

휴대폰과 가상세계가 웹3.0 을 이끌 가장 가능성 높은 후보라고 판단 된다.
서로 다른 미디어에 이용자들이 '한번의 클릭' 만으로 접속 할 수 있도록 미디어를 통합하는 것이 웹3.0 이 될 것이라고 전문가들은 예측한다.

휴대폰이 발전되면서 다양한 애플리케이션이 가능해졌고, 이젠 웹 PC에서만 가능하던 것이 휴대인터넷에서도 가능하게 되었으며, 웹의 가치를 이용자 수 증가에서만 찾을 것이 아니라 사람들 개인의 삶에 더 많은 혜택을 줄 수 있는가의 여부에서 찾아야 한다고 말한다.


참고로, 앞으로 지금의 정보가 2배로 늘어나는 기간이 멀지 않아서 단 11시간으로 짧아질 거다.
짐 데이비스 SAS 부회장은 "정보가 2배로 늘어나는 기간이 2005년에는 3년이었고, 2007년에는 11개월이었다. 2010년이면 단 11시간으로 짧아질 것이다" 라고 전망한다.
이와 같이 앞으로 정보량은 엄청난 빠른 속도로 늘어날 것이며 그러한 정보를 어떻게 관리해야 할지도 고민해야 할 부분이다.


관련 내용은 '부의 창조' 웹3.0 관련 부분을 참조했다.
부의 창조(양장본) 상세보기
매일경제 세계지식포럼 사무국 지음 | 매일경제신문사 펴냄
50여 개국 180여 명의 글로벌 리더들이 내다본 미래 부(富)의 창조! 『부의 창조』는 매일경제신문의 싱크탱크인 '세계지식포럼 사무국'이 내 놓은 2번째 서적으로, 글로벌 리더들이 제시한 미래의 부 창조에 대한 통찰력과 혜안이 담겨 있다. 아시아, 금융, 인재육성과 리더십, 안보와 번영, 성장엔진과 디지털경제 등 6개 분야로 나누어 세계적 인재들이 말하는 미래 부의 축적 및 미래경영의 해법을 소개한다. 본문은 새로
Trackback 0 And Comment 0

Defining the Semantic Graph -- What is it Really?

This is written in response to a post by Anne Zelenka.

I've been talking about the coming "semantic graph" for quite some time now, and it seems the meme has suddenly caught on thanks to a recent article by Tim Berners-Lee in which he speaks of an emerging "Giant Global Graph" or "GGG." But if the GGG emerges it may or may not be semantic. For example social networks are NOT semantic today, even though they contain various kinds of links between people and other things.

So what makes a graph "semantic?" How is the semantic graph different from social networks like Facebook for example?

Many people think that the difference between a social graph and a semantic graph is that a semantic graph contains more types of nodes and links. That's potentially true, but not always the case. In fact, you can make a semantic social graph or a non-semantic social graph. The concept of whether a graph is semantic is orthogonal to whether it is social.

A graph is "semantic" if the meaning of the graph is defined and exposed in an open and  machine-understandable fashion. In other words, a graph is semantic if the semantics of the graph are  part of the graph or at least connected from the graph. This can be accomplished by representing a social graph using RDF and OWL, the languages of the Semantic Web.

Today most social networks are non-semantic, but it is relatively easy to transform them into semantic graphs. A simple way to make any non-semantic social graph into a semantic social graph is to use the FOAF ontology to define the entities and links in the graph.

FOAF stands for "friend of a friend" and is a simple ontology of people and social relationships. If a social network links its data to the FOAF ontology, and exposes these linkages to other applications on the Web, then other applications can understand the meaning of the data in the network in an unambiguous manner. In other words it is now a semantic social graph because its semantics are visible to other applications.

As illustrated by the FOAF example above, one way to make a graph semantic is to use the W3C open standards for the Semantic Web (RDF and OWL) to represent, and define the meaning of, the nodes and links in the graph. By using the Semantic Web, the graph becomes machine-understandable and thus more easily navigated, imported by, searched, and integrated by other applications.

For example, let's say that social network Application A comes along and wants to use the dataset of social network Application B. App A sees the graph of nodes and links in B, and it sees something called a "has team" link connecting various nodes in the graph together. What does that mean? What kinds of things can or cannot be connected with this link? What can be inferred if things are connected this way?

The meaning of "has team" is ambiguous to App A because it's not defined anywhere that the software can see. The only way App A can use App B's data correctly is if the programmer of App A speaks to the programmer of App B (or reads something they wrote such as documentation of some sort) that defines what they meant by the "has team" link.

Only by knowing what was intended by the programmer of App B, can App A treat App B's data appropriately, without any misinterpretation that might lead to mistakes or inconsistencies. This is important because, for example, if a user searches for "Yankees Players" should people who are linked by the "has team" link to sports teams called "Yankees" be returned, or does "has team" mean "a connection from a person to a sports team they support," or does it mean "a connection from a person to a sports team they play on," or does it mean "a connection from a person to a workgroup they participate in?" In short, App A has no idea what to do with data that is linked by App B's "has team" link unless it is explicitly programmed to make use of it.

The OWL language (Web Ontology Language) provides a way for the programmers of App A and App B to define what the links in their graphs mean in an unambiguous and machine-understandable way.  So App A just has to look up this definition and it can instantly start to use App B's data correctly, without any new programming or difficult integration.

How is this accomplished? The programmer of App B simply uses OWL to define an ontology of social relationships for their service: for example they define the "has team" link to be a link that connects a person to a sports team they play on. They also define what they mean by a "sports team" (for example, "a group of two or more people that play a sport" and a sport is one of "baseball, basketball, football, soccer, hockey, tennis" and they link these terms to another ontology of sports somewhere else on the Web.) The ontology file that defines App B's data is added to the Website of App B, and linked from it's data, so that other applications can see it.

Now when another application such as App A comes along and looks at App B's data it can reference App B's ontology to see for itself what was intended by the "has team" link -- it can see exactly what that link implies and what can be inferred by it. It understands how to use App B's data set, and how to correctly make new links using that data set which are consistent with the meaning of the links it contains.

This is the real point of the Semantic Web open standards -- RDF enables data to be represented in a database independent manner, and OWL enables the semantic of that data to be defined in an open machine-understandable way so that other applications can use that data without having to first be programmed to do so. As long as they speak RDF/OWL, applications can use any data they find and lookup the meaning of any data they need to use so they can use the data appropriately.

For example, suppose another application, App C, that is OWL-aware application but has never seen App B's data-set before and was not programmed specifically to use it, pulls some data out from App B's API. App C can immediately begin to use this data correctly and consistently with how App B uses it, because all that is necessary for understanding how to use B's data is encoded in the OWL ontology that App B's data refers to.

The point is here that using Semantic Web open standards such as RDF and OWL to encode what data means is a giant leap beyond just putting raw data onto the Web in an open format. It doesn't just put the data itself on the Web, it also puts the definition of what the data means and how to use it, on the Web in an open format.  A semantic graph is far more  reusable than a non-semantic graph -- it's a graph that carries its own meaning.

The semantic graph is not merely a graph with links to more kinds of things than the social graph. It's a graph of interconnected things that is machine-understandable -- it's meaning or "semantics" is explicitly represented on the Web, just like its data. This is the real way to make social networks open. Merely opening up their API's is just the first step.

Only when the semantics of data is defined and shared in an open way can any graph truly be said to be semantic. Once data around the Web is defined in a machine-understandable way, a whole new world of easy, instant mashups becomes possible. Applications can start to freely and instantly mix and match each other's data, including new data they were not programmed in advance to understand. This opens up the door to the Web truly becoming a giant database and eventually an integrated operating system in which all applications are able to more easily interoperate and share data.

The Giant Global Graph may or may not be a semantic graph. That depends on whether it is implemented with, or at least connected to, W3C standards for the Semantic Web.

I believe that because the Semantic Web makes data-integration easier, it will ultimately be widely adopted. Simply put, applications that wish to access or integrate data in the Age of the Web can more easily do so using RDF and OWL. That alone is reason enough to use these standards.

Of course there are many other benefits as well, such as the ability to do more sophisticated reasoning across the data, but that is less important. Simply making data more accessible, connectable, and reusable across applications would be a huge benefit.

Trackback 0 And Comment 0

Twine and Linked Data on the Semantic Web

Tim Berners-Lee just posted his thoughts about the importance of Linked Data on the Semantic Web. Linked data support is built-into Twine. All the data in Twine is accessible as open-standard RDF and OWL today and will be accessible to other applications via several API's including SPARQL. You can learn more about Twine's support for Linked Data and see some examples here.

Tim says:

In all this Semantic Web news, though, the proof of the pudding is in the eating. The benefit of the Semantic Web is that data may be re-used in ways unexpected by the original publisher. That is the value added. So when a Semantic Web start-up either feeds data to others who reuse it in interesting ways, or itself uses data produced by others, then we start to see the value of each bit increased through the network effect.

 

So if you are a VC funder or a journalist and some project is being sold to you as a Semantic Web project, ask how it gets extra re-use of data, by people who would not normally have access to it, or in ways for which it was not originally designed. Does it use standards? Is it available in RDF? Is there a SPARQL server?

Twine provides RDF and supports SPARQL (although while we are in beta we have not opened our SPARQL API yet, but we will...). At the same time Twine also protects privacy by only providing its data according to permissions. Apps can only get Twine data they permission to see such as their own data or their owner's or users's data, data that has been shared with them, or public data in Twine.

Twine is also designed to consume external Linked Data via it's APIs. Twine will be able to consume external RDF and OWL ontologies, as a means to enable other applications and users to extend its functionality and add new data to it.

Trackback 0 And Comment 0

My Visit to DERI -- World's Premier Semantic Web Research Institute

Earlier this month I had the opportunity to visit, and speak at, the Digital Enterprise Research Institute (DERI), located in Galway, Ireland. My hosts were Stefan Decker, the director of the lab, and John Breslin who is heading the </