<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=iso-8859-1">
<META NAME="Generator" CONTENT="MS Exchange Server version 6.5.7654.12">
<TITLE>RE: [LRUG] Using Ruby for semantic analysis and categorising documents - first steps?</TITLE>
</HEAD>
<BODY>
<!-- Converted from text/plain format -->

<P><FONT SIZE=2>Similar to wikipedia miner I guess but have you considered also looking<BR>
into a dbpedia type triple store too? Depending on your requirements<BR>
it could prove a useful setup.<BR>
<BR>
In BBC News we recently prototyped a system that first extracts named<BR>
entities from text then cross references them with Wikipedia ID's. From<BR>
that we could pull dbpedia data into a triple store and link it to an<BR>
article.<BR>
<BR>
Once in a triple store the queries we could write were pretty powerful,<BR>
for example a query for news articles about "Music" might search<BR>
for entities of type musician, bands, orchestra, concert venue, etc.<BR>
<BR>
The prototype was no means perfect - we never really solved disambiguation<BR>
or relevancy - but the results were certainly impressive, especially for<BR>
me coming in with a more traditional "search" based mindset.<BR>
<BR>
Cheers,<BR>
<BR>
Matt<BR>
<BR>
<BR>
<BR>
-----Original Message-----<BR>
From: chat-bounces@lists.lrug.org on behalf of Chris Lowis<BR>
Sent: Mon 8/20/2012 3:49 PM<BR>
To: London Ruby Users Group<BR>
Subject: Re: [LRUG] Using Ruby for semantic analysis and categorising documents - first steps?<BR>
<BR>
>> I'm trying to spec out a feature at work, to sift through a load of text in<BR>
>> case studies or similar articles, and categorise them according to some<BR>
>> pre-determined criteria, and present them later to users of an app we're<BR>
>> build, to help them discover useful steps their business on take to reduce<BR>
>> emissions.<BR>
<BR>
We've (BBC R&D) been doing something similar to this and have had<BR>
quite a bit of success using Wikipedia Miner[1], and have also<BR>
implemented our own term extraction code to work with noisy<BR>
speech-to-text transcripts. Happy to talk more about what we've been<BR>
doing with you if it looks like something that might help.<BR>
<BR>
Cheers,<BR>
<BR>
Chris<BR>
<BR>
[1] <A HREF="http://wikipedia-miner.cms.waikato.ac.nz/">http://wikipedia-miner.cms.waikato.ac.nz/</A><BR>
_______________________________________________<BR>
Chat mailing list<BR>
Chat@lists.lrug.org<BR>
<A HREF="http://lists.lrug.org/listinfo.cgi/chat-lrug.org">http://lists.lrug.org/listinfo.cgi/chat-lrug.org</A><BR>
<BR>
</FONT>
</P>

<DIV> </DIV><br/><font size="3" face="Times New Roman"><a href="http://www.bbc.co.uk">http://www.bbc.co.uk</a><br/>This e-mail (and any attachments) is confidential and may contain personal views which are not the views of the BBC unless specifically stated.<br/>If you have received it in error, please delete it from your system.<br/>Do not use, copy or disclose the information in any way nor act in reliance on it and notify the sender immediately.<br/>Please note that the BBC monitors e-mails sent or received.<br/>Further communication will signify your consent to this.</font>
</BODY>
</HTML>