Semantic Search

GitStarRecall uses semantic search to help you find repositories based on meaning rather than exact keyword matches. Ask questions in natural language and get relevant results from your starred repositories.

How It Works

Semantic search transforms your repositories into vector embeddings that capture their meaning, enabling intelligent search across your GitHub stars.

Vector Embeddings

Each repository is converted into a mathematical representation (embedding) that captures its semantic meaning:

Repository Metadata: Name, description, language, topics
README Content: Normalized and chunked documentation
Embedding Generation: Converted to 384-dimensional vectors using local models

// Adaptive chunk sizing based on README length
function resolveChunkConfig(textLength: number) {
  if (textLength <= 3_000) {
    return { size: 900, overlap: 140 };  // Short docs
  }
  if (textLength <= 15_000) {
    return { size: 760, overlap: 110 };  // Medium docs
  }
  return { size: 640, overlap: 90 };     // Long docs
}

Similarity Search

When you search, GitStarRecall:

Converts your query into an embedding vector
Computes cosine similarity against all repository embeddings
Returns the most semantically similar repositories

Cosine Similarity

function cosineSimilarity(a: Float32Array, b: Float32Array): number {
  let dot = 0;
  let normA = 0;
  let normB = 0;

  for (let i = 0; i < a.length; i++) {
    dot += a[i] * b[i];
    normA += a[i] * a[i];
    normB += b[i] * b[i];
  }

  return dot / (Math.sqrt(normA) * Math.sqrt(normB));
}

Natural Language Queries

Search using conversational language instead of keywords:

Traditional Keyword

react hooks state management

Natural Language

“What are good libraries for managing state in React applications?”

Query Examples

Finding Tools by Purpose

“Command line tools for database management”
“Libraries for parsing configuration files”
“Tools to improve developer productivity”

Technology Comparisons

“Lightweight alternatives to Webpack”
“Modern CSS frameworks similar to Tailwind”
“GraphQL clients for React”

Problem-Specific Searches

“How to handle file uploads in Express”
“Testing frameworks for TypeScript”
“Authentication libraries for Node.js”

Search Results

Results include context from matching repository chunks:

Search Result Structure

type SearchResult = {
  chunkId: string;           // Unique chunk identifier
  score: number;             // Similarity score (0-1)
  text: string;              // Matching chunk text
  repoId: number;
  repoName: string;
  repoFullName: string;
  repoDescription: string | null;
  repoUrl: string;
  language: string | null;
  topics: string[];
  updatedAt: string;
};

Filtering Results

Refine search results using filters:

Language: Filter by programming language
Topics: Filter by repository topics
Recency: Filter by last updated date

Filters are applied after semantic search to preserve ranking quality.

Performance

Semantic search is optimized for browser environments:

In-Memory Cache

Embeddings are cached in memory for instant repeated queries

Indexed Storage

Vector index is stored in SQLite with OPFS or localStorage backend

Efficient Similarity

Cosine similarity computed using optimized Float32Array operations

Search Performance Characteristics

Repositories	Embeddings	Search Time
100	~200	<50ms
500	~1000	<200ms
1000	~2000	<400ms

All computations run locally in your browser. No data is sent to external servers.

Best Practices

Be Specific

Include relevant details about your use caseGood: “Python libraries for processing CSV files”Better: “Fast Python libraries for parsing large CSV files with data validation”

Use Filters

Combine semantic search with filters for precisionSearch: “web frameworks”Filter: Language = JavaScript, Updated within 1 year

Multiple Attempts

Try different phrasings if results aren’t relevant“state management” → “managing application state” → “global state libraries”

Check Context

Review the chunk text to understand why a repository matched

Local Embeddings

Learn about WebGPU/WASM embedding generation

Chat Sessions

Ask follow-up questions about search results

Local LLM

Run language models entirely in your browser

Get Started

Core Features

Configuration

Deployment

Advanced

How It Works

Vector Embeddings

Similarity Search

Natural Language Queries

Traditional Keyword

Natural Language

Query Examples

Search Results

Filtering Results

Performance

Search Performance Characteristics

Best Practices

Be Specific

Use Filters

Multiple Attempts

Check Context

Local Embeddings

Chat Sessions

Local LLM

Get Started

Core Features

Configuration

Deployment

Advanced

​How It Works

​Vector Embeddings

​Similarity Search

​Natural Language Queries

Traditional Keyword

Natural Language

​Query Examples

​Search Results

​Filtering Results

​Performance

​Search Performance Characteristics

​Best Practices

Be Specific

Use Filters

Multiple Attempts

Check Context

​Related Features

Local Embeddings

Chat Sessions

Local LLM

How It Works

Vector Embeddings

Similarity Search

Natural Language Queries

Query Examples

Search Results

Filtering Results

Performance

Search Performance Characteristics

Best Practices

Related Features